JPS58102999A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS58102999A
JPS58102999A JP56202013A JP20201381A JPS58102999A JP S58102999 A JPS58102999 A JP S58102999A JP 56202013 A JP56202013 A JP 56202013A JP 20201381 A JP20201381 A JP 20201381A JP S58102999 A JPS58102999 A JP S58102999A
Authority
JP
Japan
Prior art keywords
input
speech
pattern
word
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56202013A
Other languages
Japanese (ja)
Inventor
松村 純孝
正則 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp, Pioneer Electronic Corp filed Critical Pioneer Corp
Priority to JP56202013A priority Critical patent/JPS58102999A/en
Publication of JPS58102999A publication Critical patent/JPS58102999A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 本発明は音声認識装置に関する。[Detailed description of the invention] The present invention relates to a speech recognition device.

音声認識装置には入力音声の特徴を周波数分析等により
抽出して入カバターンを作成しその入カバターンと予め
登録された標準パターンとの類似度の大きさから入力音
声を識別するいわゆるノくターンマツチング方式のもの
がある。
The speech recognition device uses a so-called nokuturn pine that extracts the characteristics of the input speech by frequency analysis, creates an input pattern, and identifies the input speech based on the degree of similarity between the input pattern and a pre-registered standard pattern. There is a ching method.

かかる方式の音声認識装置においては、入力・々ターン
と標準パターンとの類似度の計算、すなわちパターンの
マツチング計算を行なうことによって入力音声が識別さ
れる。このマ、ンチング計算は、通常、マイクロコンビ
ーータにより演算処理サレるが、所定の単語の音声を認
識させる場合、同一単語の音声であっても発声速度の変
動により音声の単語時間長に対応するパターン長及び音
声の周波数分布構造に対応するパターンの時間的変動は
同一ではない。このため、マツチング計算では人カバタ
ーンに非線形若しくは線形の時間変換を行なって標準パ
ターンとの類似度を比較しなければならない。ところが
、入力音声と登録された音声との単語時間長の差、すな
わち入カッ(ターンと標準パターンとのパターン長の差
が大きく異なる場合には処理時間が長くなり、また認識
率も良くないという問題点があった。
In such a speech recognition device, input speech is identified by calculating the degree of similarity between an input turn and a standard pattern, that is, performing a pattern matching calculation. This machining calculation is usually processed by a microconverter, but when recognizing the audio of a given word, even if the audio is the same word, the length of the word can be adjusted by varying the speaking speed. The pattern length and the temporal variation of the pattern corresponding to the frequency distribution structure of the voice are not the same. For this reason, in the matching calculation, it is necessary to perform non-linear or linear time transformation on the human cover pattern and compare the degree of similarity with the standard pattern. However, if the difference in word length between the input speech and the registered speech, that is, the difference in the pattern length between the input speech and the standard pattern, is large, the processing time will be longer and the recognition rate will be poor. There was a problem.

そこで、本発明の目的は、パターンのマツチング計算の
処理時間を速めると共に認識率の向上を図った音声認識
装置を提供することである。
SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a speech recognition device that speeds up the processing time for pattern matching calculations and improves the recognition rate.

本発明による音声認識装置は、入力音声の単語時間長と
標準パターンとされた音声の単語時間長との差の大きさ
が所定時間内のときのみ77チングを行なうようになさ
れている。
The speech recognition apparatus according to the present invention is configured to perform 77 checking only when the magnitude of the difference between the word duration of input speech and the word duration of speech used as a standard pattern is within a predetermined time.

以下、本発明の実施例を図面を参照して説明する0 第1図は本発明による音声認識装置のプロ、ツク図であ
る。第1図において、マイクロホンlには登録または識
別すべき音声が入力され、マイクロホーン1の出力信号
すなわち音声信号はアンプ2−C増幅されて特徴抽出回
路3へ供給される。特徴抽出回路3は、アンプ2の出力
端に各々接続された複数oBPF(バンド・パス・フィ
ルタ)からなるフィルタ回路4とマルチプレクサ5とか
らなり、音声信号を周波数分析すべくフィルタ回路4の
出力はマルチプレクサ5により順次時分割的にサンプリ
ングされる。マルチプレクサ5の出力は〜巾(アナログ
/デジタル)変換器6を介してマイクロコンピュータ7
に供給される。マイクロコンヒユータフはプロセッサ、
クロック発生器、メモリ。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a schematic diagram of a speech recognition device according to the present invention. In FIG. 1, a voice to be registered or identified is input to a microphone 1, and the output signal of the microphone 1, that is, the voice signal, is amplified by an amplifier 2-C and supplied to a feature extraction circuit 3. The feature extraction circuit 3 consists of a filter circuit 4 consisting of a plurality of oBPFs (band pass filters) each connected to the output end of the amplifier 2, and a multiplexer 5, and the output of the filter circuit 4 is The multiplexer 5 sequentially samples the signals in a time-division manner. The output of the multiplexer 5 is sent to the microcomputer 7 via a ~width (analog/digital) converter 6.
supplied to Microcomputer tough is a processor,
Clock generator, memory.

入出力インターフェース等からなり、登録時にはA /
 D変換器6の出力信号である例えば8ビ、トのデジタ
ル信号から標準パターンを作成して記憶する。
Consists of input/output interfaces, etc., and A /
A standard pattern is created and stored from, for example, an 8-bit digital signal that is the output signal of the D converter 6.

次に、認識時のマイクロコンピュータ7の動作を第2図
の動作フロー図を参照して説明する。
Next, the operation of the microcomputer 7 during recognition will be explained with reference to the operation flow diagram of FIG.

マイクロコンピュータ7は、先ず、認m用の音声の入力
を、例えば装置に設けられた表示ランプ等により要求す
ると共に認識用の音声が入力されるまで待機する(11
)。そして、かかる音声がマイクロホン1から入力され
、その音声の特徴が特徴抽出回路3による周波数分析に
よシ抽出され、更にA/D変換器6を介してデジタル信
号となってマイクロコンピュータ7に供給されると、そ
のデジタル信号から入カバターンを作成する(12)。
First, the microcomputer 7 requests the input of the voice for recognition using, for example, a display lamp provided on the device, and waits until the voice for recognition is input (11).
). Then, such voice is inputted from the microphone 1, and the characteristics of the voice are extracted by frequency analysis by the feature extraction circuit 3, and then supplied to the microcomputer 7 as a digital signal via the A/D converter 6. Then, an input cover pattern is created from the digital signal (12).

次に、入カバターンのパターン長から入力音声の単語時
間長Twを計算する(13)。この単語時間長Twは入
力音声のパワーレベルから判断して求める。ところで、
マルチプレクサ5は19T定周期でフィルタ回路40所
定数、例えば8個からなるBPFの出力信号を走査して
A/D変換器6に供給する。このため、入カバターンを
形成するA / D変換器6が発生するデジタル信号に
よるデータを入力順に所定数分加算することにより人力
音声のパワーレベルは求められる。そして、第3図に示
すような特性の音声レベルが得られる場合、通常、音声
の入力時ルベルが所定レベルVr、を越えた時点txよ
り時間△1.だけ前の時点11を単語の始端とし、また
音声レベルが所畑レベルvr2を下回った時点tyより
[lH’l△t2だけ後の時点t2を単語の終端とする
。よって、単語時間長Twはt2−61となる。次いで
、マイクロコンピー−タフは、上記のようにして求めら
れた入力音声の単語時間長Twとある特定の標準パター
ンとして登録された音声の単語時間長Twn (nは自
然数)との差の大きさ△T’wnをnを1にして(14
)から計算する(15)。そして、差の大きさiwnが
所定値Tr1例えば、200 m5ecより大であるか
を判断する(16)。△Twn ) Trの場合にはそ
の標準パターンとのマツチング計算を行なわず、その標
準パターンとの類似度を0とする(17)。
Next, the word duration Tw of the input speech is calculated from the pattern length of the input pattern (13). This word duration Tw is determined based on the power level of the input speech. by the way,
The multiplexer 5 scans the output signal of the BPF consisting of a predetermined number of filter circuits 40, for example eight, at a constant cycle of 19T and supplies the scanned signal to the A/D converter 6. Therefore, the power level of the human voice can be determined by adding a predetermined number of digital signal data generated by the A/D converter 6 forming the input pattern in the order of input. When a voice level with characteristics as shown in FIG. 3 is obtained, normally a time Δ1. The start of the word is set at time 11, which is 10 minutes earlier, and the end of the word is set at time t2, which is [lH'lΔt2 later than the time ty when the voice level falls below the Tokohata level vr2. Therefore, the word time length Tw is t2-61. Next, Microcomputer Tough calculates the magnitude of the difference between the word duration Tw of the input speech obtained as described above and the word duration Twn (n is a natural number) of the speech registered as a certain standard pattern. △T'wn with n set to 1 (14
) (15). Then, it is determined whether the magnitude of the difference iwn is greater than a predetermined value Tr1, for example, 200 m5ec (16). In the case of ΔTwn ) Tr, no matching calculation with that standard pattern is performed, and the degree of similarity with that standard pattern is set to 0 (17).

△’rwn≦’rrの場合には入カバターンと標準パタ
ーンとのパターンマツチング計算を行ない、その類似度
5n(nは自然数)を計算するー(18)oそして、次
に自然数nが標準パターンの数npと等しいかを判断す
る(19)。n4npの場合にはnに1を加算して(2
の、行程(15)に戻る。n=npの場合にはマツチン
グ計算により各々算出された類似度Snから最大値SM
AXを検出しく21)、その最大値SMAXが所定値S
rより大であるかを判断する(22)。SMAX≧Sr
の場合には標準パターンとして登録された音声の中に入
力音声と同じ単語の発声音があるとしてその最大値SM
AXとなった標準パターンに対応する識別信号を認識出
力ポートに出力する(23)。しかし、SMAX < 
Srの場合には人力音声が登録された音声と異なる単語
の発声音であるとして認識出力ポートから識別外信号を
発生する(24)。
If △'rwn≦'rr, perform pattern matching calculation between the input cover pattern and the standard pattern, and calculate the similarity 5n (n is a natural number) - (18) o Then, next, the natural number n is the standard pattern. is equal to the number np (19). In the case of n4np, add 1 to n and calculate (2
Return to step (15). In the case of n=np, the maximum value SM is calculated from the respective degrees of similarity Sn calculated by matching calculation.
AX is detected21), and its maximum value SMAX is the predetermined value S.
It is determined whether it is greater than r (22). SMAX≧Sr
In the case of , the maximum value SM is assumed to be the same word as the input voice among the voices registered as a standard pattern.
The identification signal corresponding to the standard pattern that has become AX is output to the recognition output port (23). However, SMAX <
In the case of Sr, an unidentified signal is generated from the recognition output port because the human voice is a pronunciation of a word different from the registered voice (24).

このように、本発明による音声認識装置によれば、入力
音声の単語時間長と標準パターンとじて登録された音声
の単語時間長との差の大きさが所定時間内のときのみパ
ターンのマツチング計算ヲ行なうようになされているた
め、入力音声の単語時間長と登録された音声の単語時間
長との差が大速くなると共に極端に長さの異なる単語ど
うしのミスマツチングがなくなり認識率の向上が図れる
のである。
As described above, according to the speech recognition device according to the present invention, pattern matching calculation is performed only when the magnitude of the difference between the word duration of input speech and the word duration of speech registered as a standard pattern is within a predetermined time. As a result, the difference between the word duration of the input speech and the word duration of the registered speech becomes much faster, and mismatching between words with extremely different lengths is eliminated, improving the recognition rate. It is.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の実施例を示すブロック図、第2図は第
1図のマイクロコンピュータの動作フロー図、第3図は
音声レベルの時間的変動を示す特性図。 主安部分の符号の説明 1・・・・・・マイクロホン 3・・・ 特徴抽出回路 4・・・・・ フィルタ回路 5・・・・マルチプレクサ 6・・・・・・・・・A / D変換器7・・・・・・
・・・マイクロコンピュータ出願人  パイオニア株式
会社 代理人  弁理士 藤 村 元 彦
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is an operation flow diagram of the microcomputer shown in FIG. 1, and FIG. 3 is a characteristic diagram showing temporal fluctuations in audio level. Explanation of the symbols of the main part 1...Microphone 3...Feature extraction circuit 4...Filter circuit 5...Multiplexer 6...A/D conversion Vessel 7...
...Microcomputer applicant Pioneer Co., Ltd. agent Patent attorney Motohiko Fujimura

Claims (2)

【特許請求の範囲】[Claims] (1)  入力音声の特徴を抽出して入カバターンを作
成しその入カバターンと予め登録された標準パターンと
のマツチングを行なう音声認識装置であって、前記入力
音声の単語時間長と前記標準パターンとされた音声の単
語時間長との差の大きさが所定時間内のときのみ前記マ
ツチングを行なうようになされていることを特徴とする
音声認識装置。
(1) A speech recognition device that extracts the features of input speech, creates an input pattern, and matches the input pattern with a pre-registered standard pattern, wherein 1. A speech recognition device characterized in that the matching is performed only when the magnitude of the difference between the word length of the speech and the word duration is within a predetermined time.
(2)前記入力音声の単語時間長は前記入力音声のレベ
ルから判断することを特徴とする特許請求の範囲第1項
記載の音声認識装置。
(2) The speech recognition device according to claim 1, wherein the word duration of the input speech is determined from the level of the input speech.
JP56202013A 1981-12-15 1981-12-15 Voice recognition equipment Pending JPS58102999A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56202013A JPS58102999A (en) 1981-12-15 1981-12-15 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56202013A JPS58102999A (en) 1981-12-15 1981-12-15 Voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS58102999A true JPS58102999A (en) 1983-06-18

Family

ID=16450472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56202013A Pending JPS58102999A (en) 1981-12-15 1981-12-15 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS58102999A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59176794A (en) * 1983-03-25 1984-10-06 シャープ株式会社 Word voice recognition equipment
JPS61126300U (en) * 1985-01-25 1986-08-08
JPH01144761A (en) * 1987-11-30 1989-06-07 Toshiba Corp Device for switching line connection

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59176794A (en) * 1983-03-25 1984-10-06 シャープ株式会社 Word voice recognition equipment
JPH0480398B2 (en) * 1983-03-25 1992-12-18 Sharp Kk
JPS61126300U (en) * 1985-01-25 1986-08-08
JPH0356000Y2 (en) * 1985-01-25 1991-12-13
JPH01144761A (en) * 1987-11-30 1989-06-07 Toshiba Corp Device for switching line connection

Similar Documents

Publication Publication Date Title
US5091947A (en) Speech recognition method and apparatus
US4811399A (en) Apparatus and method for automatic speech recognition
CA1182224A (en) Speech recognition apparatus and method
US4038503A (en) Speech recognition apparatus
EP0109190B1 (en) Monosyllable recognition apparatus
US5355432A (en) Speech recognition system
EP0118484B1 (en) Lpc word recognizer utilizing energy features
JPS58102999A (en) Voice recognition equipment
US4720864A (en) Speech recognition apparatus
JPS6123560B2 (en)
US4790017A (en) Speech processing feature generation arrangement
JPS58125099A (en) Voice recognition equipment
JPS5852698A (en) Voice recognition processing system
JPH0430040B2 (en)
JP2757356B2 (en) Word speech recognition method and apparatus
JPS59211098A (en) Voice recognition equipment
JPS61180297A (en) Speaker collator
JPS63223696A (en) Voice pattern generation system
JPS6346496A (en) Voice recognition equipment
JPS62124599A (en) Voice recognition equipment
JP2001265368A (en) Voice recognition device and recognized object detecting method
JPS58159599A (en) Monosyllabic voice recognition system
JPS6347797A (en) Word voice preselection system
JPS6147994A (en) Voice recognition system
JPS6172299A (en) Voice recognition equipment