JPH05300213A - Voice dialer - Google Patents

Voice dialer

Info

Publication number
JPH05300213A
JPH05300213A JP4100930A JP10093092A JPH05300213A JP H05300213 A JPH05300213 A JP H05300213A JP 4100930 A JP4100930 A JP 4100930A JP 10093092 A JP10093092 A JP 10093092A JP H05300213 A JPH05300213 A JP H05300213A
Authority
JP
Japan
Prior art keywords
word
speaker
voice
standard pattern
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4100930A
Other languages
Japanese (ja)
Other versions
JP3112556B2 (en
Inventor
Shin Kamiya
伸 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP04100930A priority Critical patent/JP3112556B2/en
Publication of JPH05300213A publication Critical patent/JPH05300213A/en
Application granted granted Critical
Publication of JP3112556B2 publication Critical patent/JP3112556B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To obtain the voice dialer able to retrieve an object word standard pattern in a short time even when a registered word is forgotten without need for designation of a user number. CONSTITUTION:A word recognition section 1 obtains a shortest matching distance WDk of a characteristic pattern of an input voice signal from a microphone 11. A talker recognition section 8 obtains a shortest matching distance SPk of a speaker characteristic pattern of the inputted voice signal similarly. When the shortest matching distance WDk is a threshold level TWD or over, the control section 7 confirms it that a word standard pattern relating to a speaker standard pattern representing the shortest matching distance SPk is an object word standard pattern. A voice analysis/synthesis section 3 generates an echo back sound of the confirmed word standard pattern. Thus, even when a name of a registered word is forgotten, the object word standard pattern is retrieved in a short time by having only to make any utterance without designation of the user number so as to limit the retrieval scope to the word standard pattern of the uttered user.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、音声認識機能および
音声分析/合成機能を利用した音声ダイヤラに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice dialer utilizing a voice recognition function and a voice analysis / synthesis function.

【0002】[0002]

【従来の技術】近年、音声認識機能を利用した音声ダイ
ヤラを備えた電話機が種々提案されている。上記音声ダ
イヤラは、予め電話番号に対応付けて登録する登録単語
を発声し、音声認識部によって入力音声の特徴パターン
を抽出して単語標準パターンとして電話番号に対応付け
てメモリに登録しておく。そして、発信時には、目的と
する電話番号に対応付けられている登録単語を発声し、
上記音声認識部での単語標準パターンとのマッチングに
よる認識結果に対応付けられた電話番号を電話回線に発
信するようにしている。
2. Description of the Related Art In recent years, various telephones equipped with a voice dialer utilizing a voice recognition function have been proposed. The voice dialer utters a registered word to be registered in advance by associating it with a telephone number, extracts a characteristic pattern of an input voice by a voice recognition unit, and registers it in a memory as a word standard pattern in association with a telephone number. Then, when making a call, utter a registered word associated with the desired telephone number,
The telephone number associated with the recognition result obtained by matching with the word standard pattern in the voice recognition unit is transmitted to the telephone line.

【0003】ところで、上述のように任意の電話番号に
対応付けられてメモリに登録された登録単語の単語標準
パターンを消去したり修正したりする場合には、入力部
の所定キーを操作して選択した単語標準パターンが消去
あるいは修正したい単語標準パターンであるか否かを確
認する必要がある。そこで、上記選出された単語標準パ
ターンにリンクされたエコーバック音用パラメータを読
み出して、エコーバック音に再生して出力するようにし
ている。
By the way, when erasing or correcting the word standard pattern of the registered word registered in the memory in association with any telephone number as described above, the predetermined key of the input section is operated. It is necessary to confirm whether or not the selected word standard pattern is the word standard pattern to be deleted or modified. Therefore, the echo back sound parameter linked to the selected word standard pattern is read out, and the echo back sound is reproduced and output.

【0004】また、消去あるいは修正したい単語標準パ
ターンの他の選出方法として、目的とする単語標準パタ
ーンに係る登録単語を発声し、音声認識部によって入力
音声を認識することによって消去/修正の対象となる音
声標準パターンを指定する方法が提案されている(特開
平2−193195号公報)。
As another method of selecting a standard word pattern to be erased or modified, a registered word relating to a target standard word pattern is uttered, and an input voice is recognized by a voice recognition unit to be a target of erasure / correction. Has been proposed (Japanese Patent Laid-Open No. 2-193195).

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上記従
来の単語標準パターンの消去/修正方法には、1台の音
声ダイヤラ付電話機を複数のユーザが用いる場合には以
下のような問題点が生ずる。すなわち、上述のエコーバ
ック音に従って所望の単語標準パターンを検索する消去
/修正方法においては、例えば単語標準パターンをユー
ザ番号に対応付けて上記メモリに登録することによって
単語標準パターンを各ユーザ毎に管理している場合に
は、ユーザ番号をキー入力等によって指定して予め検索
対象の単語標準パターンを絞ることが可能であるから検
索時間上さほど問題はない。ところが、ユーザ番号指定
操作を省くために複数ユーザの単語標準パターンを同じ
領域に混在させて登録しておく場合には、先頭の単語標
準パターンから順次エコーバック音によって検索しなけ
ればならないので検索に時間が掛かるという問題があ
る。
However, the above-described conventional word standard pattern erasing / correcting method has the following problems when a plurality of users use a single telephone with a voice dialer. That is, search for the desired word standard pattern according to the echo back sound described above
In the correction method, for example, when the word standard pattern is managed for each user by registering the word standard pattern in the memory in association with the user number, the user number is designated by key input or the like. Since it is possible to narrow down the standard word patterns to be searched in advance, there is no problem in terms of search time. However, when registering word standard patterns of multiple users in a mixed manner in the same area in order to omit the user number designation operation, it is necessary to search by the echo back sound sequentially from the first word standard pattern. There is a problem that it takes time.

【0006】また、所望の単語標準パターンに係る登録
単語を発声して音声認識部による認識処理によって所望
の単語標準パターンを検索する消去/修正方法において
は、ユーザが消去/修正したい単語標準パターンに係る
登録単語を忘れた場合には、当て推量によって発声を繰
り返して又は上述のようにエコーバック音によって検索
しなければならず、いずれにしても検索に時間が掛かる
という問題がある。
Further, in the erasing / correcting method of uttering a registered word related to a desired word standard pattern and searching for the desired word standard pattern by the recognition processing by the voice recognition unit, the user selects the word standard pattern to be deleted / corrected. If such a registered word is forgotten, it is necessary to repeat the utterance by guessing or to search by the echo back sound as described above, and in any case, there is a problem that the search takes time.

【0007】そこで、この発明の目的は、ユーザ番号指
定の必要がなく、且つ登録単語を忘れても音声入力によ
って目的とする単語標準パターンを短時間に検索できる
音声ダイヤラを提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to provide a voice dialer which does not require designation of a user number and can retrieve a target word standard pattern by voice input in a short time even if a registered word is forgotten.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するた
め、第1の発明の音声ダイヤラは、マイクロホンに入力
された音声を認識して認識結果に対応した電話番号を表
す信号を出力する音声ダイヤラであって、電話番号に対
応付けて登録する登録単語の音声信号に基づく単語標準
パターンを格納する単語パターンメモリと、上記マイク
ロホンから入力された音声信号を分析して得られた特徴
パターンと上記単語パターンメモリに格納された各単語
標準パターンとのマッチング距離を算出して少なくとも
最小マッチング距離を呈する単語標準パターンを入力音
声の認識結果とする音声認識部と、上記電話番号に対応
付けて登録する登録単語の音声信号に基づく話者標準パ
ターンを上記単語標準パターンに関連付けて格納する話
者パターンメモリと、上記マイクロホンから入力された
音声信号を分析して得られた話者特徴パターンと上記話
者パターンメモリに格納された各話者標準パターンとの
マッチング距離を算出して少なくとも最小マッチング距
離を呈する話者標準パターンを入力音声の話者の認識結
果とする話者認識部と、上記音声認識部による認識結果
に係る最小マッチング距離が所定値より小さい場合には
その認識結果を入力音声の正しい認識結果であると確定
する一方、上記音声認識部による認識結果に係る最小マ
ッチング距離が上記所定値以上である場合には上記話者
認識部による認識結果に関連付けられた単語標準パター
ンを上記入力音声の正しい認識結果であると確定する認
識結果確定部と、上記認識結果確定部によって確定され
た単語標準パターンの登録単語を出力する認識結果出力
部を備えたことを特徴としている。
In order to achieve the above object, a voice dialer of the first invention is a voice dialer which recognizes voice input to a microphone and outputs a signal representing a telephone number corresponding to the recognition result. A word pattern memory storing a word standard pattern based on a voice signal of a registered word registered in association with a telephone number, a characteristic pattern obtained by analyzing a voice signal input from the microphone, and the word A voice recognition unit that calculates a matching distance with each word standard pattern stored in the pattern memory and that uses a word standard pattern having at least the minimum matching distance as a recognition result of the input voice, and registers in association with the telephone number. A speaker pattern memory for storing a speaker standard pattern based on a voice signal of a word in association with the word standard pattern A speaker presenting at least a minimum matching distance by calculating a matching distance between the speaker characteristic pattern obtained by analyzing the voice signal input from the microphone and each speaker standard pattern stored in the speaker pattern memory. If the minimum matching distance related to the recognition result by the speaker recognition unit that uses the standard pattern as the recognition result of the speaker of the input voice and the recognition result by the voice recognition unit is smaller than a predetermined value, the recognition result is the correct recognition result of the input voice. On the other hand, when the minimum matching distance related to the recognition result by the voice recognition unit is equal to or more than the predetermined value, the word standard pattern associated with the recognition result by the speaker recognition unit is correctly recognized in the input voice. Outputs the recognition result determination unit that determines the result and the registered word of the word standard pattern that is determined by the recognition result determination unit It is characterized by having a that recognition result output unit.

【0009】また、第2の発明の音声ダイヤラは、第1
の発明の音声ダイヤラにおいて、上記音声認識部は上記
マッチング距離の小さい順に複数の単語標準パターンを
認識結果とし、上記話者認識部は上記マッチング距離の
小さい順に複数の話者標準パターンを認識結果とし、上
記認識結果出力部は上記認識結果確定部によって入力音
声の正しい認識結果であると確定された複数の単語標準
パターンの登録単語を認識候補として出力することを特
徴としている。
The voice dialer of the second invention is the first dialer.
In the voice dialer of the invention described above, the voice recognition unit recognizes a plurality of word standard patterns in the ascending order of the matching distance, and the speaker recognition unit recognizes a plurality of speaker standard patterns in a descending order of the matching distance. The recognition result output unit outputs, as recognition candidates, registered words of a plurality of word standard patterns that have been determined by the recognition result determination unit to be correct recognition results of the input voice.

【0010】[0010]

【作用】第1の発明では、マイクロホンに向かって電話
番号に対応付けられて登録されている登録単語等の単語
が発声されると、上記マイクロホンからの音声信号が単
語認識部および話者認識部に入力される。そして、上記
単語認識部によって、上記音声信号を分析して得られた
特徴パターンと単語パターンメモリに格納された各単語
標準パターンとのマッチング距離が算出され、少なくと
も最小マッチング距離を呈する単語標準パターンが認識
結果として出力される。一方、上記話者認識部によっ
て、上記音声信号を分析して得られた話者特徴パターン
と話者パターンメモリに格納された各話者標準パターン
とのマッチング距離が算出され、少なくとも最小マッチ
ング距離を呈する話者標準パターンが認識結果として出
力される。
In the first aspect of the invention, when a word such as a registered word registered in association with a telephone number is uttered toward the microphone, the voice signal from the microphone is output by the word recognition section and the speaker recognition section. Entered in. Then, the word recognition unit calculates a matching distance between the feature pattern obtained by analyzing the voice signal and each word standard pattern stored in the word pattern memory, and at least a word standard pattern exhibiting the minimum matching distance is obtained. It is output as a recognition result. On the other hand, the speaker recognition unit calculates a matching distance between the speaker characteristic pattern obtained by analyzing the voice signal and each speaker standard pattern stored in the speaker pattern memory, and calculates at least the minimum matching distance. The speaker standard pattern to be presented is output as the recognition result.

【0011】そうすると、認識結果確定部によって、上
記音声認識部による認識結果に係る最小マッチング距離
が所定値より小さい場合には、その認識結果が入力音声
の正しい認識結果であると確定される。一方、上記音声
認識部による認識結果に係る最小マッチング距離が上記
所定値以上である場合には、上記話者認識部による認識
結果に関連付けられた単語標準パターンが上記入力音声
の正しい認識結果であると確定される。そして、上記認
識結果確定部によって正しい認識結果が確定されると、
この確定された単語標準パターンの登録単語が認識結果
出力部によって出力される。
Then, when the minimum matching distance related to the recognition result by the voice recognition unit is smaller than the predetermined value, the recognition result determination unit determines that the recognition result is the correct recognition result of the input voice. On the other hand, when the minimum matching distance related to the recognition result by the voice recognition unit is equal to or more than the predetermined value, the word standard pattern associated with the recognition result by the speaker recognition unit is the correct recognition result of the input voice. Is confirmed. When the correct recognition result is confirmed by the recognition result confirmation unit,
The registered word of the determined standard word pattern is output by the recognition result output unit.

【0012】したがって、目的とする登録単語を忘れた
ユーザが上記マイクロホンに向かって上記目的とする登
録単語の発音に近い発音の単語を発声した場合には、上
記話者認識部によって上記ユーザの発声による話者標準
パターンのうち上記発声単語に最も近い発音の登録単語
(すなわち、目的とする登録単語)の話者語標準パターン
が選出される。こうして、上記目的とする登録単語を忘
れた場合であっても、自動的に上記目的とする登録単語
の単語標準パターンの登録単語が上記認識結果出力部に
よって出力されるのである。
Therefore, when the user who forgets the target registered word speaks into the microphone a word whose pronunciation is close to the pronunciation of the target registered word, the speaker recognition unit utters the user. The registered word whose pronunciation is the closest to the above uttered word among the speaker standard patterns
A speaker word standard pattern (that is, a target registered word) is selected. Thus, even if the target registered word is forgotten, the recognition result output unit automatically outputs the registered word of the word standard pattern of the target registered word.

【0013】また、第2の発明では、上記音声認識部に
よって上記マッチング距離の小さい順に複数の単語標準
パターンが認識結果として出力される。一方、上記話者
認識部によって上記マッチング距離の小さい順に複数の
単語標準パターンが認識結果として出力される。そうす
ると、上記認識結果確定部によって、上記音声認識部に
よる複数の認識結果および上記話者認識部による複数の
認識結果に基づいて、複数の単語標準パターンが上記入
力音声の正しい認識結果であると確定される。そして、
この確定された複数の単語標準パターンの登録単語が認
識候補として認識結果出力部によって出力される。
According to the second aspect of the invention, the speech recognition unit outputs a plurality of standard word patterns in the order of smaller matching distances as a recognition result. On the other hand, the speaker recognition unit outputs a plurality of word standard patterns as recognition results in the ascending order of matching distance. Then, the recognition result determination unit determines that the plurality of word standard patterns are correct recognition results of the input voice, based on the plurality of recognition results by the voice recognition unit and the plurality of recognition results by the speaker recognition unit. To be done. And
The registered words of the determined plurality of standard word patterns are output as recognition candidates by the recognition result output unit.

【0014】したがって、目的とする登録単語を忘れた
ユーザが上記マイクロホンに向かって出たら目な単語を
発声した場合には、上記話者認識部によって上記ユーザ
の発声による上記目的とする登録単語を含む複数の話者
標準パターンが選出される。こうして、上記目的とする
登録単語を忘れた場合であっても、自動的に上記目的と
する登録単語を含む複数の認識候補が上記認識結果出力
部によって出力されるのである。
Therefore, when the user who forgets the target registered word utters a prominent word when he or she comes out to the microphone, the speaker recognition unit recognizes the target registered word by the user's utterance. A plurality of speaker standard patterns are selected to be included. Thus, even if the target registered word is forgotten, the recognition result output unit automatically outputs a plurality of recognition candidates including the target registered word.

【0015】[0015]

【実施例】以下、この発明を図示の実施例により詳細に
説明する。図1は、本実施例の音声ダイヤラのブロック
図である。この音声ダイヤラは、上記音声認識部として
の単語認識部1,単語パターンメモリ2,上記認識結果出
力部としての音声分析/合成部3,エコーバック音メモリ
4,話者認識部8,話者パターンメモリ9,回線接続部1
3および制御部7等から概略構成される。
The present invention will be described in detail below with reference to the embodiments shown in the drawings. FIG. 1 is a block diagram of a voice dialer of this embodiment. This voice dialer includes a word recognition unit 1 as the voice recognition unit, a word pattern memory 2, a voice analysis / synthesis unit 3 as the recognition result output unit, an echo back sound memory 4, a speaker recognition unit 8, a speaker pattern. Memory 9, line connection 1
3 and the control unit 7 and the like.

【0016】上記単語認識部1は、電話番号に対応付け
て登録する登録単語の音声がマイクロホン11から入力
されると、この入力された音声信号を分析して単語単位
の特徴パラメータの時系列を得る。そして、この特徴パ
ラメータの時系列を単語標準パターンとして単語パター
ンメモリ2に記憶する。また、上記マイクロホン11か
ら入力された音声信号を分析して得られた上記特徴パラ
メータ時系列から成る特徴パターンと、上述のようにし
て予め単語パターンメモリ2に格納されている複数の単
語標準パターンとのマッチングを行う。そして、最も近
いマッチング距離を有する単語標準パターンの番号kお
よび両パターン間の距離WDkを制御部7に送出する。
When a voice of a registered word to be registered in association with a telephone number is input from the microphone 11, the word recognition unit 1 analyzes the input voice signal to determine a time series of feature parameters in word units. obtain. Then, the time series of the characteristic parameters is stored in the word pattern memory 2 as a word standard pattern. Further, a characteristic pattern composed of the characteristic parameter time series obtained by analyzing the voice signal input from the microphone 11, and a plurality of word standard patterns previously stored in the word pattern memory 2 as described above. To match. Then, the number k of the word standard pattern having the closest matching distance and the distance WD k between both patterns are sent to the control unit 7.

【0017】上記音声分析/合成部3は、マイクロホン
11から入力された音声信号の波形を分析して圧縮し、
得られたパラメータをエコーバック音用パラメータとし
てエコーバック音メモリ4に格納する。また、上記音声
分析/合成部3は、エコーバック音メモリ4に格納され
たエコーバック音用パラメータあるいは合成用メモリ5
に格納された音声合成用パラメータを読み出して音声信
号を生成する。こうして生成された合成音声による音声
ガイダンスあるいはエコーバック音はレシーバ12から
出力されるのである。
The voice analysis / synthesis unit 3 analyzes and compresses the waveform of the voice signal input from the microphone 11,
The obtained parameter is stored in the echo back sound memory 4 as the echo back sound parameter. Further, the voice analysis / synthesis unit 3 uses the echo back sound parameter stored in the echo back sound memory 4 or the synthesis memory 5
A voice signal is generated by reading out the voice synthesis parameter stored in. The voice guidance or the echo back sound by the synthesized voice thus generated is output from the receiver 12.

【0018】上記話者認識部8は、上記登録単語の音声
が上記マイクロホン11から入力されると、この入力さ
れた音声信号を分析して単語単位の特徴パラメータ(平
均ピッチ周波数,平均パワースペクトルの傾き等)の時系
列を得る。そして、この特徴パラメータ時系列を話者標
準パターンとして話者パターンメモリ9に記憶する。ま
た、上記マイクロホン11から入力された音声信号を分
析して得られた上記特徴パラメータ時系列から成る話者
特徴パターンと、上述のようにして予め話者パターンメ
モリ9に格納されている複数の話者標準パターンとのマ
ッチングを行う。そして、最も近いマッチング距離を有
する話者標準パターンの番号kおよび両パターン間の距
離SPkを制御部7に送出する。
When the voice of the registered word is input from the microphone 11, the speaker recognizing unit 8 analyzes the input voice signal to analyze the word-based characteristic parameters (average pitch frequency, average power spectrum). Time series of slopes etc.). Then, this characteristic parameter time series is stored in the speaker pattern memory 9 as a speaker standard pattern. In addition, a speaker characteristic pattern composed of the characteristic parameter time series obtained by analyzing the voice signal input from the microphone 11, and a plurality of talks stored in the speaker pattern memory 9 in advance as described above. Performs matching with standard patterns. Then, the number k of the speaker standard pattern having the closest matching distance and the distance SP k between both patterns are sent to the control unit 7.

【0019】上記回線接続部13は、送信時には、上記
制御部7より相手の電話番号を表す信号が入力されると
その電話番号を電話回線14に送信する。こうして、相
手の電話機と電話回線が接続された後は、マイクロホン
11から入力された音声信号を電話回線14に送信する
のである。また、受信時には、上記電話回線14から受
信した音声信号をレシーバ12に送出する。
At the time of transmission, the line connection unit 13 transmits the telephone number to the telephone line 14 when a signal representing the telephone number of the other party is input from the control unit 7. Thus, after the telephone line of the other party is connected to the telephone line, the voice signal input from the microphone 11 is transmitted to the telephone line 14. When receiving, the voice signal received from the telephone line 14 is sent to the receiver 12.

【0020】上記制御部7は、上述の単語認識部1,音
声分析/合成部3,話者認識部8および回線接続部13等
を制御して、音声入力によって指定された電話番号を電
話回線14に発信したり、消去/修正の対象となる単語
標準パターンを検索したりする。また、キー入力部10
からは、上記制御部7に対する指示等が入力される。
The control unit 7 controls the word recognition unit 1, the voice analysis / synthesis unit 3, the speaker recognition unit 8, the line connection unit 13 and the like to make the telephone number designated by the voice input a telephone line. 14 or search for a standard word pattern to be erased / corrected. Also, the key input unit 10
From, an instruction or the like for the control unit 7 is input.

【0021】上記構成の音声ダイヤラは次のように動作
する。本音声ダイヤラの動作モードには、予め上記単語
標準パターンや話者標準パターンを登録する登録モード
と入力された音声を認識する認識モードとの2つのモー
ドがある。この2つの動作モードおよび後に詳述する他
の動作モードの切り替え制御は、制御7によって行われ
る。以下、各動作モードについて詳細に説明する。
The voice dialer having the above configuration operates as follows. The operation mode of this voice dialer has two modes: a registration mode in which the above-mentioned word standard pattern or speaker standard pattern is registered in advance, and a recognition mode in which the input voice is recognized. Control of switching between these two operation modes and another operation mode described in detail later is performed by the control 7. Hereinafter, each operation mode will be described in detail.

【0022】<登録モード>この登録モードは、さらに
単語標準パターン登録モードおよび話者標準パターン登
録モードの2つの動作モードに分かれる。 〔単語標準パターン登録モード〕ユーザは、合成用メモ
リ5に格納された音声合成用パラメータに基づいて音声
分析/合成部3によって生成された合成音声による音声
ガイダンスに従って、電話番号に対応付けて登録する登
録単語をマイクロホン11に向かって発声する。そし
て、上記マイクロホン11から出力された音声信号は単
語認識部1,音声分析/合成部3および話者認識部8に入
力され、話者認識部8に入力された音声信号はA/D変
換された後バッファに一旦格納される。
<Registration Mode> This registration mode is further divided into two operation modes: a word standard pattern registration mode and a speaker standard pattern registration mode. [Word standard pattern registration mode] The user registers in association with the telephone number in accordance with the voice guidance of the synthesized voice generated by the voice analysis / synthesis unit 3 based on the voice synthesis parameters stored in the synthesis memory 5. Speak the registered word into the microphone 11. The voice signal output from the microphone 11 is input to the word recognition unit 1, the voice analysis / synthesis unit 3, and the speaker recognition unit 8, and the voice signal input to the speaker recognition unit 8 is A / D converted. After that, it is temporarily stored in the buffer.

【0023】そうすると、上記単語認識部1において
は、上述のようにして得られた単語標準パターンを単語
パターンメモリ2に登録する。同時に、上記音声分析/
合成部3においては、上述のようにして得られたエコー
バック音用パラメータをエコーバック音メモリ4に格納
する。その際に、上記制御部7は、上記単語パターンメ
モリ2に格納された単語標準パターンとエコーバック音
メモリ4に格納されたエコーバック音用パラメータとの
リンク情報を内部メモリ(図示せず)に格納する。また、
上記単語標準パターンとキー入力部10からキー入力さ
れた電話番号とのリンク情報をも上記内部メモリに格納
する。
Then, in the word recognition unit 1, the word standard pattern obtained as described above is registered in the word pattern memory 2. At the same time, the above voice analysis /
In the synthesizing unit 3, the echo back sound parameter obtained as described above is stored in the echo back sound memory 4. At that time, the control unit 7 stores the link information of the word standard pattern stored in the word pattern memory 2 and the echo back sound parameter stored in the echo back sound memory 4 in an internal memory (not shown). Store. Also,
The link information between the word standard pattern and the telephone number key-input from the key input unit 10 is also stored in the internal memory.

【0024】こうして、上記単語標準パターンの登録が
終了すると、制御部7によって動作モードが上記話者標
準パターン登録モードに切り替えられる。
When the registration of the word standard pattern is completed, the control unit 7 switches the operation mode to the speaker standard pattern registration mode.

【0025】〔話者標準パターン登録モード〕そうする
と、上記話者認識部8においては、上述のようにバッフ
ァに格納されている登録単語のディジタル音声信号に基
づいて上述のようにして得られた話者標準パターンを話
者パターンメモリ9に登録する。その際に、上記制御部
7は、上記話者パターンメモリ9に格納された話者標準
パターンと単語パターンメモリ2に格納された単語標準
パターンとのリンク情報を上記内部メモリに格納する。
[Speaker Standard Pattern Registration Mode] Then, in the speaker recognition unit 8, the speech obtained as described above based on the digital voice signal of the registered word stored in the buffer as described above. The speaker standard pattern is registered in the speaker pattern memory 9. At that time, the control unit 7 stores the link information between the speaker standard pattern stored in the speaker pattern memory 9 and the word standard pattern stored in the word pattern memory 2 in the internal memory.

【0026】このようにして、上記単語標準パターンお
よび話者標準パターンの登録が終了すると、制御部7に
よって動作モードが上記認識モードに切り替えられる。 <認識モード>この認識モードは、さらに単語認識モー
ドおよび話者認識モードの2つの動作モードに分かれ
る。
In this way, when the registration of the word standard pattern and the speaker standard pattern is completed, the control unit 7 switches the operation mode to the recognition mode. <Recognition Mode> This recognition mode is further divided into two operation modes, a word recognition mode and a speaker recognition mode.

【0027】〔単語認識モード〕ユーザは、上記マイク
ロホン11に向かって、所望する電話番号に対応付けら
れている登録単語または消去/修正の対象となる登録単
語を発声する。そうすると、マイクロホン11からの音
声信号は単語認識部1および話者認識部8に入力され、
話者認識部8に入力された音声信号はA/D変換された
後上記バッファに一旦格納される。そして、単語認識部
1においては上記マッチングを行い、最もマッチング距
離の近い単語標準パターンの番号kと両パターン間の距
離WDkとを制御部7に送出する。
[Word Recognition Mode] The user speaks into the microphone 11 a registered word associated with a desired telephone number or a registered word to be deleted / corrected. Then, the voice signal from the microphone 11 is input to the word recognition unit 1 and the speaker recognition unit 8,
The voice signal input to the speaker recognition unit 8 is A / D converted and then temporarily stored in the buffer. Then, the word recognition unit 1 performs the above matching, and sends the number k of the word standard pattern having the closest matching distance and the distance WD k between both patterns to the control unit 7.

【0028】こうして、上記登録単語に係る入力音声の
認識が終了すると、制御部7によって動作モードが上記
話者認識モードに切り替えられる。
When the recognition of the input voice relating to the registered word is completed in this way, the operation mode is switched to the speaker recognition mode by the control unit 7.

【0029】〔話者認識モード〕そうすると、上記話者
認識部8においては、上述のようにバッファに格納され
た所望する電話番号に対応付けられている登録単語ある
いは消去/修正の対象となる登録単語のディジタル音声
信号に基づいて上記マッチングを行い、最もマッチング
距離の近い話者標準パターンの番号kと両パターン間の
距離SPkとを制御部7に送出する。
[Speaker Recognition Mode] Then, in the speaker recognition unit 8, the registered word associated with the desired telephone number stored in the buffer as described above or the registration to be deleted / corrected is registered. The above matching is performed based on the digital voice signal of the word, and the speaker standard pattern number k having the closest matching distance and the distance SP k between both patterns are sent to the control unit 7.

【0030】以下、上記制御部7は、単語認識部1から
入力された上記番号kに基づく最もマッチング距離の近
い特徴パターンと単語標準パターンとの距離WDkの値
(すなわち、距離WDの最小値)がある閾値より大きい場
合には、現在入力された音声の認識に失敗したと判断す
る。そして、話者認識部8から入力された上記番号kに
基づく最も近いマッチング距離SPkを呈する話者標準
パターンに対応付けられている単語標準パターンを、上
記内部メモリに格納されている上記リンク情報を参照し
て求め、この求められた単語標準パターンを上記マイク
ロホン11から音声入力された登録単語の正しい認識結
果であると確定する。つまり、上記単語認識部1による
登録単語認識に失敗した場合には、話者認識部8によっ
て認識された話者の情報を用いて登録単語を確定するの
である。このように、本実施例においては、制御部7で
上記認識結果確定部を構成するのである。
Hereinafter, the control unit 7 sets the value of the distance WD k between the feature pattern having the closest matching distance based on the number k input from the word recognition unit 1 and the word standard pattern.
When the minimum value of the distance WD is larger than a certain threshold value, it is determined that recognition of the currently input voice has failed. The link standard information stored in the internal memory is the word standard pattern associated with the speaker standard pattern having the closest matching distance SP k based on the number k input from the speaker recognition unit 8. , And the determined standard pattern of the word is determined to be the correct recognition result of the registered word voice-input from the microphone 11. That is, when the registered word recognition by the word recognition unit 1 fails, the registered word is determined using the information of the speaker recognized by the speaker recognition unit 8. Thus, in the present embodiment, the control unit 7 constitutes the recognition result determination unit.

【0031】図2は、上記制御部7の制御の下に実施さ
れる上記単語認識部1と話者認識部8によるマッチング
処理動作および単語標準パターン確定処理動作のフロー
チャートである。以下、図2に従って上記マッチング処
理動作および単語標準パターン確定処理動作について詳
細に説明する。動作モードが上記単語認識モードに設定
されて、マッチング処理動作および単語標準パターン確
定処理動作がスタートする。ステップS1で、単語標準
パターン番号i(最大値は“I")に初期値“1"がセット
され、変数kに初期値“1"がセットされる。また、変
数jには十分大きな定数がセットされる。
FIG. 2 is a flowchart of the matching processing operation and the word standard pattern determination processing operation by the word recognition unit 1 and the speaker recognition unit 8 which are carried out under the control of the control unit 7. Hereinafter, the matching processing operation and the word standard pattern determination processing operation will be described in detail with reference to FIG. The operation mode is set to the word recognition mode, and the matching processing operation and the word standard pattern determination processing operation are started. In step S1, the initial value "1" is set to the word standard pattern number i (the maximum value is "I"), and the initial value "1" is set to the variable k. A sufficiently large constant is set in the variable j.

【0032】ステップS2で、上記単語認識部1によっ
て、得られた入力音声の特徴パターンxと“i"番目の
単語標準パターンのマッチング距離WD(i,x)が算出さ
れる。ステップS3で、上記算出されたマッチング距離
WD(i,x)の値が変数jの値より小さいか否かが判別さ
れる。その結果小さい場合にはステップS4に進み、そ
うでなければステップS4をスキップする。ステップS4
で、上記変数jにマッチング距離WD(i,x)の値がセッ
トされる。また、変数kの値に単語標準パターン番号i
の値がセットされる。
In step S2, the word recognition unit 1 calculates the matching distance WD (i, x) between the characteristic pattern x of the obtained input voice and the "i" th word standard pattern. In step S3, it is determined whether or not the value of the calculated matching distance WD (i, x) is smaller than the value of the variable j. If the result is smaller, the process proceeds to step S4, and if not, step S4 is skipped. Step S4
Then, the value of the matching distance WD (i, x) is set to the variable j. In addition, the value of the variable k is set to the word standard pattern number i
The value of is set.

【0033】ステップS5で、単語標準パターン番号i
の内容が最大値“I"より小さいか否かが判別される。
その結果“I"より小さければステップS6に進み、そう
でなければステップS7に進む。ステップS6で、単語標
準パターン番号iの内容がインクリメントされてステッ
プS2にリターンし、次の単語標準パターンとのマッチ
ングが実施される。ステップS7で、変数jの内容(すな
わち、マッチング距離WD(i,x)の最小値:上記WDk
相当)が閾値“TWD"より小さいか否かが判別される。
その結果“TWD"より小さければステップS14に進
み、そうでなければステップS8に進む。
In step S5, the word standard pattern number i
It is determined whether or not the content of is smaller than the maximum value "I".
As a result, if smaller than "I", the process proceeds to step S6, and if not, the process proceeds to step S7. In step S6, the content of the word standard pattern number i is incremented and the process returns to step S2 to perform matching with the next word standard pattern. In step S7, it is determined whether or not the content of the variable j (that is, the minimum value of the matching distance WD (i, x): corresponding to the above WD k ) is smaller than the threshold value "TWD".
As a result, if smaller than "TWD", the process proceeds to step S14, and if not, the process proceeds to step S8.

【0034】こうして、上記単語認識部1による登録単
語認識に失敗すると、動作モードが上記話者認識モード
に切り替えられて次のステップに進む。ステップS8
で、話者標準パターン番号iに初期値“1"がセットさ
れ、変数kに初期値“1"がセットされる。また、変数
jには十分大きな定数がセットされる。ステップS9
で、上記話者認識部8によって、上記バッファに格納さ
れたディジタル音声信号に基づいて得られた入力音声の
話者特徴パターンyと“i"番目の話者標準パターンと
のマッチング距離SP(i,y)が算出される。ステップS1
0で、上記算出されたマッチング距離SP(i,y)の値が変
数jの値より小さいか否かが判別される。その結果小さ
い場合にはステップS11に進み、そうでなければステッ
プS11をスキップする。ステップS11で、上記変数jに
マッチング距離SP(i,y)の値がセットされ、変数kの
値に単語標準パターン番号iの値がセットされる。
In this way, when the registered word recognition by the word recognition unit 1 fails, the operation mode is switched to the speaker recognition mode and the process proceeds to the next step. Step S8
Then, the initial value "1" is set to the speaker standard pattern number i, and the initial value "1" is set to the variable k. A sufficiently large constant is set in the variable j. Step S9
Then, a matching distance SP (i) between the speaker feature pattern y of the input voice obtained based on the digital voice signal stored in the buffer by the speaker recognizing unit 8 and the "i" th speaker standard pattern. , y) is calculated. Step S1
At 0, it is determined whether or not the value of the calculated matching distance SP (i, y) is smaller than the value of the variable j. If the result is smaller, the process proceeds to step S11, and if not, step S11 is skipped. In step S11, the value of the matching distance SP (i, y) is set in the variable j, and the value of the word standard pattern number i is set in the value of the variable k.

【0035】ステップS12で、話者標準パターン番号i
の内容が最大値“I"より小さいか否かが判別される。
その結果“I"より小さければステップS13に進み、そ
うでなければステップS14に進む。ステップS13で、話
者標準パターン番号iの内容がインクリメントされてス
テップS9にリターンし、次の話者標準パターンとのマ
ッチングが実施される。
In step S12, the speaker standard pattern number i
It is determined whether or not the content of is smaller than the maximum value "I".
As a result, if smaller than "I", the process proceeds to step S13, and if not, the process proceeds to step S14. In step S13, the content of the speaker standard pattern number i is incremented and the process returns to step S9 to perform matching with the next speaker standard pattern.

【0036】ステップS14で、変数kの値(すなわち、
最小のマッチング距離SP(i,y)(上記SPkに相当)を呈
する話者特徴パターンの番号)に対応付けられた単語標
準パターンが目的とする単語標準パターンであると確定
されて、上記マッチング処理動作および単語標準パター
ン確定処理動作を終了する。このようにして、所望する
電話番号に対応付けられている登録単語あるいは消去/
修正の対象となる登録単語の単語標準パターンが確定さ
れて選出されるのである。
In step S14, the value of the variable k (that is,
The word standard pattern associated with the speaker feature pattern number exhibiting the minimum matching distance SP (i, y) (corresponding to SP k above) is determined to be the target word standard pattern, and the matching is performed. The processing operation and the word standard pattern determination processing operation are ended. In this way, the registered word associated with the desired telephone number or erase / delete
The standard word pattern of the registered word to be corrected is fixed and selected.

【0037】つまり、本実施例では、上記マイクロホン
11から入力された音声信号に基づいて得られた特徴パ
ターンと単語パターンメモリ2に格納されているi番目
の単語標準パターンとの重み付け距離MDを MD=A×WD(i,x)+B×SP(i,y) 但し、WD(i,x)の最小値<TWDならば、A=1,B
=0 WD(i,x)の最小値≧TWDならば、A=0,B=1 とすると、この重み付け距離MDの値を最小にするi番
目の単語標準パターンを選出するのである。
That is, in the present embodiment, the weighting distance MD between the characteristic pattern obtained based on the voice signal input from the microphone 11 and the i-th word standard pattern stored in the word pattern memory 2 is MD. = A × WD (i, x) + B × SP (i, y) However, if the minimum value of WD (i, x) <TWD, A = 1, B
= 0. If the minimum value of WD (i, x) ≧ TWD, then by setting A = 0 and B = 1, the i-th word standard pattern that minimizes the value of this weighting distance MD is selected.

【0038】以後は、上記マイクロホン11から入力さ
れた音声が、発信時における上記所望する電話番号に対
応付けられた登録単語を表す音声である場合には、制御
部7は上記確定された単語標準パターンに関連付けられ
ている電話番号を上記内部メモリの内容を参照して得
る。そして、得られた電話番号を表す信号を上記回線接
続部13に送出する。
Thereafter, when the voice input from the microphone 11 is a voice representing a registered word associated with the desired telephone number at the time of calling, the control unit 7 causes the confirmed word standard to be determined. The telephone number associated with the pattern is obtained by looking up the contents of the internal memory. Then, the signal representing the obtained telephone number is sent to the line connection unit 13.

【0039】一方、登録単語更新時において入力された
消去/修正の対象となる登録単語を表す音声である場合
には、制御部7は上記内部メモリに格納されたリンク情
報を参照して音声分析/合成部3を制御し、上記確定さ
れた単語標準パターンにリンクされたエコーバック音用
パラメータを読み出して音声信号を生成する。こうし
て、上記確定された単語標準パターンのエコーバック音
をレシーバ12から出力して、ユーザに対して上記確定
された単語標準パターンが目的とする登録単語の単語標
準パターンであるかの確認を促すのである。そして、ユ
ーザによって上記レシーバ12からのエコーバック音が
目的とする単語標準パターンの発声であると確認され
て、上記キー入力部10から消去/修正の指示がキー入
力されると、その指示に従って制御部7によって上記所
望する単語標準パターンが消去あるいは修正される。
On the other hand, in the case of the voice that represents the registered word to be deleted / corrected, which is input when updating the registered word, the control unit 7 refers to the link information stored in the internal memory to analyze the voice. / Controls the synthesizing unit 3 to read the echo back sound parameter linked to the fixed word standard pattern, and generate a sound signal. Thus, the echo back sound of the fixed word standard pattern is output from the receiver 12 to prompt the user to confirm whether the fixed word standard pattern is the target word standard pattern of the registered word. is there. Then, when the user confirms that the echo back sound from the receiver 12 is the utterance of the target word standard pattern, and inputs an erase / correction instruction from the key input unit 10, control is performed according to the instruction. The desired word standard pattern is erased or modified by the unit 7.

【0040】また、ユーザによって上記レシーバ12か
らのエコーバック音が目的とする単語標準パターンの発
声でないと確認されて、上記キー入力部10からキャン
セルの指示がキー入力された場合には、例えば次のよう
な処理を実施する。すなわち、上記キー入力部10から
の指示に従って、制御部7によって上記確定された単語
標準パターンおよびこれに対応付けられている話者標準
パターンをマスクして図2に示すフローチャートを再ス
タートするのである。こうすることによって、話者認識
部8による第2位の認識結果に対応付けられた単語標準
パターンが目的とする登録単語の単語標準パターンとし
て確定される。以下、これを繰り返すことによって目的
とする単語標準パターンが検索できるのである。
If the user confirms that the echo back sound from the receiver 12 is not the utterance of the target word standard pattern and the cancel instruction is keyed from the key input unit 10, for example, Such processing is performed. That is, according to an instruction from the key input unit 10, the control unit 7 masks the determined word standard pattern and the speaker standard pattern associated with the word standard pattern, and restarts the flowchart shown in FIG. .. By doing so, the word standard pattern associated with the second recognition result by the speaker recognition unit 8 is determined as the target word standard pattern of the registered word. The target word standard pattern can be searched by repeating this process.

【0041】その際におけるエコーバック音による検索
は、話者認識部8による高順位の認識結果に対応付けら
れた単語標準パターンから優先的に検索されることにな
り、エコーバック音による検索範囲を自動的に発声ユー
ザの単語標準パターンに絞り込むのと同じことになる。
したがって、本実施例においては、ユーザ番号指定を実
施する必要がないのである。その結果、複数ユーザの単
語標準パターンを同じ領域に混在させて登録でき、単語
パターンメモリ2を有効に使用できる。
In this case, the search by the echo back sound is preferentially searched from the word standard pattern associated with the high-order recognition result by the speaker recognition unit 8, and the search range by the echo back sound is set. This is the same as automatically narrowing down to the user's standard word pattern.
Therefore, in this embodiment, it is not necessary to specify the user number. As a result, the word standard patterns of a plurality of users can be mixed and registered in the same area, and the word pattern memory 2 can be effectively used.

【0042】次に、上述の動作を具体例を上げて説明す
る。当該音声ダイヤラ付きの電話機を主人,奥さん,子供
の3人で使用し、そのうち奥さんは主人の勤務先の電話
番号の登録単語“お父さん"を4番目の登録単語として
登録し、子供の学校の電話番号の登録単語“太郎"を5
番目の登録単語として登録している。また、主人と子供
は夫々3個の登録単語を登録しているものとする。ここ
で、奥さんは主人の勤務先の電話番号の登録単語を変更
する際に、登録単語が“お父さんの会社"であるか“会
社"であるか分からなくなった場合を例に上げる。
Next, the above-mentioned operation will be described with a specific example. The phone with the voice dialer is used by the owner, wife, and child, and the wife registers the registered word "dad" of the work number of the owner as the fourth registered word, and calls the child's school phone. Number registered word "Taro" 5
Registered as the second registered word. In addition, it is assumed that the master and the child respectively register three registered words. Here, when the wife changes the registered word of the telephone number of her husband's office, the case where it is not known whether the registered word is "father's company" or "company" is taken as an example.

【0043】(1) 奥さんが上記マイクロホン11に向
かって「お父さんの会社」と発声した場合 発声単語「お父さんの会社」の単語標準パターンxは4番
目の登録単語“お父さん"の単語標準パターンに近いた
め、単語認識部1による各マッチング距離WDと上記閾
値“TWD"との大小関係は、 TWD>WD(4,x)<…<WD(i,x)<…<WD(5,x)<
… であるとする。そうすると、図2におけるステップS7,
S14で、目的とする登録単語は“お父さん"であると確
定される。そして、奥さんは、上記レシーバ12から出
力される合成音声「お父さん」によって、変更したい登録
単語“お父さん"が検索されたと判断する。そして、キ
ー入力部10から登録単語更新の指示を行う。
(1) When the wife utters "father's company" into the microphone 11, the word standard pattern x of the uttered word "father's company" is close to the word standard pattern of the fourth registered word "father". Therefore, the magnitude relationship between each matching distance WD by the word recognition unit 1 and the threshold “TWD” is as follows: TWD> WD (4, x) <... <WD (i, x) <... <WD (5, x) <
... Then, step S7 in FIG.
In S14, the target registered word is determined to be "dad". Then, the wife determines that the registered word "dad" to be changed is searched by the synthesized voice "dad" output from the receiver 12. Then, the key input unit 10 gives an instruction to update the registered word.

【0044】(2) 奥さんが上記マイクロホン11に向
かって「会社」と発声した場合 発声単語「会社」の単語標準パターンxは両登録単語“お
父さん",“太郎"の単語標準パターンからの距離が遠い
ために、単語認識部1による各マッチング距離WDと上
記閾値“TWD"との大小関係は、 TWD<…<WD(5,x)<…<WD(i,x)<…<WD(4,
x)<… であるとする。そうすると、図2におけるステップS7
で、目的とする登録単語の単語標準パターンの検索に失
敗する。
(2) When the wife utters "company" into the microphone 11, the word standard pattern x of the uttered word "company" is at a distance from the standard word patterns of both registered words "dad" and "taro". Since the distances are far, the magnitude relationship between each matching distance WD by the word recognition unit 1 and the threshold “TWD” is as follows: TWD <... << WD (5, x) <... <WD (i, x) <... <WD (4 ,
x) <... Then, step S7 in FIG.
Then, the search of the word standard pattern of the target registered word fails.

【0045】さらに、話者認識部8による各マッチング
距離SPの大小関係は、 SP(5,x)<SP(4,x)<…<SP(i,x)<… であるとする。そうすると、図2におけるステップS14
で、目的とする登録単語は“太郎"であると確定され
る。そして、奥さんは、上記レシーバ12から出力され
る合成音声「太郎」によって、変更したい登録単語“お
父さん"はまだ検索されていないと判断する。そこで、
キー入力部10から登録単語検索の続行を指示する。
Further, it is assumed that the magnitude relation of the matching distances SP by the speaker recognition unit 8 is SP (5, x) <SP (4, x) <... <SP (i, x) <... Then, step S14 in FIG.
Then, the target registered word is determined to be "Taro". Then, the wife determines that the registered word “dad” to be changed has not been searched for by the synthesized voice “Taro” output from the receiver 12. Therefore,
The key input unit 10 is instructed to continue the registered word search.

【0046】そうすると、5番目の登録単語“太郎"に
係る話者標準パターンをマスクして図2のルーチンが再
度実施される。その際における話者認識部8による各マ
ッチング距離SPの大小関係は、 SP(4,x)<…<SP(i,x)<… となるから、図2におけるステップS14で、目的とする
登録単語は“お父さん"であると確定される。そして、
奥さんは、上記レシーバ12から出力される合成音声
「お父さん」によって、変更したい登録単語“お父さん"
が検索されたと判断する。そして、キー入力部10から
登録単語更新の指示を行う。
Then, the standard speaker pattern for the fifth registered word "Taro" is masked and the routine of FIG. 2 is executed again. At this time, the magnitude relationship of the matching distances SP by the speaker recognition unit 8 is SP (4, x) <... <SP (i, x) <..., and therefore, the target registration is performed in step S14 in FIG. The word is confirmed to be "dad". And
The wife uses the synthesized voice "Father" output from the receiver 12 to change the registered word "Father".
Is determined to have been searched. Then, the key input unit 10 gives an instruction to update the registered word.

【0047】このように、本具体例によれば、エコーバ
ック音による2回の検索動作で変更したい登録単語“お
父さん"が検索される。ところが、従来のユーザ番号指
定によらないエコーバック音による検索の場合には、登
録単語“お父さん"は4番目の登録単語であるから、4
回の検索動作で検索されるのである。
As described above, according to the present specific example, the registered word "dad" to be changed is searched by two search operations using the echo back sound. However, in the case of the conventional search using the echo back sound that does not depend on the user number designation, the registered word “dad” is the fourth registered word, so
It is searched in one search operation.

【0048】(3) 奥さんが主人の会社の電話番号の登
録単語を完全に忘れたために、上記マイクロホン11に
向かって「何を入れたのか忘れたので教えて下さい」と発
声した場合 この場合、発声単語「何を入れたのか忘れたので教えて
下さい」の話者標準パターンyは両登録単語“お父さ
ん",“太郎"の話者標準パターンから極端に遠い距離に
はあるが、話者としては奥さんが一番近いので、話者認
識部8による各マッチング距離SPの大小関係は(2)の
場合と同様に奥さんの話者標準パターンとの距離が最も
小さくなる。
(3) When the wife completely forgets the registered word of the telephone number of the owner's company, and utters “I forgot what I put,” to the microphone 11 above. In this case, The speaker standard pattern y of the spoken word "I forgot what I put in, please tell me" is extremely far from the speaker standard patterns of both registered words "Dad" and "Taro", but as a speaker Since his wife is the closest, the size of the matching distance SP by the speaker recognition unit 8 is the shortest with the speaker's standard pattern as in the case of (2).

【0049】したがって、(3)の場合にも(2)の場合と
同じ経過をたどって変更したい登録単語“お父さん"が
検索されるのである。すなわち、最大2回のエコーバッ
ク音による検索動作で目的とする登録単語“お父さん"
が検索できる。このように、本実施例によれば、完全に
登録単語を忘れても少ない検索回数で短時間に目的とす
る登録単語を検索できるのである。
Therefore, in the case of (3), the registered word "dad" desired to be changed is searched after following the same process as in the case of (2). That is, the registered word “dad” that is the target for the search operation using the echo back sound up to twice.
Can be searched. As described above, according to this embodiment, even if the registered word is completely forgotten, the target registered word can be searched in a short time with a small number of searches.

【0050】このように、本実施例における音声ダイヤ
ラは、単語認識モード時には、単語をマイクロホン11
に向かって発声すると、単語認識部1は、入力された音
声信号に基づく特徴パターンxと単語パターンメモリ2
に格納された単語標準パターンとのマッチングを実施
し、最小マッチング距離WD(k,x)を呈する単語標準パ
ターンの番号kとそのマッチング距離WD(k,x)を制御
部7に送出する。また、話者認識モード時には、話者認
識部8は、上記単語認識モード時にマイクロホン11に
入力された上記単語の音声信号に基づく話者特徴パター
ンyと話者パターンメモリ9に格納された話者標準パタ
ーンとのマッチングを実施し、最小マッチング距離SP
(k,y)を呈する話者標準パターンの番号kとそのマッチ
ング距離SP(k,x)を制御部7に送出する。
As described above, the voice dialer according to this embodiment uses the microphone 11 for a word in the word recognition mode.
When uttered toward, the word recognition unit 1 determines the characteristic pattern x and the word pattern memory 2 based on the input voice signal.
The matching is performed with the word standard pattern stored in, and the number k of the word standard pattern having the minimum matching distance WD (k, x) and the matching distance WD (k, x) are sent to the control unit 7. Further, in the speaker recognition mode, the speaker recognition unit 8 uses the speaker feature pattern y based on the voice signal of the word input to the microphone 11 in the word recognition mode and the speaker stored in the speaker pattern memory 9. Performs matching with a standard pattern and minimum matching distance SP
The number k of the speaker standard pattern exhibiting (k, y) and its matching distance SP (k, x) are sent to the control unit 7.

【0051】そして、上記制御部7は、マッチング距離
WD(k,x)の値が所定値“TWD"より小さい場合には、
単語認識部1から入力された番号kの単語標準パターン
を入力音声の正しい認識結果であると確定する。一方、
マッチング距離WD(k,x)の値が上記所定値“TWD"以
上である場合には、話者認識部8から入力された番号k
の話者標準パターンに関連付けられた単語標準パターン
を入力音声の正しい認識結果であると確定する。
Then, when the value of the matching distance WD (k, x) is smaller than the predetermined value "TWD", the control section 7 determines
The word standard pattern of number k input from the word recognition unit 1 is determined to be the correct recognition result of the input voice. on the other hand,
When the value of the matching distance WD (k, x) is greater than or equal to the predetermined value “TWD”, the number k input from the speaker recognition unit 8
The word standard pattern associated with the speaker standard pattern is determined to be the correct recognition result of the input voice.

【0052】こうすることによって、当該音声ダイヤラ
が設けられた電話機を複数のユーザが使用する場合であ
っても、音声認識部1によって目的とする登録単語の単
語標準パターンを検索できない場合には、自動的にエコ
ーバック音による検索範囲を発声ユーザの単語標準パタ
ーンに絞り込むことができる。したがって、ユーザ番号
指定によらなくとも、自動的に発声ユーザの単語標準パ
ターンの中から短時間に目的とする登録単語の単語標準
パターンを検索することができるのである。
By doing so, even when a plurality of users use the telephone provided with the voice dialer, if the voice recognition unit 1 cannot retrieve the word standard pattern of the target registered word, It is possible to automatically narrow the search range by the echo back sound to the word standard pattern of the uttering user. Therefore, the word standard pattern of the target registered word can be automatically searched in a short time from the word standard patterns of the uttering user without specifying the user number.

【0053】また、上述のように、エコーバック音によ
る検索範囲を自動的に発声ユーザの単語標準パターンに
絞り込むことができるので、目的とする登録単語を忘れ
た場合であっても、マイクロホン11に向かって何らか
の発声を行えば発声ユーザの登録単語のエコーバック音
を得ることができる。したがって、登録単語を忘れても
短時間に目的とする登録単語を検索できるのである。
Further, as described above, since the search range by the echo back sound can be automatically narrowed down to the word standard pattern of the uttering user, even if the target registered word is forgotten, the microphone 11 can be used. If some utterance is made toward the user, an echo back sound of the registered word of the uttering user can be obtained. Therefore, even if the registered word is forgotten, the target registered word can be searched in a short time.

【0054】上記実施例においては、図2のフローチャ
ートに基づく一回の単語標準パターン検索において、最
もマッチング距離の小さい単語標準パターンのみを出力
するようにしている。しかしながら、この発明はこれに
限定されるものではなく、マッチング距離の小さい順に
複数の単語標準パターンを正しい認識結果であるとして
確定して、複数の認識候補を出力するようにしてもよ
い。
In the above embodiment, only one word standard pattern with the smallest matching distance is output in one word standard pattern search based on the flowchart of FIG. However, the present invention is not limited to this, and a plurality of word standard patterns may be determined as correct recognition results in the ascending order of matching distance, and a plurality of recognition candidates may be output.

【0055】また、上記実施例においては、上述のよう
にして検索された単語標準パターンを音声分析/合成部
3で生成された合成音によるエコーバック音によって確
認するようにしている。しかしながら、この発明はこれ
に限定されるものではなく、検索された単語標準パター
ンの登録単語を表示ディスプレイに表示するようにして
もよい。特に、目的とする登録単語を全く忘れてしまっ
た場合には、上記マッチング距離SP(i,x)の小さい発
声ユーザの話者標準パターンに係る複数の登録単語を認
識候補として一度に画面表示することによって、より迅
速に目的とする登録単語を検索できる。
Further, in the above-mentioned embodiment, the word standard pattern retrieved as described above is confirmed by the echo back sound by the synthetic sound generated by the voice analysis / synthesis unit 3. However, the present invention is not limited to this, and the registered word of the searched word standard pattern may be displayed on the display. In particular, when the target registered word is completely forgotten, a plurality of registered words related to the speaker standard pattern of the speaking user with a small matching distance SP (i, x) are displayed on the screen at once as recognition candidates. By doing so, the target registered word can be searched for more quickly.

【0056】また、この発明における単語標準パターン
検索のアルゴリズムは図2のフローチャートに限定され
るものではない。
The algorithm for searching the standard word pattern in the present invention is not limited to the flowchart of FIG.

【0057】[0057]

【発明の効果】以上より明らかなように、第1の発明の
音声ダイヤラは、認識結果確定部によって、上記音声認
識部による認識結果に係る最小マッチング距離が所定値
以上である場合には上記話者認識部による認識結果に関
連付けられた単語標準パターンを入力音声の正しい認識
結果であると確定し、確定した単語標準パターンの登録
単語を認識結果出力部によって出力するので、上記音声
認識部による単語標準パターンの検索に失敗した場合に
は自動的に検索範囲を発声ユーザの単語標準パターンに
絞り込むことができる。したがって、この発明の音声ダ
イヤラによれば、ユーザ番号指定によらなくとも自動的
に検索範囲を発声ユーザの単語標準パターンに限定して
目的とする単語標準パターンを短時間に検索できる。
As is apparent from the above, the voice dialer of the first invention is configured so that the recognition result determining unit causes the above-mentioned speech when the minimum matching distance related to the recognition result by the voice recognizing unit is a predetermined value or more. Since the word standard pattern associated with the recognition result by the person recognition unit is determined to be the correct recognition result of the input voice, and the registered word of the confirmed word standard pattern is output by the recognition result output unit, the word by the voice recognition unit When the search of the standard pattern fails, the search range can be automatically narrowed down to the word standard pattern of the uttering user. Therefore, according to the voice dialer of the present invention, the desired word standard pattern can be searched in a short time by automatically limiting the search range to the word standard pattern of the uttering user without specifying the user number.

【0058】さらに、上述のように、上記音声認識部に
よる単語標準パターンの検索に失敗した場合には自動的
に検索範囲を発声ユーザの単語標準パターンに絞り込む
ことができるので、目的とする登録単語を忘れた場合で
も、発音の似た単語を発声することによって目的とする
登録単語の単語標準パターンを短時間に検索できる。
Furthermore, as described above, when the search of the word standard pattern by the voice recognition unit fails, the search range can be automatically narrowed down to the word standard pattern of the uttering user. Even if you forget, you can retrieve the standard word pattern of the target registered word in a short time by uttering words with similar pronunciation.

【0059】また、第2の発明の音声ダイヤラは、上記
認識結果確定部は、上記音声認識部からの複数の単語標
準パターンによる認識結果と上記話者認識部からの複数
の話者標準パターンによる認識結果に基づいて入力音声
の正しい認識結果を確定し、上記認識結果出力部は上記
確定された複数の単語標準パターンの登録単語を認識候
補として出力するので、第1の発明の効果に加えて、目
的とする登録単語を全く忘れた場合でも、何らかの単語
を発声すれば発声ユーザの単語標準パターンによる認識
候補が上記認識出力部によって出力される。したがっ
て、この発明によれば、登録単語を完全に忘れてしまっ
た場合であっても目的とする登録単語の単語標準パター
ンを短時間に検索できる。
In the voice dialer according to the second aspect of the invention, the recognition result determination unit uses the recognition results of the plurality of word standard patterns from the voice recognition unit and the plurality of speaker standard patterns from the speaker recognition unit. In addition to the effect of the first invention, the correct recognition result of the input voice is determined based on the recognition result, and the recognition result output unit outputs the registered words of the determined plurality of word standard patterns as recognition candidates. Even if the target registered word is forgotten at all, if a certain word is uttered, the recognition output unit outputs the recognition candidate based on the word standard pattern of the uttering user. Therefore, according to the present invention, even if the registered word is completely forgotten, the word standard pattern of the target registered word can be searched in a short time.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の音声ダイヤラにおける一実施例を示
すブロック図である。
FIG. 1 is a block diagram showing an embodiment of a voice dialer of the present invention.

【図2】図1における制御部の制御の下に実施されるマ
ッチング処理動作および単語標準パターン確定処理動作
のフローチャートである。
FIG. 2 is a flowchart of a matching processing operation and a word standard pattern confirmation processing operation performed under the control of a control unit in FIG.

【符号の説明】[Explanation of symbols]

1…単語認識部、 2…単語パター
ンメモリ、3…音声分析/合成部、 4…
エコーバック音メモリ、7…制御部、
8…話者認識部、9…話者パターンメモリ、
10…キー入力部、13…回線接続部、
14…電話回線。
1 ... Word recognition unit, 2 ... Word pattern memory, 3 ... Speech analysis / synthesis unit, 4 ...
Echo back sound memory, 7 ... control unit,
8 ... speaker recognition unit, 9 ... speaker pattern memory,
10 ... Key input section, 13 ... Line connection section,
14 ... Telephone line.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 マイクロホンに入力された音声を認識し
て認識結果に対応した電話番号を表す信号を出力する音
声ダイヤラであって、 電話番号に対応付けて登録する登録単語の音声信号に基
づく単語標準パターンを格納する単語パターンメモリ
と、 上記マイクロホンから入力された音声信号を分析して得
られた特徴パターンと上記単語パターンメモリに格納さ
れた各単語標準パターンとのマッチング距離を算出し、
少なくとも最小マッチング距離を呈する単語標準パター
ンを入力音声の認識結果とする音声認識部と、 上記電話番号に対応付けて登録する登録単語の音声信号
に基づく話者標準パターンを、上記単語標準パターンに
関連付けて格納する話者パターンメモリと、 上記マイクロホンから入力された音声信号を分析して得
られた話者特徴パターンと上記話者パターンメモリに格
納された各話者標準パターンとのマッチング距離を算出
し、少なくとも最小マッチング距離を呈する話者標準パ
ターンを入力音声の話者の認識結果とする話者認識部
と、 上記音声認識部による認識結果に係る最小マッチング距
離が所定値より小さい場合には、その認識結果を入力音
声の正しい認識結果であると確定する一方、上記音声認
識部による認識結果に係る最小マッチング距離が上記所
定値以上である場合には、上記話者認識部による認識結
果に関連付けられた単語標準パターンを上記入力音声の
正しい認識結果であると確定する認識結果確定部と、 上記認識結果確定部によって確定された単語標準パター
ンの登録単語を出力する認識結果出力部を備えたことを
特徴とする音声ダイヤラ。
1. A voice dialer that recognizes voice input to a microphone and outputs a signal representing a telephone number corresponding to a recognition result, the word being based on a voice signal of a registered word registered in association with the telephone number. A word pattern memory storing a standard pattern, calculating a matching distance between each characteristic standard pattern stored in the word pattern memory and a characteristic pattern obtained by analyzing a voice signal input from the microphone,
A speech recognition unit that recognizes at least the word standard pattern that presents the minimum matching distance as the recognition result of the input voice, and the speaker standard pattern based on the voice signal of the registered word that is registered in association with the telephone number are associated with the word standard pattern. The speaker pattern memory to be stored as a speaker pattern, and the matching distance between the speaker feature pattern obtained by analyzing the voice signal input from the microphone and each speaker standard pattern stored in the speaker pattern memory is calculated. , If the minimum matching distance related to the recognition result by the voice recognition unit is smaller than a predetermined value, the speaker recognition unit that uses at least the speaker standard pattern that presents the minimum matching distance as the recognition result of the speaker of the input voice, While the recognition result is confirmed to be the correct recognition result of the input speech, the minimum parameter related to the recognition result by the speech recognition unit is determined. When the teaching distance is equal to or greater than the predetermined value, the recognition result determination unit that determines the word standard pattern associated with the recognition result by the speaker recognition unit as the correct recognition result of the input voice, and the recognition result. A voice dialer comprising a recognition result output unit for outputting a registered word of a word standard pattern fixed by a fixing unit.
【請求項2】 請求項1に記載の音声ダイヤラにおい
て、 上記音声認識部は、上記マッチング距離の小さい順に複
数の単語標準パターンを認識結果とし、 上記話者認識部は、上記マッチング距離の小さい順に複
数の話者標準パターンを認識結果とし、 上記認識結果出力部は、上記認識結果確定部によって入
力音声の正しい認識結果であると確定された複数の単語
標準パターンの登録単語を認識候補として出力すること
を特徴とする音声ダイヤラ。
2. The voice dialer according to claim 1, wherein the voice recognition unit recognizes a plurality of word standard patterns in an ascending order of the matching distance, and the speaker recognizing unit includes an ascending order of the matching distance. A plurality of speaker standard patterns are used as recognition results, and the recognition result output unit outputs, as recognition candidates, registered words of a plurality of word standard patterns confirmed to be correct recognition results of the input voice by the recognition result confirmation unit. A voice dialer characterized by that.
JP04100930A 1992-04-21 1992-04-21 Voice dialer Expired - Fee Related JP3112556B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04100930A JP3112556B2 (en) 1992-04-21 1992-04-21 Voice dialer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04100930A JP3112556B2 (en) 1992-04-21 1992-04-21 Voice dialer

Publications (2)

Publication Number Publication Date
JPH05300213A true JPH05300213A (en) 1993-11-12
JP3112556B2 JP3112556B2 (en) 2000-11-27

Family

ID=14287074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04100930A Expired - Fee Related JP3112556B2 (en) 1992-04-21 1992-04-21 Voice dialer

Country Status (1)

Country Link
JP (1) JP3112556B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003465B2 (en) 2000-10-12 2006-02-21 Matsushita Electric Industrial Co., Ltd. Method for speech recognition, apparatus for the same, and voice controller
JP2009104156A (en) * 2001-12-17 2009-05-14 Asahi Kasei Homes Kk Telephone communication terminal
JP2010164992A (en) * 2010-03-19 2010-07-29 Toshiba Tec Corp Speech interaction device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003465B2 (en) 2000-10-12 2006-02-21 Matsushita Electric Industrial Co., Ltd. Method for speech recognition, apparatus for the same, and voice controller
JP2009104156A (en) * 2001-12-17 2009-05-14 Asahi Kasei Homes Kk Telephone communication terminal
JP2010164992A (en) * 2010-03-19 2010-07-29 Toshiba Tec Corp Speech interaction device

Also Published As

Publication number Publication date
JP3112556B2 (en) 2000-11-27

Similar Documents

Publication Publication Date Title
US7957972B2 (en) Voice recognition system and method thereof
US6260012B1 (en) Mobile phone having speaker dependent voice recognition method and apparatus
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US7113908B2 (en) Method for recognizing speech using eigenpronunciations
JPH07210190A (en) Method and system for voice recognition
US5732187A (en) Speaker-dependent speech recognition using speaker independent models
EP1994529B1 (en) Communication device having speaker independent speech recognition
JP4246703B2 (en) Automatic speech recognition method
US20060190260A1 (en) Selecting an order of elements for a speech synthesis
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JPH05300213A (en) Voice dialer
JP2003029776A (en) Voice recognition device
US7477728B2 (en) Fast voice dialing apparatus and method
JP3112037B2 (en) Voice recognition device
US6078883A (en) Method for training a speech recognition system and an apparatus for practising the method, in particular, a portable telephone apparatus
JPH11275205A (en) Voice command system for automatic dial
KR20010000595A (en) Mobile phone controlled by interactive speech and control method thereof
JP3018759B2 (en) Specific speaker type speech recognition device
KR100827074B1 (en) Apparatus and method for automatic dialling in a mobile portable telephone
JP3140084B2 (en) Voice dial device with practice function
KR200219909Y1 (en) Mobile phone controlled by interactive speech
US20060080097A1 (en) Voice acknowledgement independent of a speaker while dialling by name
JP2020034832A (en) Dictionary generation device, voice recognition system, and dictionary generation method
JPH1063295A (en) Word voice recognition method for automatically correcting recognition result and device for executing the method
JP2006133296A (en) Voice interactive device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees