JP3415500B2 - Speech recognition system for mobile phone - Google Patents

Speech recognition system for mobile phone

Info

Publication number
JP3415500B2
JP3415500B2 JP20685699A JP20685699A JP3415500B2 JP 3415500 B2 JP3415500 B2 JP 3415500B2 JP 20685699 A JP20685699 A JP 20685699A JP 20685699 A JP20685699 A JP 20685699A JP 3415500 B2 JP3415500 B2 JP 3415500B2
Authority
JP
Japan
Prior art keywords
recognition
word
voice
noise
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20685699A
Other languages
Japanese (ja)
Other versions
JP2001034288A (en
Inventor
勝美 塩野
Original Assignee
埼玉日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 埼玉日本電気株式会社 filed Critical 埼玉日本電気株式会社
Priority to JP20685699A priority Critical patent/JP3415500B2/en
Publication of JP2001034288A publication Critical patent/JP2001034288A/en
Application granted granted Critical
Publication of JP3415500B2 publication Critical patent/JP3415500B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は携帯電話装置に関する。
特に、本発明は、携帯電話装置の音声認識システム及び
方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a mobile phone device.
In particular, the present invention relates to a voice recognition system and method for mobile phone devices.

【0002】[0002]

【従来の技術】従来の技術として特開昭61−1142
99号公報に記載されるものがある。この公報には音声
認識の認識率改善の方式について一例が記載されてお
り、その音声認識では第1候補の類似度の値が所定の第
1の閾値より小さい場合、2番目に大きい第2候補の類
似度と第1候補の類似度の差分を取りこの差分が第2の
閾値より小さい場合に認識対象外と判定することによ
り、誤認識の低減を図っている。
2. Description of the Related Art As a conventional technique, JP-A-61-1142
Some are described in Japanese Patent Publication No. 99. This publication describes an example of a method of improving the recognition rate of voice recognition. In the voice recognition, if the similarity value of the first candidate is smaller than a predetermined first threshold value, the second candidate is the second largest. The difference between the similarity of 1 and the similarity of the first candidate is calculated, and when the difference is smaller than the second threshold value, it is determined that the target is not a recognition target, thereby reducing false recognition.

【0003】[0003]

【発明が解決しょうとする課題】しかしながら、騒音環
境下で音声認識を使用時には、第1候補の認識結果が正
解でないにも拘わらず、第1候補の類似度の値が大きく
なり、さらに、第1の閾値より小さくなる条件を満たさ
ない場合があり、誤認識低減の判定処理が行えないとい
う問題がある。
However, when voice recognition is used in a noisy environment, the similarity value of the first candidate becomes large, even though the recognition result of the first candidate is not correct. There is a case where the condition of becoming smaller than the threshold value of 1 is not satisfied, and there is a problem that the determination process for reducing the false recognition cannot be performed.

【0004】したがって、本発明は上記問題点に鑑み
て、多数の類似した認識語が登録されている音声認識装
置に騒音環境下で音声入力された場合に、誤認識の低減
を可能にする携帯電話装置の音声認識システムを提供す
ることを目的とする。
Therefore, in view of the above problems, the present invention makes it possible to reduce erroneous recognition when a voice is input to a voice recognition device in which a large number of similar recognition words are registered in a noisy environment. an object of the present invention is to provide a speech recognition system of telephone equipment.

【0005】[0005]

【課題を解決するための手段】本発明は前記問題点を解
決するために、音声入力を行う携帯電話装置の音声認識
システムにおいて、音声を示す複数の認識語、複数のノ
イズ語が登録される辞書を保持し、前記音声入力を認識
して複数の候補の認識結果を出力する音声認識部と、前
記音声認識部で認識された認識語の候補の出現割合、ノ
イズ語の候補の出現割合で、認識語か又はノイズ語かの
判定処理を行い、第1候補が認識語で、第2候補以降の
ノイズ語の出現割合が判定値以上の場合には、認識結果
をノイズ語と判定し、前記第2候補以降のノイズ語の出
現割合が判定値未満の場合には、認識結果を認識語と判
定する認識判定部を備えることを特徴とする携帯電話装
置の音声認識システムを提供する。
According to the present invention, in order to solve the above problems, a plurality of recognition words indicating a voice and a plurality of noise words are registered in a voice recognition system of a portable telephone device for inputting voice. With a voice recognition unit that holds a dictionary, recognizes the voice input, and outputs recognition results of a plurality of candidates, an appearance ratio of the recognition word candidates recognized by the voice recognition unit, and an appearance ratio of the noise word candidates. , The recognition word or the noise word is determined , the first candidate is the recognition word, and
If the noise word appearance rate is greater than or equal to the judgment value, the recognition result
Is determined as a noise word, and the noise words after the second candidate are output.
If the current ratio is less than the judgment value, the recognition result is judged as a recognition word.
Provided is a voice recognition system for a mobile phone device, which is provided with a recognition determination unit that determines the voice recognition.

【0006】この手段により、多数の類似した認識語が
登録されている音声認識装置に騒音環境下で音声入力さ
れた場合に、誤認識の低減が可能になる。すなわち、認
識結果の第1候補だけでなく第2候補〜第k候補までの
複数の認識結果を用いることにより音声認識中の入力が
音声であるかノイズであるかの判定処理を行い、第1候
補が認識語で、第2候補以降のノイズ語の出現割合が判
定値以上の場合には、認識結果をノイズ語と判定するよ
うにしたので、突発的な誤認識を防止でき、正確な音声
認識が可能になり、誤認識を防止でき、正確な音声認識
が可能になった。
By this means, a large number of similar recognition words
Voice input to a registered voice recognition device in a noisy environment.
If it occurs, it is possible to reduce erroneous recognition. That is,
Not only the first candidate of the knowledge result but also the second candidate to the kth candidate
By using multiple recognition results, input during voice recognition
Perform the process of determining whether it is voice or noise, and
The complementary word is the recognition word, and the appearance ratio of the noise words after the second candidate is determined.
If it is more than the fixed value, the recognition result is judged as a noise word.
As a result, accidental misrecognition can be prevented and accurate voice
Enables recognition, prevents erroneous recognition, and provides accurate voice recognition
Became possible.

【0007】さらに、本発明は、音声入力を行う携帯電
話装置の音声認識システムにおいて、音声を示す複数の
認識語、複数のノイズ語が登録される辞書を保持し、前
記音声入力を認識して複数の候補の認識結果を出力する
音声認識部と、前記音声認識部で認識された認識語の候
補の出現割合、ノイズ語の候補の出現割合で、認識語か
又はノイズ語かの判定処理を行い、第1候補がノイズ語
で、第2候補以降の認識語の出現割合が判定値以上の場
合には、認識結果を認識語と判定し、前記第2候補以降
の認識語の出現割合が判定値未満の場合には、認識結果
をノイズ語と判定する認識判定部とを備えることを特徴
とする携帯電話装置の音声認識システムを提供する。
Further, the present invention is a portable telephone for voice input.
In the speech recognition system of the talking device,
Holds a dictionary in which recognition words and multiple noise words are registered, and
Recognize voice input and output recognition results of multiple candidates
Voice recognition unit and the recognition word recognized by the voice recognition unit
Complementary appearance rate, noise word candidate appearance rate
Or, it is judged whether it is a noise word, and the first candidate is a noise word.
If the appearance ratio of the recognition word after the second candidate is greater than or equal to the judgment value,
In this case, the recognition result is determined to be a recognition word, and the second and subsequent candidates are determined.
If the occurrence ratio of the recognition word of is less than the judgment value, the recognition result
Is provided as a noise word and a recognition determination unit is provided.
A voice recognition system for a mobile phone device is provided.

【0008】この手段により、上記発明と同様に、多数
の類似した認識語が登録されている音声認識装置に騒音
環境下で音声入力された場合に、誤認識の低減が可能に
なる。すなわち、認識結果の第1候補だけでなく第2候
補〜第k候補までの複数の認識結果を用いることにより
音声認識中の入力が音声であるかノイズであるかの判定
処理を行い、第1候補がノイズ語で、第2候補以降の認
識語の出現割合が判定値以上の場合には、認識結果を認
識語と判定するようにしたので、突発的な誤認識を防止
でき、正確な音声認識が可能になる。
By this means, as in the above invention, a large number of
Noisy voice recognition devices that have registered similar recognition words
It is possible to reduce erroneous recognition when voice is input in the environment.
Become. That is, not only the first candidate of the recognition result but also the second candidate
By using multiple recognition results from complement to k-th candidate
Determine if the input during speech recognition is voice or noise
Process, the first candidate is a noise word, and the second candidate and later are recognized.
If the linguistic appearance rate is greater than or equal to the judgment value, the recognition result is confirmed.
Since it is determined to be a literary word, accidental misrecognition is prevented.
Yes, accurate voice recognition is possible.

【0009】好ましくは、前記ノイズ語の出現割合、前
記認識語の出現割合は、複数のノイズ語、複数の認識語
にそれぞれ重みを付け、候補としてノイズ語、認識語が
出現する毎にそれぞれの重みを加算して算出される。こ
の手段により、音声認識の認識性能の向上が行える。
Preferably, the appearance ratio of the noise word,
Appearance ratio of recognition words is multiple noise words, multiple recognition words
To which the noise word and the recognition word are
It is calculated by adding each weight each time it appears. This
By this means, the recognition performance of voice recognition can be improved.

【0010】さらに、本発明は、音声入力を行う携帯電
話装置の音声認識システムにおいて、音声を示す複数の
認識語、複数のノイズ語が登録される辞書を保持し、前
記音声入力を認識して複数の候補の認識結果を出力する
音声認識部と、前記音声認識部で認識された認識語の候
補の出現割合、ノイズ語の候補の出現割合で、認識語か
又はノイズ語かの判定処理を行い、前記認識語の候補の
うち、所定数よりも少ない文字数で構成される前記認識
語の候補を前記ノイズ語の候補とする認識判定部とを備
えることを特徴とする携帯電話装置の音声認識システム
を提供する。 この手段により、認識結果の候補に認識語
が含まれている時、認識語の文字数が少なければ音声認
識時の入力がノイズである可能性が高く、文字数が長け
れば音声である可能性が高いと判定できる。このよう
に、認識結果の候補が音声か又はノイズかの判定に加え
て認識結果の候補に認識語が含まれている時、その文字
数も判定値に加えることにより、より正しい音声認識結
果を出力することが可能になる。
Further, the present invention is a portable telephone for voice input.
In the speech recognition system of the talking device,
Holds a dictionary in which recognition words and multiple noise words are registered, and
Recognize voice input and output recognition results of multiple candidates
Voice recognition unit and the recognition word recognized by the voice recognition unit
Complementary appearance rate, noise word candidate appearance rate
Or, it is determined whether it is a noise word,
Of the above, the recognition consisting of less than a predetermined number of characters
A recognition determination unit that uses word candidates as the noise word candidates.
Voice recognition system for mobile phone devices
I will provide a. By this means, the recognition word
When the recognition word contains a small number of characters,
There is a high possibility that the input at the time of recognition is noise and the number of characters is long.
If so, it can be determined that the possibility of being voice is high. like this
In addition to determining whether the recognition result candidate is voice or noise,
When a recognition word is included in the recognition result candidates, the character
By adding the number to the judgment value, more accurate speech recognition results can be obtained.
It is possible to output the result.

【0011】[0011]

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。図1は本発明に係る携帯電
話装置の音声認識システムの概略構成を示すブロック図
である。本図に示すように、携帯電話装置には無線部1
が設けられ、無線部1は図示しない基地局と無線信号の
送受信を行う。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a schematic configuration of a voice recognition system for a mobile phone device according to the present invention. As shown in the figure, the wireless unit 1 is included in the mobile phone device.
The wireless unit 1 transmits and receives wireless signals to and from a base station (not shown).

【0012】さらに、携帯電話装置には操作部2が設け
られ、操作部2は携帯電話の操作、音声認識の開始等を
行う。さらに、携帯電話装置には表示部3が設けられ、
表示部3は数字、文字等を表示する。無線部1、操作部
2、表示部3にはメインCPU(Central Pr
ocessing Unit;中央演算装置)4が接続
され、メインCPU4は無線部1の送受信の制御を行
い、操作部2から制御指示を受け、表示部3に表示制御
を行う。
Further, the portable telephone device is provided with an operating portion 2, and the operating portion 2 operates the portable telephone, starts voice recognition and the like. Further, the mobile phone device is provided with the display unit 3,
The display unit 3 displays numbers, letters and the like. The wireless unit 1, the operation unit 2, and the display unit 3 have a main CPU (Central Pr).
processing unit (central processing unit) 4 is connected, the main CPU 4 controls transmission / reception of the wireless unit 1, receives a control instruction from the operation unit 2, and performs display control on the display unit 3.

【0013】メインCPU4には音声認識部5が接続さ
れ、音声認識部5は、音声認識LSI(Large S
cale Integrated Circuit;大
規模集積回路)で構成され、音声認識処理を行う。な
お、操作部2により、音声認識の開始キーが押下される
と、メインCPU4で音声認識開始キー押下を検出して
音声認識の起動を確定し、音声認識部5に音声認識開始
命令が送信される。
A voice recognition unit 5 is connected to the main CPU 4, and the voice recognition unit 5 is a voice recognition LSI (Large S).
Cale Integrated Circuit (large-scale integrated circuit), and performs voice recognition processing. When the voice recognition start key is pressed by the operation unit 2, the main CPU 4 detects that the voice recognition start key is pressed to confirm the start of voice recognition, and the voice recognition start command is transmitted to the voice recognition unit 5. It

【0014】メインCPU4、音声認識部5にはA/D
(Analog to Digital ;アナログ・
ディジタル)変換器6、音声合成部10が接続され、音
声合成部10は音声認識部5からの認識結果を音声に合
成する。音声合成部10にはD/A(Digital
to Analog ;ディジタル・アナログ)変換器
7が接続される。
The main CPU 4 and the voice recognition unit 5 have an A / D
(Analog to Digital; analog
The (digital) converter 6 and the voice synthesis unit 10 are connected, and the voice synthesis unit 10 synthesizes the recognition result from the voice recognition unit 5 into voice. The voice synthesizer 10 has a D / A (Digital
to Analog (digital / analog) converter 7 is connected.

【0015】A/D変換器6にはマイクロフォン8が接
続され、マイクロフォン8は音声の入力を行う。A/D
変換器6は音声のアナログ信号をディジタルの音声デー
タに変換する。マイクロフォン8への音声入力は携帯電
話の送信音として処理される。
A microphone 8 is connected to the A / D converter 6, and the microphone 8 inputs a voice. A / D
The converter 6 converts a voice analog signal into digital voice data. The voice input to the microphone 8 is processed as a transmission sound of the mobile phone.

【0016】さらに、音声認識部5では、メインCPU
4より開始命令を受信すると、マイクロフォン8から入
力された音声に対して、認識処理が実行される。D/A
変換器7にはスピーカ9が接続され、スピーカ9は音声
の出力を行う。D/A変換器7はディジタルの音声デー
タを音声のアナログ信号に変換する。
Further, in the voice recognition section 5, the main CPU
When the start command is received from 4, the recognition process is performed on the voice input from the microphone 8. D / A
A speaker 9 is connected to the converter 7, and the speaker 9 outputs a voice. The D / A converter 7 converts digital voice data into a voice analog signal.

【0017】スピーカ9への音声出力は携帯電話の受信
音として処理される。さらに、音声認識開始時の開始音
の鳴動、音声認識部5で認識結果が確定すると認識結果
に対応した音声が、音声合成部10で合成されてD/A
変換器7経由でスピーカ9から出力される。また、音声
認識部5で確定された上記の認識結果は表示部3に表示
される。
The voice output to the speaker 9 is processed as a reception sound of the mobile phone. Further, when the voice recognition unit 5 sounds the start sound at the start of voice recognition and the recognition result is confirmed by the voice recognition unit 5, the voice corresponding to the recognition result is synthesized by the voice synthesis unit 10 and D / A
It is output from the speaker 9 via the converter 7. Further, the above recognition result determined by the voice recognition unit 5 is displayed on the display unit 3.

【0018】次に、音声認識部5には、認識語として、
携帯電話装置のメモリダイヤル、機能の呼出しを行うm
個の複数の認識語と、ノイズに対する誤動作を防止する
ために登録するn個の複数のノイズ語が辞書に登録され
る。ノイズ語とは音声認識中にノイズが入力されたとき
に、メモリダイヤル、機能呼出しの認識語の誤動作を防
止するために登録する音声認識の辞書に、突発的なノイ
ズなど複数の種類の音に関するノイズが登録される。
Next, the voice recognition section 5 receives a recognition word as
Memory dialing of mobile phone devices, function calls
A plurality of recognition words and a plurality of n noise words that are registered to prevent malfunction due to noise are registered in the dictionary. What is a noise word? When noise is input during voice recognition, a memory dial, a voice recognition dictionary that is registered to prevent malfunction of the recognition word for function calls, relates to multiple types of sounds such as sudden noise. Noise is registered.

【0019】この登録により、音声認識中に突発的なノ
イズが入力されても音声認識の辞書とのパターンマッチ
ングを行ったときには、メモリダイヤル、機能呼出しの
認識語よりもノイズ語の方が入力音に対して類似性が高
くなる。
By this registration, even if sudden noise is input during voice recognition, when the pattern matching with the voice recognition dictionary is performed, the noise word is the input sound more than the recognition word of the memory dial or function call. Is more similar to.

【0020】このため、認識結果はノイズ語となり、ノ
イズ入力に対する誤動作を防止することが可能になる。
さらに、メインCPU4には認識判定部4Aが設けら
れ、認識判定部4Aは音声認識部5の認識結果である認
識語とノイズ語の判定処理を行う。
Therefore, the recognition result becomes a noise word, and it becomes possible to prevent malfunctions due to noise input.
Further, the main CPU 4 is provided with a recognition determination unit 4A, and the recognition determination unit 4A performs a determination process of a recognition word and a noise word which are the recognition results of the voice recognition unit 5.

【0021】図2は図1のメインCPU4、音声認識部
5、認識判定部4Aの動作概略を説明するフローチャー
トである。ステップS1において、操作部2より音声認
識開始キーが押下される。ステップS2において、メイ
ンCPU4で上記音声認識開始キーの押下を検出する。
ステップS3において、メインCPU4は音声認識の起
動を確定する。
FIG. 2 is a flow chart for explaining the outline of the operations of the main CPU 4, the voice recognition section 5, and the recognition determination section 4A of FIG. In step S1, the voice recognition start key is pressed from the operation unit 2. In step S2, the main CPU 4 detects the depression of the voice recognition start key.
In step S3, the main CPU 4 finalizes the activation of voice recognition.

【0022】ステップS4において、メインCPU4は
音声認識部5に音声認識開始命令を送信する。ステップ
S5において、音声認識部5は音声認識を開始する。ス
テップS6において、マイクロフォン8より入力された
音声に対し、音声認識部5は音声認識を行う。
In step S4, the main CPU 4 sends a voice recognition start command to the voice recognition unit 5. In step S5, the voice recognition unit 5 starts voice recognition. In step S6, the voice recognition unit 5 performs voice recognition on the voice input from the microphone 8.

【0023】ステップS7において、音声認識部5は音
声認識の結果を確定する。ステップS8において、認識
結果として第1候補〜第k候補までの認識結果を認識判
定部4Aに出力する。ステップS9において、認識判定
部4Aでは認識結果の第1候補に加えて第2候補〜第k
候補までの判定処理を行う。
In step S7, the voice recognition unit 5 determines the result of voice recognition. In step S8, the recognition results of the first candidate to the kth candidate are output to the recognition determination unit 4A as the recognition result. In step S9, the recognition determination unit 4A adds the second candidate to the kth candidate in addition to the first candidate of the recognition result.
The determination process up to the candidate is performed.

【0024】ステップS10において、メインCPU4
の認識判定部4Aにより認識結果が認識語との判定時に
は認識語に対応したメンテナンスを表示部3に表示し、
スピーカ9より対応する音声を出力する。ステップS1
1において、メインCPU4の認識判定部4Aにより認
識結果がノイズ語との判定時には音声認識中にノイズが
入力されて誤動作したと判定する。ステップS12にお
いて、判定されたノイズに対して誤動作した旨を伝える
メッセージを表示部3に表示し、スピーカ9より対応す
る音声を出力する。
In step S10, the main CPU 4
When the recognition determination unit 4A determines that the recognition result is the recognition word, the maintenance corresponding to the recognition word is displayed on the display unit 3,
The corresponding voice is output from the speaker 9. Step S1
In No. 1, when the recognition determination unit 4A of the main CPU 4 determines that the recognition result is a noise word, it is determined that noise is input during voice recognition and a malfunction occurs. In step S12, a message notifying that the determined noise has malfunctioned is displayed on the display unit 3, and a corresponding voice is output from the speaker 9.

【0025】図3及び図4は図1のメインCPU4の認
識判定部4Aにおける認識結果の判定の詳細な処理につ
いて説明するフローチャートである。図3に示すよう
に、ステップS21において認識判定部4Aは、操作部
2より音声認識開始キーが押下されると、音声認識を起
動し、音声認識部5でマイクロフォン8より入力された
音声に対して認識処理が行われ、認識結果が確定するの
を待つ。
FIGS. 3 and 4 are flow charts for explaining the detailed process of determining the recognition result in the recognition determining unit 4A of the main CPU 4 of FIG. As shown in FIG. 3, when the voice recognition start key is pressed from the operation unit 2 in step S21, the recognition determination unit 4A activates voice recognition, and the voice recognition unit 5 recognizes the voice input from the microphone 8. Then, the recognition process is performed to wait for the recognition result to be confirmed.

【0026】ステップS22において、認識結果が確定
し、音声認識で認識結果として第1候補〜第k候補まで
のk個の候補が出力されると、認識判定部4Aは、k個
の候補の認識結果を取得してそれらを用いて、以下のよ
うに、判定を行う。ステップS23において、最初に第
1候補が認識語か否かの判定を行う。ステップS24に
おいて、第1候補が認識語の場合には、第2候補がノイ
ズ語か否かの判定を行う。ノイズ語でなければステップ
S26に進む。
In step S22, when the recognition result is confirmed and k candidates from the first candidate to the k-th candidate are output as the recognition result by the voice recognition, the recognition determining section 4A recognizes the k candidates. The results are acquired, and the judgment is performed using them as follows. In step S23, it is first determined whether the first candidate is a recognition word. In step S24, when the first candidate is a recognition word, it is determined whether the second candidate is a noise word. If it is not a noise word, the process proceeds to step S26.

【0027】ステップS25において、第2候補がノイ
ズ語の時には、判定値に重み付けw1[k]を加算す
る。ステップS26において、次に、第3候補がノイズ
語か否かの判定を行う。ノイズ語でなければステップS
28に進む。ステップS27において、第3候補がノイ
ズ語の時には、判定値に重み付けw1[k−1]を加算
する。
In step S25, when the second candidate is a noise word, weighting w1 [k] is added to the determination value. In step S26, it is next determined whether the third candidate is a noise word. If it is not a noise word, step S
Proceed to 28. In step S27, when the third candidate is a noise word, weighting w1 [k-1] is added to the determination value.

【0028】ステップS28において、続けて第k候補
まで各候補がノイズ語か否かの判定処理を行う。ノイズ
語でなければステップS30に進む。ステップS29に
おいて、第k候補がノイズ語の時には、判定値に重み付
けw1[1]を加算する。ステップS30において、第
k候補までの判定処理が終了したら判定値の累積加算値
をスレッショルドTh1と比較する。
In step S28, it is continuously determined whether each candidate is a noise word up to the kth candidate. If it is not a noise word, the process proceeds to step S30. In step S29, when the k-th candidate is a noise word, weighting w1 [1] is added to the determination value. In step S30, when the determination processing up to the kth candidate is completed, the cumulative addition value of the determination values is compared with the threshold Th1.

【0029】ステップS31において、判定値がTh1
よりも大きい時には認識結果の第1候補が認識語でも音
声認識中に入力された音声はノイズと判定する。ステッ
プS32において、ノイズ入力に対する認識結果を表示
して処理を終了する。ステップS33において、ステッ
プS30で、判定値がTh1よりも小さいときには音声
認識時の入力が音声であると判定する。
In step S31, the judgment value is Th1.
When it is larger than the above, even if the first candidate of the recognition result is a recognition word, the voice input during voice recognition is determined to be noise. In step S32, the recognition result for the noise input is displayed and the process ends. In step S33, when the determination value is smaller than Th1 in step S30, it is determined that the input during voice recognition is voice.

【0030】ステップS34において、第1候補の認識
語に対する認識結果を表示して処理を終了する。このた
め、音声認識で音声認識中にノイズが入力されたにも拘
わらず第1候補が認識語となる誤認識が発生しても、第
2候補〜第k候補の結果を用いて第2候補〜第k候補に
ノイズ語が多数含まれていて判定値がTh1以上のとき
には音声認識中の入力が音声ではなくノイズ入力である
と判定する。
In step S34, the recognition result for the first candidate recognition word is displayed, and the process ends. Therefore, even if erroneous recognition occurs in which the first candidate is a recognition word despite the noise being input during the voice recognition in the voice recognition, the second candidate is determined by using the results of the second candidate to the kth candidate. -When the k-th candidate includes a large number of noise words and the determination value is Th1 or more, it is determined that the input during voice recognition is not a voice but a noise input.

【0031】このため、ノイズ入力に対する認識結果を
表示することによって誤認識を回避することが可能にな
る。図4に示すように、ステップS35において、ステ
ップS23で第1候補がノイズ語と判定時には第2候補
が認識語か否かの判定処理を行う。認識語でなければス
テップS37に進む。
Therefore, it is possible to avoid erroneous recognition by displaying the recognition result for the noise input. As shown in FIG. 4, in step S35, when it is determined in step S23 that the first candidate is a noise word, a process of determining whether or not the second candidate is a recognition word is performed. If it is not a recognition word, the process proceeds to step S37.

【0032】ステップS36において、第k候補が認識
語の時には、判定値に重み付けw2[k]を加算する。
ステップS37において、次に、第3候補が認識語か否
かの判定を行う。認識語でなければステップS39に進
む。ステップS38において、第3候補が認識語の時に
は、判定値に重み付けw2[k−1]を加算する。
In step S36, when the k-th candidate is a recognized word, weighting w2 [k] is added to the determination value.
In step S37, next, it is determined whether the third candidate is a recognition word. If it is not a recognition word, the process proceeds to step S39. In step S38, when the third candidate is a recognition word, weighting w2 [k-1] is added to the determination value.

【0033】ステップS39において、続けて第k候補
まで各候補が認識語か否かの判定処理を行う。認識語で
なければステップS41に進む。ステップS40におい
て、第k候補が認識語の時には、判定値に重み付けw2
[1]を加算する。ステップS41において、第k候補
までの判定処理が終了したら判定値の累積加算値をスレ
ッショルドTh2と比較する。
In step S39, it is continuously determined whether or not each candidate is a recognized word up to the kth candidate. If it is not a recognition word, the process proceeds to step S41. In step S40, when the k-th candidate is a recognition word, the determination value is weighted w2.
Add [1]. In step S41, when the determination process up to the kth candidate is completed, the cumulative addition value of the determination values is compared with the threshold Th2.

【0034】ステップS42において、判定値がTh2
よりも大きいときには認識結果の第1候補がノイズ語で
も音声認識中に入力された音声はノイズでなく音声であ
ると判定する。ステップS43において、第2候補の認
識語に対する認識結果を表示して処理を終了する。
In step S42, the judgment value is Th2.
If it is larger than, even if the first candidate of the recognition result is a noise word, it is determined that the voice input during voice recognition is not noise but voice. In step S43, the recognition result for the second candidate recognition word is displayed, and the process ends.

【0035】ステップS44において、ステップS41
で、判定値がTh2よりも小さいときには音声認識時の
入力がノイズと判定する。ステップS45において、認
識結果がノイズ語であるときの認識結果を表示して処理
を終了する。
In step S44, step S41
Then, when the determination value is smaller than Th2, it is determined that the input at the time of voice recognition is noise. In step S45, the recognition result when the recognition result is a noise word is displayed, and the process ends.

【0036】図5は具体的な例について説明する図であ
る。本図(a)の音声認識部5における認識辞書の構成
に示すように、音声認識の認識辞書として認識語が10
単語(m)でノイズ語が5単語(n)登録されており、
認識結果として第3候補(k)まで出力されるとする。
さらに、本図(d)の認識結果例1に示すように、音声
認識中にノイズが入力されたときに第1候補が認識語ス
ズキで、第2候補と第3候補がノイズ語の例について説
明する。
FIG. 5 is a diagram for explaining a concrete example. As shown in the configuration of the recognition dictionary in the voice recognition unit 5 of FIG. 9A, the recognition words of the recognition dictionary are 10 as the recognition dictionary of the voice recognition.
Five noise words (n) are registered in the word (m),
It is assumed that up to the third candidate (k) is output as the recognition result.
Furthermore, as shown in recognition result example 1 of FIG. 6D, when noise is input during voice recognition, the first candidate is the recognition word Suzuki, and the second and third candidates are noise words. explain.

【0037】第1候補が認識語の時には第2候補と第3
候補がノイズ語か否かの判定を行い、判定値を計算す
る。上記の例1では、第2候補、第3候補共にノイズ語
であるため、判定値に、本図(b)に示す判定重み付け
値w1[2](=2)と値w1[1](=1)を加算し
て判定値が3となる。
When the first candidate is a recognition word, the second candidate and the third candidate
It is determined whether or not the candidate is a noise word, and the determination value is calculated. In the above-mentioned example 1, since the second candidate and the third candidate are both noise words, the judgment values w1 [2] (= 2) and the values w1 [1] (= shown in FIG. The judgment value becomes 3 by adding 1).

【0038】判定値Th1(=3)以上の値となるた
め、認識結果の第1候補が認識語のスズキであるが、音
声認識時の入力がノイズと判定して認識結果がノイズ語
に対する認識結果を表示して誤認識が防止される。次
に、本図(e)認識結果例2に示すように、音声認識中に
スズキを発声した時、第1候補がノイズ語、第2候補が
スズキで第3候補がサトウとなる例について説明する。
Since the first candidate of the recognition result is Suzuki, which is the recognition word, because the value is equal to or greater than the judgment value Th1 (= 3), the input at the time of voice recognition is judged to be noise, and the recognition result is recognized for the noise word. The result is displayed to prevent misrecognition. Next, as shown in (e) recognition result example 2 of this figure, an example in which when Suzuki is uttered during voice recognition, the first candidate is a noise word, the second candidate is Suzuki, and the third candidate is Sato To do.

【0039】第1候補がノイズ語の時には第2候補、第
3候補が認識語か否かの判定処理を行い、判定値が計算
される。上記の例2では、第2候補、第3候補共に認識
語のため、判定値に、本図(b)の判定重み付け値w2
[2](=2)とw2[1](=1)を加算して、判定
値が3となる。
When the first candidate is a noise word, it is determined whether the second candidate and the third candidate are recognition words, and the determination value is calculated. In the above-mentioned example 2, since the second candidate and the third candidate are both recognition words, the judgment weighting value w2 in FIG.
[2] (= 2) and w2 [1] (= 1) are added, and the determination value becomes 3.

【0040】判定値はTh2(=3)以上の値となるた
め、認識結果の第1候補がノイズ語であるが、音声認識
時の入力が音声と判定して認識結果として第2候補のス
ズキを出力する。このように、ノイズ語の候補の出現割
合、認識語の候補の出現割合で、認識語か又はノイズ語
かの判定処理を行うので、誤認識低減が可能になる。
Since the judgment value is a value of Th2 (= 3) or more, the first candidate of the recognition result is a noise word, but the input at the time of voice recognition is judged to be voice, and the second candidate Suzuki as the recognition result. Is output. In this way, since the determination process of the recognition word or the noise word is performed based on the appearance ratio of the noise word candidates and the appearance ratio of the recognition word candidates, erroneous recognition can be reduced.

【0041】以上、本発明の実施の形態における携帯電
話装置の音声認識システムを説明したが、本発明はこの
実施例に限定されるものではなく、その発明の趣旨にし
たがって各種変更が可能である。したがって、本発明に
よれば、誤認識を防止してより正確な音声認識の結果を
出力することが可能になる。この結果、音声認識の認識
性能の向上が行える。
Although the voice recognition system for the portable telephone device according to the embodiment of the present invention has been described above, the present invention is not limited to this embodiment, and various modifications can be made according to the spirit of the invention. . Therefore, according to the present invention, it is possible to prevent erroneous recognition and output a more accurate voice recognition result. As a result, the recognition performance of voice recognition can be improved.

【0042】認識結果の第1候補だけでなく第2候補〜
第k候補までの複数の認識結果を用いることにより音声
認識中の入力が音声であるか、又は、ノイズであるかの
判定処理を行い、認識結果が出力されるためである。次
に、本発明における他の実施の形態について説明する。
本実施の形態では音声認識中の入力が音声か又はノイズ
かの判定処理手段として、第2候補〜第k候補までがノ
イズであるか又は音声であるかの判定処理に加えて、第
2候補〜第k候補までに認識語が含まれている時に認識
語の文字数が長いか又は短いかが判定値として加えられ
る。
Not only the first candidate of the recognition result but also the second candidate ~
This is because by using a plurality of recognition results up to the kth candidate, it is determined whether the input during voice recognition is voice or noise, and the recognition result is output. Next, another embodiment of the present invention will be described.
In the present embodiment, as a processing unit for determining whether the input during voice recognition is voice or noise, in addition to the processing for determining whether the second candidate to the kth candidate are noise or voice, the second candidate -When the recognition word is included up to the kth candidate, whether the number of characters of the recognition word is long or short is added as a determination value.

【0043】例えば、認識結果の候補に認識語が含まれ
ている時、認識語の文字数が少なければ音声認識時の入
力がノイズである可能性が高く、文字数が長ければ音声
である可能性が高いと判定できる。このように、認識結
果の候補が音声か又はノイズかの判定に加えて認識結果
の候補に認識語が含まれている時、その文字数も判定値
に加えることにより、より正しい音声認識結果を出力す
ることが可能になる。
For example, when the recognition result candidate includes a recognition word, if the number of characters of the recognition word is small, the input at the time of voice recognition is likely to be noise, and if the number of characters is long, it is likely to be voice. It can be judged to be high. In this way, when the recognition result candidate includes a recognition word in addition to the determination as to whether the recognition result is speech or noise, the number of characters is also added to the determination value to output a more accurate speech recognition result. It becomes possible to do.

【0044】[0044]

【発明の効果】以上説明したように、本発明によれば、
認識結果の第1候補だけでなく第2候補〜第k候補まで
の複数の認識結果を用いることにより音声認識中の入力
が音声であるかノイズであるかの判定処理を行い、認識
結果を出力するようにしたので、誤認識を防止でき、正
確な音声認識が可能になった。
As described above, according to the present invention,
By using not only the first candidate of the recognition result but also the plurality of recognition results of the second candidate to the k-th candidate, it is determined whether the input during voice recognition is voice or noise, and the recognition result is output. By doing so, erroneous recognition can be prevented and accurate voice recognition is possible.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る携帯電話装置の音声認識システム
の概略構成を示すブロック図である。
FIG. 1 is a block diagram showing a schematic configuration of a voice recognition system for a mobile phone device according to the present invention.

【図2】図1のメインCPU4、音声認識部5、認識判
定部4Aの動作概略を説明するフローチャートである。
FIG. 2 is a flowchart illustrating an outline of operations of a main CPU 4, a voice recognition unit 5, and a recognition determination unit 4A in FIG.

【図3】図1のメインCPU4の認識判定部4Aにおけ
る認識結果の判定の詳細な処理について説明するフロー
チャートである。
FIG. 3 is a flowchart illustrating a detailed process of determining a recognition result in a recognition determining unit 4A of the main CPU 4 of FIG.

【図4】図1のメインCPU4の認識判定部4Aにおけ
る認識結果の判定の詳細な処理について説明するフロー
チャートである。
FIG. 4 is a flowchart illustrating a detailed process of determining a recognition result in a recognition determination unit 4A of the main CPU 4 of FIG.

【図5】具体的な例について説明する図である。FIG. 5 is a diagram illustrating a specific example.

【符号の説明】[Explanation of symbols]

1…無線部 2…操作部 3…表示部 4…メインCPU 4A…認識判定部 5…音声認識部 6…A/D変換器 7…D/A変換器 8…マイクロフォン 9…スピーカ 10…音声合成部 1 ... Wireless section 2 ... Operation part 3 ... Display 4 ... Main CPU 4A ... Recognition determination unit 5 ... Voice recognition unit 6 ... A / D converter 7 ... D / A converter 8 ... Microphone 9 ... Speaker 10 ... Voice synthesizer

フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/20 Continuation of front page (58) Fields surveyed (Int.Cl. 7 , DB name) G10L 15/20

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声入力を行う携帯電話装置の音声認識
システムにおいて、 音声を示す複数の認識語、複数のノイズ語が登録される
辞書を保持し、前記音声入力を認識して複数の候補の認
識結果を出力する音声認識部と、 前記音声認識部で認識された認識語の候補の出現割合、
ノイズ語の候補の出現割合で、認識語か又はノイズ語か
の判定処理を行い、第1候補が認識語で、第2候補以降
のノイズ語の出現割合が判定値以上の場合には、認識結
果をノイズ語と判定し、前記第2候補以降のノイズ語の
出現割合が判定値未満の場合には、認識結果を認識語と
判定する認識判定部を備えることを特徴とする携帯電話
装置の音声認識システム。
1. A voice recognition system for a mobile phone device for voice input, comprising: holding a dictionary in which a plurality of recognition words indicating voice and a plurality of noise words are registered, and recognizing the voice input to select a plurality of candidates. A speech recognition unit that outputs a recognition result, and an appearance ratio of recognition word candidates recognized by the speech recognition unit,
A process of determining whether the word is a recognition word or a noise word is performed based on the appearance ratio of noise word candidates, and the first candidate is a recognition word and the second and subsequent candidates are recognized.
If the noise word occurrence ratio of is greater than or equal to the judgment value, the recognition result
The result is determined to be a noise word, and the noise words of the second and subsequent candidates are determined.
If the appearance ratio is less than the judgment value, the recognition result is regarded as the recognition word.
A voice recognition system for a mobile phone device, comprising a recognition determination unit for determination .
【請求項2】 音声入力を行う携帯電話装置の音声認識
システムにおいて、 音声を示す複数の認識語、複数のノイズ語が登録される
辞書を保持し、前記音声入力を認識して複数の候補の認
識結果を出力する音声認識部と、 前記音声認識部で認識された認識語の候補の出現割合、
ノイズ語の候補の出現割合で、認識語か又はノイズ語か
の判定処理を行い、第1候補がノイズ語で、第2候補以
降の認識語の出現割合が判定値以上の場合には、認識結
果を認識語と判定し、前記第2候補以降の認識語の出現
割合が判定値未満の場合には、認識結果をノイズ語と判
定する認識判定部とを備えることを特徴とする 携帯電話
装置の音声認識システム。
2. Voice recognition of a mobile phone device for voice input
In the system, multiple recognition words indicating voice and multiple noise words are registered.
Hold a dictionary, recognize the voice input and recognize multiple candidates.
A voice recognition unit that outputs a recognition result, and an appearance ratio of recognition word candidates recognized by the voice recognition unit,
Occurrence rate of noise word candidates, whether it is a recognition word or noise word
The first candidate is a noise word, and the second candidate
If the appearance ratio of the descending recognition word is more than the judgment value, the recognition result
The result is judged as a recognition word, and the recognition words after the second candidate appear.
If the ratio is less than the judgment value, the recognition result is judged as a noise word.
A voice recognition system for a mobile phone device, comprising:
【請求項3】 前記ノイズ語の出現割合、前記認識語の
出現割合は、複数のノイズ語、複数の認識語にそれぞれ
重みを付け、候補としてノイズ語、認識語が出現する毎
にそれぞれの重みを加算して算出されることを特徴とす
る、請求項1又は2に記載の携帯電話装置の音声認識シ
ステム。
3. The appearance ratio of the noise word and the recognition word
Occurrence rate is different for multiple noise words and multiple recognition words.
Each time a noise word or a recognition word appears as a candidate with a weight
Is calculated by adding each weight to
The voice recognition system for a mobile phone device according to claim 1 or 2 .
【請求項4】 音声入力を行う携帯電話装置の音声認識
システムにおいて、 音声を示す複数の認識語、複数のノイズ語が登録される
辞書を保持し、前記音声入力を認識して複数の候補の認
識結果を出力する音声認識部と、 前記音声認識部で認識された認識語の候補の出現割合、
ノイズ語の候補の出現割合で、認識語か又はノイズ語か
の判定処理を行い、前記認識語の候補のうち、所定数よ
りも少ない文字数で構成される前記認識語の候補を前記
ノイズ語の候補 とする認識判定部とを備えることを特徴
とする 携帯電話装置の音声認識システム。
4. A voice recognition of a mobile phone device for voice input.
In the system, multiple recognition words indicating voice and multiple noise words are registered.
Hold a dictionary, recognize the voice input and recognize multiple candidates.
A voice recognition unit that outputs a recognition result, and an appearance ratio of recognition word candidates recognized by the voice recognition unit,
Occurrence rate of noise word candidates, whether it is a recognition word or noise word
Of the recognition word candidates,
The recognition word candidates composed of a smaller number of characters are
And a recognition determination unit that is a candidate for a noise word.
A voice recognition system for mobile phone devices.
JP20685699A 1999-07-21 1999-07-21 Speech recognition system for mobile phone Expired - Fee Related JP3415500B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20685699A JP3415500B2 (en) 1999-07-21 1999-07-21 Speech recognition system for mobile phone

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20685699A JP3415500B2 (en) 1999-07-21 1999-07-21 Speech recognition system for mobile phone

Publications (2)

Publication Number Publication Date
JP2001034288A JP2001034288A (en) 2001-02-09
JP3415500B2 true JP3415500B2 (en) 2003-06-09

Family

ID=16530188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20685699A Expired - Fee Related JP3415500B2 (en) 1999-07-21 1999-07-21 Speech recognition system for mobile phone

Country Status (1)

Country Link
JP (1) JP3415500B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014149457A (en) * 2013-02-01 2014-08-21 Sharp Corp Voice recognition device, electronic apparatus, and control program of voice recognition device
JP6718182B1 (en) * 2019-05-08 2020-07-08 株式会社インタラクティブソリューションズ Wrong conversion dictionary creation system

Also Published As

Publication number Publication date
JP2001034288A (en) 2001-02-09

Similar Documents

Publication Publication Date Title
US7840406B2 (en) Method for providing an electronic dictionary in wireless terminal and wireless terminal implementing the same
JP2003515816A (en) Method and apparatus for voice controlled foreign language translation device
US5995926A (en) Technique for effectively recognizing sequence of digits in voice dialing
JP3138370B2 (en) Information processing device
JP3415500B2 (en) Speech recognition system for mobile phone
US20050059432A1 (en) Mobile terminal and method for providing a user-interface using a voice signal
KR100467593B1 (en) Voice recognition key input wireless terminal, method for using voice in place of key input in wireless terminal, and recording medium therefore
JP2000338991A (en) Voice operation telephone device with recognition rate reliability display function and voice recognizing method thereof
KR20050033248A (en) Mobile communication terminal with voice recognition function, phoneme modeling method and voice recognition method for the same
JP2002281145A (en) Telephone number input device
JP2000165489A (en) Telephone set
US7136677B2 (en) Portable terminal
KR100238542B1 (en) Executing method for electronic dictionary function in portable phone
US6801890B1 (en) Method for enhancing recognition probability in voice recognition systems
JP2003177788A (en) Audio interactive system and its method
KR20060060191A (en) Method for inputting text by recognizing voice in mobile phone
JP3278595B2 (en) mobile phone
JP2005301699A (en) Sentence input apparatus, method, and program, and portable terminal equipment
JPH10282990A (en) Method of text input and device therefor
JP3032246B2 (en) Electronics
JP2000112491A (en) Device and method for judging character similarity, and device and method for recognizing voice
JPH01309099A (en) Speech responding device
JP4750986B2 (en) Japanese input device, Japanese input method, and program
JP2001184085A (en) Voice recognition device
JPH11344993A (en) Voice recognition device and storage medium

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080404

Year of fee payment: 5

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 6

Free format text: PAYMENT UNTIL: 20090404

LAPS Cancellation because of no payment of annual fees