JP2001034288A - Voice recognition system and method for portable telephone system - Google Patents

Voice recognition system and method for portable telephone system

Info

Publication number
JP2001034288A
JP2001034288A JP20685699A JP20685699A JP2001034288A JP 2001034288 A JP2001034288 A JP 2001034288A JP 20685699 A JP20685699 A JP 20685699A JP 20685699 A JP20685699 A JP 20685699A JP 2001034288 A JP2001034288 A JP 2001034288A
Authority
JP
Japan
Prior art keywords
recognition
word
noise
candidate
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP20685699A
Other languages
Japanese (ja)
Other versions
JP3415500B2 (en
Inventor
Katsumi Shiono
勝美 塩野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Saitama Ltd
Original Assignee
NEC Saitama Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Saitama Ltd filed Critical NEC Saitama Ltd
Priority to JP20685699A priority Critical patent/JP3415500B2/en
Publication of JP2001034288A publication Critical patent/JP2001034288A/en
Application granted granted Critical
Publication of JP3415500B2 publication Critical patent/JP3415500B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To reduce erroneous recognition when a voice is inputted to a voice recognition device in which many similar recognition words are registered under a noisy environment. SOLUTION: The voice recognition system of a portable telephone system to which a voice is to be inputted is provided with a voice recongizing part 5 which preserves a dictionary in which plural recognition words and plural noise words indicating voices are registered and which recognizes an inputted voice and outputs recognized results of plural candidates and a recognition deciding 4A performing a deciding processing of whether the inputted voice is a recognition word or a noise word with the ratio of occurrence of the candidates of the recognition word and the ratio of occurrence of candidates of the noise word recognized in the voice recognizing part 5.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は携帯電話装置に関する。
特に、本発明は、携帯電話装置の音声認識システム及び
方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a portable telephone device.
In particular, the present invention relates to a speech recognition system and method for a mobile phone device.

【0002】[0002]

【従来の技術】従来の技術として特開昭61−1142
99号公報に記載されるものがある。この公報には音声
認識の認識率改善の方式について一例が記載されてお
り、その音声認識では第1候補の類似度の値が所定の第
1の閾値より小さい場合、2番目に大きい第2候補の類
似度と第1候補の類似度の差分を取りこの差分が第2の
閾値より小さい場合に認識対象外と判定することによ
り、誤認識の低減を図っている。
2. Description of the Related Art As a prior art, Japanese Patent Laid-Open No. 61-142
No. 99 is disclosed. This publication describes an example of a method of improving the recognition rate of speech recognition. In the speech recognition, when the similarity value of the first candidate is smaller than a predetermined first threshold value, the second candidate of the second candidate is increased. The difference between the similarity of the first candidate and the similarity of the first candidate is determined, and if this difference is smaller than the second threshold, it is determined to be out of the recognition target, thereby reducing erroneous recognition.

【0003】[0003]

【発明が解決しょうとする課題】しかしながら、騒音環
境下で音声認識を使用時には、第1候補の認識結果が正
解でないにも拘わらず、第1候補の類似度の値が大きく
なり、さらに、第1の閾値より小さくなる条件を満たさ
ない場合があり、誤認識低減の判定処理が行えないとい
う問題がある。
However, when speech recognition is used in a noisy environment, the similarity value of the first candidate increases even though the recognition result of the first candidate is not correct. There is a case where the condition of being smaller than the threshold value of 1 may not be satisfied, and there is a problem that a determination process for reducing false recognition cannot be performed.

【0004】したがって、本発明は上記問題点に鑑み
て、多数の類似した認識語が登録されている音声認識装
置に騒音環境下で音声入力された場合に、誤認識の低減
を可能にする携帯電話装置の音声認識システム及び方法
を提供することを目的とする。
[0004] Therefore, in view of the above-mentioned problems, the present invention provides a portable telephone capable of reducing erroneous recognition when a speech recognition device in which many similar recognition words are registered is inputted under a noisy environment. It is an object to provide a speech recognition system and method for a telephone device.

【0005】[0005]

【課題を解決するための手段】本発明は前記問題点を解
決するために、音声入力を行う携帯電話装置の音声認識
システムにおいて、音声を示す複数の認識語、複数のノ
イズ語が登録される辞書を保持し、前記音声入力を認識
して複数の候補の認識結果を出力する音声認識部と、前
記音声認識部で認識された認識語の候補の出現割合、ノ
イズ語の候補の出現割合で、認識語か又はノイズ語かの
判定処理を行う認識判定部とを備えることを特徴とする
携帯電話装置の音声認識システムを提供する。
According to the present invention, in order to solve the above-mentioned problems, a plurality of recognition words indicating a voice and a plurality of noise words are registered in a voice recognition system of a portable telephone device for inputting voice. A speech recognition unit that holds a dictionary, recognizes the speech input, and outputs recognition results of a plurality of candidates, and an appearance ratio of recognition word candidates recognized by the speech recognition unit and an appearance ratio of noise word candidates. A speech recognition system for a mobile phone device, comprising: a recognition unit that performs a process of determining whether the word is a recognition word or a noise word.

【0006】この手段により、多数の類似した認識語が
登録されている音声認識装置に騒音環境下で音声入力さ
れた場合に、誤認識の低減が可能になる。好ましくは、
前記認識判定部は、第1候補が認識語で、第2候補以降
のノイズ語の出現割合が判定値以上の場合には、認識結
果をノイズ語と判定し、前記第2候補以降のノイズ語の
出現割合が判定値未満の場合には、認識結果を認識語と
判定する。好ましくは、前記認識判定部は、第1候補が
ノイズ語で、第2候補以降の認識語の出現割合が判定値
以上の場合には、認識結果を認識語と判定し、前記第2
候補以降の認識語の出現割合が判定値未満の場合には、
認識結果をノイズ語と判定する。好ましくは、前記ノイ
ズ語の出現割合、前記認識語の出現割合は、複数のノイ
ズ語、複数の認識語にそれぞれ重みを付け、候補として
ノイズ語、認識語が出現する毎にそれぞれの重みを加算
して算出される。
[0006] According to this means, it is possible to reduce erroneous recognition when a voice is input in a noise environment to a voice recognition device in which many similar recognition words are registered. Preferably,
When the first candidate is a recognized word and the appearance ratio of noise words after the second candidate is equal to or greater than a determination value, the recognition determination unit determines that the recognition result is a noise word, and the noise word after the second candidate is a noise word. If the appearance ratio of is less than the determination value, the recognition result is determined to be a recognized word. Preferably, when the first candidate is a noise word and the appearance ratio of the recognized words after the second candidate is equal to or more than a determination value, the recognition determination unit determines the recognition result as a recognized word, and
If the appearance rate of recognized words after the candidate is less than the judgment value,
The recognition result is determined to be a noise word. Preferably, the appearance ratio of the noise word and the appearance ratio of the recognition word are respectively weighted for a plurality of noise words and a plurality of recognition words, and each weight is added each time a noise word and a recognition word appear as candidates. Is calculated.

【0007】この手段により、認識結果の第1候補だけ
でなく第2候補〜第k候補までの複数の認識結果を用い
ることにより音声認識中の入力が音声であるかノイズで
あるかの判定処理を行い、認識結果を出力するようにし
たので、誤認識を防止でき、正確な音声認識が可能にな
った。好ましくは、前記認識語の候補のうち、所定数よ
りも少ない文字数で構成される前記認識語の候補を前記
ノイズ語の候補とする。
[0007] By this means, not only the first candidate of the recognition result but also a plurality of recognition results from the second candidate to the k-th candidate are used to determine whether the input during speech recognition is speech or noise. , The recognition result is output, erroneous recognition can be prevented, and accurate voice recognition can be performed. Preferably, among the candidates for the recognition word, the candidates for the recognition word having a smaller number of characters than a predetermined number are set as the candidates for the noise word.

【0008】この手段により、認識結果の候補に認識語
が含まれている時、認識語の文字数が少なければ音声認
識時の入力がノイズである可能性が高く、文字数が長け
れば音声である可能性が高いと判定できる。このよう
に、認識結果の候補が音声か又はノイズかの判定に加え
て認識結果の候補に認識語が含まれている時、その文字
数も判定値に加えることにより、より正しい音声認識結
果を出力することが可能になる。
According to this means, when the recognition result candidate includes a recognition word, if the number of characters of the recognition word is small, there is a high possibility that the input at the time of voice recognition is noise, and if the number of characters is long, the input is speech. Can be determined to be high. In this way, when the recognition result candidate includes a recognition word in addition to the determination of whether the recognition result candidate is speech or noise, the number of characters is added to the determination value to output a more accurate voice recognition result. It becomes possible to do.

【0009】さらに、本発明は、音声入力を行う携帯電
話装置の音声認識方法において、音声を示す複数の認識
語、複数のノイズ語が登録される辞書を保持し、前記音
声入力を認識して複数の候補の認識結果を出力する工程
と、認識された認識語の候補の出現割合、ノイズ語の候
補の出現割合で、認識語か又はノイズ語かの判定処理を
行う工程とを備えることを特徴とする携帯電話装置の音
声認識方法を提供する。
Further, according to the present invention, in a voice recognition method of a portable telephone device for performing voice input, a dictionary in which a plurality of recognition words indicating voice and a plurality of noise words are registered is stored, and the voice input is recognized. Outputting a recognition result of the plurality of candidates, and performing a process of determining whether the recognition word is a recognition word or a noise word based on the appearance ratio of the recognized recognition word candidate and the appearance ratio of the noise word candidate. A feature of the present invention is to provide a voice recognition method for a mobile phone device.

【0010】この手段により、上記発明と同様に、多数
の類似した認識語が登録されている音声認識装置に騒音
環境下で音声入力された場合に、誤認識の低減が可能に
なる。
[0010] According to this means, similarly to the above-mentioned invention, it is possible to reduce erroneous recognition when a voice is input in a noise environment to a voice recognition device in which many similar recognition words are registered.

【0011】[0011]

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。図1は本発明に係る携帯電
話装置の音声認識システムの概略構成を示すブロック図
である。本図に示すように、携帯電話装置には無線部1
が設けられ、無線部1は図示しない基地局と無線信号の
送受信を行う。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a schematic configuration of a voice recognition system for a mobile phone device according to the present invention. As shown in FIG.
Is provided, and the radio unit 1 transmits and receives a radio signal to and from a base station (not shown).

【0012】さらに、携帯電話装置には操作部2が設け
られ、操作部2は携帯電話の操作、音声認識の開始等を
行う。さらに、携帯電話装置には表示部3が設けられ、
表示部3は数字、文字等を表示する。無線部1、操作部
2、表示部3にはメインCPU(Central Pr
ocessing Unit;中央演算装置)4が接続
され、メインCPU4は無線部1の送受信の制御を行
い、操作部2から制御指示を受け、表示部3に表示制御
を行う。
Further, an operation unit 2 is provided in the portable telephone device, and the operation unit 2 operates the portable telephone, starts voice recognition, and the like. Further, a display unit 3 is provided in the mobile phone device,
The display unit 3 displays numbers, characters, and the like. The wireless unit 1, the operation unit 2, and the display unit 3 have a main CPU (Central Pr)
A processing unit (central processing unit) 4 is connected, and the main CPU 4 controls transmission and reception of the wireless unit 1, receives a control instruction from the operation unit 2, and performs display control on the display unit 3.

【0013】メインCPU4には音声認識部5が接続さ
れ、音声認識部5は、音声認識LSI(Large S
cale Integrated Circuit;大
規模集積回路)で構成され、音声認識処理を行う。な
お、操作部2により、音声認識の開始キーが押下される
と、メインCPU4で音声認識開始キー押下を検出して
音声認識の起動を確定し、音声認識部5に音声認識開始
命令が送信される。
A speech recognition unit 5 is connected to the main CPU 4, and the speech recognition unit 5 includes a speech recognition LSI (Large S).
and a voice integrated circuit, which performs a speech recognition process. When the speech recognition start key is pressed by the operation unit 2, the main CPU 4 detects the depression of the speech recognition start key, determines the start of speech recognition, and transmits a speech recognition start command to the speech recognition unit 5. You.

【0014】メインCPU4、音声認識部5にはA/D
(Analog to Digital ;アナログ・
ディジタル)変換器6、音声合成部10が接続され、音
声合成部10は音声認識部5からの認識結果を音声に合
成する。音声合成部10にはD/A(Digital
to Analog ;ディジタル・アナログ)変換器
7が接続される。
The main CPU 4 and the voice recognition unit 5 have an A / D
(Analog to Digital; analog
A (digital) converter 6 and a speech synthesis unit 10 are connected, and the speech synthesis unit 10 synthesizes the recognition result from the speech recognition unit 5 into speech. D / A (Digital)
to Analog (digital / analog) converter 7 is connected.

【0015】A/D変換器6にはマイクロフォン8が接
続され、マイクロフォン8は音声の入力を行う。A/D
変換器6は音声のアナログ信号をディジタルの音声デー
タに変換する。マイクロフォン8への音声入力は携帯電
話の送信音として処理される。
A microphone 8 is connected to the A / D converter 6, and the microphone 8 inputs voice. A / D
The converter 6 converts an analog audio signal into digital audio data. The voice input to the microphone 8 is processed as a transmission sound of the mobile phone.

【0016】さらに、音声認識部5では、メインCPU
4より開始命令を受信すると、マイクロフォン8から入
力された音声に対して、認識処理が実行される。D/A
変換器7にはスピーカ9が接続され、スピーカ9は音声
の出力を行う。D/A変換器7はディジタルの音声デー
タを音声のアナログ信号に変換する。
Further, the voice recognition unit 5 includes a main CPU
When a start command is received from 4, the recognition process is performed on the voice input from the microphone 8. D / A
A speaker 9 is connected to the converter 7, and the speaker 9 outputs sound. The D / A converter 7 converts digital voice data into a voice analog signal.

【0017】スピーカ9への音声出力は携帯電話の受信
音として処理される。さらに、音声認識開始時の開始音
の鳴動、音声認識部5で認識結果が確定すると認識結果
に対応した音声が、音声合成部10で合成されてD/A
変換器7経由でスピーカ9から出力される。また、音声
認識部5で確定された上記の認識結果は表示部3に表示
される。
The sound output to the speaker 9 is processed as the sound received by the mobile phone. Furthermore, when the start sound sounds at the start of voice recognition and the recognition result is determined by the voice recognition unit 5, the voice corresponding to the recognition result is synthesized by the voice synthesis unit 10 and D / A
Output from the speaker 9 via the converter 7. In addition, the recognition result determined by the voice recognition unit 5 is displayed on the display unit 3.

【0018】次に、音声認識部5には、認識語として、
携帯電話装置のメモリダイヤル、機能の呼出しを行うm
個の複数の認識語と、ノイズに対する誤動作を防止する
ために登録するn個の複数のノイズ語が辞書に登録され
る。ノイズ語とは音声認識中にノイズが入力されたとき
に、メモリダイヤル、機能呼出しの認識語の誤動作を防
止するために登録する音声認識の辞書に、突発的なノイ
ズなど複数の種類の音に関するノイズが登録される。
Next, the speech recognition unit 5 recognizes
Calling the memory dial and functions of the mobile phone
The plurality of recognition words and the n number of noise words to be registered in order to prevent malfunction due to noise are registered in the dictionary. A noise word is a dictionary for voice recognition that is registered to prevent malfunctions of recognition words for memory dials and function calls when noise is input during voice recognition. Noise is registered.

【0019】この登録により、音声認識中に突発的なノ
イズが入力されても音声認識の辞書とのパターンマッチ
ングを行ったときには、メモリダイヤル、機能呼出しの
認識語よりもノイズ語の方が入力音に対して類似性が高
くなる。
According to this registration, even when sudden noise is input during voice recognition, when pattern matching with the voice recognition dictionary is performed, the input word of the noise word is better than the recognized word of the memory dial or function call. Is similar to.

【0020】このため、認識結果はノイズ語となり、ノ
イズ入力に対する誤動作を防止することが可能になる。
さらに、メインCPU4には認識判定部4Aが設けら
れ、認識判定部4Aは音声認識部5の認識結果である認
識語とノイズ語の判定処理を行う。
For this reason, the recognition result is a noise word, and it is possible to prevent malfunction due to noise input.
Further, the main CPU 4 is provided with a recognition determining unit 4A, and the recognition determining unit 4A performs a process of determining a recognition word and a noise word, which are the recognition results of the speech recognition unit 5.

【0021】図2は図1のメインCPU4、音声認識部
5、認識判定部4Aの動作概略を説明するフローチャー
トである。ステップS1において、操作部2より音声認
識開始キーが押下される。ステップS2において、メイ
ンCPU4で上記音声認識開始キーの押下を検出する。
ステップS3において、メインCPU4は音声認識の起
動を確定する。
FIG. 2 is a flowchart for explaining the outline of the operation of the main CPU 4, the voice recognition unit 5, and the recognition determination unit 4A of FIG. In step S1, a voice recognition start key is pressed from the operation unit 2. In step S2, the main CPU 4 detects pressing of the voice recognition start key.
In step S3, the main CPU 4 determines activation of voice recognition.

【0022】ステップS4において、メインCPU4は
音声認識部5に音声認識開始命令を送信する。ステップ
S5において、音声認識部5は音声認識を開始する。ス
テップS6において、マイクロフォン8より入力された
音声に対し、音声認識部5は音声認識を行う。
In step S4, the main CPU 4 sends a voice recognition start command to the voice recognition unit 5. In step S5, the voice recognition unit 5 starts voice recognition. In step S6, the voice recognition unit 5 performs voice recognition on the voice input from the microphone 8.

【0023】ステップS7において、音声認識部5は音
声認識の結果を確定する。ステップS8において、認識
結果として第1候補〜第k候補までの認識結果を認識判
定部4Aに出力する。ステップS9において、認識判定
部4Aでは認識結果の第1候補に加えて第2候補〜第k
候補までの判定処理を行う。
In step S7, the voice recognition unit 5 determines the result of voice recognition. In step S8, the recognition results of the first to k-th candidates are output to the recognition determination unit 4A as the recognition results. In step S9, the recognition determination unit 4A adds the second candidate to the k-th candidate in addition to the first candidate of the recognition result.
Perform determination processing up to candidates.

【0024】ステップS10において、メインCPU4
の認識判定部4Aにより認識結果が認識語との判定時に
は認識語に対応したメンテナンスを表示部3に表示し、
スピーカ9より対応する音声を出力する。ステップS1
1において、メインCPU4の認識判定部4Aにより認
識結果がノイズ語との判定時には音声認識中にノイズが
入力されて誤動作したと判定する。ステップS12にお
いて、判定されたノイズに対して誤動作した旨を伝える
メッセージを表示部3に表示し、スピーカ9より対応す
る音声を出力する。
In step S10, the main CPU 4
When the recognition result is determined to be a recognized word by the recognition determining unit 4A, maintenance corresponding to the recognized word is displayed on the display unit 3,
The corresponding sound is output from the speaker 9. Step S1
In 1, when the recognition determination unit 4A of the main CPU 4 determines that the recognition result is a noise word, it is determined that noise has been input during speech recognition and a malfunction has occurred. In step S12, a message notifying that a malfunction has occurred with respect to the determined noise is displayed on the display unit 3, and a corresponding sound is output from the speaker 9.

【0025】図3及び図4は図1のメインCPU4の認
識判定部4Aにおける認識結果の判定の詳細な処理につ
いて説明するフローチャートである。図3に示すよう
に、ステップS21において認識判定部4Aは、操作部
2より音声認識開始キーが押下されると、音声認識を起
動し、音声認識部5でマイクロフォン8より入力された
音声に対して認識処理が行われ、認識結果が確定するの
を待つ。
FIGS. 3 and 4 are flowcharts for explaining the detailed processing of determining the recognition result in the recognition determining section 4A of the main CPU 4 in FIG. As shown in FIG. 3, when the voice recognition start key is pressed from the operation unit 2 in step S21, the recognition determination unit 4A starts voice recognition, and the voice recognition unit 5 responds to the voice input from the microphone 8. Wait for the recognition process to be performed and the recognition result to be determined.

【0026】ステップS22において、認識結果が確定
し、音声認識で認識結果として第1候補〜第k候補まで
のk個の候補が出力されると、認識判定部4Aは、k個
の候補の認識結果を取得してそれらを用いて、以下のよ
うに、判定を行う。ステップS23において、最初に第
1候補が認識語か否かの判定を行う。ステップS24に
おいて、第1候補が認識語の場合には、第2候補がノイ
ズ語か否かの判定を行う。ノイズ語でなければステップ
S26に進む。
In step S22, when the recognition result is determined and the k candidates from the first candidate to the k-th candidate are output as the recognition result in the voice recognition, the recognition determining unit 4A recognizes the k candidates. The results are obtained and used to make a determination as follows. In step S23, first, it is determined whether the first candidate is a recognized word. In step S24, if the first candidate is a recognized word, it is determined whether the second candidate is a noise word. If it is not a noise word, the process proceeds to step S26.

【0027】ステップS25において、第2候補がノイ
ズ語の時には、判定値に重み付けw1[k]を加算す
る。ステップS26において、次に、第3候補がノイズ
語か否かの判定を行う。ノイズ語でなければステップS
28に進む。ステップS27において、第3候補がノイ
ズ語の時には、判定値に重み付けw1[k−1]を加算
する。
In step S25, when the second candidate is a noise word, weight w1 [k] is added to the judgment value. In step S26, it is next determined whether or not the third candidate is a noise word. If not a noise word, step S
Proceed to 28. In step S27, when the third candidate is a noise word, weight w1 [k-1] is added to the determination value.

【0028】ステップS28において、続けて第k候補
まで各候補がノイズ語か否かの判定処理を行う。ノイズ
語でなければステップS30に進む。ステップS29に
おいて、第k候補がノイズ語の時には、判定値に重み付
けw1[1]を加算する。ステップS30において、第
k候補までの判定処理が終了したら判定値の累積加算値
をスレッショルドTh1と比較する。
In step S28, a process of determining whether each candidate up to the k-th candidate is a noise word is performed. If it is not a noise word, the process proceeds to step S30. In step S29, when the k-th candidate is a noise word, weight w1 [1] is added to the determination value. In step S30, when the determination processing up to the k-th candidate is completed, the cumulative addition value of the determination values is compared with the threshold Th1.

【0029】ステップS31において、判定値がTh1
よりも大きい時には認識結果の第1候補が認識語でも音
声認識中に入力された音声はノイズと判定する。ステッ
プS32において、ノイズ入力に対する認識結果を表示
して処理を終了する。ステップS33において、ステッ
プS30で、判定値がTh1よりも小さいときには音声
認識時の入力が音声であると判定する。
In step S31, the judgment value is Th1
If it is larger than the first word, the speech input during speech recognition is determined to be noise even if the first candidate of the recognition result is a recognized word. In step S32, the recognition result for the noise input is displayed, and the process ends. In step S33, when the determination value is smaller than Th1 in step S30, it is determined that the input at the time of voice recognition is a voice.

【0030】ステップS34において、第1候補の認識
語に対する認識結果を表示して処理を終了する。このた
め、音声認識で音声認識中にノイズが入力されたにも拘
わらず第1候補が認識語となる誤認識が発生しても、第
2候補〜第k候補の結果を用いて第2候補〜第k候補に
ノイズ語が多数含まれていて判定値がTh1以上のとき
には音声認識中の入力が音声ではなくノイズ入力である
と判定する。
In step S34, the recognition result for the first candidate recognition word is displayed, and the process ends. For this reason, even if erroneous recognition in which the first candidate is a recognition word occurs despite noise input during voice recognition in voice recognition, the second candidate is used by using the results of the second to k-th candidates. When the k-th candidate includes many noise words and the determination value is equal to or greater than Th1, it is determined that the input during voice recognition is not a voice but a noise input.

【0031】このため、ノイズ入力に対する認識結果を
表示することによって誤認識を回避することが可能にな
る。図4に示すように、ステップS35において、ステ
ップS23で第1候補がノイズ語と判定時には第2候補
が認識語か否かの判定処理を行う。認識語でなければス
テップS37に進む。
For this reason, it is possible to avoid erroneous recognition by displaying the recognition result for the noise input. As shown in FIG. 4, in step S35, when the first candidate is determined to be a noise word in step S23, a process of determining whether the second candidate is a recognized word is performed. If not, the process proceeds to step S37.

【0032】ステップS36において、第k候補が認識
語の時には、判定値に重み付けw2[k]を加算する。
ステップS37において、次に、第3候補が認識語か否
かの判定を行う。認識語でなければステップS39に進
む。ステップS38において、第3候補が認識語の時に
は、判定値に重み付けw2[k−1]を加算する。
In step S36, when the k-th candidate is a recognized word, a weight w2 [k] is added to the determination value.
In step S37, it is next determined whether or not the third candidate is a recognized word. If not, the process proceeds to step S39. In step S38, when the third candidate is a recognized word, weight w2 [k-1] is added to the determination value.

【0033】ステップS39において、続けて第k候補
まで各候補が認識語か否かの判定処理を行う。認識語で
なければステップS41に進む。ステップS40におい
て、第k候補が認識語の時には、判定値に重み付けw2
[1]を加算する。ステップS41において、第k候補
までの判定処理が終了したら判定値の累積加算値をスレ
ッショルドTh2と比較する。
In step S39, a process of determining whether each candidate up to the k-th candidate is a recognized word is performed. If not, the process proceeds to step S41. In step S40, when the k-th candidate is a recognition word, the determination value is weighted w2
[1] is added. In step S41, when the determination processing up to the k-th candidate is completed, the cumulative addition value of the determination values is compared with the threshold Th2.

【0034】ステップS42において、判定値がTh2
よりも大きいときには認識結果の第1候補がノイズ語で
も音声認識中に入力された音声はノイズでなく音声であ
ると判定する。ステップS43において、第2候補の認
識語に対する認識結果を表示して処理を終了する。
In step S42, the judgment value is Th2
If it is larger than the first candidate of the recognition result, it is determined that the voice input during the voice recognition is not a noise but a voice even if the first candidate is a noise word. In step S43, the recognition result for the recognized word of the second candidate is displayed, and the process ends.

【0035】ステップS44において、ステップS41
で、判定値がTh2よりも小さいときには音声認識時の
入力がノイズと判定する。ステップS45において、認
識結果がノイズ語であるときの認識結果を表示して処理
を終了する。
In step S44, step S41
When the determination value is smaller than Th2, the input at the time of speech recognition is determined to be noise. In step S45, the recognition result when the recognition result is a noise word is displayed, and the process ends.

【0036】図5は具体的な例について説明する図であ
る。本図(a)の音声認識部5における認識辞書の構成
に示すように、音声認識の認識辞書として認識語が10
単語(m)でノイズ語が5単語(n)登録されており、
認識結果として第3候補(k)まで出力されるとする。
さらに、本図(d)の認識結果例1に示すように、音声
認識中にノイズが入力されたときに第1候補が認識語ス
ズキで、第2候補と第3候補がノイズ語の例について説
明する。
FIG. 5 is a diagram for explaining a specific example. As shown in the configuration of the recognition dictionary in the voice recognition unit 5 in FIG.
Five noise words (n) are registered as the word (m),
It is assumed that up to the third candidate (k) is output as a recognition result.
Further, as shown in the recognition result example 1 of FIG. 3D, when noise is input during speech recognition, the first candidate is a recognition word Suzuki, and the second and third candidates are noise words. explain.

【0037】第1候補が認識語の時には第2候補と第3
候補がノイズ語か否かの判定を行い、判定値を計算す
る。上記の例1では、第2候補、第3候補共にノイズ語
であるため、判定値に、本図(b)に示す判定重み付け
値w1[2](=2)と値w1[1](=1)を加算し
て判定値が3となる。
When the first candidate is a recognized word, the second candidate and the third
It is determined whether or not the candidate is a noise word, and a determination value is calculated. In Example 1 described above, since both the second candidate and the third candidate are noise words, the judgment values include the judgment weight w1 [2] (= 2) and the value w1 [1] (= The judgment value becomes 3 by adding 1).

【0038】判定値Th1(=3)以上の値となるた
め、認識結果の第1候補が認識語のスズキであるが、音
声認識時の入力がノイズと判定して認識結果がノイズ語
に対する認識結果を表示して誤認識が防止される。次
に、本図(e)認識結果例2に示すように、音声認識中に
スズキを発声した時、第1候補がノイズ語、第2候補が
スズキで第3候補がサトウとなる例について説明する。
Since the judgment value Th1 (= 3) or more, the first candidate of the recognition result is the recognition word Suzuki, but the input at the time of speech recognition is determined to be noise, and the recognition result is the recognition for the noise word. The result is displayed to prevent erroneous recognition. Next, as shown in the example (e) of the recognition result, when Suzuki is uttered during speech recognition, an example will be described in which the first candidate is a noise word, the second candidate is Suzuki, and the third candidate is Sato. I do.

【0039】第1候補がノイズ語の時には第2候補、第
3候補が認識語か否かの判定処理を行い、判定値が計算
される。上記の例2では、第2候補、第3候補共に認識
語のため、判定値に、本図(b)の判定重み付け値w2
[2](=2)とw2[1](=1)を加算して、判定
値が3となる。
When the first candidate is a noise word, a process of determining whether or not the second and third candidates are recognized words is performed, and a determination value is calculated. In the above example 2, since both the second candidate and the third candidate are recognized words, the judgment weight is set to the judgment weight w2 in FIG.
By adding [2] (= 2) and w2 [1] (= 1), the determination value becomes 3.

【0040】判定値はTh2(=3)以上の値となるた
め、認識結果の第1候補がノイズ語であるが、音声認識
時の入力が音声と判定して認識結果として第2候補のス
ズキを出力する。このように、ノイズ語の候補の出現割
合、認識語の候補の出現割合で、認識語か又はノイズ語
かの判定処理を行うので、誤認識低減が可能になる。
Since the determination value is a value equal to or greater than Th2 (= 3), the first candidate of the recognition result is a noise word, but the input at the time of voice recognition is determined to be voice, and the second candidate is Suzuki as the recognition result. Is output. As described above, since the process of determining whether the recognition word is a recognition word or a noise word is performed based on the appearance ratio of the noise word candidate and the recognition word candidate appearance ratio, it is possible to reduce erroneous recognition.

【0041】以上、本発明の実施の形態における携帯電
話装置の音声認識システムを説明したが、本発明はこの
実施例に限定されるものではなく、その発明の趣旨にし
たがって各種変更が可能である。したがって、本発明に
よれば、誤認識を防止してより正確な音声認識の結果を
出力することが可能になる。この結果、音声認識の認識
性能の向上が行える。
Although the speech recognition system of the portable telephone device according to the embodiment of the present invention has been described above, the present invention is not limited to this embodiment, and various changes can be made according to the gist of the invention. . Therefore, according to the present invention, it is possible to prevent erroneous recognition and output a more accurate voice recognition result. As a result, the recognition performance of speech recognition can be improved.

【0042】認識結果の第1候補だけでなく第2候補〜
第k候補までの複数の認識結果を用いることにより音声
認識中の入力が音声であるか、又は、ノイズであるかの
判定処理を行い、認識結果が出力されるためである。次
に、本発明における他の実施の形態について説明する。
本実施の形態では音声認識中の入力が音声か又はノイズ
かの判定処理手段として、第2候補〜第k候補までがノ
イズであるか又は音声であるかの判定処理に加えて、第
2候補〜第k候補までに認識語が含まれている時に認識
語の文字数が長いか又は短いかが判定値として加えられ
る。
Not only the first candidate of the recognition result but also the second candidate
This is because, by using a plurality of recognition results up to the k-th candidate, a process of determining whether the input during speech recognition is speech or noise is performed, and the recognition result is output. Next, another embodiment of the present invention will be described.
In the present embodiment, in addition to the processing of determining whether the second to k-th candidates are noise or voice, the second candidate is used as a processing unit for determining whether the input during voice recognition is voice or noise. When the recognized word is included in the first to k-th candidates, whether the number of characters of the recognized word is long or short is added as a determination value.

【0043】例えば、認識結果の候補に認識語が含まれ
ている時、認識語の文字数が少なければ音声認識時の入
力がノイズである可能性が高く、文字数が長ければ音声
である可能性が高いと判定できる。このように、認識結
果の候補が音声か又はノイズかの判定に加えて認識結果
の候補に認識語が含まれている時、その文字数も判定値
に加えることにより、より正しい音声認識結果を出力す
ることが可能になる。
For example, when the recognition result candidate includes a recognition word, if the number of characters of the recognition word is small, the input during speech recognition is likely to be noise, and if the number of characters is long, the input is likely to be speech. It can be determined to be high. In this way, when the recognition result candidate includes a recognition word in addition to the determination of whether the recognition result candidate is speech or noise, the number of characters is added to the determination value to output a more accurate voice recognition result. It becomes possible to do.

【0044】[0044]

【発明の効果】以上説明したように、本発明によれば、
認識結果の第1候補だけでなく第2候補〜第k候補まで
の複数の認識結果を用いることにより音声認識中の入力
が音声であるかノイズであるかの判定処理を行い、認識
結果を出力するようにしたので、誤認識を防止でき、正
確な音声認識が可能になった。
As described above, according to the present invention,
By using not only the first candidate of the recognition result but also a plurality of recognition results from the second candidate to the k-th candidate, a process of determining whether the input during the voice recognition is a voice or noise is performed, and the recognition result is output. As a result, erroneous recognition can be prevented, and accurate voice recognition can be performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る携帯電話装置の音声認識システム
の概略構成を示すブロック図である。
FIG. 1 is a block diagram showing a schematic configuration of a voice recognition system for a mobile phone device according to the present invention.

【図2】図1のメインCPU4、音声認識部5、認識判
定部4Aの動作概略を説明するフローチャートである。
FIG. 2 is a flowchart illustrating an outline of operations of a main CPU 4, a voice recognition unit 5, and a recognition determination unit 4A in FIG.

【図3】図1のメインCPU4の認識判定部4Aにおけ
る認識結果の判定の詳細な処理について説明するフロー
チャートである。
FIG. 3 is a flowchart illustrating a detailed process of determining a recognition result in a recognition determining unit 4A of a main CPU 4 in FIG. 1;

【図4】図1のメインCPU4の認識判定部4Aにおけ
る認識結果の判定の詳細な処理について説明するフロー
チャートである。
4 is a flowchart illustrating a detailed process of determining a recognition result in a recognition determining unit 4A of a main CPU 4 in FIG. 1;

【図5】具体的な例について説明する図である。FIG. 5 is a diagram illustrating a specific example.

【符号の説明】[Explanation of symbols]

1…無線部 2…操作部 3…表示部 4…メインCPU 4A…認識判定部 5…音声認識部 6…A/D変換器 7…D/A変換器 8…マイクロフォン 9…スピーカ 10…音声合成部 DESCRIPTION OF SYMBOLS 1 ... Radio | wireless part 2 ... Operation part 3 ... Display part 4 ... Main CPU 4A ... Recognition judgment part 5 ... Voice recognition part 6 ... A / D converter 7 ... D / A converter 8 ... Microphone 9 ... Speaker 10 ... Voice synthesis Department

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 音声入力を行う携帯電話装置の音声認識
システムにおいて、 音声を示す複数の認識語、複数のノイズ語が登録される
辞書を保持し、前記音声入力を認識して複数の候補の認
識結果を出力する音声認識部と、 前記音声認識部で認識された認識語の候補の出現割合、
ノイズ語の候補の出現割合で、認識語か又はノイズ語か
の判定処理を行う認識判定部とを備えることを特徴とす
る携帯電話装置の音声認識システム。
1. A speech recognition system for a mobile phone device for performing speech input, comprising: a dictionary in which a plurality of recognition words indicating speech and a plurality of noise words are registered; A speech recognition unit that outputs a recognition result, and the appearance ratio of recognition word candidates recognized by the speech recognition unit,
A speech recognition system for a mobile phone device, comprising: a recognition determination unit that performs a process of determining whether a recognition word is a recognition word or a noise word based on the appearance ratio of noise word candidates.
【請求項2】 前記認識判定部は、第1候補が認識語
で、第2候補以降のノイズ語の出現割合が判定値以上の
場合には、認識結果をノイズ語と判定し、前記第2候補
以降のノイズ語の出現割合が判定値未満の場合には、認
識結果を認識語と判定することを特徴とする、請求項1
に記載の携帯電話装置の音声認識システム。
2. The method according to claim 1, wherein the first candidate is a recognition word and the appearance ratio of noise words after the second candidate is equal to or greater than a determination value, and the recognition result is determined as a noise word. The recognition result is determined as a recognized word when the appearance ratio of the noise word after the candidate is less than the determination value.
A speech recognition system for a mobile phone device according to claim 1.
【請求項3】 前記認識判定部は、第1候補がノイズ語
で、第2候補以降の認識語の出現割合が判定値以上の場
合には、認識結果を認識語と判定し、前記第2候補以降
の認識語の出現割合が判定値未満の場合には、認識結果
をノイズ語と判定することを特徴とする、請求項1に記
載の携帯電話装置の音声認識システム。
3. When the first candidate is a noise word and the appearance ratio of the recognized words after the second candidate is equal to or greater than a determination value, the recognition determination unit determines the recognition result as a recognized word. The speech recognition system according to claim 1, wherein the recognition result is determined to be a noise word when the appearance ratio of the recognized word after the candidate is less than the determination value.
【請求項4】 前記ノイズ語の出現割合、前記認識語の
出現割合は、複数のノイズ語、複数の認識語にそれぞれ
重みを付け、候補としてノイズ語、認識語が出現する毎
にそれぞれの重みを加算して算出されることを特徴とす
る、請求項2又は3に記載の携帯電話装置の音声認識シ
ステム。
4. The appearance rate of the noise word and the appearance rate of the recognition word are respectively weighted to a plurality of noise words and a plurality of recognition words, and each time a noise word or a recognition word appears as a candidate, 4. The speech recognition system for a mobile phone device according to claim 2, wherein the value is calculated by adding
【請求項5】 前記認識語の候補のうち、所定数よりも
少ない文字数で構成される前記認識語の候補を前記ノイ
ズ語の候補とすることを特徴とする、請求項1に記載の
携帯電話装置の音声認識システム。
5. The mobile phone according to claim 1, wherein, among the candidates for the recognition word, the candidates for the recognition word having a smaller number of characters than a predetermined number are set as the candidates for the noise word. Equipment speech recognition system.
【請求項6】 音声入力を行う携帯電話装置の音声認識
方法において、 音声を示す複数の認識語、複数のノイズ語が登録される
辞書を保持し、前記音声入力を認識して複数の候補の認
識結果を出力する工程と、 認識された認識語の候補の出現割合、ノイズ語の候補の
出現割合で、認識語か又はノイズ語かの判定処理を行う
工程とを備えることを特徴とする携帯電話装置の音声認
識方法。
6. A voice recognition method for a mobile phone device for performing voice input, comprising: a dictionary in which a plurality of recognition words indicating voice and a plurality of noise words are registered; Outputting a recognition result; and performing a process of determining whether the recognition word is a recognition word or a noise word based on the appearance ratio of the recognized recognition word candidate and the appearance ratio of the noise word candidate. Voice recognition method for telephone equipment.
JP20685699A 1999-07-21 1999-07-21 Speech recognition system for mobile phone Expired - Fee Related JP3415500B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20685699A JP3415500B2 (en) 1999-07-21 1999-07-21 Speech recognition system for mobile phone

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20685699A JP3415500B2 (en) 1999-07-21 1999-07-21 Speech recognition system for mobile phone

Publications (2)

Publication Number Publication Date
JP2001034288A true JP2001034288A (en) 2001-02-09
JP3415500B2 JP3415500B2 (en) 2003-06-09

Family

ID=16530188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20685699A Expired - Fee Related JP3415500B2 (en) 1999-07-21 1999-07-21 Speech recognition system for mobile phone

Country Status (1)

Country Link
JP (1) JP3415500B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014149457A (en) * 2013-02-01 2014-08-21 Sharp Corp Voice recognition device, electronic apparatus, and control program of voice recognition device
WO2020225949A1 (en) * 2019-05-08 2020-11-12 株式会社インタラクティブソリューションズ Conversion error dictionary creation system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014149457A (en) * 2013-02-01 2014-08-21 Sharp Corp Voice recognition device, electronic apparatus, and control program of voice recognition device
WO2020225949A1 (en) * 2019-05-08 2020-11-12 株式会社インタラクティブソリューションズ Conversion error dictionary creation system

Also Published As

Publication number Publication date
JP3415500B2 (en) 2003-06-09

Similar Documents

Publication Publication Date Title
US7840406B2 (en) Method for providing an electronic dictionary in wireless terminal and wireless terminal implementing the same
JP2003515816A (en) Method and apparatus for voice controlled foreign language translation device
CN107919138B (en) Emotion processing method in voice and mobile terminal
EP1170932B1 (en) Audible identification of caller and callee for mobile communication device
KR20080107376A (en) Communication device having speaker independent speech recognition
JP2000151760A (en) Portable information terminal
US8295449B2 (en) Method and system for creating audio identification messages
JPH10126479A (en) Method for selecting telephone number by voice control and voice controller to execute the method
US6249759B1 (en) Communication apparatus using speech vector comparison and recognition
KR100554442B1 (en) Mobile Communication Terminal with Voice Recognition function, Phoneme Modeling Method and Voice Recognition Method for the same
JP4157077B2 (en) Telephone
JP2001034288A (en) Voice recognition system and method for portable telephone system
JP2000338991A (en) Voice operation telephone device with recognition rate reliability display function and voice recognizing method thereof
US20040015353A1 (en) Voice recognition key input wireless terminal, method, and computer readable recording medium therefor
JP4349590B2 (en) Phones and programs
JP2000165489A (en) Telephone set
JP3278595B2 (en) mobile phone
KR100811554B1 (en) Communication terminal capable of dialing voice and method for dialing voice in the same
JP3032246B2 (en) Electronics
JPH11261683A (en) Telephone system, and recording medium with recording program and recording medium recording data recorded therein
JP2000197128A (en) Radio communication device
JP2001350499A (en) Voice information processor, communication device, information processing system, voice information processing method and storage medium
KR100640345B1 (en) Voice guidance on the phone with voice recognition
KR950009425B1 (en) The phonetic dialing phone
JP2000112491A (en) Device and method for judging character similarity, and device and method for recognizing voice

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080404

Year of fee payment: 5

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 6

Free format text: PAYMENT UNTIL: 20090404

LAPS Cancellation because of no payment of annual fees