JP5173895B2 - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP5173895B2 JP5173895B2 JP2009054740A JP2009054740A JP5173895B2 JP 5173895 B2 JP5173895 B2 JP 5173895B2 JP 2009054740 A JP2009054740 A JP 2009054740A JP 2009054740 A JP2009054740 A JP 2009054740A JP 5173895 B2 JP5173895 B2 JP 5173895B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- word
- recognition
- voice
- guidance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
Images
Description
本発明は、音声認識装置に関する。 The present invention relates to a speech recognition apparatus.
音声認識装置は、カーナビゲーションの目的地検索などの様々な分野で利用されている。音声認識装置では、一般に、音声認識辞書に収録される各単語のパターンとユーザが発声した音声(単語)のパターンとのマッチングを行い、その一致度の高い単語をユーザの発声した単語として認識する。このような音声認識では誤認識が発生する場合があるが、誤認識する毎にユーザに対するガイダンスが一律(例えば、「もう一度お話ください。」)だと、ユーザとの間で同じやりとりを繰り返すことになる。そのため、誤認識の要因を特定しないと、誤認識を何時までも繰り返す。そこで、特許文献1に記載の装置では、誤認識の要因(音声パワー、音声話速、音響特性、周辺雑音)を特定し、その要因をユーザに提示する。さらに、要因を提示後も誤認識が発生し、今回の誤認識の要因と前回の誤認識の要因が同じ場合、2番目の要因をユーザに提示する。 Voice recognition devices are used in various fields such as destination search for car navigation. In a speech recognition apparatus, generally, a pattern of each word recorded in a speech recognition dictionary and a speech (word) pattern uttered by a user are matched, and a word having a high degree of coincidence is recognized as a word uttered by the user. . Such voice recognition may cause misrecognition, but if the guidance to the user is uniform (for example, “Please speak again”) for each misrecognition, the same exchange with the user is repeated. Become. Therefore, if the cause of misrecognition is not specified, misrecognition is repeated forever. In view of this, the apparatus described in Patent Document 1 identifies the factors of misrecognition (speech power, speech speed, acoustic characteristics, ambient noise) and presents the factors to the user. Furthermore, when a factor is presented and misrecognition occurs, and the cause of the current misrecognition is the same as the factor of the previous misrecognition, the second factor is presented to the user.
誤認識の要因としては、上記に示したもの以外にも、音声認識辞書に収録されている単語以外の単語をユーザが使用している場合がある。この場合、上記の装置のようにユーザに対して要因を提示し、ユーザがその要因に注意しながら同じ単語を使用して再度発声しても、装置ではその発声した音声(単語)を正しく認識できず、誤認識を繰り返す。 As a cause of misrecognition, there are cases where the user uses a word other than the words recorded in the speech recognition dictionary in addition to the above. In this case, a factor is presented to the user as in the above device, and even if the user utters again using the same word while paying attention to the factor, the device correctly recognizes the voice (word) uttered. It is not possible to repeat the recognition error.
そこで、本発明は、誤認識を繰り返すことを抑制する音声認識装置を提供することを課題とする。 Then, this invention makes it a subject to provide the speech recognition apparatus which suppresses repeating misrecognition.
本発明に係る音声認識装置は、音声認識辞書に収録されている単語に基づいてユーザが発声した音声を認識する音声認識装置であって、誤認識が発生した場合、ユーザに対して誤認識の要因に注意して再発声を促した後に同じ誤認識が再度発生すると、ユーザが音声認識辞書に収録されていない単語を発声したと判断し、ユーザに対して言い換えを促すことを特徴とする。上記の再発声を促す際の注意する誤認識の要因は、声の大きさ、話すタイミング及び話す速さのうちの少なくとも1つである。 A speech recognition device according to the present invention is a speech recognition device that recognizes speech uttered by a user based on words recorded in a speech recognition dictionary, and when erroneous recognition occurs , When the same misrecognition occurs again after prompting the recurrence voice while paying attention to the factors, it is determined that the user has uttered a word not recorded in the speech recognition dictionary, and the user is prompted to paraphrase. The cause of the misrecognition to be noted when prompting the recurrent voice is at least one of loudness, speaking timing, and speaking speed.
この音声認識装置では、音声認識辞書に単語が収録されており、この収録されている単語のデータに基づいてユーザが発した音声(単語)を認識する。誤認識が発生した場合、音声認識装置では、ユーザが音声認識辞書に収録されていない単語を発声したと判断する。ユーザが音声認識辞書に収録されていない単語を発声している限り、音声認識装置ではその単語を正しく認識することはできないので、ユーザに異なる単語を使用して発声してもらう必要がある。そこで、音声認識装置では、音声認識辞書に収録されている単語をユーザに使用させるために、ユーザに対して異なる単語への言い換えを促す。これによって言い換えられた単語が音声認識辞書に収録されていれば、音声認識装置ではその単語を正しく認識することができる。このように、音声認識装置では、誤認識が発生した場合にはユーザに言い換えを促すことにより、誤認識を繰り返すことを抑制することができる。その結果、ユーザの音声認識装置への信頼性を向上させることができる。 In this speech recognition apparatus, words are recorded in the speech recognition dictionary, and speech (words) uttered by the user is recognized based on the recorded word data. When erroneous recognition occurs, the voice recognition device determines that the user has uttered a word that is not recorded in the voice recognition dictionary. As long as the user utters a word that is not recorded in the speech recognition dictionary, the speech recognition device cannot recognize the word correctly, so the user needs to utter using a different word. Therefore, in the speech recognition apparatus, in order to make the user use the words recorded in the speech recognition dictionary, the user is encouraged to paraphrase the words into different words. If the reworded word is recorded in the speech recognition dictionary, the speech recognition apparatus can correctly recognize the word. As described above, in the speech recognition apparatus, when erroneous recognition occurs, it is possible to suppress repeated erroneous recognition by prompting the user to paraphrase. As a result, the reliability of the user's voice recognition apparatus can be improved.
本発明の上記音声認識装置では、誤認識が発生した場合、ユーザに対して第2候補の単語を提示する構成としてもよい。 The voice recognition device of the present invention may be configured to present the second candidate word to the user when erroneous recognition occurs.
この音声認識装置では、音声認識辞書に収録される各単語とユーザが発声した音声(単語)との一致度を順次求め、最初に、ユーザに対して第1候補の単語(一致度の最も高い単語)を提示する。この第1候補の単語で誤認識が発生した場合、音声認識装置では、ユーザに対して、第2候補の単語(一致度が次に高い単語)を提示する。これによって第2候補の単語がユーザが発声した単語であれば、音声認識装置ではその単語を正しく認識できたことになる。このように、音声認識装置では、誤認識が発生した場合には第2候補の単語もユーザに提示することにより、誤認識を繰り返すことを更に抑制することができる。 In this speech recognition apparatus, the degree of coincidence between each word recorded in the speech recognition dictionary and the speech (word) uttered by the user is sequentially obtained. First, the first candidate word (the highest degree of coincidence) is given to the user. Word). When a misrecognition occurs in the first candidate word, the speech recognition apparatus presents the second candidate word (word with the next highest matching score) to the user. As a result, if the second candidate word is a word uttered by the user, the speech recognition apparatus can recognize the word correctly. As described above, in the speech recognition apparatus, when erroneous recognition occurs, the second candidate word is also presented to the user, whereby repeated erroneous recognition can be further suppressed.
本発明は、誤認識が発生した場合にはユーザに言い換えを促すことにより、誤認識を繰り返すことを抑制することができる。 The present invention can suppress repeated misrecognition by prompting the user to paraphrase when misrecognition occurs.
以下、図面を参照して、本発明に係る音声認識装置の実施の形態を説明する。 Hereinafter, embodiments of a speech recognition apparatus according to the present invention will be described with reference to the drawings.
本実施の形態では、本発明に係る音声認識装置を、車両に搭載される音声認識装置に適用する。本実施の形態に係る音声認識装置は、車両に搭載されるナビゲーション装置、エアコン装置、オーディオ装置などにおける各種設定操作に利用され、各種設定操作中にユーザ(運転者など)が発声した音声(単語)を認識し、正しく認識できた音声(単語)を各装置に出力する。 In this embodiment, the speech recognition apparatus according to the present invention is applied to a speech recognition apparatus mounted on a vehicle. The voice recognition device according to the present embodiment is used for various setting operations in a navigation device, an air conditioner device, an audio device and the like mounted on a vehicle, and a voice (word) uttered by a user (driver or the like) during the various setting operations. ) And outputs the voice (word) that has been correctly recognized to each device.
図1を参照して、本実施の形態に係る音声認識装置1について説明する。図1は、本実施の形態に係る音声認識装置の構成図である。 A speech recognition apparatus 1 according to the present embodiment will be described with reference to FIG. FIG. 1 is a configuration diagram of a speech recognition apparatus according to the present embodiment.
音声認識装置1は、音声認識辞書31に収録されている単語のデータに基づいてユーザが発声した音声(単語)を認識し、その認識結果がユーザとの対話から誤認識か否かを判断する。特に、音声認識装置1では、誤認識と判断した場合、誤認識を繰り返すことを防止するために、ユーザに対するガイダンスを順次変える。そのために、音声認識装置1は、マイクロフォン10、スピーカ20、ECU[Electronic Control Unit]30を備えている。
The speech recognition apparatus 1 recognizes speech (words) uttered by the user based on word data recorded in the
マイクロフォン10は、車室内(特に、前席周辺)に取り付けられ、空気の振動からなる音(特に、ユーザが発声した音声)を集音する。マイクロフォン10では、音が入力されるとその音を電気信号に変換し、その電気信号を入力音声信号としてECU30に送信する。
The
スピーカ20は、他のシステムと共用される車載スピーカである。スピーカ20では、ECU30からガイダンス信号を受信すると、そのガイダンス信号に応じて音声を出力する。
The
ECU30は、CPU[CentralProcessing Unit]、ROM[Read Only Memory]、RAM[Random Access Memory]などからなる電子制御ユニットであり、音声認識装置1を統括制御する。ECU30では、マイクロフォン10から入力音声信号を受信する。車両の各装置での設定操作中に入力音声信号を受信すると、ECU30では、音声認識辞書31を参照して、音声認識エンジン32でユーザが発声した音声(単語)を認識する。ユーザとの対話中、ECU30では、音声認識エンジン32での認識結果に基づいて、対話エンジン33でガイダンスの内容を設定し、ガイダンス信号をスピーカ20に送信する。特に、誤認識と判断した場合、ECU30では、対話エンジン33でユーザに対する再音声入力時の注意点を考慮したガイダンスの内容を設定する。また、正しい認識と判断した場合、ECU30では、正しい認識の単語の情報からなる認識情報信号を設定操作中の装置に送信する。
The
音声認識辞書31は、ECU30の記憶装置の所定の領域に設けられる。音声認識辞書31には、車両の各装置における各種設定で使用される可能性がある多数の単語を収録しており、各単語についてのパターンデータ(例えば、周波数特性のパターン)を収録している。
The
音声認識エンジン32では、車両の各装置での各種設定操作中に入力音声信号を受信する毎に、マイクロフォン10に入力された音声(電気信号)に対して周波数解析を行い、その入力音声を周波数特性のパターンに変換する。そして、音声認識エンジン32では、音声認識辞書31に収録されている単語毎に、その入力音声の周波数特性のパターンと収録単語のパターンとのマッチングを行い、一致度を算出する。さらに、音声認識エンジン32では、各単語の一致度が閾値以上か否かを判定し、一致度が閾値以上の単語がない場合には認識エラーと判断し、一致度が閾値以上の単語がある場合には一致度の高い順に認識した単語の候補とする。
Each time the
対話エンジン33では、音声認識エンジン32で認識エラーと判断した場合、ユーザに再音声入力を促すためのガイダンスの内容(例えば、「もう一度、はっきりとお話ください。」)を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する。
In the
対話エンジン33では、一致度が閾値以上の単語がある場合、まず、1番目の候補の単語での認識結果を提示するためのガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する。1番目の候補の単語での認識結果を提示した後に、音声認識エンジン32でユーザから応答として肯定的な単語(例えば、「はい」)を認識した場合、対話エンジン33では、1番目の候補の単語での認識が正しい認識と判断する。この際、ECU30では、設定操作中の装置に、1番目の候補の単語の情報を認識情報信号として送信する。
In the
候補の単語での認識結果を提示した後に、音声認識エンジン32でユーザから応答として否定的な単語(例えば、「いいえ」)を認識した場合、対話エンジン33では、その認識結果が誤認識と判断する。この際、誤認識の要因は不明であるので、誤認識の要因と考えられるものから順にユーザに提示する。誤認識の要因としては、声が大きい、声が小さい、話すタイミングが早い、話す速さが速い、音声認識辞書31に収録されていない単語の入力、ユーザ固有の特性(そもそも認識し難い、語尾が小さくなるなど)、マイクロフォン10が使用不可状態(タイムアウトなど)などが考えられる。そこで、対話エンジン33では、誤認識の各要因に注意して再音声入力させるためのガイダンスの内容を順に設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する。例えば、「もう一度、大きい声でお話ください。」、「もう一度、ゆっくりとお話ください。」、「言い方(あるいは、単語)を変えてお話ください。」の順に提示する。この際、前回のガイダンス内容を記憶しておき、再度、同じ内容のガイダンスを提示しないようにする。なお、誤認識の要因を考慮したガイダンスの提示順序は、予め決められていてもよいし、あるいは、ユーザやそのときの状況などによって決めてもよい。
When the
誤認識の各要因に注意して再音声入力させるためのガイダンスを提示した後に、音声認識エンジン32でユーザからの応答として前回の認識結果と同じ単語を再度認識した場合、対話エンジン33では、誤認識の要因が声の大きさ、話すタイミングや速さではないと判断する。この際、認識結果として2番目の候補の単語がある場合、対話エンジン33では、2番目の候補の単語での認識結果を提示するためのガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する。2番目の候補の単語での認識結果を提示した後に、音声認識エンジン32でユーザから応答として肯定的な単語を認識した場合、対話エンジン33では、2番目の候補の単語での認識が正しい認識と判断する。この際、ECU30では、設定操作中の装置に、2番目の候補の単語の情報を認識情報信号として送信する。なお、2番目の候補の単語での認識結果も否定された場合、3番目以降の候補もあるときには、3番目以降の候補を用いて同様のガイダンスを行う。
If the
一方、誤認識の要因が声の大きさ、話すタイミングや速さではないと判断し、認識結果として候補の単語がなくなった場合、対話エンジン33では、誤認識の要因として音声認識辞書31に収録されていない単語をユーザが使用していると判断する。そして、対話エンジン33では、言い方(あるいは、単語)を変えて再音声入力させるためのガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する。
On the other hand, if it is determined that the cause of misrecognition is not the loudness of the voice, the timing or speed of speaking, and the candidate word disappears as a recognition result, the
言い方を変えて再音声入力させるためのガイダンスを提示した後に、音声認識エンジン32でユーザからの応答として前回の認識結果と異なる候補の単語を認識した場合、対話エンジン33では、その前回と異なる候補の単語での認識結果を提示するためのガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する。前回と異なる候補の単語での認識結果を提示した後に、音声認識エンジン32でユーザから応答として肯定的な単語を認識した場合、対話エンジン33では、その候補の単語での認識が正しい認識と判断する。この際、ECU30では、設定操作中の装置に、その候補の単語の情報を認識情報信号として送信する。なお、認識結果を提示した後に、音声認識エンジン32でユーザから応答として否定的な単語を認識した場合、再度、言い方を変えて再音声入力させるためのガイダンスを行う。
When the
なお、対話エンジン33で用いる各状況(例えば、認識エラーと判断した場合、各候補の単語での認識結果を提示する場合、誤認識と判断したときに声の大きさ、話すタイミング、話す速さなどを変えることを促す場合、誤認識と判断したときに言い方や単語を変えることを促す場合)に応じたガイダンスの基本文章は、予め用意され、ECU30の記憶装置の所定の領域に格納されている。
It should be noted that each situation used in the dialog engine 33 (for example, when a recognition error is determined, when a recognition result for each candidate word is presented, when loudness is determined as a misrecognition, loudness, speaking timing, speaking speed) The basic text of the guidance corresponding to the case of prompting the user to change the language or the case of prompting the user to change the wording or the word when judging the misrecognition is prepared in advance and stored in a predetermined area of the storage device of the
図1を参照して、音声認識によって設定操作中のユーザとやりとりを行う音声認識装置1における動作について説明する。ここでは、ユーザがナビゲーション装置における目的地設定(特に、目的地検索)を行っている場合を例に挙げて説明する。2つのケースについて説明し、1つ目のケースが認識結果として1番目の候補しかない場合(誤認識の要因として「カフェ」という単語が音声認識辞書31に収録されていない場合)であり、2つ目のケースが認識結果として2番目の候補がある場合(誤認識の要因として「カフェ」という単語を2番目の候補として認識した場合)である。1つ目のケースについては図2のフローチャートに沿って説明し、2つの目のケースについては図3のフローチャートに沿って説明する。
With reference to FIG. 1, the operation in the speech recognition apparatus 1 that communicates with a user who is performing a setting operation by speech recognition will be described. Here, a case where the user is performing destination setting (particularly, destination search) in the navigation device will be described as an example. Two cases will be described. The first case is the case where there is only the first candidate as a recognition result (when the word “cafe” is not recorded in the
1つ目のケースについて説明する。ユーザが、目的地を検索するために、「六本木のカフェ」と発声する(S10)。この音声を集音すると、マイクロフォン10では、電気信号に変換してECU30に入力音声信号として送信する。この入力音声信号を受信すると、ECU30の音声認識エンジン32では、音声認識辞書31に収録されている各単語のパターンデータと入力音声のパターンとのマッチングをそれぞれ行い、1番目の候補の単語として「六本木」と「パフェ」を認識する(R10)。そして、対話エンジン33では、この1番目の候補の単語の「六本木」と「パフェ」を用いて「六本木 パフェで探しますか?」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する(G10)。このガイダンス信号を受信すると、スピーカ20では、このガイダンス信号に応じて「六本木 パフェで探しますか?」という音声を出力する(G10)。
The first case will be described. The user speaks “Roppongi Cafe” in order to search for a destination (S10). When this sound is collected, the
この「六本木 パフェで探しますか?」というガイダンスを聞いて、ユーザは、それを否定するために、「いいえ」と発声する(S11)。この音声を集音すると、マイクロフォン10では、上記と同様にECU30に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン32では、上記同様にパターンマッチングを行い、「いいえ」を認識する(R11)。そして、対話エンジン33では、この「いいえ」という否定的な単語に基づいて、R10で認識された「六本木」と「パフェ」が誤認識と判断する(J11)。この際、誤認識の要因は不明であるので、対話エンジン33では、ユーザに誤認識の要因に注意して再音声入力させるために、決められた順に従って、「声の大きさを変えてお話ください」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する(G11)。このガイダンス信号を受信すると、スピーカ20では、このガイダンス信号に応じて「声の大きさを変えてお話ください」という音声を出力する(G11)。
Upon hearing this guidance “Would you like to search at Roppongi Parfait?”, The user speaks “No” to deny it (S11). When this sound is collected, the
この「声の大きさを変えてお話ください」というガイダンスを聞いて、ユーザは、再度、大きな声で、「六本木のカフェ」と発声する(S12)。この音声を集音すると、マイクロフォン10では、上記と同様にECU30に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン32では、上記と同様にパターンマッチングを行い、再度、1番目の候補の単語として「六本木」と「パフェ」を認識する(R12)。そして、対話エンジン33では、今回の認識結果(「六本木」と「パフェ」)がR10での前回の認識結果(「六本木」と「パフェ」)と同じであるため、誤認識と判断するとともに誤認識の要因が音声認識辞書31に収録されていない単語の使用(声の大きさ、話すタイミングや速さではない)と推測する(J12)。そこで、対話エンジン33では、ユーザに言い方を変えて再音声入力させるために、「言い方を変えてお話ください。渋谷でラーメンが食べたいのように目的から探すことが出来ます」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する(G12)。このガイダンス信号を受信すると、スピーカ20では、このガイダンス信号に応じて「言い方を変えてお話ください。渋谷でラーメンが食べたいのように目的から探すことが出来ます」という音声を出力する(G12)。
Upon listening to the guidance “Please change the loudness of the voice”, the user again speaks loudly as “Roppongi Cafe” (S12). When this sound is collected, the
この「言い方を変えてお話ください。渋谷でラーメンが食べたいのように目的から探すことが出来ます」というガイダンスを聞いて、ユーザは、コーヒーを飲みたかったので、「六本木でコーヒーが飲みたい」と発声する(S13)。この音声を集音すると、マイクロフォン10では、上記と同様にECU30に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン32では、上記と同様にパターンマッチングを行い、1番目の候補の単語として「六本木」と「コーヒー」を認識する(R13)。そして、対話エンジン33では、この1番目の候補の単語の「六本木」と「コーヒー」を用いて「六本木 コーヒーで探しますか?」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する(G13)。このガイダンス信号を受信すると、スピーカ20では、このガイダンス信号に応じて「六本木 コーヒーで探しますか?」という音声を出力する(G13)。
The user wanted to drink coffee after listening to this guidance, “Please speak in different ways. You can search for purposes like ramen in Shibuya.” “I want to drink coffee in Roppongi.” (S13). When this sound is collected, the
この「六本木 コーヒーで探しますか?」というガイダンスを聞いて、ユーザは、それを肯定するために、「はい」と発声する(S14)。この音声を集音すると、マイクロフォン10では、上記と同様にECU30に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン32では、上記同様にパターンマッチングを行い、「はい」を認識する(R14)。そして、対話エンジン33では、この「はい」という肯定的な単語に基づいて、R13で認識された「六本木」と「コーヒー」が正しい認識と判断する(J14)。そして、ECU30では、音声認識結果として「六本木」と「コーヒー」を含む認識情報信号をナビゲーション装置に送信する。
Upon listening to the guidance “Do you want to search for coffee in Roppongi?”, The user speaks “Yes” to affirm it (S14). When this sound is collected, the
2つ目のケースについて説明する。この2つ目のケースでは、音声認識エンジン32での2回目の「六本木」と「パフェ」と認識するR22までの動作は、1つ目のケースと同様の動作である。但し、音声認識エンジン32では、認識結果として、1番目の候補の「パフェ」の次に2番目の候補として「カフェ」を認識している。
The second case will be described. In this second case, the operation up to R22 for recognizing “Roppongi” and “parfait” for the second time by the
対話エンジン33では、今回の認識結果(「六本木」と「パフェ」)がR20での前回の認識結果(「六本木」と「パフェ」)と同じであるため、誤認識と判断する(J22)。ここで、2番目の候補の単語として「カフェ」があるので、対話エンジン33では、1番目の候補の「パフェ」を候補外とし、「六本木」と2番目の候補の単語の「カフェ」を用いて「六本木 カフェで探しますか?」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ20に送信する(G22)。このガイダンス信号を受信すると、スピーカ20では、このガイダンス信号に応じて「六本木 カフェで探しますか?」という音声を出力する(G22)。
In the
この「六本木 カフェで探しますか?」というガイダンスを聞いて、ユーザは、それを肯定するために、「はい」と発声する(S23)。この音声を集音すると、マイクロフォン10では、上記と同様にECU30に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン32では、上記同様にパターンマッチングを行い、「はい」を認識する(R23)。そして、対話エンジン33では、この「はい」という肯定的な単語に基づいて、R23で認識された「六本木」と2番目の候補の「カフェ」が正しい認識と判断する(J23)。そして、ECU30では、音声認識結果として「六本木」と「カフェ」を含む認識情報信号をナビゲーション装置に送信する。
Upon hearing the guidance “Do you want to look for at Roppongi Cafe?”, The user utters “Yes” to affirm it (S23). When this sound is collected, the
この音声認識装置1によれば、誤認識と判断し、誤認識の要因が特定できていない場合にはガイダンスの内容を順次変えることにより、誤認識の要因を考慮してユーザに再音声入力させることができ、誤認識を繰り返すことを抑制することができる。その結果、ユーザの音声認識装置への信頼性を向上させることができる。特に、音声認識装置1によれば、ユーザに言い換えを促すガイダンスを行うことにより、音声認識辞書31に収録されていない単語を使用してユーザが音声入力したときでも、ユーザに前回とは異なる単語を使用して再音声入力させることができる。また、音声認識装置1によれば、2番目以降の候補の認識結果もある場合には2番目以降の候補の単語もユーザに順次提示することにより、誤認識を繰り返すことを更に抑制することができる。
According to this voice recognition device 1, it is determined that the recognition is erroneous, and if the cause of the erroneous recognition cannot be specified, the content of the guidance is sequentially changed to allow the user to input the voice again in consideration of the cause of the erroneous recognition. It is possible to suppress erroneous recognition. As a result, the reliability of the user's voice recognition apparatus can be improved. In particular, according to the voice recognition device 1, even when a user inputs a voice using a word that is not recorded in the
以上、本発明に係る実施の形態について説明したが、本発明は上記実施の形態に限定されることなく様々な形態で実施される。 As mentioned above, although embodiment which concerns on this invention was described, this invention is implemented in various forms, without being limited to the said embodiment.
例えば、本実施の形態では車両に搭載される音声認識装置に適用したが、他の様々な分野に適用可能である。 For example, in the present embodiment, the present invention is applied to a voice recognition device mounted on a vehicle, but can be applied to various other fields.
また、本実施の形態では誤認識と判断した場合のガイダンスの内容や順序の一例を示したが、ガイダンスの内容や順序については特に限定するものではなく、誤認識の繰り返しを防止するための内容や順序であればよい。例えば、誤認識と判断した場合、声の大きさ、話すタイミングや速さなどを変えることを促すのではなく、最初から、言い方や単語を変えて話すことを促すようにしてもよい。 In addition, in the present embodiment, an example of the content and order of guidance when it is determined to be misrecognized is shown, but the content and order of guidance are not particularly limited, and content for preventing repeated misrecognition. Or any order. For example, when it is determined that the recognition is wrong, it may be urged not to change the volume of the voice, the timing or speed of speaking, but to change the way of speaking or the word from the beginning.
また、本実施の形態では認識結果として単語の候補が複数ある場合には1番目の候補の単語を誤認識と判断したときには2番目以降の候補の単語をユーザに提示する構成としたが、単語の候補が複数ある場合でも2番目以降の候補の単語をユーザに提示しない構成としてもよい。 Also, in this embodiment, when there are a plurality of word candidates as recognition results, the first candidate word is determined to be misrecognized, and the second and subsequent candidate words are presented to the user. Even when there are a plurality of candidates, the second and subsequent candidate words may not be presented to the user.
1…音声認識装置、10…マイクロフォン、20…スピーカ、30…ECU、31…音声認識辞書、32…音声認識エンジン、33…対話エンジン DESCRIPTION OF SYMBOLS 1 ... Voice recognition apparatus, 10 ... Microphone, 20 ... Speaker, 30 ... ECU, 31 ... Voice recognition dictionary, 32 ... Voice recognition engine, 33 ... Dialog engine
Claims (3)
誤認識が発生した場合、ユーザに対して誤認識の要因に注意して再発声を促した後に同じ誤認識が再度発生すると、ユーザが音声認識辞書に収録されていない単語を発声したと判断し、ユーザに対して言い換えを促すことを特徴とする音声認識装置。 A speech recognition device for recognizing speech uttered by a user based on words recorded in a speech recognition dictionary,
When misrecognition occurs, if the same misrecognition occurs again after prompting the user to pay attention to the cause of misrecognition and then recite, it is determined that the user has uttered a word not recorded in the speech recognition dictionary A speech recognition apparatus that prompts the user to paraphrase.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009054740A JP5173895B2 (en) | 2009-03-09 | 2009-03-09 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009054740A JP5173895B2 (en) | 2009-03-09 | 2009-03-09 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010210756A JP2010210756A (en) | 2010-09-24 |
JP5173895B2 true JP5173895B2 (en) | 2013-04-03 |
Family
ID=42971013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009054740A Active JP5173895B2 (en) | 2009-03-09 | 2009-03-09 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5173895B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5158174B2 (en) * | 2010-10-25 | 2013-03-06 | 株式会社デンソー | Voice recognition device |
KR20160045353A (en) | 2014-10-17 | 2016-04-27 | 현대자동차주식회사 | Audio video navigation, vehicle and controlling method of the audio video navigation |
JP7347990B2 (en) * | 2019-08-16 | 2023-09-20 | 株式会社日本レカム | Automatic update of automatic translation machine using voice recognition using artificial intelligence, update distribution and information system |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006058390A (en) * | 2004-08-17 | 2006-03-02 | Nissan Motor Co Ltd | Speech recognition device |
-
2009
- 2009-03-09 JP JP2009054740A patent/JP5173895B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010210756A (en) | 2010-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824391B2 (en) | Audio user interface apparatus and method | |
US20230178077A1 (en) | Techniques for wake-up work recognition and related systems and methods | |
US11295748B2 (en) | Speaker identification with ultra-short speech segments for far and near field voice assistance applications | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
US9881616B2 (en) | Method and systems having improved speech recognition | |
US6839670B1 (en) | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process | |
US20050216271A1 (en) | Speech dialogue system for controlling an electronic device | |
US10621985B2 (en) | Voice recognition device and method for vehicle | |
US20200075028A1 (en) | Speaker recognition and speaker change detection | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
US20100100382A1 (en) | Detecting Segments of Speech from an Audio Stream | |
US20070198268A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP2012073364A (en) | Voice interactive device, method, program | |
JP5173895B2 (en) | Voice recognition device | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2018116130A (en) | In-vehicle voice processing unit and in-vehicle voice processing method | |
EP4244851A1 (en) | Hotphrase triggering based on a sequence of detections | |
JP2011203434A (en) | Voice recognition device and voice recognition method | |
JP2018116206A (en) | Voice recognition device, voice recognition method and voice recognition system | |
WO2015093013A1 (en) | Speech recognition apparatus and computer program product for speech recognition | |
JP4635683B2 (en) | Speech recognition apparatus and method | |
JP2003255987A (en) | Method, unit, and program for control over equipment using speech recognition | |
JPH11109987A (en) | Speech recognition device | |
EP1426924A1 (en) | Speaker recognition for rejecting background speakers | |
KR20230092180A (en) | Vehicle and method for controlling thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120131 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20120309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121227 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5173895 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160111 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |