JP4941494B2 - Speech recognition system - Google Patents
Speech recognition system Download PDFInfo
- Publication number
- JP4941494B2 JP4941494B2 JP2009082675A JP2009082675A JP4941494B2 JP 4941494 B2 JP4941494 B2 JP 4941494B2 JP 2009082675 A JP2009082675 A JP 2009082675A JP 2009082675 A JP2009082675 A JP 2009082675A JP 4941494 B2 JP4941494 B2 JP 4941494B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- unnecessary
- unit
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、例えば車両用ナビゲーション装置などに適用される音声認識システムに関する。 The present invention relates to a speech recognition system applied to, for example, a vehicle navigation apparatus.
近年、ユーザが発話した音声を認識し、その認識結果に基づいて、操作対象機器を操作したり、ユーザに対してサービスを提供したりするシステムが開発され、実用に供されつつある。 In recent years, a system for recognizing a voice spoken by a user and operating an operation target device or providing a service to the user based on the recognition result has been developed and put into practical use.
例えば、特許文献1には、ユーザの音声を認識し、その認識結果に基づいて、注文の受付やデータベースの検索などのサービスを提供する音声応答装置が記載されている。この音声応答装置では、音声認識部によって、音声認識辞書部に予め登録したどの語句がどのような順序で発声されたかを認識する。そして、不要語検出部により、音声認識部の認識結果に、音声応答装置の操作に必要でない語句である不要語が含まれているか否かを調べる。不要語が含まれているときには、不要語検出部は、さらに、不要語と認識結果内の目的語との位置関係を調べる。
For example,
そして、習熟度推定部により、不要語検出部が調べた結果に基づいて、ユーザの音声応答装置の操作の習熟度を推測する。会話フロー制御部は、予め格納した会話フローから、推測した習熟度に対応した会話フローに含まれるガイダンスを取り出し、ユーザに出力する。 Then, the proficiency level estimation unit estimates the proficiency level of the user's operation of the voice response device based on the result of the examination by the unnecessary word detection unit. The conversation flow control unit extracts the guidance included in the conversation flow corresponding to the estimated proficiency level from the conversation flow stored in advance, and outputs the guidance to the user.
特許文献1に記載された音声応答装置では、上述したようにして、ユーザの操作の習熟度に応じたガイダンスを行なうようにしている。
In the voice response device described in
しかしながら、特許文献1に記載されたように、不要語が含まれているか否か、および不要語と目的語との位置関係から、ユーザの操作の習熟度を推測しようとすると、膨大な認識語彙からなる音声認識辞書を用いる必要が生じる。すなわち、もともと膨大である目的語を認識するための認識語彙の他、非常に多数の不要語を認識するための認識語彙も対象として、ユーザの発話音声と照合する必要がある。このように膨大な認識語彙との照合を行なった場合、却って誤認識の確率が高まり、音声認識性能を低下させてしまう虞が生じる。
However, as described in
本発明は、このような点に鑑みてなされたものであり、極力、認識語彙に含まれる不要語の数が少ない辞書を用いて音声認識を行なうことにより、音声認識性能の低下を抑制することが可能な音声認識システムを提供することを目的とする。 The present invention has been made in view of these points, and suppresses a decrease in speech recognition performance by performing speech recognition using a dictionary with a small number of unnecessary words included in the recognition vocabulary as much as possible. An object of the present invention is to provide a voice recognition system capable of
上記目的を達成するために、請求項1に記載の音声認識システムは、
音声を入力する音声入力部と、
音声入力部に入力された音声に基づき、話者を識別する話者識別手段と、
音声入力部に入力された音声を、多数の認識語彙を有する辞書を用いて認識する音声認識部と、
話者識別手段によって識別された話者毎に、音声認識部により認識された音声における、入力音声として本来不要である不要語をカウントするとともに、そのカウント結果に基づいて算出した不要語使用頻度を記憶する不要語使用頻度記憶部と、
音声認識部にて使用する辞書として、含まれる不要語の数が異なる複数の辞書が用意されており、話者識別手段により識別された話者に対して、不要語使用頻度記憶部に不要語使用頻度が記憶されている場合、音声認識部における使用辞書を、記憶されている不要語使用頻度に応じた不要語の数の辞書に切り替える辞書切替部と、を備えることを特徴とする。
In order to achieve the above object, a speech recognition system according to
A voice input unit for inputting voice;
Speaker identification means for identifying a speaker based on the voice input to the voice input unit;
A speech recognition unit for recognizing speech input to the speech input unit using a dictionary having a large number of recognition vocabularies;
For each speaker identified by the speaker identification means, unnecessary words that are originally unnecessary as input speech in the speech recognized by the speech recognition unit are counted, and the unnecessary word usage frequency calculated based on the count result is calculated. An unnecessary word use frequency storage unit for storing;
Multiple dictionaries with different numbers of unnecessary words are prepared as dictionaries to be used in the speech recognition unit, and unnecessary words are stored in the unnecessary word usage frequency storage unit for speakers identified by the speaker identification means. And a dictionary switching unit that switches the use dictionary in the speech recognition unit to a dictionary having the number of unnecessary words corresponding to the stored unnecessary word use frequency when the use frequency is stored.
上述したように、請求項1に記載の発明では、音声入力部に入力された音声から話者を識別し、その話者の発話音声における不要語の使用頻度を算出して、話者毎に不要語使用頻度として記憶する。この不要語使用頻度は、話者毎に、どの程度頻繁に不要語を使用するかの傾向を表すものとなる。 As described above, according to the first aspect of the present invention, the speaker is identified from the voice input to the voice input unit, and the use frequency of the unnecessary word in the voice of the speaker is calculated. It is stored as an unnecessary word usage frequency. This unnecessary word usage frequency represents a tendency of how often unnecessary words are used for each speaker.
従って、入力された音声に基づいて話者が識別されたとき、その話者に対して不要語使用頻度が記憶されている場合、音声認識部において使用される辞書を、記憶されている不要語使用頻度に応じた不要語の数の辞書に切り替える。この結果、不要語を使用する頻度が高いユーザの音声認識には、不要語の数が相対的に多い辞書が使用されるが、不要語を使用する頻度が低いユーザの音声認識には、不要語の数が相対的に少ない辞書が使用される。このように、請求項1の発明では、音声認識用の辞書として、ユーザの不要語の使用頻度に応じた不要語の数の辞書を用いるので、ユーザの音声認識に際して、極力、不要語の数の少ない辞書を用いることができる。 Therefore, when a speaker is identified on the basis of the input speech, and the unnecessary word usage frequency is stored for the speaker, the dictionary used in the speech recognition unit is stored as a stored unnecessary word. Switch to a dictionary with as many unnecessary words as you want. As a result, a dictionary with a relatively large number of unnecessary words is used for voice recognition of users who frequently use unnecessary words, but it is not necessary for voice recognition of users who use less unnecessary words. A dictionary with a relatively small number of words is used. Thus, according to the first aspect of the present invention, as the dictionary for speech recognition, a dictionary having the number of unnecessary words corresponding to the frequency of use of unnecessary words by the user is used. A dictionary with few can be used.
請求項2に記載したように、前記辞書は、入力音声として必要な語彙である目的語を集めた目的語辞書と、入力音声として本来不要である不要語を集めた不要語辞書とからなり、当該不要語辞書として、不要語の数が異なる複数の辞書が用意されており、辞書切替部は、記憶されている不要語使用頻度に応じて、不要語辞書を切り替えるものであって、音声認識部は、目的語辞書と、辞書切替部によって切り替えられた不要語辞書を用いて音声認識を行なうことが好ましい。このように、目的語辞書と不要語辞書とを切り離し、不要語辞書のみ切り替え対象とすることにより、辞書の容量が過大となることを防止することができる。
As described in
請求項3に記載したように、辞書切替部は、不要語辞書を不使用とするように、不要語辞書の切り替えを行なうことが可能であることが好ましい。例えば、ユーザが音声認識システムの操作に習熟している場合には、その入力音声の認識のために不要語辞書が必要とされないこともありえるためである。 As described in claim 3, it is preferable that the dictionary switching unit can switch the unnecessary word dictionary so that the unnecessary word dictionary is not used. For example, if the user is familiar with the operation of the voice recognition system, an unnecessary word dictionary may not be required for the recognition of the input voice.
請求項4に記載したように、ユーザの操作に基づいて、音声によって入力される情報の種類を決定する決定手段を備え、辞書切替部は、決定手段により音声入力情報の種類が決定された場合、その決定された音声入力情報の種類も考慮して、音声認識部における使用辞書の切り替えを行なうことが好ましい。 According to a fourth aspect of the present invention, there is provided a determining unit that determines a type of information input by voice based on a user operation, and the dictionary switching unit is configured such that the type of the voice input information is determined by the determining unit In consideration of the determined type of voice input information, it is preferable to switch the use dictionary in the voice recognition unit.
例えば、車両用ナビゲーション装置を操作対象装置とし、目的地を設定するための情報として、地理的情報とジャンルとを組み合わせて音声入力する場合と電話番号を音声入力する場合とでは、地理的情報とジャンルとを音声入力する場合の方が、不要語は増加する傾向にある。このように、音声入力される情報の種類と、入力音声に含まれる不要語の数とは、ある程度相関関係を有する。従って、請求項4に記載したように、音声入力情報の種類も考慮して使用辞書の切り替えを行なうことが好ましい。 For example, when the vehicle navigation device is an operation target device and the information for setting the destination is a combination of geographical information and a genre, and a case where a phone number is input, the geographical information is The unnecessary words tend to increase when the genre is input by voice. As described above, the type of information input by speech and the number of unnecessary words included in the input speech have a certain degree of correlation. Therefore, as described in claim 4, it is preferable to switch the use dictionary in consideration of the type of voice input information.
音声入力情報の種類も考慮して使用辞書の切り替えを行なう具体的な手法が、請求項5及び請求項6に記載されている。 Specific methods for switching the use dictionary in consideration of the type of voice input information are described in claims 5 and 6.
すなわち、請求項5に記載したように、辞書切替部は、決定手段により音声入力情報の種類が決定された場合、話者識別手段により識別された話者の不要語使用頻度に係らず、決定された音声入力情報の種類に応じた不要語の数の辞書に切り替えても良い。ユーザ毎の個人差よりも、音声入力情報の種類の方が、ユーザの発話音声に含まれる不要語の数に与える影響が大きいと考えられるためである。 That is, as described in claim 5, when the type of the voice input information is determined by the determining unit, the dictionary switching unit determines the use regardless of the use frequency of unnecessary words of the speaker identified by the speaker identifying unit. The dictionary may be switched to the number of unnecessary words corresponding to the type of the voice input information. This is because the type of voice input information is considered to have a greater influence on the number of unnecessary words included in the user's uttered voice than the individual difference for each user.
また、請求項6に記載したように、辞書切替部は、話者識別手段により識別された話者の不要語使用頻度に応じた不要語の数の辞書と、音声入力情報の種類に応じた不要語の数の辞書とで、より不要語の数が多い辞書に切り替えるようにしても良い。これにより、音声認識部において使用される辞書を、ユーザ毎の個人差による不要語の使用数と、音声入力情報の種類に起因する不要語の使用数とに適切に対応する辞書に切り替えることが可能になる。 Further, as described in claim 6, the dictionary switching unit responds to the dictionary of the number of unnecessary words according to the frequency of unnecessary word usage of the speaker identified by the speaker identifying means and the type of the voice input information. A dictionary having a larger number of unnecessary words may be switched to a dictionary having the number of unnecessary words. Thereby, the dictionary used in the speech recognition unit can be switched to a dictionary appropriately corresponding to the number of unnecessary words used due to individual differences for each user and the number of unnecessary words used due to the type of voice input information. It becomes possible.
以下、本発明の実施形態について図面を用いて説明する。なお、以下に説明する実施形態では、本発明の音声認識システムが車両用ナビゲーション装置に適用されているが、本発明の音声認識システムの適用対象は、車両用ナビゲーション装置に限られるものではない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the embodiment described below, the voice recognition system of the present invention is applied to a vehicle navigation apparatus, but the application target of the voice recognition system of the present invention is not limited to the vehicle navigation apparatus.
図1に示すように、車両用ナビゲーション装置2は、位置検出器4、データ入力器6、操作スイッチ群8、これらに接続された制御回路10、制御回路10に接続された通信装置12、外部メモリ14、表示装置16、リモコンセンサ18及び音声認識システム30を備えている。なお制御回路10は通常のコンピュータとして構成されており、内部には、周知のCPU、ROM、RAM、I/O及びこれらの構成を接続するバスラインを備えている。
As shown in FIG. 1, the
位置検出器4は、周知のジャイロスコープ20、距離センサ22及び衛星からの電波に基づいて車両の位置を検出するためのGPS受信機24を有している。これらのセンサ等20,22,24は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。
The position detector 4 has a known
データ入力器6は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含むナビゲーション用の各種データに加えて、音声認識システム30において認識処理を行なう際に用いる辞書データを入力するための装置である。記憶媒体としては、そのデータ量からハードディスクやDVDを用いるのが一般的であるが、CD−ROM等の他の媒体を用いても良い。
In addition to so-called map matching data for improving the accuracy of position detection, various data for navigation including map data and landmark data, the data input device 6 uses dictionary data used when the
操作スイッチ群8は、例えば表示装置16と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、スイッチ操作により制御回路10へ各種の操作指示を出力する。例えば、地図縮尺変更、メニュー表示選択、目的地設定、経路探索、経路案内開始、表示画面変更、音声案内設定、音量調整等の操作指示を行なう。また、操作スイッチ群8は、例えば、出発地および目的地を設定するための情報の種類を選択するためのスイッチを含んでいる。その選択スイッチを操作することによって、ユーザ(車両の乗員)は、予め登録しておいた地点、施設名、電話番号、住所など、所望の情報を用いて、出発地および目的地を設定することができる。
For example, a touch switch or a mechanical switch integrated with the
通信装置12は、設定された連絡先通信情報によって特定される連絡先との通信を行なうためのものであり、例えば携帯電話機等の移動体通信機によって構成される。外部メモリ14は、書き込み可能な大容量記憶装置である。外部メモリ14には大量のデータや電源をOFFしても消去してはいけないデータを記憶したり、頻繁に使用するデータを地図データ入力器6からコピーして利用したりする等の用途がある。なお、外部メモリ14は、比較的記憶容量の小さいリムーバブルなメモリであってもよい。
The
表示装置16は例えば液晶表示装置からなり、表示装置16の画面には、位置検出器4によって検出された車両の現在位置を示す車両現在位置マークと、地図データ入力器6より入力された車両の現在位置周辺の地図データと、更に地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。
The
リモコンセンサ18は、図示しないリモコンからの操作信号を受信して、制御回路10に出力するものである。リモコンには多数のスイッチが設けられ、そのスイッチ操作により、操作スイッチ群8とほぼ同等の機能を制御回路10に対して実行させることを指示することが可能である。
The
次に、図1及び図2に基づいて、音声認識システム30の構成について説明する。なお、図2は、音声認識システム30における、音声認識部31と対話制御部32との詳細な構成を示すブロック図である。
Next, the configuration of the
音声認識システム30は、上記操作スイッチ群8あるいはリモコンが各種コマンド入力のために手動操作されるのに対して、ユーザの発話音声によっても制御回路10に各種コマンドを入力できるようにするためのものである。
The
音声認識システム30は、音声認識部31、対話制御部32、音声合成部33、音声抽出部34、マイク35、トークスイッチ36、スピーカ37、及び制御部38を備えている。
The
トークスイッチ36は、ユーザ(運転者)が音声入力を開始する旨を指示するためのもので、例えばステアリングコラムカバーの側面部やシフトレバーの近傍などユーザが操作しやすい位置に設けられている。なお、トークスイッチ36はいわゆるクリック方式のスイッチであり、ユーザがトークスイッチ36をオン操作した後音声を入力(発話)するようになっている。制御部38は、トークスイッチ36からのオン信号の入力に基づいて、音声抽出部34に対して音声信号の抽出の処理の実行を指示する。また、制御部38は、音声認識部31及び対話制御部32に対して、音声抽出部34における音声抽出処理が開始されたことを通知する。すると、対話制御部32は、音声合成部33を介してスピーカ37から、“音声を入力してください”などの案内音声を出力する。なお、音声合成部33は、波形データベース内に格納されている音声波形を用い、対話制御部32からの応答音声の出力指示に基づく音声を合成する。この合成音声がスピーカ37から出力される。
The
ユーザの発話音声が入力されるマイク35は、例えばステアリングコラムカバーの上面部や運転席側のサンバイザー等のユーザの音声を拾いやすい位置に設けられる。音声抽出部34は、制御部38の指示によりマイク35から音声信号を取込み、その音声信号からノイズ成分を除去して音声データを抽出するようになっている。そして、抽出された音声データは音声認識部31に出力される。
The
音声抽出部34における処理について、もう少し詳細に説明する。音声抽出部34は、マイク35にて取り込んだ周囲の音声信号をデジタル音声データに変換する。そして、例えば数10ms程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が、音声の含まれている音声区間であるのか音声の含まれていないノイズ区間であるのか判定する。マイク35から入力される信号は、認識対象の音声だけでなくノイズも混在したものであるため、音声区間とノイズ区間の判定を行なうのである。この判定方法としては従来から多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるかノイズ区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、それを音声データとして音声認識部31に出力する。
The process in the
音声認識部31は、図2に示すように抽出結果記憶部311、照合部312、及び辞書部313を備える。
The
抽出結果記憶部311は、音声抽出部34から入力されたノイズ成分が除去された音声データを記憶する。そして、照合部312が、抽出結果記憶部311に記憶された音声データに対して、辞書部313における目的語辞書313aや不要語辞書313bを用いて照合を行ない(認識処理)、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを、音声認識結果として対話制御部32へ出力する。
The extraction
ここで、本実施形態では、図2に示すように、辞書部313が、目的語辞書313aの他に、不要語辞書313bを有する。目的語辞書313aとは、コマンドや目的地など音声操作に必要な語彙である目的語を集めた辞書であり、不要語辞書313bとは、音声操作に必要でない語句である不要語を集めた辞書である。本実施形態では、不要語辞書313bは、不要語の数が多い不要語(大)辞書313baと、不要語の数が少ない不要語(小)辞書313bbからなっている。辞書部313は、後述する対話制御部32の辞書切替部326からの指示に応じて、照合部312が使用する不要語辞書313bを切り替えることが可能である。さらに、辞書切替部326から不要語辞書313bの不使用が指示されたとき、照合部312に対して不要語辞書313bを提供せず、目的語辞書313aのみ提供することが可能である。すなわち、この場合、照合部312は、不要語の辞書がない状態で、目的語辞書313aのみを用いて上述した認識処理を行なうことになる。
In this embodiment, as shown in FIG. 2, the
対話制御部32は、図2に示すように、処理部321、話者特定部322、不要語使用頻度カウント部323、不要語使用頻度記憶部324、不要語使用頻度判定部325、及び辞書切替部326を備える。
As shown in FIG. 2, the
処理部321は、音声認識部31における認識結果や制御部38からの指示に基づき、音声合成部33への応答音声の出力指示、あるいは、ナビゲーション装置2自体の処理を実行する制御回路10に対して、音声認識部31における認識結果、例えば目的地やコマンドを通知して目的地の設定やコマンドを実行させるよう指示する処理を行なう。このような処理の結果として、この音声認識システム30を利用すれば、操作スイッチ群8あるいはリモコンを手動操作しなくても、音声入力によりナビゲーション装置2に対する目的地の指示などが可能となる。
Based on the recognition result in the
また、処理部321には、操作スイッチ群8あるいはリモコンなどの手動操作、又は音声操作により、例えば目的地を設定するための情報の種類が制御回路10にて決定された場合、その決定された情報の種類が制御回路10から通知される。すると、処理部321は、辞書切替部326に対して、決定された情報の種類に応じた不要語の数の不要語辞書313bを選択するように指示する。これにより、決定された種類の情報が音声にて入力されたときに、その情報の種類に適した数の不要語の辞書を用いて、入力音声を認識できるようになる。
In addition, when the
例えば、目的地を設定するための情報として、地理的な情報とジャンルとを組み合わせて音声入力する場合(例えば“名古屋駅近くのラーメン屋”)と電話番号を音声入力する場合とでは、地理的情報とジャンルとを音声入力する場合の方が、不要語の数は増加する傾向にある。このように、音声入力される情報の種類と、入力音声に含まれる不要語の数とは、ある程度相関関係を有する。従って、音声入力情報の種類に基づいて不要語辞書の切り替えを行なうことにより、適切な数の不要語を含む不要語辞書を用いて音声認識処理を行なうことが可能になる。 For example, as the information for setting the destination, the geographical information and the genre are used for voice input (for example, “Ramen shop near Nagoya Station”) and the telephone number is used for voice input. The number of unnecessary words tends to increase when information and genre are input by voice. As described above, the type of information input by speech and the number of unnecessary words included in the input speech have a certain degree of correlation. Therefore, by performing switching of unnecessary word dictionaries based on the type of voice input information, it is possible to perform voice recognition processing using an unnecessary word dictionary including an appropriate number of unnecessary words.
なお、制御回路10に対して、音声操作により目的地を設定するための情報の種類を指示するには、“目的地設定”と発話した後に、音声入力したい情報の種類(“住所”、“施設名”、“ジャンル”(地理的情報含む)、“電話番号”など)を発話すれば良い。
In order to instruct the
話者特定部322は、音声抽出部34の抽出結果記憶部311に記憶された音声データを入力し、その音声データに基づいて、話者としてのユーザを特定する。すなわち、話者特定部322は、各ユーザが発話した音声の音響的特徴を示すいわゆる話者モデルをユーザ毎に生成して記憶しておき、その話者モデルを用いて実際の発話からその発話主を特定する。このとき、話者モデルと発話の音響的特徴との比較処理は、例えば、話者モデルと発話の音響的特徴との間の類似度を算出し、その算出した類似度をその話者モデルに対応する類似度の閾値と比較し、類似度と閾値との差が予め定められている所定の範囲内にあるとき、その発話がその話者モデルに相当する発話者による発話であると特定することができる。
The
不要語使用頻度カウント部323は、ある話者によって実際に発話された音声が照合部312にて認識されたとき、その認識語句全体における不要語の使用頻度をカウントするものである。そして、そのカウント結果は、図3(a)に示すように、話者特定部322によって特定された話者毎に、不要語使用頻度記憶部324にそのまま記憶されるか、もしくは、そのカウント結果を用いて更新した不要語使用頻度が記憶される。すなわち、話者特定部322において特定された話者に対応して、不要語使用頻度記憶部324に不要語使用頻度が記憶されていない場合には、不要語使用頻度カウント部323によるカウント結果が、そのまま不要語使用頻度記憶部324に記憶される。一方、話者特定部322によって特定された話者に対応する不要語使用頻度が、既に不要語使用頻度記憶部324に記憶されていた場合には、今回、不要語使用頻度カウント部にてカウントされた結果を反映するように更新した不要語使用頻度が記憶される。
The unnecessary word usage
不要語使用頻度判定部325は、話者特定部322によって話者が特定されたときに、その話者に対応する不要語使用頻度が不要語使用頻度記憶部324に記憶されていれば、その記憶されている不要語使用頻度を入力して、その話者の発話音声を認識するには、どの程度の数の不要語を含む不要語辞書が必要であるかを判定する。
If the
例えば、図3(b)に示すように、不要語の使用頻度が50%以上である場合には、その話者は、不要語の使用頻度が高く、使用する不要語の種類も多いと考えられるので、不要語の数が最も多い不要語(大)辞書313baが必要と判定する。また、不要語の使用頻度が、0%より大きく50%未満である場合には、不要語の使用頻度はそれほど高いわけではなく、使用する不要語の種類も限られると考えられるので、不要語の数が相対的に少ない不要語(小)辞書313bbが適切と判定する。なお、不要語の使用頻度が0%である場合には、音声操作に習熟しており、不要語を用いずに、目的語のみ発話する話者であると考えられるので、不要語辞書は不要と判定する。 For example, as shown in FIG. 3B, if the frequency of use of unnecessary words is 50% or more, the speaker thinks that the use frequency of unnecessary words is high and there are many types of unnecessary words to be used. Therefore, it is determined that the unnecessary word (large) dictionary 313ba having the largest number of unnecessary words is necessary. Also, if the frequency of use of unnecessary words is greater than 0% and less than 50%, the use frequency of unnecessary words is not so high, and the types of unnecessary words used are considered to be limited. The unnecessary word (small) dictionary 313bb having a relatively small number is determined to be appropriate. If the use frequency of the unnecessary word is 0%, it is proficient in voice operation and it is considered that the speaker speaks only the object without using the unnecessary word, so the unnecessary word dictionary is unnecessary. Is determined.
辞書切替部326は、処理部321からの不要語辞書の選択指示、及び不要語使用頻度判定部325の判定結果に基づいて、照合部312が入力音声の認識処理を行なう際に使用する不要語辞書313bを切り替える。
The
例えば、辞書切替部326は、処理部321から、入力される情報の種類が決定されたことに基づき、決定された情報の種類に応じた不要語の数の不要語辞書313bを選択するように指示されている場合には、不要語使用頻度判定部325の判定結果によらず、処理部321によって指示された不要語辞書313bに切り替える。一方、処理部321から不要語辞書313bの選択に関する指示がない場合には、不要語使用頻度判定部325の判定結果に基づいて、不要語辞書313bを切り替える。このようにする理由は、ユーザ毎の個人差よりも、音声入力情報の種類の方が、ユーザの発話音声に含まれる不要語の数に与える影響が大きいと考えられるためである。
For example, the
次に、上述した音声認識システム30における、不要語辞書313bの切替処理を含む主要な制御処理について、図4のフローチャートに基づいて説明する。
Next, main control processing including switching processing of the
まず、ステップS110では、トークスイッチ36がオンされたか否かを判定する。このとき、トークスイッチ36がオンされていると判定されると、ステップS120の処理に進む。ステップS120では、音声入力処理を行なう。すなわち、音声抽出部34にて、マイク35に入力された音声信号からノイズ成分を除去した音声データを生成する。
First, in step S110, it is determined whether or not the
ステップS130では、制御回路10から、入力情報の種類が決定された旨が通知されているか否かを判定する。入力情報の種類が決定されている場合、ステップS140に進み、決定された情報の種類に応じた不要語の数の不要語辞書313bを選択する。これにより、決定された種類の情報が音声にて入力されたときに、その情報の種類に適した数の不要語の不要語辞書313bを用いて(不要語辞書313bの不使用を含む)、入力音声を認識できるようになる。一方、ステップS130において、入力情報の種類が決定されていないと判定された場合、ステップS150の処理に進む。
In step S130, it is determined whether or not the
ステップS150では、抽出された音声データに基づいて、話者特定部322により、話者の特定を行なう。すなわち、各ユーザが発話した音声の音響的特徴を示すいわゆる話者モデルをユーザ毎に生成して記憶しておき、その話者モデルを用いて実際の発話からその発話主を特定する。
In step S150, the
そして、ステップS160にて、特定された話者に対応する不要語使用頻度が記憶されているか否かを判定する。特定された話者に対応する不要語使用頻度が記憶されている場合には、ステップS170に進む。ステップS170では、記憶されている不要語使用頻度に基づいて、特定された話者の発話音声を認識するのに、最も適した不要語の数の不要語辞書313bを決定する(不要語辞書の不使用を含む)。一方、ステップS160において、不要語使用頻度が記憶されていないと判定された場合には、ステップS180に進む。ステップS180では、使用する不要語辞書313bを、含まれる不要語の数が最も多い不要語(大)辞書313baに決定する。これは、話者であるユーザが、どの程度の頻度で不要語を使用するか不明であるため、高頻度で不要語が使用された場合にも、入力音声の認識を可能とするためである。
In step S160, it is determined whether or not an unnecessary word usage frequency corresponding to the specified speaker is stored. If the unnecessary word usage frequency corresponding to the identified speaker is stored, the process proceeds to step S170. In step S170, the number of
続くステップS190では、ステップS140にて選択、あるいはステップS170又はS180にて決定された不要語辞書313bと、目的語辞書313aとを用いて、ユーザにより入力された音声の認識処理を実行する。この認識処理による認識結果は、ステップS200において、制御回路10に出力される。
In subsequent step S190, recognition processing of the voice input by the user is executed using the
ステップS210では、認識結果に基づいて、認識語句全体における不要語の使用頻度をカウントする。そして、ステップS220において、不要語使用頻度のカウント結果が、ステップS150にて特定された話者毎に、そのまま記憶されるか、もしくは、そのカウント結果を用いて更新した不要語使用頻度が記憶される。 In step S210, the frequency of use of unnecessary words in the entire recognized word / phrase is counted based on the recognition result. In step S220, the unnecessary word usage frequency count result is stored as it is for each speaker specified in step S150, or the unnecessary word usage frequency updated using the count result is stored. The
以上、本発明の好ましい実施形態について説明したが、本発明は上記実施形態になんら制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形して実施することが可能である。 The preferred embodiments of the present invention have been described above, but the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the spirit of the present invention.
例えば、上述した実施形態では、制御回路10から入力される情報の種類が決定された旨が通知された場合、音声入力を行なう話者に係らず、不要語辞書313bとして、入力情報の種類に応じた不要語の数の不要語辞書313bを選択するものであった。
For example, in the above-described embodiment, when it is notified that the type of information input from the
しかしながら、例えば、入力情報の種類に応じた不要語の数の不要語辞書313bと、特定された話者の不要語使用頻度に応じた不要語の数の不要語辞書313bとをそれぞれ求め、それらの不要語辞書313bの内、より不要語の数が多い不要語辞書313bに切り替えるようにしても良い。これにより、音声認識部31において使用される不要語辞書313bを、ユーザ毎の個人差による不要語の使用数と、入力情報の種類に起因する不要語の使用数との両方に適切に対応する不要語辞書313bに切り替えることが可能になる。
However, for example, an
また、上述した実施形態では、不要語辞書313bを、不要語辞書313bの不使用、不要語(小)辞書313bb、及び不要語(大)辞書313baの3種類のいずれかに切り替えるようにしたが、切り替え対象となる不要語辞書313bの数は、2種類であっても、4種類以上であっても良い。
In the embodiment described above, the
30 音声認識システム
31 音声認識部
32 対話制御部
33 音声合成部
34 音声抽出部
35 マイク
36 トークスイッチ
37 スピーカ
38 制御部
30
Claims (6)
前記音声入力部に入力された音声に基づき、話者を識別する話者識別手段と、
前記音声入力部に入力された音声を、多数の認識語彙を有する辞書を用いて認識する音声認識部と、
前記話者識別手段によって識別された話者毎に、音声認識部により認識された音声における、入力音声として本来不要である不要語をカウントするとともに、そのカウント結果に基づいて算出した不要語使用頻度を記憶する不要語使用頻度記憶部と、
前記音声認識部にて使用する辞書として、認識語彙に含まれる不要語の数が異なる複数の辞書が用意されており、前記話者識別手段により識別された話者に対して、前記不要語使用頻度記憶部に不要語使用頻度が記憶されている場合、前記音声認識部における使用辞書を、記憶されている不要語使用頻度に応じた不要語の数の辞書に切り替える辞書切替部と、を備えることを特徴とする音声認識システム。 A voice input unit for inputting voice;
Speaker identification means for identifying a speaker based on the voice input to the voice input unit;
A speech recognition unit for recognizing speech input to the speech input unit using a dictionary having a large number of recognition vocabularies;
For each speaker identified by the speaker identifying means, unnecessary words that are unnecessary as input speech in the speech recognized by the speech recognition unit are counted, and the unnecessary word usage frequency calculated based on the count result An unnecessary word usage frequency storage unit for storing
A plurality of dictionaries with different numbers of unnecessary words included in the recognition vocabulary are prepared as the dictionary used in the speech recognition unit, and the use of the unnecessary words for the speakers identified by the speaker identification means A dictionary switching unit that switches the use dictionary in the voice recognition unit to a dictionary of the number of unnecessary words corresponding to the stored unnecessary word use frequency when the unnecessary word use frequency is stored in the frequency storage unit. A speech recognition system characterized by that.
前記辞書切替部は、前記記憶されている不要語使用頻度に応じて、前記不要語辞書を切り替えるものであって、
前記音声認識部は、前記目的語辞書と、前記辞書切替部によって切り替えられた不要語辞書を用いて音声認識を行なうことを特徴とする請求項1に記載の音声認識システム。 The dictionary is composed of an object dictionary that collects objects that are vocabulary required as input speech, and an unnecessary word dictionary that collects unnecessary words that are originally unnecessary as input speech. There are several dictionaries with different numbers.
The dictionary switching unit switches the unnecessary word dictionary according to the stored unnecessary word usage frequency,
The speech recognition system according to claim 1, wherein the speech recognition unit performs speech recognition using the object word dictionary and an unnecessary word dictionary switched by the dictionary switching unit.
前記辞書切替部は、前記決定手段により音声入力情報の種類が決定された場合、その決定された音声入力情報の種類も考慮して、前記音声認識部における使用辞書の切り替えを行なうことを特徴とする請求項1乃至請求項3のいずれかに記載の音声認識システム。 A determination unit configured to determine a type of information input by voice based on a user operation;
The dictionary switching unit, when the type of voice input information is determined by the determining unit, switches the dictionary used in the voice recognition unit in consideration of the type of the determined voice input information. The speech recognition system according to any one of claims 1 to 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009082675A JP4941494B2 (en) | 2009-03-30 | 2009-03-30 | Speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009082675A JP4941494B2 (en) | 2009-03-30 | 2009-03-30 | Speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010237286A JP2010237286A (en) | 2010-10-21 |
JP4941494B2 true JP4941494B2 (en) | 2012-05-30 |
Family
ID=43091684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009082675A Expired - Fee Related JP4941494B2 (en) | 2009-03-30 | 2009-03-30 | Speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4941494B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112334975A (en) * | 2018-06-29 | 2021-02-05 | 索尼公司 | Information processing apparatus, information processing method, and program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3477751B2 (en) * | 1993-09-07 | 2003-12-10 | 株式会社デンソー | Continuous word speech recognition device |
JP3478171B2 (en) * | 1999-05-14 | 2003-12-15 | 日本電気株式会社 | Voice recognition device and voice recognition method |
JP2001075589A (en) * | 1999-09-02 | 2001-03-23 | Denso Corp | Method and device for voice recognition |
JP3601411B2 (en) * | 2000-05-22 | 2004-12-15 | 日本電気株式会社 | Voice response device |
JP4162074B2 (en) * | 2001-09-27 | 2008-10-08 | 三菱電機株式会社 | Interactive information retrieval device |
JP4845118B2 (en) * | 2006-11-20 | 2011-12-28 | 富士通株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
-
2009
- 2009-03-30 JP JP2009082675A patent/JP4941494B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010237286A (en) | 2010-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7822613B2 (en) | Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus | |
WO2013005248A1 (en) | Voice recognition device and navigation device | |
CN106796786B (en) | Speech recognition system | |
US6937982B2 (en) | Speech recognition apparatus and method using two opposite words | |
EP1187099B1 (en) | Voice recognition apparatus | |
JP5637131B2 (en) | Voice recognition device | |
JP4466379B2 (en) | In-vehicle speech recognition device | |
JP4672686B2 (en) | Voice recognition device and navigation device | |
JP2009251388A (en) | Native language utterance device | |
JP2009230068A (en) | Voice recognition device and navigation system | |
JP3654045B2 (en) | Voice recognition device | |
JP4941494B2 (en) | Speech recognition system | |
CN111857636A (en) | Voice operation system, voice operation device, voice operation control method, and recording medium | |
JP4056711B2 (en) | Voice recognition device | |
JP5772214B2 (en) | Voice recognition device | |
JP3296783B2 (en) | In-vehicle navigation device and voice recognition method | |
KR100677711B1 (en) | Voice recognition apparatus, storage medium and navigation apparatus | |
JP2007057805A (en) | Information processing apparatus for vehicle | |
JP2007256643A (en) | Voice recognition device and navigation system | |
KR20060098673A (en) | Method and apparatus for speech recognition | |
JP2011180416A (en) | Voice synthesis device, voice synthesis method and car navigation system | |
WO2006028171A1 (en) | Data presentation device, data presentation method, data presentation program, and recording medium containing the program | |
JPH11231889A (en) | Speech recognition device | |
JP2005031260A (en) | Method and apparatus for information processing | |
JP4645708B2 (en) | Code recognition device and route search device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120213 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |