JP2011170087A

JP2011170087A - 音声認識装置

Info

Publication number: JP2011170087A
Application number: JP2010033575A
Authority: JP
Inventors: Masaharu Harada; 将治原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-02-18
Filing date: 2010-02-18
Publication date: 2011-09-01

Abstract

【課題】音声認識結果として出力させたい読み情報を登録する単語辞書を簡単に作成・編集でき、かつ音声認識処理における認識確率を高めることができる音声認識装置を提供する。
【解決手段】音声認識装置は、音声認識用の複数の単語の読み情報が登録されている第１単語辞書と、音声認識する複数の単語の読み情報が登録される第２単語辞書と、音声データを入力して、第１単語辞書を用いて音声認識する音声認識部と、第２単語辞書に登録されている複数の読み情報の中から、音声認識部で認識された読み情報に少なくとも一部が一致する読み情報を検出する再検出部と、検出された読み情報を出力する結果出力部とを含む。
【選択図】図３

Description

本発明は、音声信号を音声認識し、他の装置における処理に音声認識結果を出力する音声認識装置に関する。

音声信号を音声認識して、他の装置における処理に音声認識結果を出力する音声認識装置が存在する。存在する音声認識装置の一例としては、マイク等の集音機を介して入力された音声やデジタル音声ファイルの音声信号等を入力として、所定の単語辞書に予め登録されている単語の読み情報との類似度を判定し、所定の閾値以上に類似する読み情報に対応する単語の表記情報または識別情報を認識結果として出力するものがある。

音声認識装置で音声認識された認識結果は、例えば、カーナビゲーションシステムや音声自動応答システム等の他の装置に入力される。その他の装置では、入力された認識結果をトリガーとして、対応する処理を実行する。その他の装置側で必要とする認識結果としては、例えば、装置に対して操作の指示を行うための制御コマンド、通話先の番号を指定するための人名や数字に対応するダイヤルコマンド、音声ログにインデックスを付与するためのキーワード等が考えられる。制御コマンドは、他の装置の電源オン・オフや装置に固有の操作を指示するためのコマンドである。ダイヤルコマンドは、他の装置が回線を通じた通信機能を備える場合に、通信先を特定するための人名や電話番号に対応するコマンドである。音声ログは、コールセンター等の通話記録において、任意の時刻におけるインデックスとしてキーワードを付与するものである。

他の装置における処理に利用可能な情報としては、その装置に固有の制御コマンドやその装置に対してユーザが設定する文字列情報やそれに対応する識別情報が含まれる。従って、他の装置のシステム設計者やユーザ自身が、音声認識装置に認識させたい文字列情報や識別情報に対応する読み情報を、認識可能な単語として、単語辞書に登録することが行われている。

特許文献１に記載されている例では、ユーザが文字列に対応する読み情報とその表記情報だけを対応付けて登録するようにした単語辞書を用いて音声認識する音声認識装置が開示されている。

このような音声認識装置では、ユーザが音声認識の認識結果として出力させたい情報に対応する読み情報と表記情報とを対応付けて単語辞書に登録することにより、他の装置における処理に利用可能な認識結果を出力することができる。

しかしながら、特許文献１における音声認識装置では、音声認識処理に詳しくないユーザが単語辞書に単語の読み情報と表記情報を登録するので、発音の訛りや怠け等によって、単語辞書に登録された読み情報との類似性が低くなり、未認識と判定される確率が高くなる。

これに対して、音声認識処理の知識を有する専門家により作成された単語辞書は、音声認識装置における音声認識処理の精度が向上するように、登録される読み情報の調整がなされている。例えば、音声認識処理の認識確率を高めるために、登録される読み情報の長さを長くしたり、音声認識処理に用いられる読み情報毎の閾値を調整したり、同一の読み情報を意味することが推測される他の読み情報とのリンクを追加することが行われている。

このような調整された単語辞書を用いて音声認識処理を行う場合、音声認識装置において未認識と判定される確率が下がり、認識確率が向上する。

前述したように、単語辞書に登録される読み情報には、他の装置における処理に利用可能な情報が含まれ、その装置のシステム設計者やユーザ自身が、音声認識装置に認識させたい読み情報を、単語辞書に登録することが行われている。音声認識処理の知識に乏しい情報処理装置のシステム設計者やユーザが、単語辞書への読み情報の登録を行う際に、音声認識処理の認識確率を高めるための調整を行うことは困難を伴う。また、音声認識処理に詳しい専門家であっても、新たに単語辞書への読み情報の登録を行う際に調整を行うことは時間と煩雑な作業を伴う。

特開２００２−１６２９８８号公報

本発明は、音声認識結果として出力させたい読み情報を登録する単語辞書を簡単に作成・編集でき、かつ音声認識処理における認識確率を高めることができる音声認識装置を提供することを目的とする。

本発明の音声認識装置は、音声認識用の複数の単語の読み情報が登録されている第１単語辞書と、音声認識する複数の単語の読み情報が登録される第２単語辞書と、音声データを入力して、第１単語辞書を用いて音声認識する音声認識部と、第２単語辞書に登録されている複数の読み情報の中から、音声認識部で認識された読み情報に少なくとも一部が一致する読み情報を検出する再検出部と、検出された読み情報を出力する結果出力部とを含む。

本発明によれば、第２単語辞書だけでは認識確率が向上しない場合であっても、第１単語辞書による音声認識により音声認識の認識確率を向上させることができる。また、他の装置の設計者やユーザが、他の装置における処理に利用可能な読み情報を登録するだけで簡単に第２単語辞書を作成することができる。

図１は、音声認識装置を含む車載装置の一例を示すブロック図である。図２は、音声認識装置のハードウェア構成の一例を示すブロック図である。図３は、第１実施形態の音声認識装置の機能ブロック図の一例である。図４は、第１実施形態の音声認識装置の動作の一例を示すフローチャートである。図５は、第２実施形態の音声認識装置の機能ブロック図の一例である。図６は、第２実施形態の音声認識装置の動作の一例を示すフローチャートである。図７は、第１単語辞書に登録される第１読み情報群の一例を示す説明図である。図８は、第２単語辞書に登録される第２読み情報群の一例を示す説明図である。図９は、第３実施形態の音声認識装置の機能ブロック図の一例である。図10は、第１実施形態の音声認識装置の動作の一例を示すフローチャートである。図11は、第１単語辞書の他の例を示す説明図である。図12は、第１単語辞書に登録される第１読み情報群の他の例を示す説明図である。

音声認識装置の実施形態について、その詳細を図面に基づいて説明する。

〈概略構成〉
音声認識装置の一例として、車両に搭載され、ユーザが発声する音声に応じて、連動するカーナビゲーション装置に対して、制御コマンドを認識・生成して出力する場合について説明する。

図１は、音声認識装置を含む車載装置の一例を示すブロック図である。

車両内には、音声認識装置10、カーナビゲーション装置20、オーディオ装置30、通信装置40、その他の電装品50がネットワーク60を介して接続されている。

カーナビゲーション装置20では、電源オン・オフ、現在地表示、目的地設定、ルート検索、目的地変更等の予め、認識可能な制御コマンドが登録されている。

オーディオ装置30では、電源オン・オフ、再生、停止、一時停止、前の曲へ、次の曲へ、等の予め、認識可能な制御コマンドが登録されている。

通信装置40は、例えば、ハンズフリーでの通話が可能な車載電話であり、通話先指定、通話開始、通話終了等の予め、認識可能な制御コマンドが登録されている。

その他の電装品50としては、例えば、カーエアコン、ワイパー、ヘッドライト等の車両に搭載された電装品であり、電源オン・オフ、動作モードや速度、強度等の制御コマンドを備えている。

音声認識装置10では、ユーザの発声した音声に基づいて音声認識処理を実行し、その認識結果に基づいて、カーナビゲーション装置20、オーディオ装置30、通信装置40、その他の電装品50のいずれに対する制御コマンドであるかを決定し、該当する装置に制御コマンドを出力する。例えば、音声認識装置10は、カーナビゲーション装置20に対する制御コマンドと、電源オン、電源オフ、現在地表示、目的地設定、ルート検索、目的地変更、その他を指示する制御コマンドとを特定する読み情報を単語辞書に登録しておく。音声認識装置10は、ユーザから入力された音声をデジタル音声信号に変換し、音声認識を行う。音声認識に際しては、通常、デジタル音声信号とそれに対応する音素列を対応付けて登録されている音響モデルを用いて、入力されたデジタル音声信号と距離または類似性を計算して、音声認識結果の候補文字列を生成し、該候補文字列と単語辞書に登録された読み情報とを比較し、一致度合いが閾値を超える認識結果の文字列または、最も一致度が高い認識結果文字列を、音声入力された制御コマンドとして、カーナビゲーション装置20に出力する。他の装置に対しても、それぞれの装置への制御コマンドであること特定するための読み情報、各装置の制御コマンドであることを特定するための読み情報を用意しておき、入力された音声からデジタル音響信号に変換された音声信号を音声認識処理し、音声認識結果の候補文字列と単語辞書に登録された読み情報とを比較し、一致度合いが閾値を超える認識結果の文字列または、最も一致度が高い認識結果文字列を、音声入力された制御コマンドを認識結果として、それぞれの装置に出力する。

図２は、音声認識装置10が適用されるハードウェア構成の一例を示すブロック図である。

音声認識装置10が適用されるハードウェア構成は、マイクロプロセッサで構成されるCPU11、BIOSや各種パラメータ等を格納するROM12、アプリケーション実行時の変数の値や演算値が一時的に格納されるRAM13、アプリケーションプログラムのデータや装置の機能に必要な各種パラメータ、各種データベースや単語辞書等が格納されるハードディスクドライブ（HDD）14、等を備える。

また、音声認識装置10が適用されるハードウェア構成は、ユーザが発声する音声を集音するためのマイクロホン15、制御コマンドや各種パラメータの入力を受け付けるためのキー入力部16、液晶表示パネルやプラズマディスプレイ、または有機ELディスプレイ等で構成される表示部17、オーディオ装置30からの音楽、カーナビゲーション装置20に内蔵された音声合成部からの音声案内等を出力するためのスピーカ18等を備えていてもよい。このようなハードウェア構成の各部はバス19を介して接続されている。

音声認識装置10は、前述したようなハードウェア構成上で動作するアプリケーションソフトウェアとすることができ、また、複数のアプリケーションソフトウェアが共通して利用可能なプログラムであるDLL（Dynamic Link Library）とすることができる。ハードウェア構成は、その全てまたは一部を他の装置と連携動作することができ、例えば、カーナビゲーション装置20のハードウェア構成と連携動作することができる。

上述の概略構成として示した音声認識装置10は、車両に搭載される車載装置を一例として示しているが、このような構成に特定されるものではなく、自動音声応答装置に組み込まれる音声認識装置、PDA（Personal Digital Assistant）に組み込まれる音声認識装置、その他、一般的なパーソナルコンピュータ上で動作する音声認識装置として実現することができる。

〈第１実施形態〉
図３は、第１実施形態の音声認識装置10の機能ブロック図の例である。

音声認識装置10は、音声入力部31、第１単語辞書32、第２単語辞書33、音声認識部34、再検出部35、結果出力部36を備えている。

音声入力部31は、ユーザが発声した音声をマイクにより集音し、アナログ／デジタル変換してデジタル音響信号として音声認識部34に入力する。また、音声入力部31は、wavファイルやその他のデジタル音声データから復元した音声データを音声認識部34に入力することもできる。

第１単語辞書32は、音声認識処理を実行する際に用いられる複数の読み情報である第１読み情報群を登録しておく。この第１単語辞書32に登録される第１読み情報群は、音声認識の認識確率を高めるために調整されたものであって、例えば、読み情報の長さ、音声認識処理に用いられる閾値、他の読み情報とのリンク等が調整される。第１単語辞書32に登録される第１読み情報群の調整については、第１実施形態の説明において記述した通りであり、ここでは省略する。

第２単語辞書33は、他の装置における処理に利用可能な情報に関連付けられる複数の読み情報である第２読み情報群を登録する。この第２単語辞書33に登録される第２読み情報群は、他の装置の操作を指示するための制御コマンドに対応する読み情報とすることができる。例えば、カーナビゲーション装置20に対して制御コマンドを出力する場合には、電源オン、電源オフ、現在地表示、目的地検索、ルート検索、目的地変更等の装置の操作に関する制御コマンドに対応する読み情報を第２読み情報群として第２単語辞書33に登録する。

第２単語辞書33に登録される第２読み情報群は、他の装置のシステム設計者、その装置のユーザ等が、装置に必要となる読み情報を選択的に登録させることができる。第２読み情報群を構成する読み情報は、例えば、CSV（Comma Separated Values）形式のファイルのような、読み情報を列挙したテキストファイルとして第２単語辞書33に登録させることができる。

音声認識部34は、音声入力部31から入力される音声信号を、第１単語辞書32を用いて音声認識処理する。音声認識部34は、所定の音響モデル（図示せず）を用いて、第１単語辞書32に登録されている第１読み情報群の各読み情報に対応する音素モデルを生成し、音声信号との特徴量を比較して、所定の閾値を超える場合に一致する読み情報であるとみなす。音声認識部34は、第１読み情報群に含まれる読み情報と一致するとみなす読み情報を音声信号中に検出すると、これを認識結果として出力する。

再検出部35は、第２読み情報群に含まれ、音声認識部34により出力される認識結果に含まれる読み情報と少なくとも一部が一致する読み情報を検出する。

この第１実施形態においても、再検出部35は、例えば、認識結果に含まれる読み情報が「おねがいします」であり、第２読み情報群に「おねがい」という読み情報が含まれているような場合に、「おねがい」を再検出された読み情報として出力する。読み情報同士の部分一致は、文字列の長さの差を所定値に設定し、一致している音素が長い方の文字列長の何％（所定の閾値以上）であれば部分一致しているとみなすことができる。

結果出力部36は、再検出部35で検出された読み情報を出力する。前述したように、再検出部35で検出された読み情報は、音声認識部34によって音声認識した認識結果のうち、第２単語辞書33に登録された第２読み情報群に含まれる読み情報と一致する読み情報、または第１単語辞書32に登録された第１読み情報群に含まれる読み情報に一部が所定の閾値以上一致する読み情報であって第２単語辞書33に登録された第２読み情報群に含まれる読み情報である。したがって、結果出力部36が出力する読み情報は、第１単語辞書32により音声認識された読み情報であって第２単語辞書33に登録されている読み情報と一致する読み情報、及び第１単語辞書32で音声認識された読み情報に一部が所定の閾値以上一致する第２単語辞書33の第２読み情報群に含まれる読み情報である。

図４は、第１実施形態の音声認識装置10の動作の一例を示すフローチャートである。

ステップS401において、音声認識装置10は、音声入力部31を介して音声認識部34に音声信号を入力する。音声入力部31は、ユーザのアナログ音声をマイクにより集音してアナログ／デジタル変換したデジタル音響信号、またはwavファイルやその他のデジタル音声データから復元した音声データを音声認識部34に入力する。

ステップS402において、音声認識装置10は、音声入力部31から入力される音声信号を、第１単語辞書32を用いて音声認識処理する。音声認識部34は、第１読み情報群に含まれる読み情報を参照し、入力された音声信号の特徴量と音素モデルの特徴量とを比較して、所定の閾値以上一致すると評価できる読み情報を検出する。

ステップS403において、音声認識装置10は、第２読み情報群に含まれ、音声認識部34から出力される読み情報に少なくとも一部が所定の閾値以上一致する読み情報を検出する。再検出部35では、音声認識部34から出力される読み情報に一致または一部が所定の閾値以上一致するような読み情報が、第２単語辞書33に登録された第２読み情報群に含まれているか否かを判定する。再検出部35は、第２読み情報群に含まれ、音声認識結果の読み情報に少なくとも一部が一致する読み情報を検出すると、検出した読み情報を出力する。

ステップS404において、音声認識装置10は、再検出部35により検出された読み情報を結果出力部36を介して出力する。

結果出力部36が出力する読み情報は、第２読み情報群に含まれるものであって、第１読み情報群により音声認識された読み情報に一致するか、一部が所定の閾値以上一致する読み情報である。

第１単語辞書32に登録される第１読み情報群及び第２単語辞書に登録される第２読み情報群は、第１実施形態と同様に、それぞれ一例として図５及び図６に示されるようものを用いることができる。

第１実施形態の音声認識装置10では、まず、音声認識部34の音声認識処理において、認識確率が高くなるように調整された第１読み情報を登録されている第１単語辞書32を用いて音声認識処理を行っている。したがって、音声認識部34による音声認識処理において、未認識と判定される回数を低下させることができ、認識確率を高めることができる。

また、再検出部35において、第２単語辞書33に登録された第２読み情報群に含まれる読み情報だけを検出して出力するようにしている。したがって、音声認識装置10の結果出力として出力させたい読み情報を第２単語辞書33に登録しておくことで、他の装置の処理において利用可能な情報に関連付けられた読み情報を出力させることができる。

〈第２実施形態〉
図５は、第２実施形態の音声認識装置10の機能ブロック図である。

第１単語辞書32は、音声認識処理を実行する際に用いられる複数の読み情報である第１読み情報群を登録する。この第１単語辞書32に登録される第１読み情報群は、音声認識の認識確率を高めるために調整されたものであって、例えば、読み情報に前後の少なくとも一方に接続する語の一部を含めて長くしたり、音声認識処理に用いられる閾値、他の読み情報とのリンク等が調整されている。一般に、専門家で実験などにより調整した汎用的な単語辞書または特定分野向けに調整された単語辞書の方がより精度が高くなる。

読み情報によっては、その前後の少なくとも一方に接続する語の読み情報を含めた方が、より音声認識の認識確率を高めることができる場合がある。このような場合には、第１単語辞書32に登録する単語の読み情報に前後の少なくとも一方に接続する語の一部を含めて読み情報の長さを長くすることにより、音声認識処理における未認識の確率を低下させ、認識確率を向上することができる。このことに基づいて、例えば、一般的な単語の前後に接続する助詞やその他の文字列を連結して、一般的に用いられる単語の前後の少なくとも一方に接続する語の読みを含めることにより、読みの長さを長くした読み情報を作成し、これを第１単語辞書32に登録する。

後述する音声認識部34による音声認識処理では、所定の音響モデルを用いて、音声入力部31から入力された音声信号と比較し、認識候補文字列を生成し、第１単語辞書32（または第２単語辞書33）に登録された単語の読み情報を参照して認識候補文字列とを比較し、一致または類似性が所定の閾値を超えた場合に、一致する読み情報と判断する。読み情報に特有の発声のばらつきやユーザによる発声の個人差等を考慮して、音声認識処理に用いられる閾値を下げた方がより認識確率を高めることができる場合が考えられる。このような場合には、読み情報毎にそれぞれ音声認識処理に用いる閾値を設定し、これを該当する読み情報に対応させて第１単語辞書32に登録することができる。

同一の読み情報を発声していても、ユーザの生活圏や個人差によって、発音の「怠け」が生じる可能性がある。音声信号にこのような「怠け」が含まれている場合には、単語辞書に記録されている読み情報と異なる読み情報と判断される可能性がある。したがって、同一の読み情報を意味することが推測される他の読み情報を、拡張読み情報としてその読み情報にリンクさせて第１単語辞書32に登録することができる。

第２単語辞書33に登録される第２読み情報群は、他の装置のシステム設計者、その装置のユーザ等が、装置に必要となる読み情報を選択的に登録することができる。第２読み情報群を構成する読み情報は、例えば、CSV（Comma Separated Values）形式のファイルのような、読み情報を列挙したテキストファイルとして第２単語辞書33に登録することができる。一般に、第１単語辞書は、専門家が調整した単語辞書で、第２単語辞書に比べて登録単語の数が多い単語辞書である。

音声認識部34は、音声入力部31から入力される音声信号を第１単語辞書32及び第２単語辞書33を用いて音声認識処理するものである。音声認識部34は、所定の音響モデル（図示せず）を用いて、第１単語辞書32に登録されている第１読み情報群及び第２単語辞書33に登録されている第２読み情報群の各読み情報に対応する音素モデルを生成し、音声信号との特徴量を比較して、所定の閾値を超える場合に一致する読み情報であるとみなす。音声認識部34は、第１読み情報群及び第２読み情報群に含まれる読み情報と一致するとみなす読み情報を音声信号中に検出すると、これを認識結果として出力する。

再検出部35は、第２読み情報群に含まれ、音声認識部34により出力される認識結果に含まれる読み情報と少なくとも一部が一致する読み情報を検出する。音声認識部34により出力される認識結果には、第１単語辞書32を用いて音声認識処理された読み情報と、第２単語辞書33を用いて音声認識処理された読み情報とが含まれている。再検出部35は、音声認識部34から出力された認識結果に含まれる読み情報に一致する読み情報、または一部が一致する読み情報であって、第２読み情報群に含まれる読み情報を検出する。したがって、音声認識結果に含まれる読み情報が、第２単語辞書33を用いて音声認識された読み情報である場合、再検出部35はこの読み情報に一致する読み情報を第２読み情報群中に検出することとなる。また、音声認識結果に含まれる読み情報が、第１単語辞書32を用いて音声認識された読み情報である場合、再検出部35は、この読み情報に一致するかあるいは一部が一致する読み情報を第２読み情報群中に検出する可能性がある。

再検出部35は、例えば、認識結果に含まれる読み情報が「おねがいします」であり、第２読み情報群に「おねがい」という読み情報が含まれているような場合に、「おねがい」を再検出された読み情報として出力する。読み情報同士の部分一致は、文字列の長さの差を所定値に設定し、一致している文字が長い方の文字列長の何％（所定の閾値）以上であれば部分一致しているとみなす。

結果出力部36は、再検出部35で検出された読み情報を出力する。前述したように、再検出部35で検出された読み情報は、音声認識部34によって音声認識した認識結果のうち、第２単語辞書33に登録された第２読み情報群に含まれる読み情報と所定の閾値以上一致する読み情報、または第１単語辞書32に登録された第１読み情報群に含まれる読み情報に一部が所定の閾値以上一致する読み情報であって第２単語辞書33に登録された第２読み情報群に含まれる読み情報である。したがって、結果出力部36が出力する読み情報は、第２単語辞書33により音声認識された読み情報と、第２単語辞書33では音声認識されなかったものの第１単語辞書32で音声認識された読み情報とを含み、そのいずれもが第２単語辞書33の第２読み情報群に含まれる読み情報である。

図６は、第２実施形態の音声認識装置10の動作の一例を示すフローチャートである。

ステップS601において、音声認識装置10は、音声入力部31を介して音声認識部34に音声信号を入力する。音声入力部31は、ユーザのアナログ音声をマイクにより集音してアナログ／デジタル変換したデジタル音声信号、またはwavファイルやその他のデジタル音声データから復元したデジタル音声信号を入力して音声認識部34に渡す。

ステップS602において、音声認識装置10は、第１単語辞書32及び第２単語辞書33を用いて音声認識処理する。前述したように、音声認識部34は、所定の音響モデルを用いて音声認識する。音声認識部34は、入力された音声信号の特徴量と第１読み情報群及び第２読み情報群に含まれる読み情報を参照して、所定の閾値以上に類似する読み情報を、類似または一致すると評価して、音声認識候補として検出する。

音響モデルは、例えば、隠れマルコフモデル（Hidden Markov Model：HMM）を適用して表現された音響モデルである。

音声認識部34は、第１読み情報群に含まれる読み情報及び／または第２読み情報群に含まれる読み情報のいずれの読み情報で音声認識されたかの区別をすることなく、音声認識された読み情報を音声認識結果として出力する。

ステップS603において、音声認識装置10は、第２読み情報群に含まれ、音声認識部34から出力される読み情報に少なくとも一部が一致する読み情報を検出する。再検出部35では、音声認識部34から出力される読み情報に一致または一部が所定の閾値以上に一致するような読み情報が、第２単語辞書33に登録された第２読み情報群に含まれているか否かを検出する。再検出部35は、第２読み情報群に含まれ、音声認識結果の読み情報に少なくとも一部が一致する読み情報を検出すると、検出した読み情報を出力する。

ステップS604において、音声認識装置10は、再検出部35により検出された読み情報を結果出力部36を介して出力する。

結果出力部36が出力する読み情報は、いずれも第２読み情報群に含まれるものであって、第２読み情報群により音声認識された読み情報と、第１読み情報群により音声認識された読み情報に一部が所定の閾値以上に一致する読み情報である。

図７は、第１単語辞書32に登録される第１読み情報群の一例を示す説明図である。

図７に示す例では、第１読み情報群として、「でんわします」、「でんわいたします」、「おねがいします」、「おねがいいたします」等が読み情報として登録されている。

図８は、第２単語辞書33に登録される第２音素群の一例を示す説明図である。

第２単語辞書33に登録される第２読み情報群は、例えば、読み情報を列挙したテキストファイルとして第２単語辞書33に登録することができ、図示した例では、「でんわ」、「おねがい」という読み情報が第２読み情報群に含まれるように登録されている。

第２単語辞書33に登録されている第２読み情報群は、他の装置における処理に利用可能な情報に関連付けられる読み情報である。図示した例では、例えば、「でんわ」という読み情報を音声認識させるために、第２単語辞書33に「でんわ」という読み情報を登録しているものとする。

音声認識装置10の音声認識部34では、「でんわ」という読み情報が比較的短いことから、この読み情報を用いた音声認識に失敗するおそれが高い。このような場合に、「でんわ」の読み情報の長さを拡張した「でんわします」を含む第１読み情報群が登録されている第１単語辞書32を用いて音声認識処理を行う。このことにより、音声認識部34は、音声信号中に「でんわします」という読み情報が存在することを検出して、この読み情報を音声認識処理の認識結果として出力する。

図８に示される第２単語辞書33の第２読み情報群には、「でんわ」という読み情報が登録されている。したがって、再検出部35は、第２読み情報群に含まれ、音声認識処理の認識結果に含まれる「でんわします」という読み情報に「でんわ」という部分が一致する読み情報を検出する。

同様に、音声認識部34が、第１読み情報群に含まれる「でんわいたします」と一致する読み情報を音声認識結果として出力する場合、再検出部35は、第２読み情報群に含まれ、音声認識処理の認識結果に含まれる読み情報に「でんわ」という部分が一致する読み情報を検出する。

第１読み情報群中に「おねがいします」、「おねがいいたします」が含まれ、第２読み情報群中に「おねがい」が含まれているような場合にも同様である。音声認識部34で、読み情報「おねがい」により音声認識できなかった場合であっても、読み情報「おねがいします」または「おねがいいたします」で音声認識できれば、再検出部35により読み情報「おねがい」を出力することができる。

図７に示す第１単語辞書32に登録される読み情報及び図８に示す第２単語辞書33に登録される読み情報は、それぞれ対応する表記情報を登録することもできる。

また、図７に示す第１単語辞書32に登録される読み情報及び図８に示す第２単語辞書33に登録される読み情報は、他の装置の操作を指示するための制御コマンドに関連する識別情報を対応付けて登録することも可能である。

この第２実施形態による音声認識装置10では、認識確率を高める調整がなされた第１読み情報群を登録した第１単語辞書32を用いることにより、音声認識部34における音声認識できる確率を高め、未認識と判定される回数を減少させることができる。また、第１読み情報群を格納する第１単語辞書32は、他の装置のシステム設計者やユーザによる調整を必要とすることなく、認識確率を高めるための状態をそのまま維持した状態で利用することができる。

また、音声認識装置10の結果出力として出力させたい読み情報は、例えばCSV形式のテキストデータ等で第２単語辞書33に登録する等の方法で、簡単にメンテナンスを行うことができる。したがって、他の装置のシステム設計者やユーザが、音声認識の認識確率の向上を考慮する必要がなく、他の装置の処理において利用可能な情報に関連付けられる読み情報を追加・編集することが可能である。

〈第３実施形態〉
図９は、第３実施形態の音声認識装置10の機能ブロック図である。

第３実施形態の音声認識装置10は、第１実施形態及び第２実施形態と同様に、声入力部31、第１単語辞書32、第２単語辞書33、音声認識部34、再検出部35、結果出力部36を備えている。

第１単語辞書32は、音声認識処理を実行する際に用いられる複数の読み情報である第１読み情報群を登録する。この第１単語辞書32に登録される第１読み情報群は、音声認識の認識確率を高めるために調整されたものであって、例えば、読み情報の長さ、音声認識処理に用いられる閾値、他の読み情報とのリンク等が調整される。

第２単語辞書33に登録される第２読み情報群は、他の装置のシステム設計者、その装置のユーザ等が、装置に必要となる読み情報を選択的に登録することができる。第２読み情報群を構成する読み情報は、例えば、CSV（Comma Separated Values）形式のファイルのような、読み情報を列挙したテキストファイルとして第２単語辞書33に登録することができる。

音声認識部34は、音声入力部31から入力される音声信号を第２単語辞書33を用いて音声認識処理を行い、第２読み情報群に含まれる読み情報に一致すると評価される読み情報を音声認識結果として、結果出力部36に出力する。

音声認識部34は、第２単語辞書33を用いた音声認識処理において第２読み情報群に含まれる読み情報に一致すると評価される読み情報を認識できなかった場合、第１単語辞書32を用いて音声認識処理を行う。音声認識部34は、第１単語辞書32を用いて音声認識処理を行った結果、第１読み情報群に含まれる読み情報に一致すると評価される読み情報を認識結果として出力する。

再検出部35は、第２読み情報群に含まれ、音声認識部34から出力される認識結果に含まれる読み情報と少なくとも一部が一致する読み情報を検出する。音声認識部34により出力される認識結果には、第２単語辞書33を用いて音声認識処理された読み情報または第１単語辞書32を用いて音声認識処理された読み情報が含まれている。再検出部35は、音声認識部34から出力された認識結果に含まれる読み情報に一致する読み情報、または一部が一致する読み情報であって、第２読み情報群に含まれる読み情報を検出する。したがって、音声認識結果に含まれる読み情報が、第２単語辞書33を用いて音声認識された読み情報である場合、再検出部35はこの読み情報に一致する読み情報を第２読み情報群中に検出することとなる。また、音声認識結果に含まれる読み情報が、第１単語辞書32を用いて音声認識された読み情報である場合、再検出部35は、この読み情報に一致するかあるいは一部が一致する読み情報を第２読み情報群中に検出する可能性がある。

再検出部35は、例えば、認識結果に含まれる読み情報が「おねがいします」であり、第２読み情報群に「おねがい」という読み情報が含まれているような場合に、「おねがい」を再検出された読み情報として出力する。読み情報同士の部分一致は、文字列の長さの差を所定値に設定し、一致している音素が長い方の文字列長の何％であれば部分一致しているとみなすことができる。

結果出力部36は、再検出部35で検出された読み情報を出力する。前述したように、再検出部35で検出された読み情報は、音声認識部34によって音声認識した認識結果のうち、第２単語辞書33に登録された第２読み情報群に含まれる読み情報と一致する読み情報、または第１単語辞書32に登録された第１読み情報群に含まれる読み情報に一部が一致する読み情報であって第２単語辞書33に登録された第２読み情報群に含まれる読み情報である。したがって、結果出力部36が出力する読み情報は、第２単語辞書33により音声認識された読み情報と、第２単語辞書33では音声認識されなかったものの第１単語辞書32で音声認識された読み情報とを含み、そのいずれもが第２単語辞書33の第２読み情報群に含まれる読み情報である。

したがって、第３実施形態の音声認識装置10の結果出力部36から出力される読み情報は、第１実施形態の場合と同様の結果を得ることができる。

図10は、第１実施形態の音声認識装置10の動作を示すフローチャートである。

ステップS1001において、音声認識装置10は、音声入力部31を介して音声認識部34に音声信号を入力する。音声入力部31は、ユーザのアナログ音声をマイクにより集音してアナログ／デジタル変換したデジタル音響信号、またはwavファイルやその他のデジタル音声データから復元した音声データを音声認識部34に入力する。

ステップS1002において、音声認識装置10は、音声入力部31から入力される音声信号を、第２単語辞書33を用いて音声認識処理する。音声認識部34は、所定の音響モデルを用いて第２読み情報群に含まれる読み情報から音素モデルを作成し、第１実施形態と同様に、入力された音声信号の特徴量と音素モデルの特徴量とを比較して、一致すると評価できる読み情報を検出する。

ステップS1003において、音声認識装置10は、第２単語辞書33を用いて音声認識処理を行った結果、認識結果を得ることができたか否かを判別する。

音声認識装置10は、第２単語辞書33に登録された読み情報に一致すると評価できる音声信号を検出できなかった場合に、認識結果を得ることができなかったと判断し、ステップS1004に移行する。また、音声認識装置10は、第２単語辞書33に登録された読み情報に一致すると評価できる音声信号を検出した場合には、認識結果を得られたと判断してステップS1006に移行する。

ステップS1004において、音声認識装置10は、音声入力部31から入力される音声信号を、第１単語辞書32を用いて音声認識処理する。音声認識部34は、所定の音響モデルを用いて第１読み情報群に含まれる読み情報から音素モデルを作成し、入力された音声信号の特徴量と音素モデルの特徴量とを比較して、一致すると評価できる読み情報を検出する。

ステップS1005において、音声認識装置10は、第２読み情報群に含まれ、第１単語辞書32により音声認識処理された認識結果に少なくとも一部が一致する読み情報を検出する。再検出部35は、第２読み情報群に含まれ、第１単語辞書32により音声認識処理された認識結果の読み情報に少なくとも一部が一致する読み情報を検出すると、検出した読み情報を結果出力部36に出力する。

ステップS1006において、音声認識装置10は、再検出部35により検出された読み情報と、音声認識部34から出力される第２単語辞書33で音声認識された認識結果に含まれる読み情報を結果出力部36を介して出力する。

結果出力部36が出力する読み情報は、いずれも第２読み情報群に含まれるものであって、第２読み情報群により音声認識された読み情報と、第１読み情報群により音声認識された読み情報に一部が一致する読み情報である。

音声認識部34において、第２単語辞書33で音声認識された認識結果に含まれる読み情報は、一致する読み情報が第２単語辞書33に登録された第２読み情報群に含まれる。したがって、上述の例では、第２単語辞書33で音声認識された認識結果に含まれる読み情報を直接結果出力部36に出力している。

これに代えて、音声認識部34において、第２単語辞書33で音声認識された認識結果に含まれる読み情報と、第１単語辞書32でオンし得認識された認識結果に含まれる読み情報とを、ともに再検出部35に入力することもできる。

このようにした第３実施形態の音声認識装置10では、音声信号内に音素モデルと一致する読み情報があるか否かを評価するための閾値を、単語辞書に登録された読み情報毎に設定しておくことができる。特に、音声認識処理における誤検出を極力減らし、かつ認識できる確率を高めるようにするためには、読み情報毎の閾値が音声認識処理の専門家により調整された単語辞書を用いることが好ましい。

図11は、読み情報毎に閾値が設定された第１単語辞書32の一例を示す説明図である。

図11に示す第１単語辞書32の例では、読み情報「でんわ」、「おねがい」、「ありがとう」に対して、それぞれ「85」、「80」、「70」の閾値が設定されている。

音声認識部34において、所定の音響モデルを用いて第１単語辞書32内の読み情報から音素モデルを作成し、入力された音声信号の特徴量と音素モデルの特徴量とを比較する際に、一致する特徴量を累積して、音声信号と読み情報の間のスコアを算出する。このスコアが所定値を超えた場合に、一致する読み情報が存在すると判断することができる。読み情報に設定された閾値を高くすることにより、その読み情報を音声認識する際の誤検出を少なく抑えることができるが、認識できる機会が減少し、認識確率を高めることができないおそれがある。逆に、閾値を低くすれば、音声認識の機会が増えることから認識確率を高めることができるが、誤検出も増えるおそれがある。したがって、発生のばらつきや「怠け」等が生じ易い読み情報に対して、閾値を低くすれば、音声認識の機会が増え、認識確率が高くなるものと考えられる。

音声認識処理におけるスコアの算出方法によりスコアの値は異なることから、一致する読み情報であると評価するための閾値についても、スコアの算出方法に基づいて異なる。ここでは、音声認識部34において算出される音声認識のスコアを０〜100の範囲であるものとする。この場合、例えば、誤検出なしで大多数の読み情報を音声認識できる閾値を90程度とすることができる。

図示した例では、読み情報「でんわ」に対する閾値が「85」に設定されており、読み情報「ありがとう」に対する閾値が「70」に設定されている。このことから、音声認識部34における音声認識処理における認識確率は、読み情報「ありがとう」の方が読み情報「でんわ」よりも高くなる。

第３実施形態の音声認識装置10では、図10のステップS1002の音声認識処理において用いる閾値をある程度高い値に設定しておく。前述したように、音声認識のスコアとして０〜100の範囲である場合に、ステップS1002において、音声認識の評価に用いられる閾値を90として第２単語辞書33による音声認識処理を実行する。このことにより、ステップS1002における音声認識処理の誤認識を極力減少できる。

また、ステップS1004においては、図11に示すような、各読み情報に設定された閾値を用いて音声認識処理を行う。前述したように、ここで用いられる第１単語辞書32は、登録されている第１読み情報群に含まれる各読み情報に対して、それぞれ認識確率を考慮して調整された閾値が設定されている。このことから、ステップS1002における音声認識処理によって音声認識されなかった読み情報についても、このステップS1004における音声認識処理で認識できる機会が向上する。

例えば、音声認識部34が、第２単語辞書33として図８に示すような読み情報が記述された単語辞書を用い、評価の閾値を90として音声認識処理を行った結果、認識結果を得ることができなかったとする。

次に、音声認識部34が、第１単語辞書32として図11に示すような読み情報が記述された単語辞書を用いて音声認識処理を行った結果、読み情報「おねがい」を認識できたとする。

この場合、第１単語辞書32に登録されている読み情報「おねがい」には、評価の閾値として80が設定されているが、ステップS1002の第２単語辞書33を用いた音声認識処理では、評価の閾値を90としている。したがって、第１単語辞書32を用いた音声認識処理では認識できた読み情報「おねがい」が、第２単語辞書33を用いた音声認識処理では、閾値が高いことから認識できなかったと考えられる。

このように、第２単語辞書33を用いた音声認識処理で認識できなかった読み情報について、評価の閾値が調整された第１単語辞書32を用いて認識結果を得ることが可能となる。第１単語辞書32を用いて認識された読み情報は、再検出部35により、第２読み情報群に含まれ少なくとも一部が一致する読み情報が存在すれば、第２読み情報群の読み情報に置き換えられて結果出力部36に出力される。

このような第３実施形態の音声認識装置10では、第２単語辞書33を用いた音声認識処理において誤検出を減少することができるとともに、第１単語辞書32を用いた音声認識処理において音声認識の機会を多くして、認識確率を高めることができる。また、再検出部35で再検出処理を行うことで、第２単語辞書33に登録された第２読み情報群に含まれる読み情報のみが出力される。

したがって、第２単語辞書33には、必要となる読み情報を登録するだけで、閾値の設定を行う必要がない。また、第１単語辞書32として、認識確率が向上するような第１読み情報群が登録されていることから、認識できる機会を高めることができ、発声の個人差や「怠け」等による未認識を少なくすることができる。

〈他の実施形態〉
図12は、第１単語辞書32に登録される第１読み情報群の他の例を示す説明図である。

図12に示す例では、読み情報に対して同一の読み情報を意味することが推測される他の読み情報を拡張読み情報として関連付けて、第１単語辞書32に登録している。

図12に示すように、読み情報「おきなわ」に対して、第１拡張読み情報「おきなあ」が登録されている。同様に、読み情報「おねがい」に対して、第１拡張読み情報「おねがー」、第２拡張読み情報「おねあい」が登録されており、読み情報「でんわ」に対して、第１拡張読み情報「でーわ」が登録されている。このように読み情報に対して拡張読み情報を関連付けて第１単語辞書32に登録することは、音声認識処理の知識を備える専門家が、音声認識の認識確率を高めるためにマニュアルで調整することができる。

このような第１単語辞書32を用いて音声認識処理を行う際に、音声認識部34は、第１読み情報群の含まれる読み情報とその拡張読み情報とに基づいてそれぞれの音素モデルを作成し、これを用いて音声信号の音声認識処理を行う。

音声認識部34は、第１拡張読み情報「おねがー」に対応する音声信号を認識した場合、この第１拡張読み情報「おねがー」が関連付けられている読み情報「おねがい」を、認識結果として出力する。同様に、音声認識部34は、第２拡張読み情報「おねあい」に対応する音声信号を認識した場合も、この第２拡張読み情報「おねあい」にリンクしている読み情報「おねがい」を認識結果として出力する。

第２単語辞書33に登録されている第２読み情報群が、図８に示されるものであるとする。

このような第１単語辞書32及び第２単語辞書33を用いて、第１実施形態による音声認識装置10による音声認識処理を行う場合について、以下に説明する。

音声認識部34が第１単語辞書32を用いて音声認識処理した結果、読み情報「おねがい」を認識結果として出力したとする。このとき、音声認識部34が出力する認識結果に含まれる読み情報に一致する読み情報「おねがい」が第２単語辞書33に含まれていることから、再検出部35は、この読み情報「おねがい」を検出してこれを出力する。

したがって、音声認識部34が、音声信号中に読み情報「おねがい」、及びその拡張読み情報である「おねがー」、「おねあい」を検出すると、認識結果として「おねがい」という読み情報を出力する。これに基づいて、再検出部35は、認識結果に含まれる読み情報「おねがい」が第２単語辞書33に含まれる読み情報と一致することにより、再検出結果をして読み情報「おねがい」を出力する。

音声認識部34が第２単語辞書33だけを用いて音声認識処理を実行した場合には、音声信号中の読み情報「おねがー」または「おねあい」を認識結果として得ることができないが、拡張読み情報を備える第１単語辞書32を用いた音声認識処理を行うことで、より認識確率を高めることができ、かつ出力する読み情報としては、第２単語辞書33に登録された他の装置における処理に利用可能な情報に対応する読み情報を認識結果として出力できる。

また、音声認識部34が第１単語辞書32を用いて音声認識処理した結果、読み情報「おきなわ」を認識結果として出力したとする。この場合は、音声認識部34が出力する認識結果に含まれる読み情報「おきなわ」に一致する読み情報が第２単語辞書33に存在していない。したがって、再検出部35は、読み情報を検出することなく、検出結果出力を行わない。

このように、第１単語辞書32に登録されている第１読み情報群に含まれる読み情報が、音声認識部34の認識結果として得られたとしても、第２単語辞書33に登録されている第２読み情報群に含まれない読み情報は出力しない。例えば、他の装置の制御コマンドに対応する読み情報が第２単語辞書33の第２読み情報群として登録されている場合に、該当しない読み情報を出力しないことにより、他の装置において処理エラーが発生することを防止できる。

第２単語辞書33として、他の装置における処理に利用可能な情報を読み情報と対応させて登録しておき、音声認識された読み情報に対応する情報を出力することも可能である。

例えば、カーナビゲーションシステムでは、電源オン・オフ、現在地表示、目的地設定、ルート検索、目的地変更、その他の制御コマンドを、読み情報と対応させて第２単語辞書33に予め登録されており、ておく。各制御コマンドに対応する音声が入力され、対応する読み情報として認識された場合に、対応する制御コマンドをカーナビゲーション装置に入力することにより、カーナビゲーション装置の操作指示を行うことができる。

前述したように、車載装置としては、カーナビゲーション装置の他に、オーディオ装置通信装置、その他の電装品等が想定され、各装置の制御コマンドを読み情報として対応して登録しておくことで、音声認識装置10を介して音声による操作指示を行うことができる。

前述したような各実施形態における音声認識装置は、パーソナルコンピュータやその他の情報処理装置として実現することが可能である。このような情報処理装置は、CD-ROMやフレキシブルディスク等の可搬型記憶媒体に格納されたデータの読み取り・書き込みが可能な駆動装置を備えることができる。また、情報処理装置は、ハードディスクやRAM等の記憶装置を内蔵または外付けで接続されており、記憶装置に格納されたデータの読み取り・書き込みが可能とすることができる。さらに、情報処理装置は、ネットワークと接続可能なインターフェイスを備えており、ネットワーク上に存在する記憶装置にアクセスすることが可能にすることも可能である。

情報処理装置を音声認識装置として機能させるためのアプリケーションプログラムは、可搬型記憶媒体、ネットワーク上の記憶装置、内蔵または外付けされる記憶装置のいずれかに格納されたものを用いることが可能である。情報処理装置は、これら記録装置に登録されたアプリーションプログラムをメインメモリ上にロードして実行することによって、音声認識処理を実行する。

本発明の音声認識装置は、カーナビゲーションシステムの音声入力、音声自動応答システム、その他音声入力を伴う装置に適用することができる。

10 音声認識装置
31 音声入力部
32 第１単語辞書
33 第２単語辞書
34 音声認識部
35 再検出部
36 結果出力部

Claims

音声認識用の複数の単語の読み情報が登録されている第１単語辞書と、
音声認識する複数の単語の読み情報が登録される第２単語辞書と、
音声データを入力して、前記第１単語辞書を用いて音声認識する音声認識部と、
前記第２単語辞書に登録されている複数の読み情報の中から、前記音声認識部で認識された読み情報に少なくとも一部が一致する読み情報を検出する再検出部と、
該検出された読み情報を出力する結果出力部と、
を含む音声認識装置。
音声認識用の複数の単語の読み情報が登録されている第１単語辞書と、
音声認識する複数の単語の読み情報が登録される第２単語辞書と、
音声データを入力して、前記第１単語辞書及び第２単語辞書を用いて音声認識する音声認識部と、
前記第２単語辞書に登録されている複数の読み情報の中から、前記音声認識部で認識された読み情報に少なくとも一部が一致する読み情報を検出する再検出部と、
該検出された読み情報を出力する結果出力部と、
を含む音声認識装置。
音声認識用の複数の単語の読み情報が登録されている第１単語辞書と、
音声認識する複数の単語の読み情報が登録される第２単語辞書と、
音声データを入力して、前記第２単語辞書を用いて音声認識し、前記第２単語辞書に、前記音声認識の結果が一致する読み情報があるか否か判断し、一致する読み情報がある場合は、当該読み情報を音声認識結果とし、一致する読み情報が無い場合は、前記第１単語辞書を用いて音声認識し、その結果を音声認識結果とする音声認識部と、
前記第２単語辞書に登録されている複数の読み情報の中から、前記音声認識で認識された読み情報に少なくとも一部が一致する読み情報を検出する再検出部と、
前記再検出部で検出した読み情報を出力する結果出力部と、
を備える音声認識装置。
音声認識用の複数の単語の読み情報が登録されている第１単語辞書と、
音声認識する複数の単語の読み情報が登録される第２単語辞書と、
音声データを入力して、前記第１単語辞書を用いて音声認識する音声認識部と、
前記第２単語辞書に登録されている複数の読み情報の中から、前記音声認識部で認識された読み情報に少なくとも一部が一致する読み情報を検出する再検出部と、
該検出された読み情報を出力する結果出力部と、
を含む音声認識装置としてコンピュータを機能させるためのプログラム。