JP6080978B2

JP6080978B2 - 音声認識装置および音声認識方法

Info

Publication number: JP6080978B2
Application number: JP2015548915A
Authority: JP
Inventors: 祐介瀬戸
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-11-20
Filing date: 2013-11-20
Publication date: 2017-02-15
Anticipated expiration: 2033-11-20
Also published as: DE112013007617B4; JPWO2015075789A1; CN105793920A; CN105793920B; US20160240188A1; DE112013007617T5; WO2015075789A1; US9711136B2

Description

この発明は、ユーザが発話した音声を認識する音声認識装置および音声認識方法に関する。

近年の音声認識装置は、複数の言語を認識可能となっている。このような音声認識装置では、認識率が高くなるよう、ユーザが使用する言語に適した音響モデルを使用して認識処理を行う必要がある。例えば、同じ英語であっても、母国語がドイツ語のユーザと母国語がフランス語のユーザとでは発音が異なるため、それぞれに適した音響モデルを使用する必要がある。

従来、複数の言語の切換方法として、例えば、特許文献１に係る電子辞書装置の使用言語切換方法がある。この電子辞書装置は、言語ごとに単語を登録する登録手段と、ユーザが発話した音声と登録手段に登録されている単語とが一致するか否かを判定する判定手段と、一致した単語に対応する言語の辞書に切り換える切換手段とを具備する構成である。ユーザは、予め各言語に対応する単語を登録手段に登録しておき、使用したい言語の辞書に切り換える際には当該言語に対応する単語を発音する必要があった。

特開２００１−２８２７８８号公報

前述の音声認識装置において、ユーザが使用する言語に適した音響モデルに切り換えるために、例えば特許文献１のような方法を利用すると、ユーザに単語の登録および発話を要求することとなり、ユーザにとってはそのような操作が煩わしいという課題があった。

この発明は、上記のような課題を解決するためになされたもので、単語の登録および発話といった特別な操作をユーザに要求すること無しに、自動的に適切な音響モデルに切り換える音声認識装置および音声認識方法を提供することを目的とする。

この発明の音声認識装置は、音声を取得して原音声信号として出力する音声取得部と、原音声信号を加工して加工音声信号を生成する音声データ加工部と、原音声信号および加工音声信号を分析して音響特徴の時系列データを生成する音響分析部と、認識対象とする複数の言語に対応した複数の音響モデルと、各言語の音響モデルを用いて、原音声信号の音響特徴の時系列データを各言語の音声ラベル列に変換し各言語の判定用辞書を生成すると共に、各言語の音響モデルと判定用辞書とを用いて、加工音声信号の音響特徴の時系列データを認識処理し言語ごとに認識スコアを算出する音声認識部と、音声認識部が算出した言語ごとの認識スコアに基づいて、複数の音響モデルの中から一の音響モデルを決定する音響モデル切換部とを備える。

この発明の音声認識方法は、デジタル信号化された音声である原音声信号を加工して加工音声信号を生成する音声データ加工ステップと、原音声信号および加工音声信号を分析して音響特徴の時系列データを生成する音響分析ステップと、認識対象とする複数の言語に対応した複数の音響モデルを用いて、原音声信号の音響特徴の時系列データを各言語の音声ラベル列に変換し、各言語の判定用辞書を生成する判定辞書生成ステップと、各言語の音響モデルと判定用辞書とを用いて、加工音声信号の音響特徴の時系列データを認識処理し、言語ごとに認識スコアを算出する認識スコア算出ステップと、言語ごとの認識スコアに基づいて、複数の音響モデルの中から一の音響モデルを決定する音響モデル決定ステップとを備える。

この発明によれば、音響モデル切り換えのために単語の登録および発話などの特別な操作をユーザが行う必要がない。従って、操作の煩わしさを解消することができる。また、原音声信号に車両の騒音等を重畳した加工音声信号を生成するようにしたので、車両の騒音等を考慮して適切な音響モデルを決定することができる。

この発明の実施の形態１に係る音声認識装置の基本概念を示すブロック図である。実施の形態１に係る音声認識装置において、ユーザに適した音響モデルを決定する処理を示すフローチャートである。図２のステップＳＴ４の処理の詳細を示すフローチャートである。図２のステップＳＴ５の処理の詳細を示すフローチャートである。図２のステップＳＴ５の処理で求まる認識スコアの一例を示す表である。この発明の実施の形態２に係る音声認識装置の構成例を示すブロック図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る音声認識装置の基本概念を示すブロック図である。この音声認識装置は、音声取得部１、音響分析部２、言語ごとに用意された音響モデル３−１〜３−ｘ（ｘは任意の数）、音響モデル切換部４、音声認識部５、音声データ記憶部６、音声データ加工部７、辞書生成部８、言語ごとに作成される判定用辞書９−１〜９−ｘを備えている。

音声取得部１は、不図示のマイクから入力されたユーザ発話の音声（以下、原音声と記載する）を、例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）によりＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換して、デジタル信号化する。
なお、以下の説明において、原音声をデジタル信号化した音声信号を原音声信号と記載する。

音声データ記憶部６は、音声取得部１により出力された原音声信号を記憶する。

音声データ加工部７は、音声データ記憶部６から原音声信号を取得し、当該原音声信号を加工して、新しく１パターン以上の音声信号を生成する。
なお、以下の説明において、加工された音声信号を加工音声信号と記載する。
加工方法としては、例えば、音声認識装置が使用される環境下で想定される環境騒音の重畳、音量の変更、速度の変更等、またはこれらの組み合わせが挙げられ、ユーザの発話の特徴を消さないような加工方法であればよい。一方、人の声が混入している音声の重畳、および周波数の変更は避ける。

音響分析部２は、音声取得部１によりデジタル信号化された原音声信号、および音声データ加工部７により生成された加工音声信号を分析して、音響特徴の時系列データに変換する。
この音響分析部２は、例えば、音声信号を一定の時間間隔で分析して、音声の特徴を表す音響特徴の時系列データ（音響特徴量ベクトル）を出力する。

音響モデル３−１〜３−ｘは、第１〜第ｘ言語それぞれの音声ラベル（例えば、音素ラベル）に対応する標準の音響特徴であり、この音響特徴は、例えば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）等によりモデル化されたものである。
例えば、英語を母国語とするユーザが発話する英語を第１言語とし、当該第１言語用に音響モデル３−１および後述する判定用辞書９−１を用意する。他方、ドイツ語を母国語とするユーザが発話する英語を第２言語とし、当該第２言語用に音響モデル３−２および後述する判定用辞書９−２を用意する。

音声認識部５は、ユーザに適した音響モデル決定の際、音響分析部２によって出力された音響特徴の時系列データを入力とし、音響モデル３−１〜３−ｘそれぞれと照合して対応する音声ラベル列（例えば、音素ラベル列）を求め出力する。
また、ユーザに適した音響モデル決定の際、音声認識部５は、音響分析部２によって出力された音響特徴の時系列データを入力として、音響モデル３−１〜３−ｘと判定用辞書９−１〜９−ｘとを用いて音響特徴の時系列に対する音声認識処理を実行し、認識結果として認識スコアを出力する。
一方、通常の音声認識処理では、音声認識部５が、音響分析部２によって出力された音響特徴の時系列データを入力とし、音響モデル切換部４により決定された音響モデル３−１〜３−ｘのうちのいずれか１つの音響モデルを用いて音声認識処理を実行し認識結果を出力する。

辞書生成部８は、ユーザに適した音響モデル決定の際、音声認識部５によって出力された音素ラベル列を、対応する言語の判定用辞書９−１〜９−ｘに格納する。
例えば、音声認識部５が音響特徴の時系列データを第１言語の音響モデル３−１と照合して対応する音素ラベル列を出力した場合、辞書生成部８はこの音素ラベル列を第１言語の判定用辞書９−１に格納する。
なお、辞書生成部８の機能を音声認識部５に持たせて、音声認識部５に判定用辞書９−１〜９−ｘを生成させる構成にしてもよい。

音響モデル切換部４は、音声認識部５により音声認識処理された加工音声信号の認識結果（認識スコア）に基づいて、音響モデル３−１〜３−ｘの中から、原音声を発話したユーザに適した音響モデルを決定し、音声認識部５へ通知する。
音響モデル切換部４が音響モデルを決定する処理については、後述する。

なお、音声データ記憶部６、音響モデル３−１〜３−ｘ、および判定用辞書９−１〜９−ｘは、共通の記憶素子または記憶装置などに記憶してもよいし、それぞれ独立した記憶素子または記憶装置などに記憶してもよい。
また、音声認識装置は、例えば、プログラムを格納したメモリと、そのプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）とを有する構成にして、ＣＰＵがプログラムを実行することにより音声取得部１、音響分析部２、音響モデル切換部４、音声認識部５、音声データ加工部７、および辞書生成部８が持つ機能をソフトウエアによって実現するようにしてもよいし、あるいはその一部をハードウエアで置き換えてもよい。
また、音声認識装置が音素単位で音声認識処理を行う構成にしたが、音素以外の単位で音声認識処理を行う構成にしてもよい。

次に、図２〜図４に示すフローチャートを用いて、実施の形態１に係る音声認識装置の処理を説明する。
図２は、ユーザに適した音響モデルを決定する処理を示すフローチャートである。
まず、音声取得部１は、ユーザが自由に発話した音声をマイクを介して原音声として取得し、例えばＰＣＭによりＡ／Ｄ変換して原音声信号にし（ステップＳＴ１）、音声データ記憶部６に格納する（ステップＳＴ２）。

続いて、音声データ加工部７が、音声データ記憶部６から原音声信号を取得し、当該原音声信号を加工して、新しく１パターン以上の加工音声信号を生成する（ステップＳＴ３）。
その後、音響分析部２が原音声信号を分析して音響特徴の時系列データを生成し、音声認識部５が当該音響特徴の時系列データを音響モデル３−１〜３−ｘそれぞれと照合して対応する音素ラベル列を求め、辞書生成部８が当該音素ラベル列を対応する言語の判定用辞書９−１〜９−ｘに格納する（ステップＳＴ４）。

ここで、ステップＳＴ４の処理の詳細を、図３に示すフローチャートを用いて説明する。
まず、音響分析部２は、原音声信号を分析して音響特徴の時系列データに変換する（ステップＳＴ１１）。
続いて、音響モデル切換部４は、音響モデル３−１〜３−ｘをカウントするためのカウンタｎを初期化する（ステップＳＴ１２）。そして、音響モデル切換部４は、カウンタｎが音響モデル数ｘ以下の場合（ステップＳＴ１３“ＹＥＳ”）、音声認識部５に対して第ｎ言語の音響モデル３−ｎを用いて原音声信号を認識するよう指示を出力する（ステップＳＴ１４）。

続いて、音声認識部５は、音響分析部２により出力された原音声信号の音響特徴の時系列データと、音響モデル切換部４により指示された第ｎ言語の音響モデル３−ｎとを照合して、当該音響特徴の時系列に対応する第ｎ言語の音素ラベル列を出力する（ステップＳＴ１５）。

その後、辞書生成部８は、音声認識部５により出力された第ｎ言語の音素ラベル列を、第ｎ言語の判定用辞書９−ｎに格納する（ステップＳＴ１６）。そして、音響モデル切換部４は、カウンタｎをインクリメントし（ステップＳＴ１７）、ステップＳＴ１３の処理へ戻る。

ステップＳＴ１３〜ＳＴ１７の処理を繰り返し、原音声信号についてすべての言語の音素ラベル列の生成が終了すると、音響モデル切換部４は、カウンタｎが音響モデル数ｘより大きいと判定して（ステップＳＴ１３“ＮＯ”）、図２のフローチャートのステップＳＴ５へ進む。

図２のステップＳＴ５に戻り、音響分析部２が各加工音声信号を分析して音響特徴の時系列データを生成し、音声認識部５が音響モデル３−１〜３−ｘとそれぞれに対応する判定用辞書９−１〜９−ｘとを用いて、各加工音声信号の音響特徴の時系列データを音声認識処理して認識スコアを出力し、音響モデル切換部４は音響モデル３−１〜３−ｘに対応付けて各認識スコアを記憶する（ステップＳＴ５）。

ここで、ステップＳＴ５の処理の詳細を、図４に示すフローチャートを用いて説明する。
まず、音響分析部２は、音声データ加工部７により１個の原音声信号から生成された複数パターン（例えば、第１〜第ｙパターン；ｙは任意の数）の加工音声信号を分析して、加工音声信号それぞれを音響特徴の時系列データに変換する（ステップＳＴ２１）。

音響モデル切換部４は、第１〜第ｙパターンの加工音声信号をカウントするためのカウンタｍを初期化する（ステップＳＴ２２）。そして、音響モデル切換部４は、カウンタｍが加工音声信号数ｙ以下の場合（ステップＳＴ２３“ＹＥＳ”）、音響モデル３−１〜３−ｘをカウントするためのカウンタｎを初期化し（ステップＳＴ２４）、カウンタｎが音響モデル数以下の場合（ステップＳＴ２５“ＹＥＳ”）、第ｎ言語の音響モデル３−ｎと判定用辞書９−ｎとを用いて第ｍパターンの加工音声信号を音声認識処理するよう音声認識部５へ指示を出力する。続いて音声認識部５は、第ｍパターンの加工音声信の音響特徴の時系列データを入力として、音響モデル切換部４により指示された第ｎ言語の音響モデル３−ｎと判定用辞書９−ｎとを用いて音声認識処理を実行し、認識結果として認識スコアを出力する（ステップＳＴ２６）。

続いて、音響モデル切換部４は、例えば図５に示すように、音声認識部５により出力された第ｍパターンの加工音声信号の認識スコアを、第ｎ言語の音響モデル３−ｎに対応付けて記憶する（ステップＳＴ２７）。そして、音響モデル切換部４は、カウンタｎをインクリメントし（ステップＳＴ２８）、ステップＳＴ２５の処理へ戻る。

ステップＳＴ２５〜ＳＴ２８の処理を繰り返し、第ｍパターンの加工音声信号についてすべての言語の音声認識処理を終了すると、音響モデル切換部４は、カウンタｎが音響モデル数より大きいと判定して（ステップＳＴ２５“ＮＯ”）、カウンタｍをインクリメントし（ステップＳＴ２９）、ステップＳＴ２３の処理へ戻る。

ステップＳＴ２３〜ＳＴ２９の処理を繰り返し、すべてのパターンの加工音声信号についてすべての言語の音声認識処理を終了すると、音響モデル切換部４は、カウンタｍが加工音声信号数ｙより大きいと判定して（ステップＳＴ２３“ＮＯ”）、図２のフローチャートのステップＳＴ６へ進む。

図２のステップＳＴ６に戻り、音響モデル切換部４は、音響モデル３−１〜３−ｘそれぞれに対応付けて記憶された第１〜第ｙパターンの加工音声信号の認識スコアに基づいて、原音声を発話したユーザに適した音響モデルを音響モデル３−１〜３−ｘの中から決定する（ステップＳＴ６）。
音声認識部５は、その後の音声認識処理において、音響モデル切換部４が決定した音響モデルを用いる。

ここで、ステップＳＴ６の処理の詳細を、図５に示す認識スコア例を用いて説明する。図５において、認識スコアの値が高いほど、音響特徴の時系列データと音響モデルとの尤度が高いものとする。
音響モデル切換部４は、音響モデル３−１〜３−ｘそれぞれについて、第１〜第ｙパターンの加工音声信号の認識スコアの平均値を求め、平均値が最も大きい音響モデルを決定する。
具体的には、第１〜第ｘ言語の音響モデル３−１〜３−ｘを用いて加工音声信号の音声認識処理を実行した際の認識スコアが、図５に示すような場合、第１言語の音響モデル３−１に対応付けられた第１〜第３パターンの加工音声信号の認識スコア「４００」、「４３０」、「４００」の平均値は「４１０」になる。第２言語の音響モデル３−２に対応付けられた第１〜第３パターンの加工音声信号の認識スコアの平均値は「３９０」、第３言語の音響モデル３−３に対応付けられた第１〜第３パターンの加工音声信号の認識スコアの平均値は「３８０」になる。よって、音響モデル切換部４は、平均値が最も大きい第１言語の音響モデル３−１を、ユーザに適した音響モデルとして決定する。

または、音響モデル切換部４が、音響モデル３−１〜３−ｘそれぞれについて、第１〜第ｙパターンの加工音声信号の認識スコアが所定の閾値以上（または、閾値より大きい）か否かを判定し、閾値以上である（または、閾値より大きい）認識スコアの個数を算出し、当該個数を評価値とする。そして、当該評価値が最も大きい音響モデルを決定する。
具体的には、図５に示す認識スコアの場合であって、閾値を「４００」とすると、第１言語の音響モデル３−１の評価値は「３」、第２言語の音響モデル３−２の評価値は「１」、第３言語の音響モデル３−３の評価値は「０」となる。よって、音響モデル切換部４は、評価値が最も大きい第１言語の音響モデル３−１を、ユーザに適した音響モデルとして決定する。

以上より、実施の形態１によれば、音声認識装置は、音声を取得して原音声信号として出力する音声取得部１と、原音声信号を加工して加工音声信号を生成する音声データ加工部７と、原音声信号および加工音声信号を分析して音響特徴の時系列データを生成する音響分析部２と、認識対象とする複数の言語に対応した複数の音響モデル３−１〜３−ｘと、各言語の音響モデル３−１〜３−ｘを用いて、原音声信号の音響特徴の時系列データを各言語の音声ラベル列（例えば、音素ラベル列）に変換し各言語の判定用辞書９−１〜９−ｘを生成すると共に、各言語の音響モデル３−１〜３−ｘと判定用辞書９−１〜９−ｘとを用いて、加工音声信号の音響特徴の時系列データを認識処理し言語ごとに認識スコアを算出する音声認識部５と、音声認識部５が算出した言語ごとの認識スコアに基づいて、複数の音響モデル３−１〜３−ｘの中から１つの音響モデルを決定する音響モデル切換部４とを備える構成にした。このため、ユーザが自由に発話した音声を使用して音響モデルを決定することができるようになり、音響モデル切り換えのために単語の登録および発話などの特別な操作をユーザが行う必要がない。従って、操作の煩わしさを解消することができる。また、環境騒音を重畳する等の加工を原音声信号に施すことにより、環境騒音等を考慮して音響モデルを決定することができ、不適な音響モデルへの切り換えを防止できる。

また、実施の形態１によれば、音声データ加工部７は、１個の原音声信号から複数パターンの加工音声信号を生成し、音響モデル切換部４は、言語ごとに、複数パターンの加工音声信号に対応する複数の認識スコアの平均値を算出し、当該平均値が最も大きい言語の音響モデルを決定するようにした。
あるいは、音声データ加工部７は、１個の原音声信号から複数パターンの加工音声信号を生成し、音響モデル切換部４は、言語ごとに、複数パターンの加工音声信号に対応する複数の認識スコアと閾値とを比較し、当該閾値以上の認識スコア数が最も多い（即ち、評価値が最も大きい）言語の音響モデルを決定するようにしてもよい。
このようにすることで、よりユーザに適した音響モデルを決定することができる。

なお、実施の形態１の音響モデル切換部４は、１個の原音声信号を入力として、各音響モデル３−１〜３−ｘの認識スコアの平均値（または、評価値）を１個ずつ求めたが、これに限定されるものではない。例えば、複数個の原音声信号を入力として図２のステップＳＴ４，ＳＴ５の処理を複数回行い、１つの音響モデルについて認識スコアの平均値（または、評価値）を複数個求め、当該複数個の平均値の平均値（または、複数個の評価値の平均値）を算出し、当該平均値が最も大きい音響モデルを、ユーザに適した音響モデルとして決定してもよい。

さらに、音響モデル切換部４は、過去に算出された各音響モデル３−１〜３−ｘの認識スコアの平均値（または、評価値）を記憶しておき、新たにユーザ発話があったときに、過去の認識スコアの平均値（または、評価値）と今回のユーザ発話の原音声信号から算出した認識スコアの平均値（または、評価値）の平均値を算出し、当該平均値が最も大きい音響モデルを、ユーザに適した音響モデルとして決定してもよい。

また、過去と今回の各認識スコアの平均値（または、評価値）の平均値を算出する場合、音響モデル切換部４が、各認識スコアの平均値（または、評価値）に重み付けしてもよい。例えば、算出された時期が古い認識スコアの平均値（または、評価値）より、新しい認識スコアの平均値（または、評価値）の方が重み付けの値が大きくなるようにする。人間の声は年齢等に応じて変化していくので、より新しい認識スコアの平均値（または、評価値）を音響モデル決定に反映させることができる。

このようにすることで、現在のユーザの身体的状況および環境騒音の状況などを反映することができるため、よりユーザに適した音響モデルを決定することができる。

また、実施の形態１によれば、音声データ加工部７は、原音声信号の周波数を固定して音量を変更した加工音声信号を生成するようにしたので、原音声信号に加工を施す際にユーザの発話の特徴を消してしまうことを防止できる。従って、ユーザに不適な音響モデルが決定されることを防止できる。

実施の形態２．
図６は、実施の形態２に係る音声認識装置の構成を示すブロック図であり、車両等の移動体に搭載されたナビゲーション装置に音声認識装置を組み込んだ例である。
実施の形態２に係る音声認識装置を適用したナビゲーション装置は、ナビゲーション動作実行部１０、ナビゲーション用システム辞書１１、およびボイスタグ用ユーザ辞書１２を備える。ナビゲーション動作実行部１０は、自車位置を検出して図示しないディスプレイの地図上に自車位置を表示したり、自車位置から目的地へ経路案内を行ったりする。ナビゲーション用システム辞書１１には、ナビゲーション動作実行部１０が実行する機能に対応付けられた操作コマンドの音素ラベル列が格納されている。
なお、図６において図１と同一または相当の部分については同一の符号を付し説明を省略する。

また、実施の形態２に係る音声認識装置を適用したナビゲーション装置は、運転者等のユーザが発話した音声をボイスタグとしてボイスタグ用ユーザ辞書１２に登録して認識対象語として用いる機能（以下、音声によるユーザ辞書生成機能と記載する）を備えている。なお、音声によるユーザ辞書生成機能はボイスタグに限定されるものではなく、運転者が発話した音声を記憶する処理を有する機能であればよい。
さらに、実施の形態２では、ユーザ辞書生成機能を実施する際の音声（例えば、ボイスタグ）を音響モデル決定に利用する。

ここで、図２のフローチャートを援用して、音声によるユーザ辞書生成機能を説明する。
例えば、自車位置から「自宅」への経路案内をナビゲーション動作実行部１０に実行させる操作コマンドを、ボイスタグとして、ボイスタグ用ユーザ辞書１２に登録する場合を考える。この場合、ユーザがボイスタグを登録するために「自宅」と発話すると、音声取得部１が原音声として取得し（ステップＳＴ１）、音声データ記憶部６へ格納する（ステップＳＴ２）。

音声データ加工部７ａは、原音声信号を加工する際、音量および速度の変更等だけでなく、車室内の騒音（例えば、車両の速度に応じた走行騒音、ワイパ音、ウインカ音等）、を重畳して、加工音声信号を生成する（ステップＳＴ３）。

続いて、上記実施の形態１と同様にステップＳＴ４，ＳＴ５，ＳＴ６の処理を行い、音響モデル切換部４が、音響モデル３−１〜３−ｘの中からユーザに適した音響モデルを決定する。このように、ユーザがボイスタグを登録するために発話した音声を、音響モデル決定に流用できるので、音響モデル決定のためにユーザが特別な操作を行う必要がない。

その後、辞書生成部８ａは、音響モデル切換部４により決定された当該音響モデルを用いて音声認識部５ａが生成した「自宅」の原音声信号に対応する音素ラベル列を、ボイスタグ用ユーザ辞書１２に登録する。これにより、ボイスタグ「自宅」が認識対象語となる。

その後の通常の（音声によるユーザ辞書生成機能の実行時以外の）音声認識処理において、ユーザがボイスタグ（例えば、「自宅」）を発話した場合、音声認識部５ａは、音響分析部２によって出力されたボイスタグの音響特徴の時系列データを入力として、音響モデル切換部４により決定された音響モデル３−１〜３−ｘのうちのいずれか１つの音響モデルとボイスタグ用ユーザ辞書１２とを用いて音声認識処理を実行し、認識結果をナビゲーション動作実行部１０に出力する。ナビゲーション動作実行部１０は、認識結果のボイスタグに関連付けて登録されている所定の操作コマンド（例えば、自車位置から「自宅」へ経路案内を行う機能）を実行する。

また例えば、通常の音声認識処理において、ユーザがナビゲーション用の操作コマンド（例えば、地図の縮尺を変更する機能）を発話した場合にも、音声認識部５ａは、その発話音声の音響特徴の時系列データを入力として、音響モデル切換部４により決定された音響モデル３−１〜３−ｘのうちのいずれか１つの音響モデルとナビゲーション用システム辞書１１とを用いて音声認識処理を実行する。ナビゲーション動作実行部１０は、音声認識部５ａから出力された認識結果に関連付けて登録されている機能を実行する。

以上より、実施の形態２によれば、音声認識装置は、ユーザが発話した音声を音声認識部５ａの認識対象語としてボイスタグ用ユーザ辞書１２に登録する辞書生成部８ａを備え、音声取得部１は、ユーザがボイスタグ用ユーザ辞書１２に登録するために発話した音声（例えば、ボイスタグ）を取得するようにしたので、音響モデル切り換えのために単語の登録および発話などの特別な操作をユーザが行う必要がない。従って、操作の煩わしさを解消することができる。

また、実施の形態２によれば、音声取得部１は、車両の乗員が発話した音声を取得し、音声データ加工部７は、原音声信号に車両の騒音を重畳した加工音声信号を生成するようにしたので、車両の騒音等を考慮して適切な音響モデルを決定することができる。従って、車載用ナビゲーション装置等に用いるのに適した音声認識装置を実現できる。

なお、実施の形態２では音声認識装置を車両に搭載されるナビゲーション装置に適用した場合を例に挙げて説明したが、車両以外の移動体用のナビゲーション装置に適用してもよいし、あるいは、移動体に搭載される端末と当該端末にナビゲーションに要する情報を提供するサーバとからなるナビゲーションシステムの端末またはサーバに適用してもよい。また、スマートフォン、タブレットＰＣ（パーソナルコンピュータ）、携帯電話等の携帯情報端末を、ナビゲーション装置またはナビゲーションシステムの端末として使用する場合に、当該携帯情報端末にインストールされるアプリケーションプログラムであってもよい。

実施の形態２の音声認識装置を、移動体に搭載される端末とサーバとからなるナビゲーションシステムに適用する場合、端末は少なくとも音声取得部１を備え、それ他の構成はサーバが備えるように構成して、端末からサーバへ原音声信号等を無線送信すればよい。

さらに、実施の形態２では音声認識装置をナビゲーション装置に適用したが、ラジオ受信装置、ハンズフリー通話装置等に適用してもよい。その場合、音声によるユーザ辞書生成機能としては、ラジオの周波数に対応したラジオ局名を音声（例えば、ボイスタグ）で登録したり、電話番号に対応した人名または場所名を音声（例えば、ボイスタグ）で登録したりする。

実施の形態１，２では、言語ごとに音響モデルと判定用辞書を用意すると説明したが、音響モデルと判定用辞書を用意する単位は言語に限定されるものではなく、例えば地方ごとの方言の訛りの違いによって音響モデルと判定用辞書を分けてもよい。

なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

以上のように、この発明に係る音声認識装置は、ユーザが自由に発話した音声に基づいて自動的に音響モデルを切り換えるようにしたので、車両等に搭載する音声認識装置に用いるのに適している。

１音声取得部、２音響分析部、３−１〜３−ｘ音響モデル、４音響モデル切換部、５，５ａ音声認識部、６音声データ記憶部、７，７ａ音声データ加工部、８，８ａ辞書生成部、９−１〜９−ｘ判定用辞書、１０ナビゲーション動作実行部、１１ナビゲーション用システム辞書、１２ボイスタグ用ユーザ辞書。

Claims

音声を取得して原音声信号として出力する音声取得部と、
前記原音声信号を加工して加工音声信号を生成する音声データ加工部と、
前記原音声信号および前記加工音声信号を分析して音響特徴の時系列データを生成する音響分析部と、
認識対象とする複数の言語に対応した複数の音響モデルと、
各言語の前記音響モデルを用いて、前記原音声信号の音響特徴の時系列データを各言語の音声ラベル列に変換し各言語の判定用辞書を生成すると共に、各言語の前記音響モデルと前記判定用辞書とを用いて、前記加工音声信号の音響特徴の時系列データを認識処理し言語ごとに認識スコアを算出する音声認識部と、
前記音声認識部が算出した前記言語ごとの認識スコアに基づいて、複数の前記音響モデルの中から一の音響モデルを決定する音響モデル切換部とを備える音声認識装置。
前記音声データ加工部は、一の原音声信号に対して複数の加工音声信号を生成することを特徴とする請求項１記載の音声認識装置。
前記音声データ加工部は、原音声信号に環境騒音を重畳した加工音声信号を生成することを特徴とする請求項１記載の音声認識装置。
前記音声データ加工部は、原音声信号の周波数を固定して音量を変更した加工音声信号を生成することを特徴とする請求項１記載の音声認識装置。
前記音声取得部は、車両の乗員が発話した音声を取得し、
前記音声データ加工部は、原音声信号に前記車両の騒音を重畳した加工音声信号を生成することを特徴とする請求項１記載の音声認識装置。
デジタル信号化された音声である原音声信号を加工して加工音声信号を生成する音声データ加工ステップと、
前記原音声信号および前記加工音声信号を分析して音響特徴の時系列データを生成する音響分析ステップと、
認識対象とする複数の言語に対応した複数の音響モデルを用いて、前記原音声信号の音響特徴の時系列データを各言語の音声ラベル列に変換し、各言語の判定用辞書を生成する判定辞書生成ステップと、
各言語の前記音響モデルと前記判定用辞書とを用いて、前記加工音声信号の音響特徴の時系列データを認識処理し、言語ごとに認識スコアを算出する認識スコア算出ステップと、
前記言語ごとの認識スコアに基づいて、複数の前記音響モデルの中から一の音響モデルを決定する音響モデル決定ステップとを備える音声認識方法。