JP5274711B2

JP5274711B2 - 音声認識装置

Info

Publication number: JP5274711B2
Application number: JP2012507900A
Authority: JP
Inventors: 道弘山崎; 裕三丸田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-03-30
Filing date: 2010-03-30
Publication date: 2013-08-28
Anticipated expiration: 2030-03-30
Also published as: WO2011121649A1; CN102770910B; DE112010005425T5; CN102770910A; US20120239399A1; JPWO2011121649A1

Description

この発明は、入力音声の音声認識を行う音声認識装置に関するものである。

従来の音声認識装置では、大語彙認識で対話によって認識対象となる語彙の範囲を絞り込んでいくような音声認識の場合、一般的に、対話内容に対応する音声認識辞書（以下、認識辞書と呼ぶ）を予め生成していた。このため、様々な対話内容に対応する認識辞書をそれぞれ生成しようとした場合は、予め生成した認識辞書を記憶するために大容量の記憶装置が必要になる。

また、上述のように認識辞書を予め生成する場合の他、使用者との対話の進行状況に応じてオンラインで認識対象語彙を収集し認識辞書を生成することも行われている。この場合、全ての音声認識の場面で認識辞書を生成しようとすると、オンラインで収集する語彙数が多くなるにつれて、認識辞書の生成に要する時間（コンパイル時間等）が長時間化する。この辞書生成の時間は、対話途中での使用者の待ち時間となる。

特許文献１には、使用者との対話の進行に応じて、音声認識のための語彙を動的に変更し、使用者からの要求に応じて以前に使用した語彙に戻すことが可能な音声情報検索装置が開示されている。この装置では、以前の音声認識及び語彙検索の結果の履歴に基づいて認識対象の語彙を選択することで、認識対象の語彙数を効率的に検索できる。

また、特許文献２には、使用者の行動を予測して動的に認識辞書を変更する音声認識装置が開示されている。この装置は、使用者の行動履歴を保持しており、行動履歴から導出した行動時間帯等に基づいて使用者の行動を予測し、認識対象語彙の更新や変更を行う。これにより、使用者の行動履歴に応じて認識対象の語彙数を絞り込んでいる。

しかしながら、特許文献１では、以前の音声認識及び語彙検索の結果の履歴に基づいて認識対象の語彙を選択するので、対話内容によっては認識対象の語彙数を絞り込むことができず、対話途中の認識辞書の生成が長時間化するという課題があった。
同様に、特許文献２においても、使用者の行動履歴の内容によっては認識対象の語彙数を絞り込めず、認識辞書の生成に要する時間が長時間化する可能性がある。

この発明は、上記のような課題を解決するためになされたもので、使用者との対話途中の認識辞書の生成に要する時間を短縮するとともに、予め生成した認識辞書の記憶に必要な記憶領域の使用容量を低減することができる音声認識装置を得ることを目的とする。

特開平７−２１９５９０号公報特開２００２−３４１８９２号公報

この発明に係る音声認識装置は、対話により認識対象の語彙を切り替えながら音声認識を行う音声認識装置において、認識対象となる語彙数が閾値以上である語彙に対して認識辞書を予め生成する静的生成部と、認識対象の語彙数が閾値未満である語彙に対して対話の場面で認識辞書を生成する動的生成部と、静的生成部又は動的生成部により生成された認識辞書を参照して、入力音声を音声認識する音声認識部とを備え、動的生成部は、対話の場面で認識対象として選択された語彙を包含し、認識対象の語彙数の比率が所定の割合以上で含む認識辞書を静的生成部が生成していれば、対話の場面で当該語彙に対する認識辞書の生成を行わず、音声認識部は、静的生成部によって生成された認識辞書を参照して、入力音声を音声認識し、認識の尤度が上位の複数の認識結果候補のうち、今回の認識対象の語彙に含まれる認識結果候補を、認識結果として出力することを特徴とするものである。

この発明によれば、認識対象となる語彙数が閾値以上である語彙に対しては認識辞書を予め生成し、認識対象の語彙数が閾値未満である語彙に対して対話の場面で認識辞書を生成するので、使用者との対話途中の認識辞書の生成に要する時間を短縮するとともに、予め生成した認識辞書の記憶に必要な記憶領域の使用容量を低減することができるという効果がある。

この発明の実施の形態１による音声認識装置の構成を示すブロック図である。この発明の実施の形態２による音声認識装置の構成を示すブロック図である。この発明の実施の形態３による音声認識装置の構成を示すブロック図である。実施の形態３の認識辞書動的生成判定部による判定処理の流れを示すフローチャートである。実施の形態３の認識辞書静的生成判定部による判定処理の流れを示すフローチャートである。この発明の実施の形態４による音声認識装置の構成を示すブロック図である。この発明の実施の形態５による音声認識装置の構成を示すブロック図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１による音声認識装置の構成を示すブロック図である。実施の形態１における音声認識装置１は、使用者との対話による音声認識を行う前に予め生成しておく認識辞書と、使用者との対話途中に生成する認識辞書とを、音声認識に使用する。本発明では、使用者との対話による音声認識を行う前に、いわゆる静的に生成した認識辞書を“静的生成辞書”と呼び、また、使用者との対話途中で、いわゆる動的に生成した認識辞書を“動的生成辞書”と呼ぶこととする。

認識辞書静的生成判定部２は、音声認識の対象となり得る語彙の数に応じて、当該語彙を用いた認識辞書の静的な生成が必要であるか否かを判定する構成部である。認識辞書静的生成部（静的生成部）３は、認識辞書静的生成判定部２によって認識辞書の生成が必要であると判定された語彙を用いて、認識辞書を静的に生成する構成部である。静的生成辞書は、使用者との対話に影響を与えずに生成され、また認識対象となる語彙を多数用いて生成することにより、対話のどの時点でも使用できる。

認識対象語彙記憶部４は、音声認識を行う各場面で認識対象となり得る語彙を記憶する記憶部である。例えば、本発明をカーナビゲーションシステムに適用して、当該カーナビゲーションシステムに住所等を音声認識する機能を持たせた場合、認識対象語彙記憶部４には、認識対象となり得る語彙として、県名、各県に含まれる市町村名、各市町村に含まれる区や字などが記憶される。

静的生成辞書記憶部５は、認識辞書静的生成部３によって生成された認識辞書（静的生成辞書）を記憶する記憶部である。対話管理部６は、不図示の入力装置及び表示装置を用いてＨＭＩ（Human Machine Interface）を提供して、使用者と対話処理を行う構成部である。例えば、対話管理部６は、使用者から入力された情報に基づいて、音声認識の対象となる語彙（以下、認識対象語彙と呼ぶ）を認識対象語彙記憶部４から選択する。

認識辞書動的生成判定部７は、音声認識部１０が実行する音声認識に対応する認識対象語彙の静的生成辞書が静的生成辞書記憶部５に記憶されているか否かに応じて、当該認識対象語彙の認識辞書の動的な生成が必要であるか否かを判定する構成部である。
認識辞書動的生成部（動的生成部）８は、認識辞書動的生成判定部７によって認識辞書の生成が必要であると判定された語彙を用いて認識辞書を動的に生成する構成部である。
例えば、認識辞書動的生成部８は、対話管理部６によって選択された認識対象語彙又は不図示の通信手段を介して外部からオンラインで取得した認識対象語彙を用いて動的生成辞書を生成する。なお、動的生成辞書は、使用者との対話の進行に応じて変更される認識対象語彙を用いて動的に生成するので、静的生成辞書よりも辞書生成に使用する認識対象語彙の数を少なくして辞書生成に要する時間を短縮している。

認識辞書記憶部９は、音声認識部１０による音声認識処理で使用される認識辞書を記憶する記憶部であり、静的生成辞書記憶部５から読み出された静的生成辞書又は認識辞書動的生成判定部７によって生成された動的生成辞書が記憶される。音声認識部１０は、認識辞書記憶部９から読み出した認識辞書を用いて音声認識を実行する構成部である。

また、認識辞書静的生成判定部２、認識辞書静的生成部３、対話管理部６、認識辞書動的生成判定部７、認識辞書動的生成部８、及び音声認識部１０は、この発明の趣旨に従う音声認識用プログラムをコンピュータに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として、当該コンピュータ上で実現することができる。
さらに、認識対象語彙記憶部４、静的生成辞書記憶部５及び認識辞書記憶部９は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築することができる。

次に動作について説明する。
（１）静的生成辞書の生成
先ず、認識辞書静的生成判定部２は、認識対象語彙記憶部４に記憶されている各語彙について、静的生成辞書の生成が必要であるか否かを判定する。
ここでは、例えば、認識辞書を動的に生成した場合にかかる時間が、所定の時間以内に収まる語彙数であれば、静的生成辞書を生成不要と判定し、上記所定の時間を超える語彙数である場合には、静的生成辞書の生成が必要であると判定する。
また、音声認識装置１において、音声認識を行う各場面での認識対象語彙を用いた辞書生成時間（動的生成辞書の生成時間）を計測して記憶しておき、認識辞書静的生成判定部２が、音声認識装置１側に記憶された上記計測値が所定の時間を超える語彙については、静的生成辞書の生成が必要であると判定してもよい。

認識辞書静的生成部３は、認識辞書静的生成判定部２により静的生成辞書の生成が必要であると判定され、認識対象語彙記憶部４から読み出された語彙を用いて、静的生成辞書を生成する。認識辞書の生成方法は、語彙がテキスト文字列で与えられている場合には、Ｇ２Ｐ（Grapheme to Phoneme）でテキスト文字列に対する読み（音素など）を生成し、音声認識部１０で参照可能な形式のデータに変換する。例えば、バイナリに変換して音声認識部１０で受理可能な形式とする他、必要に応じて形態素解析、単語分割を行って言語制約を作成する。

認識辞書静的生成部３によって生成された静的生成辞書は、静的生成辞書記憶部５に記憶される。静的生成辞書記憶部５は、例えば、ハードディスク装置や不揮発性メモリなどのストレージ上に構築される。静的生成辞書では、住所を音声認識する場合、県名、各県に含まれる市町村名、各市町村に含まれる区や字などの語彙の階層構造における全ての階層の語彙を認識対象語彙として用いて生成することができる。

なお、静的生成辞書は、例えば、認識対象語彙が動的に変化しない住所の音声認識などにおいては、音声認識装置１の外部で生成して、静的生成辞書記憶部５に記憶するようにしても構わない。
また、音声認識装置１の起動時や、認識対象となり得る語彙のデータベースである認識対象語彙記憶部４の記憶内容を更新したタイミングで静的生成辞書を生成するようにしてもよい。

（２）対話場面での動作
対話管理部６は、音声認識装置１において使用者との対話で音声認識を行うにあたり、使用者から指定された音声認識の場面及び当該使用者との対話履歴などに基づいて、認識対象語彙記憶部４に記憶されている語彙のうちから認識対象語彙を順次選択する。
例えば、住所を音声認識する場合、対話管理部６は、認識開始時には、認識対象語彙記憶部４に記憶されている語彙のうち、県名を認識対象語彙として選択し、使用者が県名を入力した後は、この県名に従属する語彙である市区町村名を認識対象語彙として認識対象語彙記憶部４から選択する。このようにして、対話管理部６は、使用者との対話によって認識対象語彙及びその語彙数を求める。

次に、認識辞書動的生成判定部７は、対話管理部６によって求められた認識対象語彙を用いた静的生成辞書が既に生成されているか、すなわち静的生成辞書記憶部５に記憶されているか否かを判定する。ここで、認識対象語彙についての静的生成辞書が既に生成されている場合には、認識辞書動的生成判定部７が、静的生成辞書記憶部５から当該静的生成辞書を読み出し、音声認識部１０による音声認識処理で使用する認識辞書として認識辞書記憶部９へ記憶する。

一方、認識対象語彙についての静的生成辞書が生成されていなければ、認識辞書動的生成判定部７は、認識辞書動的生成部８に対し、当該認識対象語彙についての動的生成辞書を生成するよう指示する。この指示に従い、認識辞書動的生成部８は、当該認識対象語彙についての動的生成辞書を生成し、音声認識部１０による音声認識処理で使用する認識辞書として認識辞書記憶部９へ記憶する。なお、認識辞書の生成方法は、上述した認識辞書静的生成部３による静的生成辞書の生成方法と同様である。

例えば、住所を音声認識する場合、使用者との対話の進行に応じて、県名が認識対象語彙として選択されると、県名を認識対象語彙とした動的生成辞書が生成され、引き続き、市区町村名を認識対象語彙とした動的生成辞書が生成される。
つまり、使用者との対話の進行に応じて、県名、各県に含まれる市町村名、各市町村に含まれる区や字などの語彙の階層構造における各階層の語彙が、動的生成辞書の認識対象語彙として選択される。

音声認識部１０は、認識辞書記憶部９に記憶された認識辞書を用いて入力音声に対する音声認識を行う。音声認識の方法としては、例えば、ＨＭＭ（Hidden Markov Model）やＤＰマッチングなどを施し、入力音声に対して認識辞書に登録されている認識対象語彙の確からしさを求め、尤度（確からしさ）が最も高い語彙を音声認識結果として出力する。
なお、尤度が最も高い語彙ではなく、認識対象語彙のうち、尤度が高いものから上位Ｎ個を音声認識結果としても構わない。

以上のように、この実施の形態１によれば、認識対象となる語彙数が閾値以上である語彙に対しては認識辞書（静的生成辞書）を予め生成し、認識対象の語彙数が閾値未満である語彙に対して対話の場面で認識辞書（動的生成辞書）を生成するので、使用者との対話途中の認識辞書の生成に要する時間を短縮するとともに、予め生成した認識辞書の記憶に必要な記憶領域の使用容量を低減することができる。

実施の形態２．
図２は、この発明の実施の形態２による音声認識装置の構成を示すブロック図である。図２に示すように、実施の形態２における音声認識装置１Ａは、上記実施の形態１で示した音声認識装置１の構成に加え、動的生成辞書管理部（記憶管理部）１１及び動的生成辞書一時記憶部（一時記憶部）１２を備える。なお、図２において、図１と同一若しくはこれに相当する構成には同一符号を付して説明を省略する。

動的生成辞書管理部１１は、認識辞書動的生成部８によって生成された動的生成辞書の動的生成辞書一時記憶部１２への記憶処理を管理する構成部である。動的生成辞書一時記憶部１２は、動的生成辞書管理部１１によって記憶対象と判断された動的生成辞書を一時的に記憶する記憶部である。

また、認識辞書静的生成判定部２、認識辞書静的生成部３、対話管理部６、認識辞書動的生成判定部７、認識辞書動的生成部８、音声認識部１０、及び動的生成辞書管理部１１は、この発明の趣旨に従う音声認識用プログラムをコンピュータに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として、当該コンピュータ上で実現することができる。
さらに、認識対象語彙記憶部４、静的生成辞書記憶部５、認識辞書記憶部９及び動的生成辞書一時記憶部１２は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築することができる。

次に動作について説明する。
動的生成辞書管理部１１は、認識辞書動的生成部８によって動的生成辞書が新たに生成されると、動的生成辞書一時記憶部１２の使用済みの記憶容量が所定の容量を超えているか否かを判定する。ここで、動的生成辞書一時記憶部１２の使用済みの記憶容量が所定の容量未満であれば、動的生成辞書管理部１１は、新たに生成された動的生成辞書を動的生成辞書一時記憶部１２に記憶する。

一方、動的生成辞書一時記憶部１２の使用済みの記憶容量が所定の容量を超えている場合は、動的生成辞書管理部１１が、動的生成辞書一時記憶部１２に現在記憶されている動的生成辞書の使用履歴又は使用頻度に基づいて、動的生成辞書一時記憶部１２から削除する動的生成辞書を決定して削除を実施する。
例えば、最終の使用日時が最も古い動的生成辞書を削除対象とする。
また、音声認識装置１Ａの稼働中に使用された動的生成辞書の平均使用間隔が最も長いものを削除対象としてもよい。
動的生成辞書一時記憶部１２に記憶されていた動的生成辞書を削除すると、動的生成辞書管理部１１は、新たに生成された動的生成辞書を動的生成辞書一時記憶部１２に記憶する。

この他、動的生成辞書管理部１１が、動的生成辞書一時記憶部１２に記憶される動的生成辞書以外に、静的生成辞書記憶部５及び認識辞書記憶部９に記憶されている認識辞書の使用履歴又は使用頻度を管理し、これらに基づいて、上記と同様に、静的生成辞書記憶部５及び認識辞書記憶部９への辞書記憶を行うようにしてもよい。

認識辞書動的生成判定部７は、認識対象語彙の認識辞書が、静的生成辞書記憶部５及び動的生成辞書一時記憶部１２の双方に記憶されていない場合に、認識辞書動的生成部８に対して当該認識対象語彙の動的生成辞書を生成する必要があると判定する。
また、認識辞書動的生成判定部７は、認識対象語彙の認識辞書が、静的生成辞書記憶部５及び動的生成辞書一時記憶部１２のいずれかに記憶されていれば、当該認識辞書を読み出して認識辞書記憶部９へ記憶する。音声認識部１０は、認識辞書記憶部９に記憶された認識辞書を用いて、入力音声に対する音声認識を行う。

このように、認識対象語彙の認識辞書として、動的生成辞書一時記憶部１２に一時記憶されている動的生成辞書を利用可能とする。これにより、使用者との対話の進行に応じてその都度、動的生成辞書を新たに生成しなくてもよく、動的生成辞書の生成に要する処理負荷を軽減することができる。

以上のように、この実施の形態２によれば、認識辞書動的生成部８により生成された認識辞書（動的生成辞書）を一時的に記憶する動的生成辞書一時記憶部１２と、動的生成辞書の使用状況に応じて動的生成辞書一時記憶部１２に当該認識辞書を記憶するか否かを管理する動的生成辞書管理部１１とを備えたので、認識辞書を記憶するストレージの使用量を最小限に抑えつつ、辞書生成のための演算量を減らすことが可能となる。

実施の形態３．
図３は、この発明の実施の形態３による音声認識装置の構成を示すブロック図である。実施の形態３における音声認識装置１Ｂは、使用者との対話により認識対象語彙を切り替えながら音声認識を行う装置であり、音楽検索（例えば、全デバイス中の曲、アーティスト選択後の曲、アルバム選択後の曲など）のように、語彙の階層構造を辿って対話場面（音声認識を行う場面）ごとに認識対象語彙が変化する音声認識装置を想定している。
図３に示すように、音声認識装置１Ｂは、認識辞書静的生成判定部２ａ、認識辞書静的生成部３ａ、認識対象語彙記憶部４ａ、静的生成辞書記憶部５ａ、対話管理部６ａ、認識辞書動的生成判定部７、認識辞書動的生成部８、認識辞書記憶部９、音声認識部１０、認識対象語彙更新部１３及び音声認識結果選択部１４を備える。

認識辞書静的生成判定部２ａは、認識対象語彙記憶部４ａに記憶されている語彙の更新の有無に応じて、認識対象語彙記憶部４ａにおける語彙を用いた認識辞書の静的な生成が必要であるか否かを判定する構成部である。認識辞書静的生成部（静的生成部）３ａは、認識辞書静的生成判定部２ａにおいて静的に生成すると判定された認識対象語彙記憶部４ａにおける語彙を用いて、認識辞書を静的に生成する構成部である。

認識対象語彙記憶部４ａは、音声認識を行う場面で認識対象となり得る語彙を記憶する記憶部であり、認識対象語彙更新部１３によって記憶内容が更新される。静的生成辞書記憶部５ａは、認識辞書静的生成部３ａによって生成された静的生成辞書を記憶する記憶部である。

対話管理部６ａは、不図示の入力装置及び表示装置を用いてＨＭＩを提供して、使用者と対話処理を行う構成部であり、認識対象語彙を認識対象語彙記憶部４ａから選択する。認識辞書動的生成判定部７は、音声認識部１０が実行する音声認識に対応する認識対象語彙の静的生成辞書が静的生成辞書記憶部５ａに記憶されているか否かに応じて、当該認識対象語彙の認識辞書の動的な生成が必要であるか否かを判定する構成部である。

認識辞書動的生成部８は、認識辞書動的生成判定部７によって認識辞書の生成が必要であると判定された語彙を用いて、認識辞書を動的に生成する構成部である。認識辞書記憶部９は、音声認識部１０による音声認識処理で使用される認識辞書を記憶する記憶部であり、静的生成辞書記憶５ａから読み出された静的生成辞書又は認識辞書動的生成判定部７によって生成された動的生成辞書が記憶される。また、音声認識部１０は、認識辞書記憶部９から読み出した認識辞書を用いて音声認識を実行する構成部である。

認識対象語彙更新部１３は、認識対象語彙記憶部４ａに記憶される認識対象語彙を更新する構成部である。例えば、上述した音楽検索システムであれば、携帯音楽プレーヤーが接続された場合に、認識対象語彙更新部１３が、当該携帯音楽プレーヤーのメモリから、全曲名辞書、全アーティスト名辞書、全アルバム名辞書などの語彙全体を読み出して、認識対象語彙記憶部４ａに記憶される語彙を更新する。
音声認識結果選択部１４は、音声認識部１０の認識結果候補のうち、対話管理部６ａで選択された認識対象語彙に対応する認識結果候補のみを選択して、音声認識の結果として出力する構成部である。

なお、認識辞書静的生成判定部２ａ、認識辞書静的生成部３ａ、対話管理部６ａ、認識辞書動的生成判定部７、認識辞書動的生成部８、音声認識部１０、認識対象語彙更新部１３、及び音声認識結果選択部１４は、この発明の趣旨に従う音声認識用プログラムをコンピュータに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として、当該コンピュータ上で実現することができる。
さらに、認識対象語彙記憶部４ａ、静的生成辞書記憶部５ａ及び認識辞書記憶部９は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築することができる。

次に動作について説明する。
（１ａ）静的生成辞書の生成
実施の形態３による音声認識装置１Ｂは、使用者との対話の進行に応じて認識対象語彙を切り替えながら音声認識を行うシステムのうち、音楽検索（全デバイス中の曲、アーティスト選択後の曲、アルバム選択後の曲など）のように、語彙の階層構造を辿って、対話場面ごとに認識対象語彙が絞り込まれるシステムに好適である。
このシステムにおいて、認識対象語彙更新部１３は、認識対象語彙が変化した場合に、認識対象語彙記憶部４ａに記憶される語彙を更新する。
ここで、認識対象語彙が変化するタイミングとは、例えば、音声認識装置１Ｂに対して外部の携帯音楽プレーヤーが接続又は切断されたときや、ＣＤの挿入又は排出が行なわれたタイミングが挙げられる。

認識辞書静的生成判定部２ａは、認識対象語彙記憶部４ａに記憶される認識対象語彙が更新されたタイミングで生成すべき静的生成辞書を選択する。例えば、上述した音楽検索システムであれば、携帯音楽プレーヤーが接続された場合に、認識対象語彙記憶部４ａに記憶される語彙が、曲名、アーティスト名、アルバム名などの語彙で更新され、当該認識対象語彙記憶部４ａに記憶される語彙全体の辞書、すなわち全曲名辞書、全アーティスト名辞書、全アルバム名辞書などの辞書が、静的生成辞書として選択される。
認識辞書静的生成部３ａは、上記実施の形態１と同様に、認識辞書静的生成判定部２ａによって選択された静的生成辞書を生成して静的生成辞書記憶部５ａに記憶する。

（２ａ）対話場面での動作
音声認識時において、対話管理部６ａは、使用者との対話により認識対象語彙及びその語彙数Ｎｎを求める。これらの情報（認識対象語彙及びその語彙数Ｎｎ）は、対話管理部６ａから認識辞書動的生成判定部７へ出力される。
認識辞書動的生成判定部７は、静的生成辞書記憶部５ａに記憶されている静的生成辞書の認識対象語彙の包含関係及び認識対象語彙数の比率を用いて、認識辞書動的生成部８に対して新規に認識辞書を生成させるか、静的生成辞書記憶部５ａに記憶される静的生成辞書を認識辞書として使用させるかを判定する。この判定は、例えば、以下のように行う。

図４は、実施の形態３の認識辞書動的生成判定部７による判定処理の流れを示すフローチャートである。
先ず、認識辞書動的生成判定部７は、使用者との対話によって対話管理部６ａが新規に選択した認識対象語彙を全て含む静的生成辞書が、静的生成辞書記憶部５ａに存在するか否かを判定する（ステップＳＴ１）。例えば、対話において、ジャンルを選択し、選択されたジャンルに含まれるアーティスト名が、現在の認識場面の語彙として設定された際には、全アーティスト名辞書には現在の選択されているアーティスト名辞書が含まれているため、静的辞書が存在すると判断される。
ここで、静的生成辞書記憶部５ａに上記静的生成辞書が存在しなければ（ステップＳＴ１；ＮＯ）、認識辞書動的生成判定部７は、認識辞書動的生成部８によって、対話管理部６ａに選択された認識対象語彙を含む動的生成辞書を新規に生成する必要があると判定する（ステップＳＴ８；Ｃａｓｅ３）。この後、認識辞書動的生成判定部７は、認識辞書動的生成部８に対し、当該認識対象語彙についての動的生成辞書を生成するよう指示する。この指示に従い、認識辞書動的生成部８は、当該認識対象語彙についての動的生成辞書を生成して、音声認識部１０による音声認識処理で使用する認識辞書として認識辞書記憶部９へ記憶する。

一方、静的生成辞書記憶部５ａに上記静的生成辞書が存在する場合（ステップＳＴ１；ＹＥＳ）、認識辞書動的生成判定部７は、静的生成辞書記憶部５ａに記憶されている、対話管理部６ａが新規に選択した認識対象語彙を全て含む静的生成辞書のうちから、語彙数が最も少ない辞書Ｄｓを選択する（ステップＳＴ２）。
続いて、認識辞書動的生成判定部７は、辞書Ｄｓに含まれる語彙数Ｎｓを取得する（ステップＳＴ３）。

このあと、認識辞書動的生成判定部７は、使用者との対話により対話管理部６ａが新規に選択した認識対象語彙の語彙数Ｎｎと、辞書Ｄｓに含まれる語彙数Ｎｓとを比較して、双方の語彙数が等しいか否かを判定する（ステップＳＴ４）。ここで、語彙数Ｎｎ，Ｎｓが等しい場合（ステップＳＴ４；ＹＥＳ）、認識辞書動的生成判定部７は、静的生成辞書記憶部５ａから選択した辞書Ｄｓをそのまま使用すべきと判定して、辞書Ｄｓを認識辞書として認識辞書記憶部９へ記憶する（ステップＳＴ６；Ｃａｓｅ１）。

また、語彙数Ｎｎ，Ｎｓが異なる場合（ステップＳＴ４；ＮＯ）、認識辞書動的生成判定部７は、予め定めた比率ＴｈＲ（例えば、０．１）を辞書Ｄｓに含まれる語彙数Ｎｓに乗じた値が、対話管理部６ａによって新規に選択された認識対象語彙の語彙数Ｎｎ未満であるか否か（Ｎｓ×ＴｈＲ＜Ｎｎ）を判定する（ステップＳＴ５）。
（Ｎｓ×ＴｈＲ）の値が語彙数Ｎｎ未満である場合（ステップＳＴ５；ＹＥＳ）には、認識辞書動的生成判定部７は、ステップＳＴ７の処理（Ｃａｓｅ２）へ移行する。
ステップＳＴ７において、認識辞書動的生成判定部７は、辞書Ｄｓを、認識辞書として認識辞書記憶部９へ記憶する。音声認識部１０は、この辞書Ｄｓを用いて、使用者の発話（入力音声）の音声認識を行い、認識結果の確からしい上位Ｎ個（尤度の上位Ｎ個）の認識結果候補を音声認識結果選択部１４へ出力する。
音声認識結果選択部１４では、音声認識部１０によって得られた認識結果候補のうち、対話管理部６ａが新規に選択した認識対象語彙に含まれる認識結果候補のみを選択（フィルタリング）し、音声認識の結果として出力する。

（Ｎｓ×ＴｈＲ）の値が語彙数Ｎｎ以上である場合（ステップＳＴ５；ＮＯ）、認識辞書動的生成判定部７は、認識辞書動的生成部８によって、対話管理部６ａに選択された認識対象語彙を含む動的生成辞書を新規に生成する必要があると判定し、ステップＳＴ８の処理（Ｃａｓｅ３）へ移行する。

音声認識結果選択部１４では、認識辞書動的生成判定部７の判定結果がＣａｓｅ１又はＣａｓｅ３の場合、音声認識部１０から出力された認識結果候補を、認識結果として出力する。一方、認識辞書動的生成判定部７の判定結果がＣａｓｅ２である場合には、音声認識部１０から出力された認識結果候補の中から、対話管理部６ａにより新規に選択された認識対象語彙に含まれる認識結果候補のみを選択して出力する。
このように、語彙全体の辞書を予め生成してストレージに記憶しておくことで、認識辞書の更新時における認識辞書作成時間を低減することができる。

また、認識対象語彙を包含し、認識対象語彙数の比率が一定割合以上含む認識辞書が存在する場合には、当該辞書を使用して音声認識を行ない、その認識結果候補から認識対象語彙に含まれるもののみを選択して認識結果として出力する。このようにすることで、認識率への影響を最小限に抑えつつ、対話中に辞書を生成する機会を減らすことが可能となる。

上述の説明では、認識辞書静的生成判定部２ａが、語彙全体の認識辞書を予め生成する対象として判定する場合を示したが、以下のように判定しても構わない。
図５は、実施の形態３の認識辞書静的生成判定部２ａによる判定処理の流れを示すフローチャートである。
先ず、認識辞書静的生成判定部２ａは、音声認識を行う各対話場面（以下、認識場面と呼ぶ）で、認識対象語彙記憶部４ａの記憶内容を参照し、各認識場面の認識対象語彙及びその語彙数をそれぞれ求める。ここで、認識辞書静的生成判定部２ａは、認識対象語彙の認識辞書（静的生成辞書）を生成するか否かを判定していない認識場面のうち、認識対象語彙の語彙数が最も多い認識場面を選択する（ステップＳＴ１ａ）。
次に、認識辞書静的生成判定部２ａは、ステップＳＴ１ａで選択した認識場面の認識対象語彙の語彙数が一定数以下であるか否かを判定する（ステップＳＴ２ａ）。ここで、認識対象語彙数が一定数を超えていれば（ステップＳＴ２ａ；ＮＯ）、ステップＳＴ３ａの処理へ移行する。また、一定数以下であれば（ステップＳＴ２ａ；ＹＥＳ）、ステップＳＴ７ａの処理へ移行する。

ステップＳＴ３ａにおいて、認識辞書静的生成判定部２ａは、ステップＳＴ１ａで選択した認識場面の認識対象語彙を全て含む認識辞書が、予め生成する対象として自身に登録済みであるか否かを判定する。ここで、予め生成する対象として登録済みであれば（ステップＳＴ３ａ；ＹＥＳ）、ステップＳＴ４ａの処理へ移行する。また、登録済みでなければ（ステップＳＴ３ａ；ＮＯ）、ステップＳＴ６ａの処理へ移行する。

認識辞書静的生成判定部２ａは、ステップＳＴ１ａで選択した認識場面の認識対象語彙を全て含む、予め生成する対象として登録済みの認識辞書のうち、語彙数が最小の認識辞書を選択する（ステップＳＴ４ａ）。
続いて、認識辞書静的生成判定部２ａは、ステップＳＴ１ａで選択した認識場面の認識対象語彙の語彙数を、ステップＳＴ４ａで選択した認識辞書の語彙数で除した値が、所定の閾値を超えるか否か（一定の割合であるか否か）を判定する（ステップＳＴ５ａ）。
ステップＳＴ１ａで選択した認識場面の認識対象語彙の語彙数を、ステップＳＴ４ａで選択した認識辞書の語彙数で除した値が上記閾値以下であると（ステップＳＴ５ａ；ＮＯ）、認識辞書静的生成判定部２ａは、ステップＳＴ６ａの処理に移行する。また、上記閾値を超える場合（ステップＳＴ５ａ；ＹＥＳ）は、ステップＳＴ７ａの処理に移行する。

ステップＳＴ６ａにおいて、認識辞書静的生成判定部２ａは、ステップＳＴ１ａで選択した認識場面の認識対象語彙を全て含む認識辞書を、予め生成する対象として登録する。
また、ステップＳＴ１ａで選択した認識場面の認識対象語彙の語彙数と、ステップＳＴ４ａで選択した認識辞書の語彙数との割合が上記閾値を超えている場合、すなわち静的生成辞書として予め生成するには語彙数が少ない場合には、当該認識辞書を予め生成する対象外とする（ステップＳＴ７ａ）。

ステップＳＴ６ａ又はステップＳＴ７ａの処理が完了すると、認識辞書静的生成判定部２ａは、静的生成辞書の生成の要否を判定していない全ての認識場面に対して上述の処理を実施したか否かを判定する（ステップＳＴ８ａ）。ここで、全ての認識場面に対して処理が終わっていなければ、ステップＳＴ１ａの処理へ戻り、終わっていれば処理を終了する。

以上のように、この実施の形態３によれば、認識辞書静的生成部３ａが認識対象となる全ての語彙に対する認識辞書を予め生成し、認識辞書動的生成部８が、対話の場面で認識対象として選択された語彙に対する認識辞書を生成する。このように、全ての語彙に対する認識辞書のみを予め生成することにより、辞書更新時に要する認識辞書の作成時間を削減することができる。

また、この実施の形態３によれば、認識辞書動的生成部８が、対話の場面で認識対象として選択された語彙を包含し、認識対象の語彙数の比率が所定の割合以上で含む認識辞書を認識辞書静的生成部３ａが生成していれば、対話の場面で当該語彙に対する認識辞書の生成を行わず、音声認識部１０が、認識辞書静的生成部３ａによって生成された当該認識辞書を参照して入力音声を音声認識し、認識の尤度が上位の複数の認識結果候補のうち、今回の認識対象の語彙に含まれる認識結果候補を、認識結果として出力する。
このようにすることで、音声認識の認識率への影響を最小限に抑えつつ、対話途中に辞書を生成する機会を削減することができる。

さらに、この実施の形態３によれば、認識辞書静的辞書生成判定部２ａで、図５に示すような判定を行うことにより、認識辞書静的生成部３ａが、対話の場面で認識対象となる語彙数が所定数を超えており、当該対話の場面における認識対象の語彙数が認識辞書の語彙数の所定の割合以下となるように当該認識対象の語彙に対する認識辞書を予め生成するので、辞書更新時に要する認識辞書の生成時間の増加を最小限に抑えつつ、対話途中の辞書生成による使用者の待ち時間を低減することができる。

実施の形態４．
図６は、この発明の実施の形態４による音声認識装置の構成を示すブロック図である。図６に示すように、実施の形態４における音声認識装置１Ｃは、上記実施の形態３で示した音声認識装置１Ｂの構成に加えて中間結果記憶部１５を設けており、また認識辞書動的生成判定部７ａの動作が上記実施の形態３と異なる。なお、図６において、図３と同一若しくはこれに相当する構成には同一符号を付して説明を省略する。

認識辞書静的生成部３ａは、認識対象語彙から静的生成辞書を生成するにあたり、認識対象語彙の言語の特定や、表記から読みへの変換処理などを行った辞書生成の途中結果を中間結果として中間結果記憶部１５に記憶する。
認識辞書動的生成判定部７ａは、認識辞書動的生成部８に対して、静的生成辞書記憶部５ａに記憶されている静的生成辞書と共通する認識対象語彙から動的生成辞書を生成するよう指示するにあたり、当該語彙に関して中間結果記憶部１５に記憶されている中間結果を読み出して認識辞書動的生成部８に出力する。これにより、認識辞書動的生成部８は、当該中間結果を利用して動的生成辞書を生成する。

以上のように、この実施の形態４によれば、静的生成辞書の生成で得られた認識対象語彙の言語の特定や、表記から読みへの変換処理を行った途中結果を、中間結果として記憶する中間結果記憶部１５を備えたので、動的生成辞書の生成時間を減らすことが可能となり、対話途中における辞書生成による使用者の待ち時間を低減することができる。

実施の形態５．
図７は、この発明の実施の形態５による音声認識装置の構成を示すブロック図である。図７に示すように、実施の形態５における音声認識装置１Ｄは、上記実施の形態４で示した音声認識装置１Ｃの構成に動的生成辞書管理部（記憶管理部）１６及び動的生成辞書一時記憶部（一時記憶部）１７を追加しており、また認識辞書動的生成判定部７ｂの動作が上記実施の形態４と異なる。
なお、図７において、図６と同一若しくはこれに相当する構成には同一符号を付して説明を省略する。

動的生成辞書管理部１６は、認識辞書動的生成部８によって動的に生成された認識辞書を、動的生成辞書一時記憶部１７へ一時的に記憶するか否かを判定する構成部である。
動的生成辞書一時記憶部１７は、動的生成辞書管理部１６により記憶対象と判定された動的生成辞書を一時的に記憶する記憶部である。

次に動作について説明する。
動的生成辞書管理部１６は、認識辞書動的生成部８によって動的生成辞書が新たに生成されると、動的生成辞書一時記憶部１７の使用済みの記憶容量が所定の容量を超えているか否かを判定する。ここで、動的生成辞書一時記憶部１７の使用済みの記憶容量が所定の容量未満であれば、動的生成辞書管理部１６は、新たに生成された動的生成辞書を動的生成辞書一時記憶部１７に記憶する。

一方、動的生成辞書一時記憶部１７の使用済みの記憶容量が所定の容量を超えている場合は、動的生成辞書管理部１６が、動的生成辞書一時記憶部１７に現在記憶されている動的生成辞書の使用履歴又は使用頻度に基づいて、動的生成辞書一時記憶部１６から削除する動的生成辞書を決定して削除を実施する。例えば、最終の使用日時が最も古い動的生成辞書を削除対象とする。また、音声認識装置１Ｄの稼働中に使用された動的生成辞書の平均使用間隔が最も長いものを削除対象としてもよい。

動的生成辞書一時記憶部１７に記憶されていた動的生成辞書を削除すると、動的生成辞書管理部１６は、新たに生成された動的生成辞書を、動的生成辞書一時記憶部１７に記憶する。

この他、動的生成辞書管理部１６が、動的生成辞書一時記憶部１７に記憶される動的生成辞書以外に、静的生成辞書記憶部５ａ及び認識辞書記憶部９に記憶されている認識辞書の使用履歴又は使用頻度を管理し、これらに基づいて、上記と同様に、静的生成辞書記憶部５ａ及び認識辞書記憶部９への辞書記憶を行うようにしてもよい。

認識辞書動的生成判定部７ｂは、認識対象語彙の認識辞書が、静的生成辞書記憶部５ａ及び動的生成辞書一時記憶部１７の双方に記憶されていない場合、認識辞書動的生成部８に対して、当該認識対象語彙の動的生成辞書を新たに生成する必要があると判定する。
また、認識対象語彙の認識辞書が、静的生成辞書記憶部５ａ又は動的生成辞書一時記憶部１７のいずれかに記憶されていれば、認識辞書動的生成判定部７ｂは、当該認識辞書を読み出して認識辞書記憶部９へ記憶する。音声認識部１０は、認識辞書記憶部９に記憶された認識辞書を用いて、入力音声に対する音声認識を行う。

以上のように、この実施の形態５によれば、上記実施の形態４の構成に加えて、動的生成辞書を一時的に記憶する動的生成辞書一時記憶部１７を備えたので、上記実施の形態４と同様の効果が得られるとともに、ストレージの使用量を最小限に抑えつつ、辞書生成のための演算量を減らすことが可能となる。

この発明に係る音声認識装置は、使用者との対話途中の認識辞書の生成に要する時間を短縮するとともに、予め生成した認識辞書の記憶に必要な記憶領域の使用容量を低減することができることから、携帯音楽プレーヤー、携帯電話、車載ナビゲーションシステムなどの音声認識装置に適している。

Claims

対話により認識対象の語彙を切り替えながら音声認識を行う音声認識装置において、
認識対象となる語彙数が閾値以上である語彙に対して認識辞書を予め生成する静的生成部と、
認識対象の語彙数が前記閾値未満である語彙に対して対話の場面で認識辞書を生成する動的生成部と、
前記静的生成部又は前記動的生成部により生成された認識辞書を参照して、入力音声を音声認識する音声認識部とを備え、
前記動的生成部は、前記対話の場面で認識対象として選択された語彙を包含し、認識対象の語彙数の比率が所定の割合以上で含む認識辞書を前記静的生成部が生成していれば、前記対話の場面で当該語彙に対する認識辞書の生成を行わず、
前記音声認識部は、前記静的生成部によって生成された認識辞書を参照して、入力音声を音声認識し、認識の尤度が上位の複数の認識結果候補のうち、今回の認識対象の語彙に含まれる認識結果候補を、認識結果として出力することを特徴とする音声認識装置。
前記静的生成部は、対話の場面で認識対象となる語彙数が所定数を超えており、当該対話の場面における前記認識対象の語彙数が認識辞書の語彙数の所定の割合以下となるように当該認識対象の語彙に対する認識辞書を予め生成することを特徴とする請求項１記載の音声認識装置。
前記静的生成部による認識辞書の生成の途中結果を記憶する中間結果記憶部を備え、
前記動的生成部は、前記静的生成部により生成された認識辞書と共通する語彙に対して認識辞書を生成するにあたり、前記中間結果記憶部から読み出した前記途中結果を用いて認識辞書を生成することを特徴とする請求項１記載の音声認識装置。
前記動的生成部により生成された認識辞書を一時的に記憶する一時記憶部と、
前記認識辞書の使用状況に応じて前記一時記憶部に当該認識辞書を記憶するか否かを管理する記憶管理部とを備えたことを特徴とする請求項１記載の音声認識装置。