JP5172973B2

JP5172973B2 - 音声認識装置

Info

Publication number: JP5172973B2
Application number: JP2010548268A
Authority: JP
Inventors: 道弘山崎; 純石井; 博紀坂下; 和行野木
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-01-30
Filing date: 2009-10-08
Publication date: 2013-03-27
Anticipated expiration: 2029-10-08
Also published as: CN102301419A; DE112009004357T5; WO2010086925A1; US8977547B2; CN102301419B; JPWO2010086925A1; DE112009004357B4; US20110276331A1

Description

この発明は、音声登録型の音声認識装置に関するものである。

従来の登録型の音声認識装置としては、登録用発話を１発話行い、当該発話を既に登録されている標準パタンと比較し、標準パタン（既登録語彙）と異なる発話（混同しやすさが低い発話）と判断した場合に登録処理を行うものがある（例えば、特許文献１参照）。

特開２００２−２９７１８１号公報

従来の登録型の音声認識装置では、登録発話を１発話のみ受理し、この発話を既に登録されている標準パタンと比較した結果から登録可否を判定するので、登録発話の安定性の確認ができない。例えば、騒音環境下で音声区間が一部欠落した場合や、非定常騒音を誤って音声区間として検出した場合であっても、既に登録されている標準パタンと異なる内容であれば登録可能と判断されてしまい、誤った音声が標準パタンに登録される可能性がある。このように誤った入力に対して標準パタンとして登録されると、話者が実際に登録しようとして発話した内容と異なる音声で登録されるため、認識対象の発話が発せられた際に誤認識されるという課題があった。

この発明は、上記のような課題を解決するためになされたもので、非定常騒音や音声区間の誤検出等による誤登録を低減して音声の認識性能を向上させることができ、また利便性の向上やメモリの不要な使用を低減することができる音声認識装置を得ることを目的とする。

この発明に係る音声認識装置は、複数回発話された音声を入力する音声入力部と、音声入力部が入力した複数回発話された音声データを記憶する記憶部と、記憶部から読み出した複数回発話された音声データ間の類似度を求め、類似度が第１の閾値より大きい場合に音声データを登録可と判定する安定性検証部と、安定性検証部により登録可と判定された音声データを用いて標準パタンを作成する標準パタン作成部と、１発話分の再発話要求を実行する再発話要求部とを備え、音声入力部は、予め定めた複数回分だけ発話された音声を入力し、安定性検証部は、記憶部から読み出した予め定めた複数回分の音声データに登録可となる音声データがなかった場合、再発話要求部に再発話要求を実行させ、当該再発話要求に応じた１発話分の音声データと記憶部に既に記憶された複数回分の音声データとの音声データ間の類似度を求め、音声データ間の類似度のうちの最大値が第２の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定するものである。

この発明によれば、複数回発話された音声データ間の類似度を求め、類似度が第１の閾値より大きい場合に音声データを登録可と判定し、登録可と判定された音声データを用いて標準パタンを作成し、１発話分の再発話要求を実行し、予め定めた複数回分だけ発話された音声を入力し、登録可となる音声データがなかった場合、再発話要求を実行し、当該再発話要求に応じた１発話分の音声データと既に記憶された複数回分の音声データとの音声データ間の類似度を求め、音声データ間の類似度のうちの最大値が第２の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定するので、非定常騒音や音声区間の誤検出等による誤登録を低減して音声の認識性能を向上させることができ、また発話回数の不要な増加を防ぐことにより、利便性の向上やメモリの不要な使用を低減することができるという効果がある。

この発明の実施の形態１による登録型の音声認識装置の構成を示すブロック図である。図１中の登録処理部による動作の流れを示すフローチャートである。この発明の実施の形態２による登録型の音声認識装置の構成を示すブロック図である。図３中の登録処理部による動作の流れを示すフローチャートである。図３中の登録処理部による他の動作例を示すフローチャートである。図３中の登録処理部による他の動作例を示すフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面にしたがって説明する。
実施の形態１．
図１は、この発明の実施の形態１による登録型の音声認識装置の構成を示すブロック図である。図１において、実施の形態１による音声認識装置は、登録処理部１、標準パタン記憶部２及び認識処理部３を備える。登録処理部１は、発話を標準パタンとして登録しようとする話者（以下、登録話者と呼ぶ）から発せられた登録対象の発話（以下、登録発話と呼ぶ）を入力して標準パタンを作成する手段であり、音声入力部１１、登録音声データ記憶部（記憶部）１２、発話安定性検証部（安定性検証部）１３及び標準パタン作成部１４を備える。

音声入力部１１は、登録発話を複数回受理し、これら複数回の登録発話に対する複数個の登録音声データを作成する手段である。登録音声データ記憶部１２は、音声入力部１１で作成された登録音声データを記憶する記憶部である。発話安定性検証部１３は、登録音声データ記憶部１２に記憶されている複数個の登録音声データに対する類似度を算出し、類似度が予め定めた閾値以上であると、上記複数個の登録音声データを登録可と判定し、当該閾値未満である場合には登録不可であると判定する手段である。標準パタン作成部１４は、発話安定性検証部１３で登録可と判定された登録発話データを用いて標準パタンを作成する手段である。

標準パタン記憶部２は、登録処理部１にて作成された標準パタンを記憶する記憶部である。認識処理部３は、標準パタン記憶部２に記憶された標準パタンを用いて、話者から発せられた音声認識の対象となる発話（以下、認識対象発話と呼ぶ）に対する音声認識を実行する手段である。

なお、音声入力部１１、発話安定性検証部１３、標準パタン作成部１４及び認識処理部３は、この発明の趣旨に従う音声登録・認識用プログラムをコンピュータに読み込ませ、そのＣＰＵに実行させることで、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。また、登録音声データ記憶部１２及び標準パタン記憶部２は、上記コンピュータが備える記憶装置（例えば、ハードディスク装置や外部記憶メディアなど）の記憶領域上に構築することができる。

次に動作について説明する。
図２は、図１中の登録処理部による動作の流れを示すフローチャートであり、この図に沿って登録処理部１の各構成部の動作を詳細に説明する。
装置外部からの操作等によって登録処理が開始されると、音声入力部１１が、登録音声データ記憶部１２に記憶されている登録音声データを初期化（登録音声データを削除）（ステップＳＴ１）し、発話回数Ｎをカウントするカウンタ（図１において不図示）のカウント値を０とする（ステップＳＴ２）。

この状態で、登録話者は、登録処理部１に対して発話（登録発話）する。音声入力部１１では、発話回数Ｎをカウントする上記カウンタのカウント値を１増やして（ステップＳＴ３）、登録話者が発した登録発話を順次入力する（ステップＳＴ４）。次に、音声入力部１１は入力した登録発話を登録音声データとして登録音声データ記憶部１２に記憶する（ステップＳＴ５）。

登録発話を入力する度に、音声入力部１１は、上記カウンタでカウントしている発話回数Ｎと所定の閾値Ｍとを比較し、発話回数Ｎが閾値Ｍ以上となったか否かを判定する（ステップＳＴ６）。閾値Ｍとは、同一内容を発話する２以上の整数値で規定された発話回数である。発話回数Ｎが閾値Ｍに満たない場合（ステップＳＴ６；ＮＯ）、音声入力部１１は、ステップＳＴ３の処理に戻り、発話回数Ｎが閾値Ｍ以上となるまで、ステップＳＴ３からステップＳＴ５までの処理を繰り返す。

一方、発話回数Ｎが閾値Ｍ以上になると（ステップＳＴ６；ＹＥＳ）、発話安定性検証部１３が、登録音声データ記憶部１２に記憶されている登録音声データに対する類似度を算出する（ステップＳＴ７）。複数の登録音声データの類似度を算出するには、例えば、以下のような方法がある。
（１）算出方法１
発話回数Ｍ分の同一内容を示す登録音声データが登録音声データ記憶部１２に記憶されている場合、発話安定性検証部１３が、発話回数Ｍ分の登録音声データについて２発話分の全ての組み合わせを求める。次に、発話安定性検証部１３が、２発話分の両登録音声データの特徴量を抽出し、当該特徴量を用いた動的計画法によって当該２発話間の登録音声データの類似度を算出する。この類似度を２発話分の全ての組み合わせから求め、得られた類似度の平均値を発話回数Ｍの登録音声データに対する類似度とする。
（２）算出方法２
算出方法１において、類似度の平均値の代わりに、２発話分の全ての組み合わせの類似度のうち、最小となる類似度（最も類似していない発話間の類似度）を発話回数Ｍの登録音声データに対する類似度とする。
（３）算出方法３
２発話分の組み合わせにおける登録音声データ間の類似度を算出するにあたり、発話安定性検証部１３、標準パタン作成部１４及び認識処理部３が協働して、上記組み合わせのうちの１発話を仮の標準パタンとして登録し、もう１発話を入力として音声認識を行い、この認識結果として得られるスコア（尤度）を、２発話間の登録音声データの類似度として使用する。この類似度を２発話分の全ての組み合わせから求め、得られた類似度の平均値若しくは最小類似度を発話回数Ｍの登録音声データに対する類似度とする。

次に、発話安定性検証部１３は、ステップＳＴ７で算出した発話回数Ｍ以上の登録音声データに対する類似度が所定の閾値Ｔｌ（第１の閾値）以上であるか否かを判定する（ステップＳＴ８）。ここで、類似度が閾値Ｔｌ未満であると（ステップＳＴ８；ＮＯ）、発話安定性検証部１３は、入力された発話の安定性が欠けると判断して、登録音声データ記憶部１２に記憶されている登録音声データについては標準パタンを作成しない、いわゆる登録失敗として登録判定を終了する。

類似度が閾値Ｔｌ以上であると（ステップＳＴ８；ＹＥＳ）、発話安定性検証部１３は、標準パタン作成部１４にその旨を通知する。この通知を受けると、標準パタン作成部１４は、登録音声データ記憶部１２に記憶されている登録音声データから標準パタンを作成して標準パタン記憶部２に登録する（ステップＳＴ９、登録処理）。

標準パタンとしては、例えば登録音声データ（入力発話音声）について単位時間毎に音声の特徴量を抽出し、これら特徴量の時系列データ（特徴量ベクトル時系列）が挙げられる。また、予め音声の音声片（音節、音素等）毎に作成した各音声片の特徴を表すモデルを作成しておき、音声片のモデルの時系列（ラベル列）を標準パタンとして登録してもよい。

ステップＳＴ９において、標準パタン作成部１４は、登録音声データ記憶部１２に記憶されている登録音声データのうち、Ｋ（Ｋは１以上Ｍ以下の整数）個分の登録音声データからそれぞれ標準パタンを作成し、これらＫ個の標準パタンを標準パタン記憶部２に登録する。Ｋ個分の登録音声データの選別方法としては、例えば、発話安定性検証部１３で算出された各組み合わせの類似度が近い順にＫ個分を選別する方法や、登録音声データの特徴量として重心を求め、重心に近い順にＫ個分を選別する方法が挙げられる。
なお、Ｋ個の標準パタンを作成する代わりに、Ｋ個の登録音声データに対して音声の特徴量をそれぞれ抽出し、これらのうち平均的な特徴量を持つ登録用データを作成して標準パタンとして登録してもよい。

以上のように、この実施の形態１によれば、複数回発話された音声を入力する音声入力部１１と、音声入力部１１が入力した複数回発話された音声データを記憶する登録音声データ記憶部１２と、登録音声データ記憶部１２から読み出した複数回発話された音声データ間の類似度を求め、類似度が閾値Ｔｌより大きい場合に音声データを登録可と判定する発話安定性検証部１３と、発話安定性検証部１３により登録可と判定された音声データを用いて標準パタンを作成する標準パタン作成部１４とを備える。このように構成することにより、登録発話を複数回分入力して、当該発話間の類似度が所定の閾値以上となる場合にのみ登録処理が行われ、複数回入力された発話が近い（類似する）場合にのみ登録される。従って、同一内容の複数回の発話が近い場合、すなわち入力された発話が安定している場合にのみ登録が完了するので、非定常騒音や音声区間の誤検出等に起因する誤登録を低減することができ、音声認識の性能（認識率）が向上する。

また、この実施の形態１によれば、登録の際に複数回の発話から標準パタンを作成するので、発話のバリエーションに対応した標準パタンを作成でき、これを用いた音声認識の性能を向上させることができる。

実施の形態２．
図３は、この発明の実施の形態２による登録型の音声認識装置の構成を示すブロック図である。図３において、実施の形態２による音声認識装置は、登録処理部１Ａ、標準パタン記憶部２及び認識処理部３を備える。登録処理部１Ａは、音声入力部１１、登録音声データ記憶部１２、発話安定性検証部１３ａ、標準パタン作成部１４及び再発話要求部１５を備える。

発話安定性検証部１３ａは、登録音声データ記憶部１２に記憶されている複数個の登録音声データのうち、同一内容で発話された所定の回数分（Ｍ発話分）の登録音声データの各組み合わせに対する類似度を算出し、最大の類似度をとるＭ発話の組み合わせとその類似度を求め、当該類似度が予め定めた閾値以上であると登録可と判定し、当該閾値未満である場合には登録不可であると判定する手段である。再発話要求部１５は、発話安定性検証部１３ａで登録不可と判定された場合に、登録話者に対して再発話の要求を行う手段である。なお、発話安定性検証部１３ａ及び再発話要求部１５以外の構成要素は上記実施の形態１と同様であるので説明を省略する。

次に動作について説明する。
図４は、図３中の登録処理部による動作の流れを示すフローチャートであり、この図に沿って登録処理部１Ａの各構成部の動作を詳細に説明する。図４において、ステップＳＴ１からステップＳＴ６までの処理は、上記実施の形態１の図２で示した内容と同様であるので説明を省略する。

発話回数Ｎが閾値Ｍ以上になると（ステップＳＴ６；ＹＥＳ）、発話安定性検証部１３ａは、登録音声データ記憶部１２に記憶されている登録音声データのうち、同一内容で発話されたＭ発話分の登録音声データの各組み合わせに対する類似度をそれぞれ算出し、最大の類似度をとるＭ発話分の組み合わせ及びその類似度を求める（ステップＳＴ７ａ）。なお、複数発話（Ｍ発話分）の登録音声データの組み合わせに対する類似度の算出は、上記実施の形態１と同様である。

最大の類似度をとるＭ発話分の組み合わせ及びその類似度を求めると、発話安定性検証部１３ａは、求めた最大の類似度が予め設定した閾値Ｔｌ以上であるか否かを判定する（ステップＳＴ８）。最大の類似度が閾値Ｔｌ以上であると（ステップＳＴ８；ＹＥＳ）、発話安定性検証部１３ａは、標準パタン作成部１４にその旨を通知する。この通知を受けると、標準パタン作成部１４は、当該Ｍ発話分の登録音声データから標準パタンを作成して標準パタン記憶部２に登録する（ステップＳＴ９、登録処理）。

一方、最大の類似度が閾値Ｔｌ未満であると（ステップＳＴ８；ＮＯ）、発話安定性検証部１３ａは、その旨を再発話要求部１５に通知する。この通知を受けると、再発話要求部１５は、不図示の表示装置若しくはスピーカなどを用いて文書表示や音声出力によって、登録話者に対し１発話分の再発話を要求する（ステップＳＴ８−１）。

この状態で登録話者が１発話すると、音声入力部１１が、発話回数Ｎをカウントするためのカウンタのカウント値を１増やし（ステップＳＴ３）、最大の類似度が閾値Ｔｌ以上になるまで（ステップＳＴ８；ＹＥＳ）、ステップＳＴ４からステップＳＴ８までの処理を繰り返す。

この場合、再発話された１発話を含まないＭ発話分の登録音声データの組み合わせの類似度は既に算出済みであるため、再発話により新たに追加した１発話分を含めたＭ発話分の登録音声データの組み合わせについて類似度を算出すればよい。例えば、新たに追加した１発話分の音声データと登録音声データ記憶部１２に既に登録されているＭ−１回分の音声データとを合わせたＭ発話分の音声データ間の類似度を求めて、最大の類似度となる発話の組み合わせを特定し、この最大の類似度が閾値以上になった場合に当該組み合わせの音声データを登録する。

以上のように、この実施の形態２によれば、１発話分の再発話要求を実行する再発話要求部１５を備え、音声入力部１１が、予め定めた複数回分だけ発話された音声を入力し、発話安定性検証部１３ａが、登録音声データ記憶部１２から読み出した予め定めた複数回分の音声データに登録可となる音声データがなかった場合、再発話要求部１５に再発話要求を実行させ、当該再発話要求に応じた１発話分の音声データと登録音声データ記憶部１２に既に記憶された複数回分の音声データとの音声データ間の類似度を求め、音声データ間の類似度のうちの最大値が閾値Ｔｌより大きい場合に当該最大の類似度を与える音声データを登録可と判定する。このように構成することにより、上記実施の形態１と同様な効果が得られるとともに、登録に失敗した際に改めてＭ発話分の登録発話を行う場合と比較して、登録に必要な発話回数を減らすことができ、登録話者の負担を軽減することができる。

また、上記実施の形態２において、図５に示すように、最大の類似度が閾値Ｔｌ未満である場合（ステップＳＴ８；ＮＯ）、音声入力部１１が、上記カウンタでカウントしている発話回数Ｎ（ＮはＭ以上となっている状態）と、発話回数の上限を示す所定の閾値Ｔｎとを比較し、発話回数Ｎが閾値Ｔｎ以上となったか否かを判定するステップＳＴ１０を追加してもよい。

ここで、発話回数Ｎが閾値Ｔｎ未満であれば（ステップＳＴ１０；ＮＯ）、音声入力部１１が、発話安定性検証部１３ａを介してその旨を再発話要求部１５に通知する。これを受けると、再発話要求部１５が、登録話者に対し１発話分の再発話を要求する（ステップＳＴ１０−１）。

また、発話回数Ｎが閾値Ｔｎ以上であれば（ステップＳＴ１０；ＹＥＳ）、発話安定性検証部１３ａが登録失敗と判断する。このように、発話回数Ｎが閾値Ｔｎ以上となった際には、さらに登録発話を入力するのではなく、登録失敗として登録判定を終了する。

さらに、上記実施の形態２において、図６に示すように、発話回数Ｎが閾値Ｔｎ未満である場合（ステップＳＴ１０；ＮＯ）、発話安定性検証部１３ａが、登録音声データ記憶部１２に記憶されている登録音声データのうちから、最新のＬ（ＬはＭ以上の整数値）発話分の登録音声データを選択し、残りを削除するステップＳＴ１１を追加してもよい。ステップＳＴ１１の処理が完了すると、再発話要求部１５が、登録話者に対して１発話分の再発話を要求する（ステップＳＴ１１−１）。これにより新たに得られた１発話分の音声データと登録音声データ記憶部１２に既に記憶されているＫ（ＫはＭ−１以上）発話分の登録音声データとを合わせたＫ＋１（＝Ｌ）発話分の音声データを用いて類似度の確認や登録処理を実行する。

またＬ発話分の登録音声データを残す基準としては、最大の類似度が得られた登録音声データの組み合わせを選択するようにしてもよい。最大の類似度の算出方法は、Ｍ発話分の登録音声データの組み合わせの類似度を算出するステップＳＴ７ａと同様である。
なお、Ｌ＝Ｍの場合、Ｌ発話分の登録音声データの組み合わせは、ステップＳＴ７ａで求めた最大の類似度をとるＭ発話分の登録音声データの組み合わせとなる。

このように、登録発話が登録条件を満たしていない場合に登録失敗とせず、１発話ずつ追加して登録発話を入力することで、登録に失敗する度に新たにＭ発話分の発話を行わせる場合に比べて入力発話回数を減らすことが可能となり、登録話者にとって利便性の高い登録型の音声認識装置を得ることができる。

また、登録失敗時の再発話の入力回数に対して上限（閾値Ｔｎ）を設けることで、登録発話をし続けても登録できない状態を無くすことができる。これは、登録に失敗する要因として登録（発話）環境が悪い可能性が高い。そこで、閾値Ｔｎ以上の発話回数となる場合には登録失敗として終了することにより、登録の発話環境を変えるように通知する等、ガイダンスを出すことが可能となり、ユーザにとって使い勝手のよいシステムとなる。

さらに、登録音声データを記録する数の上限（Ｌ発話分）を設定することで、登録音声データ記憶部１２の記録領域の節約が可能となり、また最大類似度の演算時に必要な演算量も削減することができる。

この発明に係る音声認識装置は、非定常騒音や音声区間の誤検出等による誤登録を低減して音声の認識性能を向上させることができ、また発話回数の不要な増加を防ぐことにより、利便性の向上やメモリの不要な使用を低減することができるため、音声登録型の音声認識装置等に用いるのに適している。

Claims

標準パタンを用いて認識対象の発話を音声認識する音声認識装置において、
複数回発話された音声を入力する音声入力部と、
前記音声入力部が入力した前記複数回発話された音声データを記憶する記憶部と、
前記記憶部から読み出した前記複数回発話された音声データ間の類似度を求め、前記類似度が第１の閾値より大きい場合に前記音声データを登録可と判定する安定性検証部と、
前記安定性検証部により登録可と判定された前記音声データを用いて前記標準パタンを作成する標準パタン作成部と、
１発話分の再発話要求を実行する再発話要求部とを備え、
前記音声入力部は、予め定めた複数回分だけ発話された音声を入力し、
前記安定性検証部は、前記記憶部から読み出した前記予め定めた複数回分の音声データに登録可となる音声データがなかった場合、前記再発話要求部に再発話要求を実行させ、当該再発話要求に応じた１発話分の音声データと前記記憶部に既に記憶された前記複数回分の音声データとの音声データ間の類似度を求め、前記音声データ間の類似度のうちの最大値が第２の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定することを特徴とする音声認識装置。
安定性検証部は、記憶部から読み出した複数回分の音声データに登録可となる音声データがなく、音声入力部が入力した音声の発話回数が第３の閾値に到達すると、再発話要求部に再発話要求を実行させる代わりに、発話音声の登録に失敗したとして登録判定を終了することを特徴とする請求項１記載の音声認識装置。
安定性検証部は、記憶部から読み出した複数回分の音声データに登録可となる音声データがなかった場合、所定数の音声データを残して前記記憶部の音声データを削除し、再発話要求に応じた１発話分の音声データと前記記憶部に残された前記所定数の音声データとの音声データ間の類似度を求め、前記音声データ間の類似度のうちの最大値が第２の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定することを特徴とする請求項１記載の音声認識装置。
安定性検証部は、記憶部に既に記憶されている複数回分の音声データと新たに入力された１発話分の音声データとのうち、音声データ間の類似度が最大となる音声データの組み合わせから所定数の音声データを特定して前記記憶部に残すことを特徴とする請求項３記載の音声認識装置。