JP4391031B2

JP4391031B2 - 音声認識装置

Info

Publication number: JP4391031B2
Application number: JP2001080970A
Authority: JP
Inventors: 勝黒田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-03-21
Filing date: 2001-03-21
Publication date: 2009-12-24
Anticipated expiration: 2021-03-21
Also published as: JP2002278581A

Description

【０００１】
【発明の属する技術分野】
本発明は、コンピュータ技術を利用した音声認識装置に関する。
【０００２】
【従来の技術】
コンピュータ技術を利用した音声認識装置は、予め認識される単語を音声認識システムに登録して認識単語辞書を作成する特定話者認識装置と、認識される単語を予め登録せず、例えばテキスト文字列から認識単語辞書を作成する不特定話者認識装置とに、大別される。いずれの場合も、予め決められた単語（群）を発声者が発声を行ない、それによる入力音声が認識される装置である。
【０００３】
しかし、一般的に発声者は、発声を行なう際に「えー」または「あのー」というような、本来の認識対象とは無関係な不要語を発することが多い。認識の対象となる単語に対して照合させる辞書は、音声区間の始端から照合を始めるため、「えー」や「あのー」というような発声が混入してしまう。すると、生成される類似度の精度が著しく下落し誤認識処理を生じてしまう。
【０００４】
上記欠点を解消する技術として、ワードスポッティング法が挙げられる。ワードスポッティング法は、「音声区間検出」の方法を使わないで、ある決められた時間内に発声した音声の中から認識対象となる単語を認識する技術である。こうすると、不要語が混入していても発声全体から不要語を取り除いて認識結果を出力するため、良好な認識結果を得ることができる。ワードスポッティング法の実現方法が、例えば、「継続時間制御型状態遷移モデルを用いた単語音声認識法」（電子情報通信学会論文誌ｖｏｌ．Ｊ７２−Ｄ−ＩＩＮｏ．１１ｐｐ．１７６９−１７７７１９８９年１１月）にて示されている。この方法は、認識対象となる辞書に含まれる音素に、継続時間情報を付加し、演算量を減らしつつ良好な認識性能を得る方法である。
【０００５】
しかし、ワードスポッティング法にも以下のような問題点がある。従来技術の音声認識（装置）の場合は、図７（１）に示すように、認識処理を開始した後、音声区間検出を行ない（ステップＳ１０６、ステップＳ１０８）、その後、辞書との照合を行ない（ステップＳ１１０）、最も類似度の高い辞書単語を結果出力する（ステップＳ１１２、ステップＳ１１４）。発声者からみると認識処理の開始をした後、ある発声を行なったときに結果が返されてくる。さらに認識処理を行なおうとするならば、再び認識処理の開始のための起動処理を行なう必要がある。これに対して、ワードスポッティング法では、図７（２）に示すように音声区間検出がないので、逐次、所定の時間単位の経過毎に標準辞書との照合処理を行なう。照合結果は数値化される。よって、この照合結果がある閾値を越える場合に結果出力し、そうでない場合は照合を継続する。この方法によると、発声者の意図に関係なく照合処理が続けられていることがあり得るため、発声者が認識させようとする単語を発声していないにもかかわらず結果出力されること（即ち、湧き出しされること）がある。
【０００６】
例えば、発声者が音声認識装置に対して発声しているのではなく、隣の人と会話しているときなどに上記のような現象が生じる。また、入力マイクから離れて位置する発声者以外の第三者の発声によっても、照合処理による類似度の上昇が起き得るため、湧き出しが生じてしまうことがある。
【０００７】
また、自動車で走行中に音声認識装置を利用すると、走行時の風切り音や、タイヤ音などの車騒音により、著しく音声認識の性能が落ちてしまう。この場合にも、走行音の音声特徴量パターンが認識用辞書の特徴量パターンに類似しているならば、湧き出しが生じてしまうことになる。
【０００８】
以上のような問題点を踏まえつつ、コンピュータ技術を利用する音声認識装置の誤認識を減少させる発明が開示されている。
【０００９】
（１）特開平６−３０１３９７号では、音声認識における誤認識を減らす方法として、認識の状態を結果出力の一部として出力することで結果出力後の利用者への情報掲示を行ない、利用者に認識結果の判断を行なわせるものを示す。
【００１０】
（２）特開平１０−９７２８３号では、誤認識したときにその内容をフィードバックし、エラー回数を踏まえて出力候補をもっともらしいものにする、という発明を示す。
【００１１】
（３）特開平９−４４１８３号などでは、入力された音声が、発声者の音声なのか、または、周囲騒音なのかを区別するために、予め発声者が発声する前に周囲騒音を記憶しておいて、認識照合時に周囲騒音を考慮した演算を行なう方式を示す。
【００１２】
（４）特開平６−２９６１９６号などでは、予め装置に登録されたノイズ信号と入力された音声信号とを比較し、入力信号から音声を抽出することで誤認識を減らす装置について、開示している。
【００１３】
（５）特開平７−７２８９５号では、音声区間検出手段と、音声区間検出開始後に起動されるタイムアウト検出手段を使用して、音声入力区間を限定することにより音声認識性能を上げようとする装置を示している。
【００１４】
上記の（複数の）従来技術では、利用者（発声者）が音声発声後に認識候補を選択したり判断したりするなど、様々な作業を行なうことが必要な場合がある。また、周囲騒音を考慮する発明においても、その取り込まれた周囲騒音が、発声者の発声時の背景騒音と類似するとは限らない。更に、発声者の音声を正確に抽出している、とも限らない。
【００１５】
【発明が解決しようとする課題】
本発明は、誤認識の少ない音声認識装置を提供することを目的とする。
【００１６】
【課題を解決するための手段】
本発明は、上記目的を達成するためになされたものである。本発明に係る請求項１に記載の音声認識装置は、
入力された音声から特徴量を抽出する特徴抽出部と、
その特徴量と予め作成されている標準辞書との照合を行ない照合類似度を算出する照合部と、
入力された音声の音量パワーを検出する音量検知部と、
予め設定された一つ又は複数の照合類似度閾値と、予め設定された一つ又は複数の音量閾値とを利用して、結果出力に係る判断を行なう結果判断出力部とを有し、
上記結果判断出力部は、上記照合部から受け取る照合類似度が所定の照合類似度閾値を越えたところで、少なくとも所定の応答時間を待って、照合類似度がピーク類似度であるか否かを判断し、
照合類似度がピーク類似度であることが検出され且つ所定の応答時間を経たとき、音量パワーが所定の音量閾値を下回っているならば、結果出力を行なう、
音声認識装置である。
【００１７】
本発明に係る請求項２に記載の音声認識装置は、
入力された音声から特徴量を抽出する特徴抽出部と、
その特徴量と予め作成されている標準辞書との照合を行ない照合類似度を算出する照合部と、
ある時点における特徴量とそれ以前の特徴量を比較し、ある特徴量がどれだけの期間継続したかを算出する特徴量継続時間演算部と、
予め設定された一つ又は複数の照合類似度閾値と、予め設定された一つ又は複数の特徴量継続時間閾値とを利用して、結果出力に係る判断を行なう結果判断出力部とを有し、
上記結果判断出力部は、上記照合部から受け取る照合類似度が所定の照合類似度閾値を越えたところで、少なくとも所定の応答時間を待って、照合類似度がピーク類似度であるか否かを判断し、
照合類似度がピーク類似度であることが検出され且つ所定の応答時間を経たとき、特徴量継続時間演算部で算出された特徴量継続時間が所定の特徴量継続時間閾値を越えているならば、結果出力を行なう、
音声認識装置である。
【００１８】
本発明に係る請求項３に記載の音声認識装置は、
入力された音声から特徴量を抽出する特徴抽出部と、
その特徴量と予め作成されている標準辞書との照合を行ない照合類似度を算出する照合部と、
ある時点における特徴量とそれ以前の特徴量を比較し、ある特徴量がどれだけの期間継続したかを算出する特徴量継続時間演算部と、
入力された音声の音量パワーを検出する音量検知部と、
予め設定された一つ又は複数の照合類似度閾値、予め設定された一つ又は複数の特徴量継続時間閾値、及び、予め設定された一つ又は複数の音量閾値を利用して、結果出力に係る判断を行なう結果判断出力部とを有し、
上記結果判断出力部は、上記照合部から受け取る照合類似度が所定の照合類似度閾値を越えたところで、少なくとも所定の応答時間を待って、照合類似度がピーク類似度であるか否かを判断し、
照合類似度がピーク類似度であることが検出され且つ所定の応答時間を経たとき、
特徴量継続時間演算部で算出された特徴量継続時間が所定の特徴量継続時間閾値を越え、且つ音量パワーが所定の音量閾値を下回っているならば、結果出力を行なう、
音声認識装置である。
【００１９】
【発明の実施の形態】
以下、図面を参照して、本発明に係る好適な実施の形態を説明する。
【００２０】
図１は、本発明の好適な実施の形態に係る、音声認識装置２のブロック図である。図示されていないが、本発明は、一般的なコンピュータ技術を利用するものである。
【００２１】
図１の音声認識装置２は、特徴抽出部４、音量検知部６、特徴量継続時間演算部８、照合部１０、標準辞書部１２、及び結果判断出力部１４を含む。
【００２２】
特徴抽出部４においては、入力された音声から音声認識に必要な音声特徴量を演算する。照合部１０においては、標準辞書部１２に格納される標準辞書と、求められた音声特徴量との、距離ベクトル（類似度）を求める。
【００２３】
一方、上記の照合部１０とは別に、入力された音声の音量パワーを求める音量検知部６が設定されている。また、特徴量継続時間演算部８においては、ある時点における音声特徴量が、その後、どれくらい連続するか（したか）を演算する。
【００２４】
照合部１０で求められた類似度と、音量検知部６で求められた音量パワー値と、特徴量継続時間演算部８で求められた特徴量継続時間（類似フレーム継続数）とを、結果判断出力部１４にて、それぞれの閾値と比較し、認識結果出力を行なう。
【００２５】
特徴抽出部４においては、フレームと呼ばれるある時間単位（例えば２０ｍｓ）ごとに音声特徴量を求める。ここで求められる音声特徴量は、例えば１０次のメル-ケプストラム（mel-cepstrum）である。また、標準辞書部１２に格納されている情報は、認識単語の音素列（文字列）から生成される各音素ごとの平均的なメル-ケプストラムベクトルおよび、その音素の継続時間、さらには、各音素の状態遷移を示すオートマトンなどである。照合部１０においては、入力された音声特徴量と、標準辞書部１０に格納された上記情報との比較演算を行ない、標準辞書部１０内の各音素の状態遷移を判断しながら、類似度を標準辞書部１０内の各単語ごとに求めていく。従って、結果判断出力部１４には、標準辞書部１０に含まれる単語の数だけの類似度とその単語の番号（認識番号）が送られる。
【００２６】
一方、音量検知部６においても、フレーム単位（例えば２０ｍｓ）ごとにその音声のパワー値が求められる。このときの音声パワー値は、そのフレームのパワー値で表す場合もあるし、そのフレームの数フレーム前からの平均パワー値で表す場合もある。
【００２７】
また、図２に示すように、特徴量継続時間演算部８においては、フレーム単位で求められた特徴量を保持し、入力された特徴量が、ぞれ以前のフレームと比較して類似するかどうかを判定し、類似性が認められれば、類似フレーム継続数をインクリメントする。類似性が認められない場合は、類似フレーム継続数を初期値に戻す。このようにして求められた類似フレーム継続数が、特徴量継続時間である。
【００２８】
結果判断出力部１４においては、前に説明したように、類似度情報、音量パワー値、特徴量継続時間（類似フレーム継続数）が入力される。これらを以下に示す判断手順により判断し、結果出力するかどうかを決める。
【００２９】
≪第１の実施の形態≫
図４は、本発明の第１の実施の形態に係る音声認識装置の認識手順を示すフローチャートである。第１の実施の形態においては、音量パワー値と類似度情報を利用する。
【００３０】
類似度情報は、各フレーム毎に求められる単語類似度である。結果判断出力部１４においては、その単語類似度が最大値を記録したかどうかをまず判断する。この最大値は、図３におけるピーク類似度に相当する。このピーク類似度の検出処理では、ある応答時間を経た後に次の処理に移る。これは、類似度のピークを確実に検出する目的と、部分一致した標準辞書単語を検出する目的のためである。例えば、「しんよこはま（新横浜）」と「しんよこはまきた（新横浜北）」を弁別するために、応答時間を適度に大きな値に設定することがある。
【００３１】
また、音量パワー値は、発声者の発声が完全に終わったかどうかの判定のために利用する。例えば、「しんよこはまきた」と言ったのか「しんよこはまです」と言ったのかを類似度情報だけでは正確に検出できないため、音量がある程度小さな値に収まった時点を、発声者の発声終了と判断して、その発声終了時に最も類似度が高い単語を正解単語として結果出力する。
【００３２】
したがって、図３に示すように、結果判断出力部１４では、類似度閾値がある閾値を越えたところで、応答時間を待って、その閾値がピークであることを判断する（ステップＳ２６）。また、結果判断出力部１４では、類似度ピーク値を結果出力するにあたり、音量パワー値が第１の閾値（閾値１）を越えているかどうかを判断する（ステップＳ２８）。もし、閾値１より大きければ発声者がまだ発声している最中であると判断して結果出力をしないこととする。また、閾値１より小さい若しくは同じである、第２の閾値（閾値２）と比較して（ステップＳ３０）、音量パワー値が小さいときは、発声者の発声が終了したと判断し、結果出力を行なう（ステップＳ３２）。こうすることにより、発声者の発声が終わらないうちには結果出力されないし、確実に発声が終わったところで結果出力が行なわれる。よって自然なユーザインタフェースが実現される。
【００３３】
≪第２の実施の形態≫
図５は、本発明の第２の実施の形態に係る音声認識装置の認識手順を示すフローチャートである。第２の実施の形態においては、特徴量継続時間と類似度情報を利用する。
【００３４】
類似度情報は、各フレーム毎に求められる単語類似度である。結果判断出力部１４においては、その単語類似度が最大値を記録したかどうかをまず判断する。この最大値は、図３におけるピーク類似度に相当する。このピーク類似度の検出処理では、ある応答時間を経た後に次の処理に移る。これは、類似度のピークを確実に検出する目的と、部分一致した標準辞書単語を検出する目的のためである。
【００３５】
また、騒音環境下においては、発声が終わったとしても、背景に騒音がある。よって、音量による制御の他に、特徴量の変化により発声であるかないかを判断することが望ましい。その判断は、抽出した特徴量がどれくらい継続したかを判定することである。例えば、走行する車両の内部の背景雑音は、風切り音やタイヤ走行摩擦音などであり、それらはある程度時間幅を持って存在する雑音である。一方、すれ違う対向車などから雑音が発生することがあるが、それらの雑音の発生時間は、人が発声する音声に比べて短い。
【００３６】
上記のような背景雑音の特性を考慮すると、背景雑音と類似する特徴量成分が相当に長く継続した場合は、該特徴量に係る音は音声でないと判断することができ、よって発声終了と見なせる。このときに音声認識結果を出力する。
【００３７】
図５に示すように、結果判断出力部１４では、類似度閾値がある閾値を越えたところで、応答時間を待って、その閾値がピークであることを判断する（ステップＳ４６）。また、結果判断出力部１４では、類似度ピーク値を結果出力するにあたり、類似度継続時間演算部８より得られた特徴量継続時間を第４の閾値（閾値４）と比較する（ステップＳ４８）。もし、閾値４より小さければ、発声者がまだ発声しているか、何か入力音声の特徴量の変化があるということなので、結果出力を行なわず照合を続ける。また、閾値４より大きい若しくは同じである、第３の閾値（閾値３）を、特徴量継続時間が上回った場合（ステップＳ５０）は、発声者の発声が終了し且つ背景騒音が継続して入力されていると判断して、結果出力を行なう（ステップＳ５２）。
【００３８】
≪第３の実施の形態≫
図６は、本発明の第３の実施の形態に係る音声認識装置の認識手順を示すフローチャートである。第３の実施の形態は、概略、第１の実施の形態と第２の実施の形態とを組み合わせて形成されている。第３の実施の形態においては、類似度情報、音量パワー値、及び特徴量継続時間を利用する。
【００３９】
類似度情報は、各フレーム毎に求められる単語類似度である。結果判断出力部１４においては、その単語類似度が最大値を記録したかどうかをまず判断する。この最大値は、図３におけるピーク類似度に相当する。このピーク類似度の検出処理では、ある応答時間を経た後に次の処理に移る。これは、類似度のピークを確実に検出する目的と、部分一致した標準辞書単語を検出する目的のためである。
【００４０】
音量パワー値は、発声者の発声が終了したかどうかの判定に利用する。音量がある程度小さな値に収まった時点を、発声者の発声終了と判断し、その発声終了時点にて最も類似度が高い単語を正解単語として結果出力の候補とする。
【００４１】
また、騒音環境下においては、発声が終わったとしても、背景に騒音がある。よって、音量による制御の他に、特徴量の変化により発声であるかないかを判断することが望ましい。その判断は、抽出した特徴量がどれくらい継続したかを判定することである。例えば、走行する車両の内部の背景雑音は、風切り音やタイヤ走行摩擦音などであり、それらはある程度時間幅を持って存在する雑音である。一方、すれ違う対向車などから雑音が発生することがあるが、それらの雑音の発生時間は、人が発声する音声に比べて短い。
【００４２】
上記のような背景雑音の特性を考慮すると、背景雑音と類似する特徴量成分が相当に長く継続した場合は、該特徴量に係る音は音声でないと判断することができ、よって発声終了と見なせる。このときに音声認識結果を出力し、それを出力候補とする。
【００４３】
図６に示すように、結果判断出力部１４では、類似度閾値がある閾値を越えたところで、応答時間を待って、その閾値がピークであることを判断する（ステップＳ６６）。また、結果判断出力部１４では、類似度ピーク値を結果出力するにあたり、類似度継続時間演算部８より得られた特徴量継続時間を第４の閾値（閾値４）と比較する（ステップＳ６８）。もし、閾値４より小さければ、発声者がまだ発声しているか、何か入力音声の特徴量の変化があるということなので、結果出力を行なわず照合を続ける。また、閾値４より大きい若しくは同じである、第３の閾値（閾値３）を、特徴量継続時間が上回った場合（ステップＳ７０）は、発声者の発声が終了し且つ背景騒音が継続して入力されていると判断して、第１の結果出力候補を形成する。
【００４４】
また、結果判断出力部１４では、類似度ピーク値を結果出力するにあたり、音量パワー値が第１の閾値（閾値１）を越えているかどうかを判断する（ステップＳ７２）。もし、閾値１より大きければ発声者がまだ発声している最中であると判断して結果出力しないこととする。また、閾値１より小さい若しくは同じである、第２の閾値（閾値２）と比較して（ステップＳ７４）、音量パワーが小さいときは、発声者の発声が終了したと判断し、第２の結果出力候補を形成する。
【００４５】
上記第１の結果出力候補、および、第２の結果出力候補がそろったところで、結果出力を行なう（ステップＳ７６）。両候補ともにそろわなかったときには、結果出力を行なわない。
【００４６】
【発明の効果】
以上のように構成された、本発明に係る音声認識装置では、類似度情報、音量パワー値、及び特徴量継続時間について、それぞれ閾値を設定し、それら閾値に達したか否かを判断することで、結果出力をコントロールできる。さらに、そのように結果出力をコントロールすることにより、誤認識（例えば、湧き出し、発声中の結果出力など）を減らせることが可能となる。従って、音声ユーザインタフェースをより自然で、使いやすいものとすることができる。
【図面の簡単な説明】
【図１】本発明の好適な実施の形態に係る音声認識装置のブロック図である。
【図２】特徴量継続時間を算出するフローチャートである。
【図３】類似度及び音量の、時間変動の例を示すグラフである。
【図４】本発明の第１の実施の形態に係る音声認識装置の認識手順を示すフローチャートである。
【図５】本発明の第２の実施の形態に係る音声認識装置の認識手順を示すフローチャートである。
【図６】本発明の第３の実施の形態に係る音声認識装置の認識手順を示すフローチャートである。
【図７】従来の音声認識装置における音声認識のフローチャートである。
【符号の説明】
２・・・音声認識装置、
４・・・特徴抽出部、
６・・・音量検知部、
８・・・特徴量継続時間演算部、
１０・・・照合部、
１２・・・標準辞書部、
１４・・・結果判断出力部。

Claims

入力された音声から特徴量を抽出する特徴抽出部と、
その特徴量と予め作成されている標準辞書との照合を行ない照合類似度を算出する照合部と、
入力された音声の音量パワーを検出する音量検知部と、
予め設定された一つ又は複数の照合類似度閾値と、予め設定された一つ又は複数の音量閾値とを利用して、結果出力に係る判断を行なう結果判断出力部とを有し、
上記結果判断出力部は、上記照合部から受け取る照合類似度が所定の照合類似度閾値を越えたところで、少なくとも所定の応答時間を待って、照合類似度がピーク類似度であるか否かを判断し、
照合類似度がピーク類似度であることが検出され且つ所定の応答時間を経たとき、音量パワーが所定の音量閾値を下回っているならば、結果出力を行なう、
音声認識装置。
入力された音声から特徴量を抽出する特徴抽出部と、
その特徴量と予め作成されている標準辞書との照合を行ない照合類似度を算出する照合部と、
ある時点における特徴量とそれ以前の特徴量を比較し、ある特徴量がどれだけの期間継続したかを算出する特徴量継続時間演算部と、
予め設定された一つ又は複数の照合類似度閾値と、予め設定された一つ又は複数の特徴量継続時間閾値とを利用して、結果出力に係る判断を行なう結果判断出力部とを有し、
上記結果判断出力部は、上記照合部から受け取る照合類似度が所定の照合類似度閾値を越えたところで、少なくとも所定の応答時間を待って、照合類似度がピーク類似度であるか否かを判断し、
照合類似度がピーク類似度であることが検出され且つ所定の応答時間を経たとき、特徴量継続時間演算部で算出された特徴量継続時間が所定の特徴量継続時間閾値を越えているならば、結果出力を行なう、
音声認識装置。
入力された音声から特徴量を抽出する特徴抽出部と、
その特徴量と予め作成されている標準辞書との照合を行ない照合類似度を算出する照合部と、
ある時点における特徴量とそれ以前の特徴量を比較し、ある特徴量がどれだけの期間継続したかを算出する特徴量継続時間演算部と、
入力された音声の音量パワーを検出する音量検知部と、
予め設定された一つ又は複数の照合類似度閾値、予め設定された一つ又は複数の特徴量継続時間閾値、及び、予め設定された一つ又は複数の音量閾値を利用して、結果出力に係る判断を行なう結果判断出力部とを有し、
上記結果判断出力部は、上記照合部から受け取る照合類似度が所定の照合類似度閾値を越えたところで、少なくとも所定の応答時間を待って、照合類似度がピーク類似度であるか否かを判断し、
照合類似度がピーク類似度であることが検出され且つ所定の応答時間を経たとき、
特徴量継続時間演算部で算出された特徴量継続時間が所定の特徴量継続時間閾値を越え、且つ音量パワーが所定の音量閾値を下回っているならば、結果出力を行なう、
音声認識装置。