JP2006267664A

JP2006267664A - 音声認識方法および音声認識装置

Info

Publication number: JP2006267664A
Application number: JP2005086805A
Authority: JP
Inventors: Hiroyuki Manabe; 宏幸真鍋; Shi Cho; 志鵬張
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2005-03-24
Filing date: 2005-03-24
Publication date: 2006-10-05
Anticipated expiration: 2025-03-24
Also published as: JP4632831B2

Abstract

【課題】筋電信号と音声信号を用いて雑音に頑強な音声認識を実現すること。
【解決手段】本発明の一実施形態による音声認識装置は、筋電信号を検出する筋電信号検出部と、音声信号を検出する音声信号検出部とを備える。一般に、筋電信号は音声信号に先行して発生するので、筋電信号から音声に先行する非発話区間を特定することができる。この非発話区間で音声信号検出部により周囲の雑音を検出する。この周囲雑音に関する情報により音声認識の精度を向上することができる。一般に、音声信号による音声認識は周囲の雑音の影響を受けやすいが、筋電信号による音声認識は周囲の雑音の影響を受けにくい。そのため、例えば、周囲の雑音レベルに応じて、音声信号による音声認識と筋電信号による音声認識の重みを変えることで、雑音環境下で音声認識の精度を向上することができる。
【選択図】図１

Description

本発明は、一般に、音声認識方法および音声認識装置に関し、より詳細には、音声信号と筋電信号を用いた音声認識方法および音声認識装置に関する。

従来、音声認識技術はマイクロフォンによって検出した音声信号から音声認識を行っている。例えば、音声信号から算出した特徴量に隠れマルコフモデル（ＨＭＭ）などのアルゴリズムを適用することによって音声認識を行っている。このような音声信号による音声認識技術では、雑音環境下での音声の認識率の低下が課題となっており、雑音に対して頑強な音声認識を行うための手法が提案されている。

例えば、非特許文献１では、音声信号の無音区間において周囲の雑音スペクトルを算出し、有音区間の音声信号から雑音スペクトルを差し引くことによって、音声信号の雑音を低減している。また、非特許文献２では、ＨＭＭを用いた音声認識において、雑音を含む音声信号でＨＭＭを学習させることにより、雑音環境に適応させたモデルが提案されている。

このような音声信号のみを用いた手法では、雑音が混入した音声信号自体から発話内容を認識しなければならず、雑音環境下での認識率には原理的に限界がある。そのため、雑音の影響を受けない非音声信号を併用するマルチモーダル手法が提案されてきた。例えば、非特許文献３では、音声信号と口唇の画像信号を組み合わせてマルチモーダル化している。また、非特許文献４では、音声信号と発話時に活動する筋肉の筋電信号を組み合わせてマルチモーダル化している。

音声信号と画像信号を用いる手法では、画像信号から口唇の動きを検出し、その特徴量をリアルタイムで算出しなければならず莫大な演算量が必要となる。また、被写体とカメラの相対位置や周囲の照明環境を一定に保たなければならず、実使用環境において大きな制約となる。これに対し、筋電信号を用いる手法では、皮膚に電極を貼り付けるだけで、周囲の環境の影響を受けにくく、発話音声と相関性の高い筋電信号を得ることができる。

S.F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. Acoustics, Speech, and Signal Processing, Vol.27, No.2, pp.113-120, April 1979 張志鵬，他，"区分線形変換による雑音適応法のための木構造クラスタリング法の検討"，電子情報通信学会，信学技報，ＳＰ２００３−１７１，ｐｐ．７−１２，２００４田村哲嗣，他，"マルチモーダル音声認識におけるストリーム重み係数最適化の検討"，電子情報通信学会，信学技報，ＳＰ２００３−１５３，ｐｐ．２４１−２４６，２００３ A.D.C. Chan et al., "A Multi-Expert Speech Recognition System Using Acoustic and Myoelectric Signals," IEEE Proc. of 2nd Joint EMBS/BMES Conference, pp.72-73, Oct 2002

一般に、周囲の雑音が低い環境では、音声信号による音声認識は筋電信号による音声認識よりも優れている。しかし、周囲の雑音が高くなると、音声信号による音声認識の精度が低下し、筋電信号による音声認識の方が有利になる。そのため、音声信号と筋電信号を用いたマルチモーダル音声認識手法では、最適な性能を達成するために、周囲の雑音の環境に応じて、それぞれの信号を適切に処理する必要がある。例えば、周囲の雑音レベルが低い場合には、音声信号の重みを増し、逆に周囲の雑音レベルが高い場合には、筋電信号の重みを増すようにする。このように、周囲の雑音環境に応じて適切な処理を施し、実使用環境において最適な性能を達成することのできる手法が望まれている。

また、こうした手法を適用するためには、音声の発話区間（有音区間）と非発話区間（無音区間）を正しく検出し、周囲の雑音を正しく検出しなければならない。従来、この発話区間の推定は音声信号を用いて行われていた。しかしながら、この手法は、周囲の雑音が低い場合には有効であるが、周囲の雑音が高くなると、発話区間を正しく検出できないという問題があった。

本発明は、このような問題に鑑みてなされたもので、その目的とするところは、音声信号と筋電信号を用いたマルチモーダル音声認識技術において、雑音に対して頑強な音声認識を可能とする手法を提供することにある。

本発明は、このような目的を達成するために、請求項１に記載の発明は、音声信号と筋電信号を用いて音声を認識する方法であって、筋電信号から音声の発話区間を検出するステップと、前記検出された発話区間において音声信号を検出するステップと、前記発話区間において検出された音声信号に基づいて音声認識を行うステップとを備えることを特徴とする。これにより、周囲の雑音が高い環境においても確実に発話区間を検出することができる。

また、請求項２に記載の発明は、音声信号に基づく音声認識結果と筋電信号に基づく音声認識結果を統合して音声を認識する方法であって、筋電信号から音声の非発話区間を検出するステップと、前記非発話区間において周囲の雑音を検出して雑音に関連するパラメータを算出するステップと、前記雑音に関連するパラメータに応じて前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合するステップとを備えることを特徴とする。これにより、周囲の雑音のレベルに応じて、最適な音声認識結果の統合が可能となる。

また、請求項３に記載の発明は、請求項２に記載の音声認識方法であって、前記統合するステップは、前記雑音に関連するパラメータに応じて前記音声信号に基づく認識結果と前記筋電信号に基づく認識結果の重みを変えることで認識結果を統合することを特徴とする。これにより、周囲の雑音レベルに応じて重みを変えることができ、最適な音声認識結果の統合が可能となる。

また、請求項４に記載の発明は、音声信号と筋電信号を用いて音声を認識する方法であって、筋電信号から音声の発話区間と非発話区間を検出するステップと、音声信号から音声の発話区間を検出するステップと、前記検出された非発話区間において周囲の雑音を検出して雑音に関連するパラメータを算出するステップと、前記算出された雑音に関連するパラメータに応じて前記音声信号から検出された発話区間と前記筋電信号から検出された発話区間とのいずれかを選択するステップと、前記選択された発話区間において検出された音声信号に基づいて音声認識を行うステップとを備えることを特徴とする。これにより、周囲の雑音レベルに応じて、音声認識に最適な発話区間の選択が可能となる。

また、請求項５に記載の発明は、請求項１ないし４のいずれかに記載の音声認識方法において、筋電信号から音声の発話区間または非発話区間を検出するステップは、複数のチャンネルから得られた筋電信号を掛け合わせて処理することを特徴とする。これにより、筋電信号のすべてのチャンネルからの情報に基づいて発話区間または非発話区間の検出が行われるのでより精度の高い検出が可能となる。

また、請求項６に記載の発明は、音声信号と筋電信号を用いて音声を認識する装置であって、筋電信号を検出する筋電信号検出手段と、音声信号を検出する音声信号検出手段と、前記検出された筋電信号を処理して音声の発話区間を検出する発話区間検出手段と、前記発話区間において検出された音声信号を処理して音声の特徴量を算出する特徴量算出手段と、前記算出された音声の特徴量に基づいて音声認識を行う音声認識手段とを備えたことを特徴とする。これにより、周囲の雑音が高い環境においても確実に発話区間を検出することができる。

また、請求項７に記載の発明は、音声信号に基づく音声認識結果と筋電信号に基づく音声認識結果を統合して音声を認識する装置であって、筋電信号を検出する筋電信号検出手段と、音声信号を検出する音声信号検出手段と、前記検出された筋電信号を処理して音声の非発話区間を検出する非発話区間検出手段と、前記検出された非発話区間において検出された音声信号を処理して周囲の雑音に関連するパラメータを算出するパラメータ算出手段と、前記算出されたパラメータに応じて前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合する音声認識結果統合手段とを備えたことを特徴とする。これにより、周囲の雑音のレベルに応じて、最適な音声認識結果の統合が可能となる。

また、請求項８に記載の発明は、請求項７に記載の音声認識装置において、前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合するための重みを算出する重み算出部をさらに備えたことを特徴とする。これにより、周囲の雑音レベルに応じて重みを変えることができ、最適な音声認識結果の統合が可能となる。

また、請求項９に記載の発明は、音声信号と筋電信号を用いて音声を認識する装置であって、筋電信号を検出する筋電信号検出手段と、音声信号を検出する音声信号検出手段と、前記検出された筋電信号を処理して音声の発話区間と非発話区間を検出する第１の発話区間検出手段と、前記検出された音声信号を処理して音声の発話区間を検出する第２の発話区間検出手段と、前記検出された非発話区間において検出された音声信号を処理して周囲の雑音に関連するパラメータを算出するパラメータ算出手段と、前記算出されたパラメータに応じて前記音声信号から検出された発話区間と前記筋電信号から検出された発話区間のいずれかを選択する発話区間選択手段と、前記選択された発話区間において検出された音声信号に基づいて音声認識を行う音声認識手段とを備えたことを特徴とする。これにより、周囲の雑音レベルに応じて、音声認識に最適な発話区間の選択が可能となる。

また、請求項１０に記載の発明は、請求項６ないし９のいずれかに記載の音声認識装置において、筋電信号から音声の発話区間または非発話区間を検出する発話区間検出手段は、複数のチャンネルから検出された筋電信号を掛け合わせて処理することを特徴とする。これにより、筋電信号のすべてのチャンネルからの情報に基づいて発話区間または非発話区間の検出が行われるのでより精度の高い検出が可能となる。

以下、図面を参照しながら本発明の実施形態について説明する。

図１に、本発明を実施することができる音声信号と筋電信号を用いたマルチモーダル音声認識装置の機能ブロック図の一例を示す。音声認識装置１００は、筋電信号を検出する筋電信号検出部１１０と、検出部１１０で検出した筋電信号１１１を処理する筋電信号処理部１２０と、処理部１２０で処理して得た筋電信号の特徴量１２４に基づいて発話内容を認識する筋電信号認識部１３０とを備えている。また、音声認識装置１００は、音声信号を検出する音声信号検出部１１２と、検出部１１２で検出した音声信号１１３を処理する音声信号処理部１２２と、処理部１２２で処理して得た音声信号の特徴量１２５に基づいて音声信号の認識を行う音声信号認識部１３２とを備えている。

音声認識装置１００は、処理部１２２で処理して得た周囲の雑音に関連するパラメータ１２６に基づいて重みを算出する重み算出部１４０と、その算出した重み１４１に基づいて筋電信号による認識結果１３１と音声信号による認識結果１３３を統合する認識結果統合部１５０と、その統合した認識結果１５１を所定のフォーマットで出力する認識結果出力部１６０とをさらに備えている。

筋電信号検出部１１０では、発話時に活動する筋肉の皮膚表面に設置した電極から発話時の筋電信号を検出する。発話には異なる部位の筋肉の活動が伴うため、複数の箇所から筋電信号を検出することが望ましい。また、音声信号検出部１１２では、発話時に音声信号をマイク等で検出する。図２に、音声信号と筋電信号を同時に検出したときの信号を示す。この信号は、数字の「ｉｃｈｉ」と発話したときの音声信号と、発話者の口輪筋（ＣＨ１）、口角下制筋（ＣＨ２）および顎二腹筋（ＣＨ３）から収録した筋電信号を示している。

筋電信号処理部１２０は、検出部１１０で検出した筋電信号１１１を増幅し、ノイズ除去、フィルタリング、全波整流などの処理を行って、パワーや自己相関係数、周波数分析などの音声認識に必要な特徴量１２４を算出する。また、筋電信号処理部１２０は、図４および５を参照して後述するように、音声の発話区間／非発話区間を特定するために検出部１１０で検出した筋電信号１１１から筋電信号の処理区間を算出し、その区間を示す信号１２１を出力する。音声信号処理部１２２は、検出部１１２で検出した音声信号１１３を増幅し、ＭＦＣＣ（メル周波数ケプストラム係数）などの音声認識に必要な特徴量１２５を算出する。また、音声信号処理部１２２は、図６〜８を参照して後述するように、筋電信号処理部１２０から得られる筋電信号の処理区間を示す信号１２１に基づいて音声の発話区間／非発話区間を特定することができる。音声信号処理部１２２はさらに、従来技術に見られるように、検出部１１２で検出した音声信号１１３から音声の発話区間／非発話区間を特定することもできる。

筋電信号認識部１３０および音声信号認識部１３２は、筋電信号処理部１２０および音声信号処理部１２２から得られる特徴量１２４および１２５に基づいて、それぞれ独立して音声認識を行う。例えば、これらの特徴量に隠れマルコフモデル（ＨＭＭ）を適用することができる。図３は、隠れマルコフモデル（ＨＭＭ）を用いて数字の０〜９の数字を認識させた場合の結果の一例を示している。これらの結果は、ある発話に対するそれぞれの数字の候補の対数尤度を示している。図３には、筋電信号認識部１３０の認識結果１３１と、音声信号認識部１３２の認識結果１３３と、これらの結果をそれぞれ重み１で加算した認識結果統合部１５０の統合結果１５１、およびこの統合結果の順位が示されている。図から、スコアが最も高く、順位が１位の「ｓｈｉ」が発話音声として認識されることがわかる。ここでは、音声信号認識部１３２の認識結果１３３および筋電信号認識部１３０の認識結果１３１の重みをそれぞれ１として統合しているが、本発明では、以下に図９〜１１を参照して詳述するように、周囲の雑音に関連するパラメータ１２６に応じて、重み算出部１４０で適切な重み１４１を設定することができる。

認識結果出力部１６０は、認識結果統合部１５０からの認識結果１５１をディスプレイやスピーカ、または他のプログラムなどへ出力するために所定のフォーマットで認識結果を出力する。

次に、本発明による音声の発話区間と非発話区間の検出について説明する。図２に見られるように、筋電信号は一般に音声信号に先行して発生する。これは、音声信号から検出される発話区間で筋電信号を処理すると、筋電信号の先行する部分の信号が処理されないことを意味する。そのため、通常は、音声信号から検出される発話区間に対して一定の時間だけ先行させた位置から筋電信号を処理するようにしている。例えば、図２で音声信号から検出される発話区間が１．２６秒から１．６４秒であるとすると、これに対して筋電信号を５００ミリ秒だけ先行させ、そこから１秒間にわたって筋電信号を処理するようにする（つまり、筋電信号の処理区間は、０．７６秒から１．７６秒となる）。この手法は非特許文献４で開示されている。

この手法の問題点の１つは、筋電信号が音声信号に対して常に一定の時間だけ先行すると仮定していることである。しかし、音声信号の立ち上がりと筋電信号の立ち上がりの時間差は、必ずしも一定ではなく、実際には発話に応じて数十〜数百ミリ秒の開きがある。また各筋肉の活動開始時刻は、発話時の筋肉の使い方に依存するため、各筋電信号の立ち上がり時刻は同一時刻とはならない。また、この手法の別の問題点は、音声信号から正しく発話区間を検出できなければ、筋電信号も正しく処理することができないことである。これは、周囲の雑音が高く、音声信号だけでは発話区間を正しく検出できない場合に特に問題となる。

本発明では、筋電信号の処理区間を音声信号から検出された発話区間から特定するのではなく、筋電信号から直接特定する。具体的には、筋電信号検出部１１０で検出された筋電信号１１１を筋電信号処理部１２０で処理して、筋電信号の処理区間を特定する。また、筋電信号の処理区間から音声信号の処理区間（または発話区間）を設定することもできる。すなわち、筋電信号の処理区間を一定の時間シフトすることで、音声信号の処理区間（または発話区間）とすることができる。これにより、周囲の雑音に影響されることなく音声の発話区間を特定することができる。

図４に、本発明による筋電信号処理部の機能ブロック図の一例を示す。筋電信号処理部１２０は、筋電信号検出１１０で検出された筋電信号１１１を処理して、筋電信号の処理区間１２１を検出する筋電信号処理区間検出部２１０と、検出部２１０で検出された処理区間における筋電信号１２３を処理して、筋電信号の特徴量１２４を算出する筋電信号特徴量算出部２２０とを備えている。

図５は、処理区間検出部２１０において、複数の部位（チャンネル）から検出された筋電信号を処理して、筋電信号の処理区間を検出するための手順の一例を示している。図５に示すように、各チャンネルｉ（ｉ＝１，．．．，ｎ）からの筋電信号１１１のパワーを算出し、正規化してパラメータの統合を行い、筋電信号の処理区間１２１の検出を行う。各チャンネルからの筋電信号ｅ（ｔ）は、筋電信号検出部１１０で検出される（ステップＳ４０１）。筋電信号の時刻ｔにおけるパワーＰｏｗｅｒ_ｔは、例えば、次式のように算出することができる（ステップＳ４０２）。

ここで、ｔは時刻ではなく、フレームとしてもよい。また、Ｔは積分する時間を表し、フレームの場合はフレーム長の半分とすることができる。

次に、算出したパワーをそのチャンネルにおけるパワーの最大値で除することにより、次式のように正規化したパワーＰ_ｔを求める（ステップＳ４０３）。

そして、各チャンネルｉの正規化したパワーＰ_ｔ，ｉにオフセットα_ｉを加えて、すべてのチャンネルのパワーを掛け合わせることにより、次式のように統合してパラメータｐａｒａｍｅｔｅｒ_ｔを得る（ステップＳ４０４）。

このパラメータを用いて、筋電信号の処理区間を判定することができる。例えば、処理区間検出ルーチンでは、ｐａｒａｍｅｔｅｒ_ｔが予め設定された閾値をある一定の時間連続して超えると、処理区間と判定することができる。また、ｐａｒａｍｅｔｅｒ_ｔが予め設定された閾値をある一定の時間連続して下回ると、処理区間から除外することができる（ステップＳ４０５）。

また、上式のように、各チャンネルｉにオフセットα_ｉを加えることにより、各チャンネルの処理区間の判定に与える影響を調整することができる。例えば、あるチャンネルｉのパワーＰ_ｔ，ｉのダイナミックレンジ（ここでは、発話区間のパワーと非発話区間のパワーとの比を指す）が小さい場合でも、オフセットα_ｉを設けることで、処理区間の判定に与える影響を増やすことができる。また、あるチャンネルｉのオフセットα_ｉを１よりも十分に大きく設定し、それに応じて判定閾値も大きく設定することで、そのチャンネルが処理区間の判定に与える影響を小さくすることができる。

ここでは、上記の式を例として、筋電信号の処理区間を判定する方法について説明したが、その他のパラメータや算出法を用いてもよい。例えば、パラメータとして、筋電信号の特定の帯域のパワーや筋電信号のゼロ交差数を用いることもできる。また、正規化やオフセットの処理は行わなくてもよい。重要なことは、複数の筋電信号からの情報を用いて、適切な処理区間を判定することである。

次に、音声信号処理部１２２において、処理区間検出部２１０で検出された筋電信号の処理区間１２１から音声の非発話区間／発話区間を特定する方法について説明する。図６に、本発明による音声信号処理部の機能ブロック図の一例を示す。音声信号処理部１２２は、処理区間検出部２１０で検出された筋電信号の処理区間１２１と音声信号検出部１１２で検出された音声信号１１３を処理して、音声の非発話区間を検出する非発話区間検出部３１０と、音声信号検出部１１２で検出された音声信号１１３を処理して、音声の発話区間を検出する発話区間検出部３２０とを備えている。音声信号処理部１２２はさらに、検出部３１０で検出された非発話区間の音声信号３１１、検出部３１０で検出された発話区間の音声信号３１２または検出部３２０で検出された発話区間の音声信号３２１を処理して周囲の雑音に関連するパラメータ１２６を算出する推定ＳＮＲ算出部３３０を備え、発話区間切換部３４０は、この算出されたパラメータ１２６に基づいて、検出部３１０で検出された発話区間の音声信号３１２と検出部３２０で検出された発話区間の音声信号３２１のいずれかを選択する。発話区間切換部３４０で選択された発話区間の音声信号３４１は、次いで特徴量算出部３５０で処理されて、ＭＦＣＣなどの音声信号の特徴量１２５が出力される。

一般に、筋電信号は、図２に見られるように、音声信号に先行して発生する。この様子を図７に模式的に示す。非発話区間検出部３１０は、筋電信号の処理区間１２１の立ち上がりから所定の時間（例えば、５００ｍｓ）を非発話区間とし、この区間の音声信号３１１を出力する。この音声信号３１１は、音声が発生する前の信号であり、周囲の雑音（ｎ_０）とみなすことができる。また、非発話区間検出部３１０は、この非発話区間の終端から筋電信号の処理区間の立ち下がりまでの区間を音声の発話区間とみなし、この区間の音声信号３１２を出力する。この区間の音声信号３１２は、周囲の雑音と音声が入り混じった信号（ｓ＋ｎ）となる。なお、この発話区間は、筋電信号の処理区間から求めているので、周囲の雑音に影響されることなく検出できる。次に、発話区間検出部３２０は、従来の技術を用いて、音声信号１１３から音声の発話区間を検出し、この区間の音声信号３２１を出力する。この音声信号３２１は、周囲の雑音と音声が入り混じった信号（ｓ＋ｎ）となる。この発話区間は、音声信号から求めているので、周囲の雑音に影響を受け、その検出精度が変化する。

推定ＳＮＲ算出部３３０は、非発話区間の音声信号３１１から周囲の雑音（ｎ_０）のレベルＮ_０を算出する。また、推定ＳＮＲ算出部３３０は、筋電信号の処理区間から求めた発話区間の音声信号３１２から信号（ｓ＋ｎ）のレベル（Ｓ＋Ｎ）を算出する。あるいは、推定ＳＮＲ算出部３３０は、音声信号から求めた発話区間の音声信号３２１から信号（ｓ＋ｎ）のレベル（Ｓ＋Ｎ）を算出する。推定ＳＮＲ算出部３３０は、これらの算出した値から擬似的なＳＮＲとして、（Ｓ＋Ｎ）／Ｎ_０を算出する。以下、この擬似的なＳＮＲを推定ＳＮＲと呼ぶ。

この推定ＳＮＲは、本来のＳＮ比を強く反映した周囲の雑音に関連するパラメータである。すなわち、音声信号のレベルが高く、周囲の雑音レベルが低い場合には、この値は大きくなり、音声信号のレベルが低く、周囲の雑音レベルが高い場合には、この値は小さくなる。このパラメータは、音声認識装置において、例えば、音声の発話区間を選択するために使用することができる。また、音声信号による認識結果と筋電信号による認識結果を統合するための重みを決定するために使用することができる。

図８に、推定ＳＮＲに基づいて音声の発話区間を選択する処理の一例を示す。先ず、推定ＳＮＲ算出部３３０において、上述したように非発話区間の雑音レベル（Ｎ_０）と、発話区間の音声信号レベル（Ｓ＋Ｎ）から推定ＳＮＲを求める（ステップＳ６０１）。次に、発話区間切換部３４０において、推定ＳＮＲを所定の閾値と比較する（ステップＳ６０２）。推定ＳＮＲが所定の閾値を超える場合、音声信号の品質が高いと判断し、音声信号から求めた発話区間の音声信号３２１を採用する（ステップＳ６０３）。一方、推定ＳＮＲが所定の閾値以下であれば、音声信号の品質が悪いと判断し、筋電信号から求めた発話区間の音声信号３１２を採用する（ステップＳ６０４）。このような処理を行うことで、従来に比べて、雑音環境下でより頑強な発話区間の特定が可能となる。

次に、この推定ＳＮＲを用いて音声信号と筋電信号の認識結果を統合する場合の重みについて説明する。一般に、音声信号による認識は、周囲の雑音が低い場合には筋電信号による認識よりも精度が高い。しかし、周囲の雑音が高くなると、音声信号による認識の精度は低下する一方、筋電信号による認識の精度は雑音の影響を受けずほぼ一定となる。そして、周囲の雑音があるレベルを超えると、音声による認識と筋電信号による認識の精度の優劣が逆転する。そのため、これらの認識結果を統合する際の重みを周囲の雑音レベルに応じて変えることで、音声認識の精度が向上することが期待できる。

図９に、本発明による一例として、隠れマルコフモデル（ＨＭＭ）の学習時に推定ＳＮＲと最適な重みとの関係を求める方法を示す。様々な雑音環境下で収録した周囲の雑音と音声が入り混じった学習用の音声信号で音声信号認識部１３２および筋電信号認識部１３３のＨＭＭを学習させる（Ｓ７０１）。次に、推定ＳＮＲ算出部３３０からこれら音声信号の推定ＳＮＲを得る（Ｓ７０２）。また、これら音声信号について、音声信号認識部１３２および筋電信号認識部１３０から図３に示すような音声信号による認識結果１３１と筋電信号による認識結果１３３を得る。これらの認識結果を統合して得た認識結果が、既知の正しい認識結果に照らして最良となるように最適な重みを求める（Ｓ７０３）。この最適な重みは、例えば回帰分析等により求めることができる。最後に、算出した推定ＳＮＲと最適な重みとの関係を確定する（Ｓ７０４）。

このようにしてＨＭＭの学習時に得られた推定ＳＮＲと最適な重みの関係の一例を図１０に示す。図１０から推定ＳＮＲが大きくなればなるほど、音声信号に対する重みが減少し、筋電信号に対する重みが増大することがわかる。ＨＭＭの学習時に求めた図１０の関係を、例えば重み算出部１４０に記憶させておくことで、実使用環境において推定ＳＮＲ算出部で算出された推定ＳＮＲから最適な重みを求めることができる。

次に、図１１を参照して、推定ＳＮＲを用いて認識結果を統合する方法を説明する。先ず、推定ＳＮＲ算出部３３０において、非発話区間の雑音のレベル（Ｎ_０）と発話区間の音声信号のレベル（Ｓ＋Ｎ）とから推定ＳＮＲを算出する（Ｓ９０１）。次に、重み算出部１４０において、学習時に求めた推定ＳＮＲと最適な重みとの関係に基づいて、Ｓ９０１で算出された推定ＳＮＲに対応する最適な重みを求める（Ｓ９０２）。認識結果統合部１５０で、この重みに基づいて音声信号による認識結果１３１と筋電信号による認識結果１３３とを統合する。これにより、雑音環境においても頑強な音声認識を実現することができる。

以上、本発明について、特定の実施形態に基づいて説明してきたが、本発明の原理を適用できる多くの実施可能な形態に鑑みて、ここに記載した実施形態は、単に例示に過ぎず、本発明の範囲を限定するものではない。例えば、図６から１１を参照して説明した処理を単純化するために、推定ＳＮＲに代えて、非発話区間で求めた雑音レベルＮ_０を使用してもよい。このように、ここに例示した実施形態は、本発明の趣旨から逸脱することなくその構成と詳細を変更することができる。さらに、説明のための構成要素は、本発明の趣旨から逸脱することなく変更、補足、またはその順序を変えてもよい。

本発明を実施することができる音声信号と筋電信号を用いたマルチモーダル音声認識装置の一例を示す機能ブロック図である。発話者の顔の三箇所の部位から検出した筋電信号を音声信号とともに示す図である。ある発話に対する各認識候補について、筋電信号による認識結果、音声信号による認識結果、およびこれらを統合した認識結果を対数尤度で示した図である。図１の筋電信号処理部の一例を示す機能ブロック図である。複数のチャンネルからの筋電信号を統合して筋電信号の処理区間を算出する処理手順の一例を示すフローチャートである。図１の音声信号処理部の一例を示す機能ブロック図である。筋電信号の処理区間と音声の発話区間との関係を模式的に示す図である。推定ＳＮＲに基づいて音声信号による発話区間と筋電信号による発話区間を選択する方法の一例を示すフローチャートである。隠れマルコフモデルを用いて推定ＳＮＲと最適な重みとの関係を求める方法の一例を示すフローチャートである。隠れマルコフモデルの学習時に得られた推定ＳＮＲと最適な重みとの関係を示すグラフである。推定ＳＮＲと最適な重みとの関係に基づいて認識結果を統合する方法の一例を示すフローチャートである。

符号の説明

１００音声認識装置
１１０筋電信号検出部
１１１筋電信号
１１２音声信号検出部
１１３音声信号
１２０筋電信号処理部
１２１処理区間を示す信号
１２２音声信号処理部
１２３処理区間における筋電信号
１２４筋電信号の特徴量
１２５音声信号の特徴量
１２６周囲の雑音に関連するパラメータ
１３０筋電信号認識部
１３１筋電信号による認識結果
１３２音声信号認識部
１３３音声信号による認識結果
１４０重み算出部
１４１重み
１５０認識結果統合部
１５１統合した認識結果
１６０認識結果出力部
２１０筋電信号処理区間検出部
２２０筋電信号特徴量算出部
３１０非発話区間検出部
３１１非発話区間の音声信号
３１２発話区間の音声信号
３２０発話区間検出部
３２１発話区間の音声信号
３３０推定ＳＮＲ算出部
３４０発話区間切換部
３４１発話区間の音声信号
３５０音声信号特徴量算出部

Claims

音声信号と筋電信号を用いて音声を認識する方法であって、
筋電信号から音声の発話区間を検出するステップと、
前記検出された発話区間において音声信号を検出するステップと、
前記発話区間において検出された音声信号に基づいて音声認識を行うステップと
を備えることを特徴とする音声認識方法。
音声信号に基づく音声認識結果と筋電信号に基づく音声認識結果を統合して音声を認識する方法であって、
筋電信号から音声の非発話区間を検出するステップと、
前記非発話区間において周囲の雑音を検出して雑音に関連するパラメータを算出するステップと、
前記雑音に関連するパラメータに応じて前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合するステップと
を備えることを特徴とする音声認識方法。
請求項２に記載の音声認識方法であって、
前記統合するステップは、前記雑音に関連するパラメータに応じて前記音声信号に基づく認識結果と前記筋電信号に基づく認識結果の重みを変えることで認識結果を統合することを特徴とする音声認識方法。
音声信号と筋電信号を用いて音声を認識する方法であって、
筋電信号から音声の発話区間と非発話区間を検出するステップと、
音声信号から音声の発話区間を検出するステップと、
前記検出された非発話区間において周囲の雑音を検出して雑音に関連するパラメータを算出するステップと、
前記算出された雑音に関連するパラメータに応じて前記音声信号から検出された発話区間と前記筋電信号から検出された発話区間とのいずれかを選択するステップと、
前記選択された発話区間において検出された音声信号に基づいて音声認識を行うステップと
を備えることを特徴とする音声認識方法。
請求項１ないし４のいずれかに記載の音声認識方法において、
筋電信号から音声の発話区間または非発話区間を検出するステップは、複数のチャンネルから得られた筋電信号を掛け合わせて処理することを特徴とする音声認識方法。
音声信号と筋電信号を用いて音声を認識する装置であって、
筋電信号を検出する筋電信号検出手段と、
音声信号を検出する音声信号検出手段と、
前記検出された筋電信号を処理して音声の発話区間を検出する発話区間検出手段と、
前記発話区間において検出された音声信号を処理して音声の特徴量を算出する特徴量算出手段と、
前記算出された音声の特徴量に基づいて音声認識を行う音声認識手段と
を備えたことを特徴とする音声認識装置。
音声信号に基づく音声認識結果と筋電信号に基づく音声認識結果を統合して音声を認識する装置であって、
筋電信号を検出する筋電信号検出手段と、
音声信号を検出する音声信号検出手段と、
前記検出された筋電信号を処理して音声の非発話区間を検出する非発話区間検出手段と、
前記検出された非発話区間において検出された音声信号を処理して周囲の雑音に関連するパラメータを算出するパラメータ算出手段と、
前記算出されたパラメータに応じて前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合する音声認識結果統合手段と
を備えたことを特徴とする音声認識装置。
請求項７に記載の音声認識装置において、
前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合するための重みを算出する重み算出部をさらに備えたことを特徴とする音声認識装置。
音声信号と筋電信号を用いて音声を認識する装置であって、
筋電信号を検出する筋電信号検出手段と、
音声信号を検出する音声信号検出手段と、
前記検出された筋電信号を処理して音声の発話区間と非発話区間を検出する第１の発話区間検出手段と、
前記検出された音声信号を処理して音声の発話区間を検出する第２の発話区間検出手段と、
前記検出された非発話区間において検出された音声信号を処理して周囲の雑音に関連するパラメータを算出するパラメータ算出手段と、
前記算出されたパラメータに応じて前記音声信号から検出された発話区間と前記筋電信号から検出された発話区間のいずれかを選択する発話区間選択手段と、
前記選択された発話区間において検出された音声信号に基づいて音声認識を行う音声認識手段と
を備えたことを特徴とする音声認識装置。
請求項６ないし９のいずれかに記載の音声認識装置において、
筋電信号から音声の発話区間または非発話区間を検出する発話区間検出手段は、複数のチャンネルから検出された筋電信号を掛け合わせて処理することを特徴とする音声認識装置。