JP2006267664A - 音声認識方法および音声認識装置 - Google Patents

音声認識方法および音声認識装置 Download PDF

Info

Publication number
JP2006267664A
JP2006267664A JP2005086805A JP2005086805A JP2006267664A JP 2006267664 A JP2006267664 A JP 2006267664A JP 2005086805 A JP2005086805 A JP 2005086805A JP 2005086805 A JP2005086805 A JP 2005086805A JP 2006267664 A JP2006267664 A JP 2006267664A
Authority
JP
Japan
Prior art keywords
speech
signal
myoelectric
detected
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005086805A
Other languages
English (en)
Other versions
JP4632831B2 (ja
Inventor
Hiroyuki Manabe
宏幸 真鍋
Shi Cho
志鵬 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2005086805A priority Critical patent/JP4632831B2/ja
Publication of JP2006267664A publication Critical patent/JP2006267664A/ja
Application granted granted Critical
Publication of JP4632831B2 publication Critical patent/JP4632831B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 筋電信号と音声信号を用いて雑音に頑強な音声認識を実現すること。
【解決手段】 本発明の一実施形態による音声認識装置は、筋電信号を検出する筋電信号検出部と、音声信号を検出する音声信号検出部とを備える。一般に、筋電信号は音声信号に先行して発生するので、筋電信号から音声に先行する非発話区間を特定することができる。この非発話区間で音声信号検出部により周囲の雑音を検出する。この周囲雑音に関する情報により音声認識の精度を向上することができる。一般に、音声信号による音声認識は周囲の雑音の影響を受けやすいが、筋電信号による音声認識は周囲の雑音の影響を受けにくい。そのため、例えば、周囲の雑音レベルに応じて、音声信号による音声認識と筋電信号による音声認識の重みを変えることで、雑音環境下で音声認識の精度を向上することができる。
【選択図】 図1

Description

本発明は、一般に、音声認識方法および音声認識装置に関し、より詳細には、音声信号と筋電信号を用いた音声認識方法および音声認識装置に関する。
従来、音声認識技術はマイクロフォンによって検出した音声信号から音声認識を行っている。例えば、音声信号から算出した特徴量に隠れマルコフモデル(HMM)などのアルゴリズムを適用することによって音声認識を行っている。このような音声信号による音声認識技術では、雑音環境下での音声の認識率の低下が課題となっており、雑音に対して頑強な音声認識を行うための手法が提案されている。
例えば、非特許文献1では、音声信号の無音区間において周囲の雑音スペクトルを算出し、有音区間の音声信号から雑音スペクトルを差し引くことによって、音声信号の雑音を低減している。また、非特許文献2では、HMMを用いた音声認識において、雑音を含む音声信号でHMMを学習させることにより、雑音環境に適応させたモデルが提案されている。
このような音声信号のみを用いた手法では、雑音が混入した音声信号自体から発話内容を認識しなければならず、雑音環境下での認識率には原理的に限界がある。そのため、雑音の影響を受けない非音声信号を併用するマルチモーダル手法が提案されてきた。例えば、非特許文献3では、音声信号と口唇の画像信号を組み合わせてマルチモーダル化している。また、非特許文献4では、音声信号と発話時に活動する筋肉の筋電信号を組み合わせてマルチモーダル化している。
音声信号と画像信号を用いる手法では、画像信号から口唇の動きを検出し、その特徴量をリアルタイムで算出しなければならず莫大な演算量が必要となる。また、被写体とカメラの相対位置や周囲の照明環境を一定に保たなければならず、実使用環境において大きな制約となる。これに対し、筋電信号を用いる手法では、皮膚に電極を貼り付けるだけで、周囲の環境の影響を受けにくく、発話音声と相関性の高い筋電信号を得ることができる。
S.F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. Acoustics, Speech, and Signal Processing, Vol.27, No.2, pp.113-120, April 1979 張 志鵬,他,"区分線形変換による雑音適応法のための木構造クラスタリング法の検討",電子情報通信学会,信学技報,SP2003−171,pp.7−12,2004 田村 哲嗣,他,"マルチモーダル音声認識におけるストリーム重み係数最適化の検討",電子情報通信学会,信学技報,SP2003−153,pp.241−246,2003 A.D.C. Chan et al., "A Multi-Expert Speech Recognition System Using Acoustic and Myoelectric Signals," IEEE Proc. of 2nd Joint EMBS/BMES Conference, pp.72-73, Oct 2002
一般に、周囲の雑音が低い環境では、音声信号による音声認識は筋電信号による音声認識よりも優れている。しかし、周囲の雑音が高くなると、音声信号による音声認識の精度が低下し、筋電信号による音声認識の方が有利になる。そのため、音声信号と筋電信号を用いたマルチモーダル音声認識手法では、最適な性能を達成するために、周囲の雑音の環境に応じて、それぞれの信号を適切に処理する必要がある。例えば、周囲の雑音レベルが低い場合には、音声信号の重みを増し、逆に周囲の雑音レベルが高い場合には、筋電信号の重みを増すようにする。このように、周囲の雑音環境に応じて適切な処理を施し、実使用環境において最適な性能を達成することのできる手法が望まれている。
また、こうした手法を適用するためには、音声の発話区間(有音区間)と非発話区間(無音区間)を正しく検出し、周囲の雑音を正しく検出しなければならない。従来、この発話区間の推定は音声信号を用いて行われていた。しかしながら、この手法は、周囲の雑音が低い場合には有効であるが、周囲の雑音が高くなると、発話区間を正しく検出できないという問題があった。
本発明は、このような問題に鑑みてなされたもので、その目的とするところは、音声信号と筋電信号を用いたマルチモーダル音声認識技術において、雑音に対して頑強な音声認識を可能とする手法を提供することにある。
本発明は、このような目的を達成するために、請求項1に記載の発明は、音声信号と筋電信号を用いて音声を認識する方法であって、筋電信号から音声の発話区間を検出するステップと、前記検出された発話区間において音声信号を検出するステップと、前記発話区間において検出された音声信号に基づいて音声認識を行うステップとを備えることを特徴とする。これにより、周囲の雑音が高い環境においても確実に発話区間を検出することができる。
また、請求項2に記載の発明は、音声信号に基づく音声認識結果と筋電信号に基づく音声認識結果を統合して音声を認識する方法であって、筋電信号から音声の非発話区間を検出するステップと、前記非発話区間において周囲の雑音を検出して雑音に関連するパラメータを算出するステップと、前記雑音に関連するパラメータに応じて前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合するステップとを備えることを特徴とする。これにより、周囲の雑音のレベルに応じて、最適な音声認識結果の統合が可能となる。
また、請求項3に記載の発明は、請求項2に記載の音声認識方法であって、前記統合するステップは、前記雑音に関連するパラメータに応じて前記音声信号に基づく認識結果と前記筋電信号に基づく認識結果の重みを変えることで認識結果を統合することを特徴とする。これにより、周囲の雑音レベルに応じて重みを変えることができ、最適な音声認識結果の統合が可能となる。
また、請求項4に記載の発明は、音声信号と筋電信号を用いて音声を認識する方法であって、筋電信号から音声の発話区間と非発話区間を検出するステップと、音声信号から音声の発話区間を検出するステップと、前記検出された非発話区間において周囲の雑音を検出して雑音に関連するパラメータを算出するステップと、前記算出された雑音に関連するパラメータに応じて前記音声信号から検出された発話区間と前記筋電信号から検出された発話区間とのいずれかを選択するステップと、前記選択された発話区間において検出された音声信号に基づいて音声認識を行うステップとを備えることを特徴とする。これにより、周囲の雑音レベルに応じて、音声認識に最適な発話区間の選択が可能となる。
また、請求項5に記載の発明は、請求項1ないし4のいずれかに記載の音声認識方法において、筋電信号から音声の発話区間または非発話区間を検出するステップは、複数のチャンネルから得られた筋電信号を掛け合わせて処理することを特徴とする。これにより、筋電信号のすべてのチャンネルからの情報に基づいて発話区間または非発話区間の検出が行われるのでより精度の高い検出が可能となる。
また、請求項6に記載の発明は、音声信号と筋電信号を用いて音声を認識する装置であって、筋電信号を検出する筋電信号検出手段と、音声信号を検出する音声信号検出手段と、前記検出された筋電信号を処理して音声の発話区間を検出する発話区間検出手段と、前記発話区間において検出された音声信号を処理して音声の特徴量を算出する特徴量算出手段と、前記算出された音声の特徴量に基づいて音声認識を行う音声認識手段とを備えたことを特徴とする。これにより、周囲の雑音が高い環境においても確実に発話区間を検出することができる。
また、請求項7に記載の発明は、音声信号に基づく音声認識結果と筋電信号に基づく音声認識結果を統合して音声を認識する装置であって、筋電信号を検出する筋電信号検出手段と、音声信号を検出する音声信号検出手段と、前記検出された筋電信号を処理して音声の非発話区間を検出する非発話区間検出手段と、前記検出された非発話区間において検出された音声信号を処理して周囲の雑音に関連するパラメータを算出するパラメータ算出手段と、前記算出されたパラメータに応じて前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合する音声認識結果統合手段とを備えたことを特徴とする。これにより、周囲の雑音のレベルに応じて、最適な音声認識結果の統合が可能となる。
また、請求項8に記載の発明は、請求項7に記載の音声認識装置において、前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合するための重みを算出する重み算出部をさらに備えたことを特徴とする。これにより、周囲の雑音レベルに応じて重みを変えることができ、最適な音声認識結果の統合が可能となる。
また、請求項9に記載の発明は、音声信号と筋電信号を用いて音声を認識する装置であって、筋電信号を検出する筋電信号検出手段と、音声信号を検出する音声信号検出手段と、前記検出された筋電信号を処理して音声の発話区間と非発話区間を検出する第1の発話区間検出手段と、前記検出された音声信号を処理して音声の発話区間を検出する第2の発話区間検出手段と、前記検出された非発話区間において検出された音声信号を処理して周囲の雑音に関連するパラメータを算出するパラメータ算出手段と、前記算出されたパラメータに応じて前記音声信号から検出された発話区間と前記筋電信号から検出された発話区間のいずれかを選択する発話区間選択手段と、前記選択された発話区間において検出された音声信号に基づいて音声認識を行う音声認識手段とを備えたことを特徴とする。これにより、周囲の雑音レベルに応じて、音声認識に最適な発話区間の選択が可能となる。
また、請求項10に記載の発明は、請求項6ないし9のいずれかに記載の音声認識装置において、筋電信号から音声の発話区間または非発話区間を検出する発話区間検出手段は、複数のチャンネルから検出された筋電信号を掛け合わせて処理することを特徴とする。これにより、筋電信号のすべてのチャンネルからの情報に基づいて発話区間または非発話区間の検出が行われるのでより精度の高い検出が可能となる。
以下、図面を参照しながら本発明の実施形態について説明する。
図1に、本発明を実施することができる音声信号と筋電信号を用いたマルチモーダル音声認識装置の機能ブロック図の一例を示す。音声認識装置100は、筋電信号を検出する筋電信号検出部110と、検出部110で検出した筋電信号111を処理する筋電信号処理部120と、処理部120で処理して得た筋電信号の特徴量124に基づいて発話内容を認識する筋電信号認識部130とを備えている。また、音声認識装置100は、音声信号を検出する音声信号検出部112と、検出部112で検出した音声信号113を処理する音声信号処理部122と、処理部122で処理して得た音声信号の特徴量125に基づいて音声信号の認識を行う音声信号認識部132とを備えている。
音声認識装置100は、処理部122で処理して得た周囲の雑音に関連するパラメータ126に基づいて重みを算出する重み算出部140と、その算出した重み141に基づいて筋電信号による認識結果131と音声信号による認識結果133を統合する認識結果統合部150と、その統合した認識結果151を所定のフォーマットで出力する認識結果出力部160とをさらに備えている。
筋電信号検出部110では、発話時に活動する筋肉の皮膚表面に設置した電極から発話時の筋電信号を検出する。発話には異なる部位の筋肉の活動が伴うため、複数の箇所から筋電信号を検出することが望ましい。また、音声信号検出部112では、発話時に音声信号をマイク等で検出する。図2に、音声信号と筋電信号を同時に検出したときの信号を示す。この信号は、数字の「ichi」と発話したときの音声信号と、発話者の口輪筋(CH1)、口角下制筋(CH2)および顎二腹筋(CH3)から収録した筋電信号を示している。
筋電信号処理部120は、検出部110で検出した筋電信号111を増幅し、ノイズ除去、フィルタリング、全波整流などの処理を行って、パワーや自己相関係数、周波数分析などの音声認識に必要な特徴量124を算出する。また、筋電信号処理部120は、図4および5を参照して後述するように、音声の発話区間/非発話区間を特定するために検出部110で検出した筋電信号111から筋電信号の処理区間を算出し、その区間を示す信号121を出力する。音声信号処理部122は、検出部112で検出した音声信号113を増幅し、MFCC(メル周波数ケプストラム係数)などの音声認識に必要な特徴量125を算出する。また、音声信号処理部122は、図6〜8を参照して後述するように、筋電信号処理部120から得られる筋電信号の処理区間を示す信号121に基づいて音声の発話区間/非発話区間を特定することができる。音声信号処理部122はさらに、従来技術に見られるように、検出部112で検出した音声信号113から音声の発話区間/非発話区間を特定することもできる。
筋電信号認識部130および音声信号認識部132は、筋電信号処理部120および音声信号処理部122から得られる特徴量124および125に基づいて、それぞれ独立して音声認識を行う。例えば、これらの特徴量に隠れマルコフモデル(HMM)を適用することができる。図3は、隠れマルコフモデル(HMM)を用いて数字の0〜9の数字を認識させた場合の結果の一例を示している。これらの結果は、ある発話に対するそれぞれの数字の候補の対数尤度を示している。図3には、筋電信号認識部130の認識結果131と、音声信号認識部132の認識結果133と、これらの結果をそれぞれ重み1で加算した認識結果統合部150の統合結果151、およびこの統合結果の順位が示されている。図から、スコアが最も高く、順位が1位の「shi」が発話音声として認識されることがわかる。ここでは、音声信号認識部132の認識結果133および筋電信号認識部130の認識結果131の重みをそれぞれ1として統合しているが、本発明では、以下に図9〜11を参照して詳述するように、周囲の雑音に関連するパラメータ126に応じて、重み算出部140で適切な重み141を設定することができる。
認識結果出力部160は、認識結果統合部150からの認識結果151をディスプレイやスピーカ、または他のプログラムなどへ出力するために所定のフォーマットで認識結果を出力する。
次に、本発明による音声の発話区間と非発話区間の検出について説明する。図2に見られるように、筋電信号は一般に音声信号に先行して発生する。これは、音声信号から検出される発話区間で筋電信号を処理すると、筋電信号の先行する部分の信号が処理されないことを意味する。そのため、通常は、音声信号から検出される発話区間に対して一定の時間だけ先行させた位置から筋電信号を処理するようにしている。例えば、図2で音声信号から検出される発話区間が1.26秒から1.64秒であるとすると、これに対して筋電信号を500ミリ秒だけ先行させ、そこから1秒間にわたって筋電信号を処理するようにする(つまり、筋電信号の処理区間は、0.76秒から1.76秒となる)。この手法は非特許文献4で開示されている。
この手法の問題点の1つは、筋電信号が音声信号に対して常に一定の時間だけ先行すると仮定していることである。しかし、音声信号の立ち上がりと筋電信号の立ち上がりの時間差は、必ずしも一定ではなく、実際には発話に応じて数十〜数百ミリ秒の開きがある。また各筋肉の活動開始時刻は、発話時の筋肉の使い方に依存するため、各筋電信号の立ち上がり時刻は同一時刻とはならない。また、この手法の別の問題点は、音声信号から正しく発話区間を検出できなければ、筋電信号も正しく処理することができないことである。これは、周囲の雑音が高く、音声信号だけでは発話区間を正しく検出できない場合に特に問題となる。
本発明では、筋電信号の処理区間を音声信号から検出された発話区間から特定するのではなく、筋電信号から直接特定する。具体的には、筋電信号検出部110で検出された筋電信号111を筋電信号処理部120で処理して、筋電信号の処理区間を特定する。また、筋電信号の処理区間から音声信号の処理区間(または発話区間)を設定することもできる。すなわち、筋電信号の処理区間を一定の時間シフトすることで、音声信号の処理区間(または発話区間)とすることができる。これにより、周囲の雑音に影響されることなく音声の発話区間を特定することができる。
図4に、本発明による筋電信号処理部の機能ブロック図の一例を示す。筋電信号処理部120は、筋電信号検出110で検出された筋電信号111を処理して、筋電信号の処理区間121を検出する筋電信号処理区間検出部210と、検出部210で検出された処理区間における筋電信号123を処理して、筋電信号の特徴量124を算出する筋電信号特徴量算出部220とを備えている。
図5は、処理区間検出部210において、複数の部位(チャンネル)から検出された筋電信号を処理して、筋電信号の処理区間を検出するための手順の一例を示している。図5に示すように、各チャンネルi(i=1,...,n)からの筋電信号111のパワーを算出し、正規化してパラメータの統合を行い、筋電信号の処理区間121の検出を行う。各チャンネルからの筋電信号e(t)は、筋電信号検出部110で検出される(ステップS401)。筋電信号の時刻tにおけるパワーPowerは、例えば、次式のように算出することができる(ステップS402)。
Figure 2006267664
ここで、tは時刻ではなく、フレームとしてもよい。また、Tは積分する時間を表し、フレームの場合はフレーム長の半分とすることができる。
次に、算出したパワーをそのチャンネルにおけるパワーの最大値で除することにより、次式のように正規化したパワーPを求める(ステップS403)。
Figure 2006267664
そして、各チャンネルiの正規化したパワーPt,iにオフセットαを加えて、すべてのチャンネルのパワーを掛け合わせることにより、次式のように統合してパラメータparameterを得る(ステップS404)。
Figure 2006267664
このパラメータを用いて、筋電信号の処理区間を判定することができる。例えば、処理区間検出ルーチンでは、parameterが予め設定された閾値をある一定の時間連続して超えると、処理区間と判定することができる。また、parameterが予め設定された閾値をある一定の時間連続して下回ると、処理区間から除外することができる(ステップS405)。
また、上式のように、各チャンネルiにオフセットαを加えることにより、各チャンネルの処理区間の判定に与える影響を調整することができる。例えば、あるチャンネルiのパワーPt,iのダイナミックレンジ(ここでは、発話区間のパワーと非発話区間のパワーとの比を指す)が小さい場合でも、オフセットαを設けることで、処理区間の判定に与える影響を増やすことができる。また、あるチャンネルiのオフセットαを1よりも十分に大きく設定し、それに応じて判定閾値も大きく設定することで、そのチャンネルが処理区間の判定に与える影響を小さくすることができる。
ここでは、上記の式を例として、筋電信号の処理区間を判定する方法について説明したが、その他のパラメータや算出法を用いてもよい。例えば、パラメータとして、筋電信号の特定の帯域のパワーや筋電信号のゼロ交差数を用いることもできる。また、正規化やオフセットの処理は行わなくてもよい。重要なことは、複数の筋電信号からの情報を用いて、適切な処理区間を判定することである。
次に、音声信号処理部122において、処理区間検出部210で検出された筋電信号の処理区間121から音声の非発話区間/発話区間を特定する方法について説明する。図6に、本発明による音声信号処理部の機能ブロック図の一例を示す。音声信号処理部122は、処理区間検出部210で検出された筋電信号の処理区間121と音声信号検出部112で検出された音声信号113を処理して、音声の非発話区間を検出する非発話区間検出部310と、音声信号検出部112で検出された音声信号113を処理して、音声の発話区間を検出する発話区間検出部320とを備えている。音声信号処理部122はさらに、検出部310で検出された非発話区間の音声信号311、検出部310で検出された発話区間の音声信号312または検出部320で検出された発話区間の音声信号321を処理して周囲の雑音に関連するパラメータ126を算出する推定SNR算出部330を備え、発話区間切換部340は、この算出されたパラメータ126に基づいて、検出部310で検出された発話区間の音声信号312と検出部320で検出された発話区間の音声信号321のいずれかを選択する。発話区間切換部340で選択された発話区間の音声信号341は、次いで特徴量算出部350で処理されて、MFCCなどの音声信号の特徴量125が出力される。
一般に、筋電信号は、図2に見られるように、音声信号に先行して発生する。この様子を図7に模式的に示す。非発話区間検出部310は、筋電信号の処理区間121の立ち上がりから所定の時間(例えば、500ms)を非発話区間とし、この区間の音声信号311を出力する。この音声信号311は、音声が発生する前の信号であり、周囲の雑音(n)とみなすことができる。また、非発話区間検出部310は、この非発話区間の終端から筋電信号の処理区間の立ち下がりまでの区間を音声の発話区間とみなし、この区間の音声信号312を出力する。この区間の音声信号312は、周囲の雑音と音声が入り混じった信号(s+n)となる。なお、この発話区間は、筋電信号の処理区間から求めているので、周囲の雑音に影響されることなく検出できる。次に、発話区間検出部320は、従来の技術を用いて、音声信号113から音声の発話区間を検出し、この区間の音声信号321を出力する。この音声信号321は、周囲の雑音と音声が入り混じった信号(s+n)となる。この発話区間は、音声信号から求めているので、周囲の雑音に影響を受け、その検出精度が変化する。
推定SNR算出部330は、非発話区間の音声信号311から周囲の雑音(n)のレベルNを算出する。また、推定SNR算出部330は、筋電信号の処理区間から求めた発話区間の音声信号312から信号(s+n)のレベル(S+N)を算出する。あるいは、推定SNR算出部330は、音声信号から求めた発話区間の音声信号321から信号(s+n)のレベル(S+N)を算出する。推定SNR算出部330は、これらの算出した値から擬似的なSNRとして、(S+N)/Nを算出する。以下、この擬似的なSNRを推定SNRと呼ぶ。
この推定SNRは、本来のSN比を強く反映した周囲の雑音に関連するパラメータである。すなわち、音声信号のレベルが高く、周囲の雑音レベルが低い場合には、この値は大きくなり、音声信号のレベルが低く、周囲の雑音レベルが高い場合には、この値は小さくなる。このパラメータは、音声認識装置において、例えば、音声の発話区間を選択するために使用することができる。また、音声信号による認識結果と筋電信号による認識結果を統合するための重みを決定するために使用することができる。
図8に、推定SNRに基づいて音声の発話区間を選択する処理の一例を示す。先ず、推定SNR算出部330において、上述したように非発話区間の雑音レベル(N)と、発話区間の音声信号レベル(S+N)から推定SNRを求める(ステップS601)。次に、発話区間切換部340において、推定SNRを所定の閾値と比較する(ステップS602)。推定SNRが所定の閾値を超える場合、音声信号の品質が高いと判断し、音声信号から求めた発話区間の音声信号321を採用する(ステップS603)。一方、推定SNRが所定の閾値以下であれば、音声信号の品質が悪いと判断し、筋電信号から求めた発話区間の音声信号312を採用する(ステップS604)。このような処理を行うことで、従来に比べて、雑音環境下でより頑強な発話区間の特定が可能となる。
次に、この推定SNRを用いて音声信号と筋電信号の認識結果を統合する場合の重みについて説明する。一般に、音声信号による認識は、周囲の雑音が低い場合には筋電信号による認識よりも精度が高い。しかし、周囲の雑音が高くなると、音声信号による認識の精度は低下する一方、筋電信号による認識の精度は雑音の影響を受けずほぼ一定となる。そして、周囲の雑音があるレベルを超えると、音声による認識と筋電信号による認識の精度の優劣が逆転する。そのため、これらの認識結果を統合する際の重みを周囲の雑音レベルに応じて変えることで、音声認識の精度が向上することが期待できる。
図9に、本発明による一例として、隠れマルコフモデル(HMM)の学習時に推定SNRと最適な重みとの関係を求める方法を示す。様々な雑音環境下で収録した周囲の雑音と音声が入り混じった学習用の音声信号で音声信号認識部132および筋電信号認識部133のHMMを学習させる(S701)。次に、推定SNR算出部330からこれら音声信号の推定SNRを得る(S702)。また、これら音声信号について、音声信号認識部132および筋電信号認識部130から図3に示すような音声信号による認識結果131と筋電信号による認識結果133を得る。これらの認識結果を統合して得た認識結果が、既知の正しい認識結果に照らして最良となるように最適な重みを求める(S703)。この最適な重みは、例えば回帰分析等により求めることができる。最後に、算出した推定SNRと最適な重みとの関係を確定する(S704)。
このようにしてHMMの学習時に得られた推定SNRと最適な重みの関係の一例を図10に示す。図10から推定SNRが大きくなればなるほど、音声信号に対する重みが減少し、筋電信号に対する重みが増大することがわかる。HMMの学習時に求めた図10の関係を、例えば重み算出部140に記憶させておくことで、実使用環境において推定SNR算出部で算出された推定SNRから最適な重みを求めることができる。
次に、図11を参照して、推定SNRを用いて認識結果を統合する方法を説明する。先ず、推定SNR算出部330において、非発話区間の雑音のレベル(N)と発話区間の音声信号のレベル(S+N)とから推定SNRを算出する(S901)。次に、重み算出部140において、学習時に求めた推定SNRと最適な重みとの関係に基づいて、S901で算出された推定SNRに対応する最適な重みを求める(S902)。認識結果統合部150で、この重みに基づいて音声信号による認識結果131と筋電信号による認識結果133とを統合する。これにより、雑音環境においても頑強な音声認識を実現することができる。
以上、本発明について、特定の実施形態に基づいて説明してきたが、本発明の原理を適用できる多くの実施可能な形態に鑑みて、ここに記載した実施形態は、単に例示に過ぎず、本発明の範囲を限定するものではない。例えば、図6から11を参照して説明した処理を単純化するために、推定SNRに代えて、非発話区間で求めた雑音レベルNを使用してもよい。このように、ここに例示した実施形態は、本発明の趣旨から逸脱することなくその構成と詳細を変更することができる。さらに、説明のための構成要素は、本発明の趣旨から逸脱することなく変更、補足、またはその順序を変えてもよい。
本発明を実施することができる音声信号と筋電信号を用いたマルチモーダル音声認識装置の一例を示す機能ブロック図である。 発話者の顔の三箇所の部位から検出した筋電信号を音声信号とともに示す図である。 ある発話に対する各認識候補について、筋電信号による認識結果、音声信号による認識結果、およびこれらを統合した認識結果を対数尤度で示した図である。 図1の筋電信号処理部の一例を示す機能ブロック図である。 複数のチャンネルからの筋電信号を統合して筋電信号の処理区間を算出する処理手順の一例を示すフローチャートである。 図1の音声信号処理部の一例を示す機能ブロック図である。 筋電信号の処理区間と音声の発話区間との関係を模式的に示す図である。 推定SNRに基づいて音声信号による発話区間と筋電信号による発話区間を選択する方法の一例を示すフローチャートである。 隠れマルコフモデルを用いて推定SNRと最適な重みとの関係を求める方法の一例を示すフローチャートである。 隠れマルコフモデルの学習時に得られた推定SNRと最適な重みとの関係を示すグラフである。 推定SNRと最適な重みとの関係に基づいて認識結果を統合する方法の一例を示すフローチャートである。
符号の説明
100 音声認識装置
110 筋電信号検出部
111 筋電信号
112 音声信号検出部
113 音声信号
120 筋電信号処理部
121 処理区間を示す信号
122 音声信号処理部
123 処理区間における筋電信号
124 筋電信号の特徴量
125 音声信号の特徴量
126 周囲の雑音に関連するパラメータ
130 筋電信号認識部
131 筋電信号による認識結果
132 音声信号認識部
133 音声信号による認識結果
140 重み算出部
141 重み
150 認識結果統合部
151 統合した認識結果
160 認識結果出力部
210 筋電信号処理区間検出部
220 筋電信号特徴量算出部
310 非発話区間検出部
311 非発話区間の音声信号
312 発話区間の音声信号
320 発話区間検出部
321 発話区間の音声信号
330 推定SNR算出部
340 発話区間切換部
341 発話区間の音声信号
350 音声信号特徴量算出部

Claims (10)

  1. 音声信号と筋電信号を用いて音声を認識する方法であって、
    筋電信号から音声の発話区間を検出するステップと、
    前記検出された発話区間において音声信号を検出するステップと、
    前記発話区間において検出された音声信号に基づいて音声認識を行うステップと
    を備えることを特徴とする音声認識方法。
  2. 音声信号に基づく音声認識結果と筋電信号に基づく音声認識結果を統合して音声を認識する方法であって、
    筋電信号から音声の非発話区間を検出するステップと、
    前記非発話区間において周囲の雑音を検出して雑音に関連するパラメータを算出するステップと、
    前記雑音に関連するパラメータに応じて前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合するステップと
    を備えることを特徴とする音声認識方法。
  3. 請求項2に記載の音声認識方法であって、
    前記統合するステップは、前記雑音に関連するパラメータに応じて前記音声信号に基づく認識結果と前記筋電信号に基づく認識結果の重みを変えることで認識結果を統合することを特徴とする音声認識方法。
  4. 音声信号と筋電信号を用いて音声を認識する方法であって、
    筋電信号から音声の発話区間と非発話区間を検出するステップと、
    音声信号から音声の発話区間を検出するステップと、
    前記検出された非発話区間において周囲の雑音を検出して雑音に関連するパラメータを算出するステップと、
    前記算出された雑音に関連するパラメータに応じて前記音声信号から検出された発話区間と前記筋電信号から検出された発話区間とのいずれかを選択するステップと、
    前記選択された発話区間において検出された音声信号に基づいて音声認識を行うステップと
    を備えることを特徴とする音声認識方法。
  5. 請求項1ないし4のいずれかに記載の音声認識方法において、
    筋電信号から音声の発話区間または非発話区間を検出するステップは、複数のチャンネルから得られた筋電信号を掛け合わせて処理することを特徴とする音声認識方法。
  6. 音声信号と筋電信号を用いて音声を認識する装置であって、
    筋電信号を検出する筋電信号検出手段と、
    音声信号を検出する音声信号検出手段と、
    前記検出された筋電信号を処理して音声の発話区間を検出する発話区間検出手段と、
    前記発話区間において検出された音声信号を処理して音声の特徴量を算出する特徴量算出手段と、
    前記算出された音声の特徴量に基づいて音声認識を行う音声認識手段と
    を備えたことを特徴とする音声認識装置。
  7. 音声信号に基づく音声認識結果と筋電信号に基づく音声認識結果を統合して音声を認識する装置であって、
    筋電信号を検出する筋電信号検出手段と、
    音声信号を検出する音声信号検出手段と、
    前記検出された筋電信号を処理して音声の非発話区間を検出する非発話区間検出手段と、
    前記検出された非発話区間において検出された音声信号を処理して周囲の雑音に関連するパラメータを算出するパラメータ算出手段と、
    前記算出されたパラメータに応じて前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合する音声認識結果統合手段と
    を備えたことを特徴とする音声認識装置。
  8. 請求項7に記載の音声認識装置において、
    前記音声信号に基づく音声認識結果と前記筋電信号に基づく音声認識結果を統合するための重みを算出する重み算出部をさらに備えたことを特徴とする音声認識装置。
  9. 音声信号と筋電信号を用いて音声を認識する装置であって、
    筋電信号を検出する筋電信号検出手段と、
    音声信号を検出する音声信号検出手段と、
    前記検出された筋電信号を処理して音声の発話区間と非発話区間を検出する第1の発話区間検出手段と、
    前記検出された音声信号を処理して音声の発話区間を検出する第2の発話区間検出手段と、
    前記検出された非発話区間において検出された音声信号を処理して周囲の雑音に関連するパラメータを算出するパラメータ算出手段と、
    前記算出されたパラメータに応じて前記音声信号から検出された発話区間と前記筋電信号から検出された発話区間のいずれかを選択する発話区間選択手段と、
    前記選択された発話区間において検出された音声信号に基づいて音声認識を行う音声認識手段と
    を備えたことを特徴とする音声認識装置。
  10. 請求項6ないし9のいずれかに記載の音声認識装置において、
    筋電信号から音声の発話区間または非発話区間を検出する発話区間検出手段は、複数のチャンネルから検出された筋電信号を掛け合わせて処理することを特徴とする音声認識装置。
JP2005086805A 2005-03-24 2005-03-24 音声認識方法および音声認識装置 Expired - Fee Related JP4632831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005086805A JP4632831B2 (ja) 2005-03-24 2005-03-24 音声認識方法および音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005086805A JP4632831B2 (ja) 2005-03-24 2005-03-24 音声認識方法および音声認識装置

Publications (2)

Publication Number Publication Date
JP2006267664A true JP2006267664A (ja) 2006-10-05
JP4632831B2 JP4632831B2 (ja) 2011-02-16

Family

ID=37203707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005086805A Expired - Fee Related JP4632831B2 (ja) 2005-03-24 2005-03-24 音声認識方法および音声認識装置

Country Status (1)

Country Link
JP (1) JP4632831B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010185975A (ja) * 2009-02-10 2010-08-26 Denso Corp 車載音声認識装置
JP2013520707A (ja) * 2010-02-24 2013-06-06 クゥアルコム・インコーポレイテッド 複数の音声区間検出器に基づく音声区間検出

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092974A (ja) * 1999-08-06 2001-04-06 Internatl Business Mach Corp <Ibm> 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
JP2003233392A (ja) * 2002-02-08 2003-08-22 Altia Co Ltd 車両用音声入力装置
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP2005010652A (ja) * 2003-06-20 2005-01-13 Ntt Docomo Inc 音声検出装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092974A (ja) * 1999-08-06 2001-04-06 Internatl Business Mach Corp <Ibm> 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
JP2003233392A (ja) * 2002-02-08 2003-08-22 Altia Co Ltd 車両用音声入力装置
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP2005010652A (ja) * 2003-06-20 2005-01-13 Ntt Docomo Inc 音声検出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010185975A (ja) * 2009-02-10 2010-08-26 Denso Corp 車載音声認識装置
JP2013520707A (ja) * 2010-02-24 2013-06-06 クゥアルコム・インコーポレイテッド 複数の音声区間検出器に基づく音声区間検出

Also Published As

Publication number Publication date
JP4632831B2 (ja) 2011-02-16

Similar Documents

Publication Publication Date Title
EP1569422B1 (en) Method and apparatus for multi-sensory speech enhancement on a mobile device
US10540979B2 (en) User interface for secure access to a device using speaker verification
US9305567B2 (en) Systems and methods for audio signal processing
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
US9959886B2 (en) Spectral comb voice activity detection
US10755731B2 (en) Apparatus, method, and non-transitory computer-readable storage medium for storing program for utterance section detection
JP2011033717A (ja) 雑音抑圧装置
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
KR20150104345A (ko) 음성 합성 장치 및 음성 합성 방법
US20100082338A1 (en) Voice processing apparatus and voice processing method
WO2013132337A2 (en) Formant based speech reconstruction from noisy signals
JP2012168296A (ja) 音声による抑圧状態検出装置およびプログラム
US20190088272A1 (en) Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP4632831B2 (ja) 音声認識方法および音声認識装置
US11978433B2 (en) Multi-encoder end-to-end automatic speech recognition (ASR) for joint modeling of multiple input devices
KR20190125064A (ko) 음성 유사도 판단 장치 및 음성 유사도 판단 방법
KR20150112168A (ko) 음성 인식 향상 장치 및 방법
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
Heracleous et al. Fusion of standard and alternative acoustic sensors for robust automatic speech recognition
GB2580655A (en) Reducing a noise level of an audio signal of a hearing system
Zhu et al. Lbp based recursive averaging for babble noise reduction applied to automatic speech recognition
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置
Muhammad Noise-robust pitch detection using auto-correlation function with enhancements
Bulbuller et al. In-ear microphone speech data segmentation and recognition using neural networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071002

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080625

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101116

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101116

R150 Certificate of patent or registration of utility model

Ref document number: 4632831

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees