JP4157581B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4157581B2
JP4157581B2 JP2006546764A JP2006546764A JP4157581B2 JP 4157581 B2 JP4157581 B2 JP 4157581B2 JP 2006546764 A JP2006546764 A JP 2006546764A JP 2006546764 A JP2006546764 A JP 2006546764A JP 4157581 B2 JP4157581 B2 JP 4157581B2
Authority
JP
Japan
Prior art keywords
sound source
sound
separating
acoustic signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006546764A
Other languages
English (en)
Other versions
JPWO2006059806A1 (ja
Inventor
一博 中臺
広司 辻野
博 奥乃
俊一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JPWO2006059806A1 publication Critical patent/JPWO2006059806A1/ja
Application granted granted Critical
Publication of JP4157581B2 publication Critical patent/JP4157581B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、音声認識装置に関する。特に、雑音などによって劣化した音声に対し頑健な音声認識装置に関する。
一般に、実環境で利用される音声認識装置には、雑音や残響音の混入、入力装置の仕様などによって劣化した音声が入力される。この問題に対し、スペクトルサブトラクションやブラインド信号分離などの手法を用いて、音声認識の頑健さを向上させる取り組みが行われてきた。
これらの取り組みの一環として、Sheffield大のM. Cookeらは、ミッシングフィーチャー理論を提案している(Martin Cooke, et al., “Robust automatic speech recognition with missing and unreliable acoustic data”, SPEECH COMMUNICATION 34 , p. 267-285, 2001を参照)。この手法は、入力音声の特徴量のうち、ミッシングフィーチャー(劣化した特徴量)を同定しマスクしてから認識することによって音声認識の頑健性向上を図るものであり、他の手法に比べて必要な雑音に関する知識が少ない、という特性を持つ。
ミッシングフィーチャー理論において、劣化した特徴量の同定は、劣化していない音声の特徴量との差や、スペクトログラムの局所的なSN比、あるいはASA (Auditory Scene Analysis、聴覚情景分析)によって行われる。ASAは、スペクトルの調波構造やオンセットの同期、音源の位置など、同じ音源から放射された音が共有する手掛かりを利用して、特徴量の要素をグループ化する方法である。音声認識は、マスクされた部分の元の特徴量を推定して認識する方法や、マスクされた特徴量に対応した音響モデルを生成して認識する方法などがある。
ミッシングフィーチャー理論で音声認識の頑健性の向上を試みる場合、劣化した特徴量の同定に困難を伴うことが多い。本発明は、劣化した特徴量を完全に同定できない音声入力に対して音声認識の頑健性を向上させる音声認識装置を提案する。
本発明は、外部から集音された音響信号から音声を認識するための音声認識装置を提供する。この装置は、音響信号を検出する少なくとも2つの音検出手段と、音響信号に基づいて音源の方向を求める音源定位部と、音源の方向に基づいて音響信号から音源による音声を分離する音源分離部と、分離の結果の信頼性に応じてマスクの値を生成するマスク生成部と、音響信号の特徴量を抽出する特徴抽出部と、マスクを特徴量に適用して音響信号から音声を認識する音声認識部と、を有する。
本発明では、音源による音声を音響信号から分離した結果の信頼性に応じてマスクの値を生成するので、音声認識の頑健性を向上させることができる。
本発明の一実施形態によると、マスク生成部が、音源分離部とは異なる複数の音源分離手法を用いて音響信号を分離した結果と、音源分離部による分離の結果との一致度合いに応じてマスクの値を生成する。
本発明の一実施形態によると、マスク生成部が、音源方向によって定められる同一の音源かを判断するための通過幅に応じてマスクの値を生成する。
本発明の一実施形態によると、複数の音源がある場合には、マスク生成部が該複数の音源のいずれか1つにだけ近いほど音源分離結果の信頼性を高めてマスクの値を生成する。
1.概略
次に図面を参照して、この発明の実施の形態を説明する。図1は、本発明の一実施形態による音声認識装置10を含む音声認識システムを示す概略図である。
図1に示すように、このシステムは、音声認識装置10を備えた躯体12が、その周囲にある音源14の発する音声を認識するものである。音源14は、人間やロボットなどコミュニケーション手段として音声を発するものである。躯体 12は、移動ロボットや電化製品など、インタフェースに音声認識を用いるものである。
躯体12の両側には、音源からの音声を集音するための一対のマイク16a、16bが設置されている。なお、マイク16a、16bの位置は、躯体12の両側に限定されることなく、躯体12の他の位置に設置されても良い。また、マイクは、一対に限定されることなく、一対以上の個数が設置されても良い。
このシステムは、音源14が発した音声を、マイク16を介して躯体12が集音する。集音された音声は躯体12内の音声認識装置10で処理される。音声認識装置10は、音声が発せられた音源14の方向を推定し、音声の内容を認識する。躯体12は例えば音声の内容に応じたタスクを実施したり、自身の発話機構によって回答したりする。
つづいて、音声認識装置10の詳細について説明する。図2は、本実施形態による音声認識装置10のブロック図である。
複数のマイク16a、16bは、単数または複数の音源14が発した音声を集音し、これらの音声を含む音響信号を音声認識装置10に送る。
音源定位部21は、マイク16a、16bより入力された音響信号から音源14の方向θsを定位する。また、音源14や装置10自体が移動している場合は、定位された音源14の位置を時間方向に追跡する。本実施形態では、エピポーラ幾何、散乱理論、または伝達関数を利用して音源定位を実施する。
音源分離部23は、音源定位部21で求められた音源14の方向情報θsを利用し、入力信号から音源信号を分離する。本実施形態では、前述のエピポーラ幾何、散乱理論、または伝達関数を利用して得られるマイク間位相差Δφまたはマイク間音圧差Δρと、人間の聴覚特性を模した通過幅関数と、を組み合わせて音源分離を実施する。
マスク生成部25は、音源分離部23の分離結果が信頼できるかどうかに応じて、マスクの値を生成する。信頼できるかどうかを求めるのに、入力信号のスペクトルや音源分離の結果を利用する。マスクは0〜1の値をとり、1に近いほど信頼できる。マスク生成部で生成されたマスクの値はそれぞれ、音声認識に用いられる入力信号の特徴量に適用される。
特徴抽出部27は、入力信号のスペクトルより特徴量を抽出する。
音声認識部29は、音響モデルより特徴量の出力確率を求め、音声認識を行う。その際、マスク生成部25で生成したマスクを適用して、出力確率を調整する。本実施形態では、隠れマルコフモデル(Hidden Malkov Model:HMM)によって認識を行う。
以下、音声認識装置10の各構成要素で行われる処理について説明する。
2.音源定位部
音源定位部21は、複数のマイク16より入力された音響信号から音源14の方向を定位する。また、音源14や装置10自体が移動している場合は、定位された音源14の位置を時間方向に追跡する。本実施形態では、音源14およびマイク16のエピポーラ幾何を利用した音源定位(2.1節)、散乱理論を利用した音源定位(2.2節)、および伝達関数を利用した音源定位(2.3節)のうち1つを適用する。なお、音源定位の処理は、ビームフォーミングなど、その他の公知の方法を用いてもよい。
2.1 音源およびマイクのエピポーラ幾何を利用した音源定位
この方法は、図3に示されるような、マイク16と音源14のエピポーラ幾何を利用して音源方向θsを算出する。図3では、マイク16aおよびマイク16b間の距離は2bであり、両マイク間の中点を原点とし、原点から垂直方向を正面としている。
なお、エピポーラ幾何の詳細については、例えば中臺他、“アクティブオーディションによる複数音源の定位・分離・認識”、AI Challenge研究会、pp. 1043-1049、人工知能学会、2002を参照されたい。
エピポーラ幾何を利用した音源定位は、以下の手順で実施される。
1) マイク16a、16bから入力された音響信号をFFTなどで周波数分析し、スペクトルS1(f)、S2(f)を求める。
2)得られたスペクトルを複数の周波数領域(サブバンド)に分割し、各サブバンドfiの位相差Δφ(fi)を、式(1)より求める。
Figure 0004157581
ここで、Δφ(fi) はfi のマイク間位相差である。Im[S1(fi)]は、マイク1のサブバンドfi におけるスペクトルS1(fi)の虚部であり、Re[S1(fi)]は、マイク1のサブバンドfi におけるスペクトルS1(fi)の実部である。Im[S2(fi)]は、マイク2のサブバンドfi におけるスペクトルS2(fi)の虚部であり、Re[S2(fi)]は、マイク2のサブバンドfi におけるスペクトルS2(fi)の実部である。
3)エピポーラ幾何(図3)を利用して式(2)を導出する。
Figure 0004157581
ここで、vは音速を表し、bは原点とマイクとの距離を表し、θは音源方向の角度を表す。
式(2)のθに−90度から+90度の範囲で例えば5度おきに代入して、図4に示すような周波数fiと位相差Δφとの関係を求める。図4に示す関係を用いて、Δφ(fi) にもっとも近いΔφ(θ, fi) のθを求め、このθをサブバンドfi の音源方向 θiとする。
4)各サブバンドの音源方向θiと周波数から、音源方向が近くかつ調音関係にあるものを選んでグループ化し、そのグループの音源方向θsとする。なお、複数のグループが選別された場合、複数の音源が存在すると考えられるので、それぞれの音源方向を求めても良い。あらかじめ音源の数が分かっている場合は、音源の数に対応したグループ数を選ぶのが望ましい。
2.2 散乱理論を利用した音源定位
この方法は、マイク16を設置する躯体12による散乱波を考慮して、音源方向θsを算出する。ここではマイク16を設置する躯体12をロボットの頭部とし、半径bの球と仮定する。また、頭部の中心を極座標(r, θ,φ)の原点とする。
なお、散乱理論の詳細については、例えばLax et al., “Scattering Theory”, Academic Press, NY., 1989を参照されたい。
散乱理論を利用した音源定位は、以下の手順で実施される。
1)マイク16a、16bから入力された音響信号を、FFTなどで周波数分析しスペクトルS1(f)、S2(f)を求める。
2)得られたスペクトルを複数の周波数領域(サブバンド)に分割し、各サブバンドfiの位相差Δφ(fi) を、式(1)より求める。または、各サブバンドfi の音圧差Δρ(fi) を、式(3)より求める。
Figure 0004157581
ここで、Δρ(fi) は両マイク間音圧差である。P1(fi)はマイク1のサブバンドfi のパワーであり、P2(fi) はマイク2のサブバンドfi のパワーである。
3)音源14の位置をr0 = (r0, 0, 0)、観測点(マイク16)の位置をr = (b, 0, 0)、音源と観測点の距離をR=|r0−r|とすると、ロボット頭部における直接音によるポテンシャルVi は、式(4)で定義される。
Figure 0004157581
ここで、fは周波数であり、vは音速であり、Rは音源と観測点の距離である。
4)ロボット頭部における音源方向θからの直接音と散乱音によるポテンシャルS(θ, f) は、式(5)で定義される。
Figure 0004157581
ここで、Vsは散乱音によるポテンシャルを表し、Pnは第一種ルシャンドル(Legendre)関数を表し、hn(l)は第一種球ハンケル関数を表す。
5)マイク16aの極座標を(b,π/2, 0)、マイク16bの極座標を(b,- π/2, 0)とすると、各マイクでのポテンシャルは、式(6)、(7) で表される。
S1(θ, f) = S(π/2 - θ, f) (6)
S2(θ, f) = S(-π/2 - θ, f) (7)
6)音源の方向θと、各サブバンドfi における位相差Δφ(θ, fi)、音圧差Δρ(θ, fi) は、それぞれ式(8)、(9) によって関係付けられる。
Figure 0004157581
7)予め式(8)、(9)のθに適当な値(例えば5度毎)を入れ、周波数fi と位相差Δφ(θ, fi)との関係、または周波数fiと音圧差 Δρ(θ, fi)との関係を求める。
8)Δφ(θ, fi)またはΔρ(θ, fi)の中で、Δφ(fi)またはΔρ(fi)にもっとも近いθを、各サブバンドfiの音源方向θiとする。
9)各サブバンドの音源方向θiと周波数から、音源方向が近くかつ調音関係にあるものを選んでグループ化し、そのグループの音源方向θsとする。なお、複数のグループが選別された場合、複数の音源が存在すると考えられるので、それぞれの音源方向を求めても良い。あらかじめ音源の数が分かっている場合は、音源の数に対応したグループ数を選ぶのが望ましい。また、Δφ(fi)、Δρ(fi)の両方を使って音源方向θsを求めてもよい。
2.3 伝達関数を利用した音源定位
位相差や音圧差と周波数、音源方向を対応づけるのに一般的な方法は、伝達関数の測定である。伝達関数は、躯体12(たとえばロボット)に設置したマイク16a、16bで、さまざまな方向からのインパルス応答を測定して作成される。これを用いて音源方向を定位する。伝達関数を利用した音源定位は、以下の手順で実施される。
1)マイク16a、16bから入力された音響信号を、FFTなどで周波数分析しスペクトルS1(f)、S2(f)を求める。
2)得られたスペクトルを複数の周波数領域(サブバンド)に分割し、各サブバンドfi の位相差Δφ(fi) を、式(1)より求める。または、各サブバンドfi の音圧差Δρ(fi) を、式(3)より求める。
3)適当な間隔(例えば5度間隔)で±90度の範囲で、インパルス応答を計測して伝達関数を取得する。方向θごとにインパルス応答をマイク16a、16bで測定してFFTなどの手法で周波数分析し、インパルス応答に対する各周波数fのスペクトル(伝達関数)Sp1(f)、Sp2(f) を求める。伝達関数Sp1(f)、Sp2(f)より、位相差Δφ(θ, f) および音圧差Δρ(θ, f) を以下の式(10)、式(11)を用いて求める。
Figure 0004157581
±90度の範囲の任意の間隔の方向θと任意の周波数f について上記計算を行い、算出された位相差Δφ(θ, f) および音圧差Δρ(θ, f) の一例を図5および図6に示す。
4)図5または図6に示す関係を用いて、Δφ(fi) またはΔρ(fi) にもっとも近いθを求め、それを各サブバンドfi の音源方向θiとする。
5)各サブバンドの音源方向θiと周波数から、音源方向が近くかつ調音関係にあるものを選んでグループ化し、そのグループの音源方向θsとする。なお、複数のグループが選別された場合、複数の音源が存在すると考えられるので、それぞれの音源方向を求めても良い。また、Δφ(fi)、Δρ(fi)の両方を使って音源方向 θsを求めてもよい。
2.4 各マイクの入力信号の相互相関を利用した音源定位
この方法は、マイク16a、16bの入力信号の相互相関から、音源14からマイク16aおよびマイク16bへの距離の差(図7のd)を求め、マイク間距離2bとの関係から音源方向θsを推定する。この方法は以下の手順で実施される。
1)マイク16aおよびマイク16bに入力された信号の相互相関CC(T)を 式(11)で計算する。
Figure 0004157581
ここで、Tはフレーム長を表す。x1(t)はフレーム長Tで切り出されたマイク16aからの入力信号を表し、x2(t)はフレーム長Tで切り出されたマイク16bからの入力信号を表す。
2)得られた相互相関からピークを抽出する。抽出するピーク数は、あらかじめ音源数が分かっている場合は、音減数と同数を抽出するのが望ましい。抽出したピークの時間軸上での位置が、マイク16aおよびマイク16bへの信号の到達時間差を示す。
3)信号の到達時間差と音速より、音源14からマイク16a、16bまでの距離の違い(図7のd)を算出する。
4)図7に示すように、マイク間距離2bおよび音源からマイクへの距離の差dを用いて、式(12)から音源14の方向θsを求める。
θs = arcsin(d/2b) (13)
複数のピークを抽出した場合は、それぞれ音源方向θsを求める。
2.5 音源方向追跡
音源14または躯体12が移動する場合には、音源方向の追跡を行う。図8は、音源方向θsの時間変化を示す。追跡は、それまでの時刻で得られたθsの軌跡から予測される音源方向θpと、実際に得られたθsとを比較し、その差が予め定めたしきい値よりも小さい場合には、同一音源からの信号と判断し、しきい値よりも大きい場合は、同一音源からの信号ではないと判断して行う。予測には、カルマンフィルタや自己回帰予測、HMM等、既存の時系列信号予測手法を用いる。
3.音源分離部
音源分離部23は、音源定位部21で求められた音源14の方向情報θsを利用し、入力信号から音源信号を分離する。本実施形態では、前述のエピポーラ幾何、散乱理論、または伝達関数を利用して得られるマイク間位相差Δφまたはマイク間音圧差Δρと、人間の聴覚特性を模した通過幅関数と、を組み合わせた分離方法について述べる。しかし、音源分離部23で用いる手法は、ビームフォーミングやGSS(Geometric Source Separation、幾何学的信号源分離)など、音源方向を利用し、かつサブバンドごとに音源分離をする公知の手法を用いてもよい。音源分離が時間領域で行われる場合は、分離の後周波数領域に変換する。本実施形態では音源分離は以下の手順で実施される。
1)音源定位部21より音源方向θsと、入力信号のスペクトルのサブバンドfiの位相差Δφ(fi) または音圧差Δρ(fi) を受け取る。音源分離部23で周波数領域における音源定位の手法を用いない場合には、ここで式(1)または式(3)を用いてΔφ(fi) またはΔρ(fi) を求める。
2)音源方向と通過幅の関係を示す通過幅関数を用いて、音源定位部21で得られた音源方向θsに対応する通過幅δ(θs)を求める。
通過幅関数は、音源方向に対する解像度が正面方向では高く周辺では低いという人の聴覚特性に基づき設計された関数であり、例えば図9に示すように正面方向の通過幅が狭く、周辺の通過幅が広くなっている。横軸は、躯体12の正面を0[deg]とした場合の水平角である。
3)得られたδ(θs)より、通過帯域の下限θl と上限θh (図8に例示)を、式(10)を用いて算出する。
Figure 0004157581
4)θl、θhに対応する位相差Δφl、Δφhを、前述のエピポーラ幾何(式(2)および図4)、散乱理論(式(8))、伝達関数(図5)のいずれかを用いて推定する。図11は推定した位相差と周波数fiとの関係の一例を示すグラフである。または、θl、θhに対応する音圧差Δρl、Δρhを、前述の散乱理論(式(9))、伝達関数(図6)のいずれかを用いて推定する。図12は推定した音圧差と周波数fi との関係の一例を示すグラフである。
5)各サブバンドのΔφ(fi) またはΔρ(fi) が、通過帯域内にあるかどうか調べ、通過帯域内のものを選択する(図11、図12)。一般に、低周波数の定位は位相差、高周波数の定位は音圧差を利用するほうが、分離精度が増すと言われているので、予め定めたしきい値(例えば1500[Hz])より小さいサブバンドは位相差 Δφを、大きいサブバンドは音圧差Δρを使って選択しても良い。
6)選択されたサブバンドのフラグを1に設定し、選択されなかったサブバンドのフラグを0に設定する。1のフラグがついたサブバンドが、音源信号として分離される。
なお、音源分離を、今まで述べてきた線形周波数領域のスペクトルではなく、メル周波数領域のスペクトルで行ってもよい。メル周波数とは、音の高低に対する人間の間隔尺度であり、その値は実際の周波数の対数にほぼ対応する。この場合は、前述の音源分離部23の処理のステップ1)の後に、メル周波数に変換するフィルタ処理を加えた以下の手順で、メル周波数領域での音源分離を行う。
1)マイク16a、16bに入力された信号を、FFTなどで周波数分析しスペクトルS1(f)、S2(f)を求める。
2)メル周波数領域で等間隔に配置した三角窓(例えば24個)によりフィルタバンク分析を行う。
3)得られたメル周波数領域スペクトルの各サブバンドmj の位相差Δφ(mj) を式(1)(ただしfi→mj)より求める。またはマイク間音圧差Δρ(mj)を、式(3)(ただしfi→mj)より求める。
4)音源方向と通過幅の関係を示す通過幅関数(図9)を用いて、音源定位部21で得られた音源方向θsに対応する通過幅δ(θs)を求める。
5)得られたδ(θs)より、通過帯域の下限θlと上限 θhを、式(10)を用いて算出する。
6)θl、θhに対応する位相差Δφl、Δφhを、前述のエピポーラ幾何(式(2)および図4)、散乱理論(式(8))、伝達関数(図5)のいずれかを用いて推定する。または、θl、θhに対応する音圧差Δρl、Δρhを、前述の散乱理論(式(9))、伝達関数(図6)のいずれかを用いて推定する。
7)各メル周波数のΔφ(mj)またはΔρ(mj)が、通過帯域内にあるかどうか調べ、通過帯域内のものを選択する。一般に、低周波数の定位は位相差、高周波数の定位は音圧差を利用するほうが、分離精度が増すと言われているので、予め定めたしきい値(例えば1500[Hz])より小さいサブバンドは位相差Δφを、大きいサブバンドは音圧差Δρを使って選択しても良い。
8)選択されたメル周波数に1のフラグを設定し、選択されなかったメル周波数に0のフラグを設定する。1のフラグがついたメル周波数を分離された信号とする。
なお、音源分離がメル周波数領域で求められた場合、後述するマスク生成部25で行われるメル周波数への変換は不要となる。
4.マスク生成部
マスク生成部25は、音源分離部23の分離結果が信頼できるかどうかに応じて、マスクの値を生成する。本実施形態では、複数の音源分離方法からの情報を利用したマスク生成(4.1節)、通過幅関数を利用したマスク生成(4.2節)、複数音源の影響を考慮したマスク生成(4.3節)のいずれかを適用する。音源分離部23で設定されたフラグ(0または1)の信頼度を調べ、フラグの値と信頼度を考慮してマスクの値を設定する。マスクは0〜1の値をとり、1に近いほど信頼できるものとする。
4.1 複数の音源分離方法からの情報を利用したマスク生成
ここでは、複数の音源分離方法による信号分離の結果を用いて、音源分離部 23の分離結果が信頼できるかどうかを確認し、マスクを生成する。この処理は以下の手順で実施される。
1)音源分離部23で用いられていない音源分離手法を少なくとも1つ用いて音源分離を行い、音源分離部23と同様にサブバンドごとにフラグを立てる。本実施形態では、音源分離部23では以下の要素のいずれかを用いて音源分離が実施される。
i) エピポーラ幾何に基づく位相差
ii) 散乱理論に基づく位相差
iii) 散乱理論に基づく音圧差
iv) 伝達関数に基づく位相差
v) 伝達関数に基づく音圧差
2)音源分離部23で得られたフラグと、1)で得られたフラグのそれぞれが一致しているかどうかを調べ、マスクを生成する。例えば、音源分離部23の手法にi)エピポーラ幾何に基づく位相差を用い、マスク生成部25の手法にii)散乱理論に基づく位相差、iii)散乱理論に基づく音圧差、およびv)伝達関数に基づく音圧差を用いる場合を考えると、各状態におけるマスクの値は以下のようになる。
Figure 0004157581
3)得られたマスク値を、メルスケールのフィルタバンク分析を行って、メル周波数軸に変換し、マスクを生成する。なお、上述のように、音源分離がメル周波数領域で求められた場合には、このステップは不要である。
また、メル周波数軸に変換したマスクの値に対して適当なしきい値を設けておき、しきい値を超えたものは1、そうでないものは0をとる二値マスクに変換してもよい。
4.2 通過幅関数を利用したマスク生成
この方法では、音源方向θsと通過幅関数δ(θs)を利用し、音源方向との近さによってマスク値を生成する。つまり、音源方向に近いほど、音源分離部23で付された1のフラグは信頼でき、音源方向から遠いほど、音源分離部23で付された0のフラグは信頼できると考える。この処理は以下の手順で実施される。
1)音源定位部21より、音源方向θsと入力信号を受け取る。
2)入力信号より、各サブバンドの音源方向θiを求める(音源定位部21で音源方向が求められている場合は、それを利用する)。
3)音源分離部23より、通過幅δ(θs)と各サブバンドfi のフラグを受け取る(以下θtとする)。
4)θtを用いてマスクの関数を生成し、各サブバンドのθiと比べて仮マスクを求める。関数は次式のように与えられ、図13に示すような挙動となる。
Figure 0004157581
5)音源分離部23で求めたサブバンドfi のフラグと、ステップ4)で求めた仮マスクから、以下の通りマスクを生成する。
Figure 0004157581
6)得られたマスク値を、メルスケールのフィルタバンク分析を行って、メル周波数軸に変換し、マスクを生成する。なお、上述のように、音源分離がメル周波数領域で求められた場合には、このステップは不要である。
また、メル周波数軸に変換したマスクの値に対して適当なしきい値を設けておき、しきい値を超えたものは1、そうでないものは0をとる二値マスクに変換してもよい。
4.3 複数音源の影響を考慮したマスク生成
ここでは、音源が複数ある場合に、2つ以上の音源の信号が含まれていると推定されるサブバンドの信頼性を下げるように、マスク値を生成する。
1)音源定位部21より、音源方向θs1, θs2, ...と入力信号を受け取る。
2)入力信号より、各サブバンドの音源方向θiを求める。音源定位部21で音源方向が求められている場合は、それを利用する。
3)音源分離部23より、各音源方向θs1, θs2, ...の通過帯域(θl1, θh1)、(θl2, θh2)、…とフラグを受け取る。
4)各サブバンドの音源方向θi が、
i) 2つ以上の音源の通過帯域(θl, θh)に含まれている
ii) その音源の通過帯域にも含まれていない
かどうか調べ、i)またはii)にあてはまるサブバンドには0、それ以外には1の仮マスクを生成する。
5)フラグと仮マスクより、以下の通りマスクを生成する。
Figure 0004157581
6)得られたマスク値を、メルスケールのフィルタバンク分析を行って、メル周波数軸に変換し、マスクを生成する。なお、上述のように、音源分離がメル周波数領域で求められた場合には、このステップは不要である。
また、メル周波数軸に変換したマスクの値に対して適当なしきい値を設けておき、しきい値を超えたものは1、そうでないものは0をとる二値マスクに変換してもよい。
5.特徴抽出部
特徴抽出部27は、一般的に知られる手法を用いて、入力信号のスペクトルより特徴量を求める。この処理は以下の手順で実施される。
1)FFT等でスペクトルを求める。
2)メル周波数領域で等間隔に配置した三角窓(例えば24個)によりフィルタバンク分析を行う。
3)分析結果の対数をとり、メル周波数対数スペクトルを得る。
4)対数スペクトルを離散コサイン変換する。
5)ケプストラム係数の0次と高次(例えば13次から23次)の項を0にする。
6)ケプストラム平均除去を行う。
7)逆離散コサイン変換を行う。
以下、求められた特徴量を、特徴ベクトルx = (x1, x2, … , xj, ,,, xJ)として扱う。
6.音声認識部
本実施形態では、音声認識部29は、従来技術として知られるHMMによって音声認識を行う。
特徴ベクトルx、状態Sの時の通常の連続分布型HMMの出力確率f(x, S) は、式(16)で表される。
Figure 0004157581
ここで、Nは混合正規分布の混合数を表し、P(k|S)は混合比を表す。
ミッシングフィーチャー理論に基づく音声認識では、f(x, S)をx の確率密度関数p(x)で平均したものを利用する。
Figure 0004157581
ここで、x=(xr, xu)とし、 xr は特徴ベクトルのうち信頼できる成分で、マスクが0より大きいもの、 xu は特徴ベクトルのうち信頼できない成分で、マスクが0のものを示す。
信頼できない特徴成分が[0, xu]の範囲に一様分布すると仮定すると、式(17)は、式(18)に書き直せる。
Figure 0004157581
x の j番目の成分の出力確率o(xj|S)は、式(19)のように表せる。
Figure 0004157581
ここで、M(j)は特徴ベクトルのj番目の成分のマスクを表す。
全体の出力確率o(x|S)は、式(20)のように表せる。
Figure 0004157581
ここでJは特徴ベクトルの次元を表す。
式(20)は、式(21)でも表せる。
Figure 0004157581
式(20)または式(21)を用いて音声認識を行う。
以上にこの発明を特定の実施例について説明したが、この発明はこのような 実施例に限定されるものではない。
本発明の一実施形態による音声認識装置を含む音声認識システムを示す概略図である。 本実施形態による音声認識装置のブロック図である。 マイクおよび音源のエピポーラ幾何を示す図である。 エピポーラ幾何から導かれたマイク間位相差Δφ、周波数fおよび音源方向θsの関係を示す図である。 伝達関数から導かれたマイク間位相差Δφ、周波数f、および音源方向θsの関係を示す図である。 伝達関数から導かれたマイク間音圧差Δρ、周波数f、および音源方向θsの関係を示す図である。 マイクおよび音源の位置関係を示す図である。 音源方向θsの時間変化を示す図である。 通過幅関数δ(θ)を示す図である。 音源方向θsと通過帯域を示す図である。 音源分離部における位相差Δφによるサブバンド選択を示す図である。 音源分離部における音圧差Δρによるサブバンド選択を示す図である。 通過幅関数を利用したマスクの関数を示す図である。
符号の説明
10 音声認識装置
14 音源
16 マイク
21 音源定位部
23 音源分離部
25 マスク生成部
27 特徴抽出部
29 音声認識部

Claims (4)

  1. 外部から集音された音響信号から音声を認識するための音声認識装置であって、
    前記音響信号を検出する少なくとも2つの音検出手段と、
    前記音響信号に基づいて、音源の方向を求める音源定位手段と、
    前記求められた音源の方向に基づいて音声を分離する第1の手段と、
    前記音声を分離する第1の手段によって、前記分離の結果の信頼性に応じてマスクを生成する手段と、
    前記音響信号の特徴量を抽出する手段と、
    前記マスクを前記抽出された特徴量に適用して前記音響信号から音声を認識する手段と、
    を備え
    前記マスクを生成する手段は、
    音声を分離する第1の手段で用いられる音源分離手段とは異なる音源分離法を用いて、前記求められた音源の方向に基づいて、音響信号から音源に応じた音声を分離する第2の手段と、
    前記音声を分離する第1の手段と前記音声を分離する第2の手段によってなされた分離の結果を比較する手段と、
    比較の結果に応じて音声のサブバンドにマスクした値を割り当てる手段と、
    を備える、音声認識装置。
  2. 前記第1の音声を分離する手段は、
    音声の周波数サブバンドを定める手段を備え、
    前記サブバンドの位相差および音圧差の一方または両方が通過帯域内である、
    請求項に記載の音声認識装置。
  3. 少なくとも2つの音検出によって集音された、音響信号を認識する方法であって、
    前記音響信号に基づいて音源を定位し、前記音源の方向を求めるステップと、
    前記求められた音源の方向に基づいて、音声を分離する第1のステップと、
    前記音声を分離する方法によって、分離の結果の信頼性に応じてマスクを生成するステップと、
    前記音響信号の特徴量を抽出するステップと、
    前記マスクを前記抽出された特徴量に適用して、前記音響信号から音声を認識するステップと、
    を含み、
    前記マスクを生成するステップは、
    音声を分離する第1のステップで用いられる音源分離手段とは異なる音源分離法を用いて、前記求められた音源の方向に基づいて、音響信号から音源に応じた音声を分離する第2のステップと、
    前記音声を分離する第1のステップと前記音声を分離する第2のステップによってなされた分離の結果を比較するステップと、
    比較の結果に応じて音声のサブバンドにマスクした値を割り当てるステップと、
    を含む、音響信号を認識する方法。
  4. 前記音声を分離する第1のステップは、
    音声の周波数サブバンドを定めるステップを含み、
    前記サブバンドの位相差および音圧差の一方または両方が通過帯域内である、
    請求項に記載の音響信号を認識する方法。
JP2006546764A 2004-12-03 2005-12-02 音声認識装置 Active JP4157581B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US63335104P 2004-12-03 2004-12-03
US60/633,351 2004-12-03
PCT/JP2005/022601 WO2006059806A1 (ja) 2004-12-03 2005-12-02 音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2006059806A1 JPWO2006059806A1 (ja) 2008-06-05
JP4157581B2 true JP4157581B2 (ja) 2008-10-01

Family

ID=36565223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006546764A Active JP4157581B2 (ja) 2004-12-03 2005-12-02 音声認識装置

Country Status (4)

Country Link
US (1) US8073690B2 (ja)
EP (1) EP1818909B1 (ja)
JP (1) JP4157581B2 (ja)
WO (1) WO2006059806A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016537622A (ja) * 2013-10-01 2016-12-01 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 音源の位置を特定する方法、および当該方法を用いる人型ロボット
US10390130B2 (en) 2016-09-05 2019-08-20 Honda Motor Co., Ltd. Sound processing apparatus and sound processing method

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
JP4496186B2 (ja) * 2006-01-23 2010-07-07 株式会社神戸製鋼所 音源分離装置、音源分離プログラム及び音源分離方法
WO2009093416A1 (ja) * 2008-01-21 2009-07-30 Panasonic Corporation 音声信号処理装置および方法
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
FR2950461B1 (fr) * 2009-09-22 2011-10-21 Parrot Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
JP5622744B2 (ja) * 2009-11-06 2014-11-12 株式会社東芝 音声認識装置
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
KR101670313B1 (ko) * 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
US20120045068A1 (en) * 2010-08-20 2012-02-23 Korea Institute Of Science And Technology Self-fault detection system and method for microphone array and audio-based device
JP5328744B2 (ja) * 2010-10-15 2013-10-30 本田技研工業株式会社 音声認識装置及び音声認識方法
JP5692006B2 (ja) * 2011-11-02 2015-04-01 トヨタ自動車株式会社 音源推定装置、方法、プログラム、及び移動体
JP5810903B2 (ja) * 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP5772723B2 (ja) * 2012-05-31 2015-09-02 ヤマハ株式会社 音響処理装置および分離マスク生成装置
US9210499B2 (en) * 2012-12-13 2015-12-08 Cisco Technology, Inc. Spatial interference suppression using dual-microphone arrays
US10311865B2 (en) 2013-10-14 2019-06-04 The Penn State Research Foundation System and method for automated speech recognition
US9911416B2 (en) * 2015-03-27 2018-03-06 Qualcomm Incorporated Controlling electronic device based on direction of speech
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
JP6501260B2 (ja) * 2015-08-20 2019-04-17 本田技研工業株式会社 音響処理装置及び音響処理方法
EP3157268B1 (en) * 2015-10-12 2021-06-30 Oticon A/s A hearing device and a hearing system configured to localize a sound source
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
CN110603587A (zh) 2017-05-08 2019-12-20 索尼公司 信息处理设备
CN107644650B (zh) * 2017-09-29 2020-06-05 山东大学 一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统
JP7013789B2 (ja) * 2017-10-23 2022-02-01 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
US11109164B2 (en) 2017-10-31 2021-08-31 Widex A/S Method of operating a hearing aid system and a hearing aid system
CN108520756B (zh) * 2018-03-20 2020-09-01 北京时代拓灵科技有限公司 一种说话人语音分离的方法及装置
US11456003B2 (en) * 2018-04-12 2022-09-27 Nippon Telegraph And Telephone Corporation Estimation device, learning device, estimation method, learning method, and recording medium
JP7564117B2 (ja) * 2019-03-10 2024-10-08 カードーム テクノロジー リミテッド キューのクラスター化を使用した音声強化
US11676598B2 (en) 2020-05-08 2023-06-13 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002072317A1 (fr) * 2001-03-09 2002-09-19 Japan Science And Technology Corporation Systeme de robot audiovisuel

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016537622A (ja) * 2013-10-01 2016-12-01 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 音源の位置を特定する方法、および当該方法を用いる人型ロボット
US10390130B2 (en) 2016-09-05 2019-08-20 Honda Motor Co., Ltd. Sound processing apparatus and sound processing method

Also Published As

Publication number Publication date
EP1818909A1 (en) 2007-08-15
JPWO2006059806A1 (ja) 2008-06-05
WO2006059806A1 (ja) 2006-06-08
EP1818909A4 (en) 2009-10-28
US8073690B2 (en) 2011-12-06
US20080167869A1 (en) 2008-07-10
EP1818909B1 (en) 2011-11-02

Similar Documents

Publication Publication Date Title
JP4157581B2 (ja) 音声認識装置
US10901063B2 (en) Localization algorithm for sound sources with known statistics
JP6526083B2 (ja) 源信号分離のためのシステム及び方法
JP4516527B2 (ja) 音声認識装置
Yegnanarayana et al. Processing of reverberant speech for time-delay estimation
EP2162757B1 (en) Joint position-pitch estimation of acoustic sources for their tracking and separation
Traa et al. Blind multi-channel source separation by circular-linear statistical modeling of phase differences
Keronen et al. Mask estimation and imputation methods for missing data speech recognition in a multisource reverberant environment
Astapov et al. Directional Clustering with Polyharmonic Phase Estimation for Enhanced Speaker Localization
Venkatesan et al. Deep recurrent neural networks based binaural speech segregation for the selection of closest target of interest
Vestman et al. Time-varying autoregressions for speaker verification in reverberant conditions
Demir et al. Improved microphone array design with statistical speaker verification
Llerena-Aguilar et al. A new mixing matrix estimation method based on the geometrical analysis of the sound separation problem
Habib et al. Auditory inspired methods for localization of multiple concurrent speakers
Chen et al. Robust phase replication method for spatial aliasing problem in multiple sound sources localization
Venkatesan et al. Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker
Segura Perales et al. Speaker orientation estimation based on hybridation of GCC-PHAT and HLBR
Li et al. Separation of Multiple Speech Sources in Reverberant Environments Based on Sparse Component Enhancement
Habib et al. Improving Multiband Position-Pitch Algorithm for Localization and Tracking of Multiple Concurrent Speakers by Using a Frequency Selective Criterion.
Heckmann et al. Pitch extraction in human-robot interaction
Vinaya et al. Signal Reconstruction using Inter-microphone Time Difference for Bearing Fault Diagnosis
Kandia et al. Improve the accuracy of TDOA measurement using the Teager-Kaiser Energy operator
Pathrose et al. Enhancement of speech through source separation for conferencing systems.
Unnikrishnan AUDIO SCENE SEGEMENTATION USING A MICROPHONE ARRAY AND AUDITORY FEATURES
Okuno et al. Effects of increasing modalities in recognizing three simultaneous speeches

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080708

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080711

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4157581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130718

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140718

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250