JP4825552B2

JP4825552B2 - 音声認識装置、周波数スペクトル取得装置および音声認識方法

Info

Publication number: JP4825552B2
Application number: JP2006068264A
Authority: JP
Inventors: 洋猿渡; 智哉高谷; 祐高橋; 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2006-03-13
Filing date: 2006-03-13
Publication date: 2011-11-30
Anticipated expiration: 2026-03-13
Also published as: JP2007248534A

Description

本発明は、対話者が話しかける音声を認識する装置と方法、および対話者が話しかける音声の周波数スペクトルを取得する装置に関する。

人間が装置の動作を制御する際に、キーボードやレバーなどのインターフェースを操作することなく、音声を発することによって装置を制御する技術がある。このような技術においては、マイクロホンなどの音入力手段から入力される音声から、音声によって表現される言語の内容を認識し、認識された言語の内容に応じた制御が行われる。

音入力手段から入力される音には、対話者が発した音声以外にも、周囲の雑音が混入する場合がある。周囲の雑音が混入した音に基づいて言語の内容の認識を行うと、誤認識を起こし、装置の誤作動などを引き起こしてしまう。音声を認識する技術においては、雑音の影響をいかにして排除するかが重要である。

入力される音から雑音成分を除去する技術が従来から開発されている。例えば特許文献１には、独立成分分析（ＩＣＡ：Independent Component Analysis）を用いて、入力される音から雑音成分を除去する技術が開示されている。

図５を参照しながら、ＩＣＡを用いた雑音成分の除去技術の概要を説明する。図５の音源５０２と音源５０４では、それぞれが別個に独立して音を発生する。マイクロホン５０６、５０８は、入力される音を音信号に変換する。マイクロホン５０６には、音源５０２からの音と音源５０４からの音が重畳した音が入力される。マイクロホン５０８にも、音源５０２からの音と音源５０４からの音が重畳した音が入力される。図５では、音源５０２で発生する音をｓ１（ｔ）と示し、音源５０４で発生する音をｓ２（ｔ）と示す。また、マイクロホン５０６で取得される音をｘ１（ｔ）と示し、マイクロホン５０８で取得される音をｘ２（ｔ）と示す。ＩＣＡを用いる手法では、マイクロホン５０６と５０８で観測される観測信号ｘ１（ｔ）とｘ２（ｔ）を、フィルタ行列５１０を用いて、出力信号ｙ１（ｔ）とｙ２（ｔ）に分離する。フィルタ行列５１０は、出力信号ｙ１（ｔ）、ｙ２（ｔ）が統計的に独立となるように、フィルタ最適化手段５１２によって、その係数が最適化される。フィルタ行列５１０の最適化には、例えば出力信号ｙ１（ｔ）、ｙ２（ｔ）についてのコスト関数を最小化する手法などが知られている。
音源５０２で発生する音ｓ１（ｔ）と音源５０４で発生する音ｓ２（ｔ）は統計的に独立であるから、ｘ１（ｔ）とｘ２（ｔ）から抽出された統計的に独立な出力信号ｙ１（ｔ）とｙ２（ｔ）は、一方が音源５０２で発生した音ｓ１（ｔ）であり、他方が音源５０４で発生した音ｓ２（ｔ）であると推定される。

上記では２つの音源５０２、５０４で発生した音を分離する例を説明しているが、同様の手法によって、３つ以上の音源からの音が重畳した音が入力される場合に、認識の対象としたい特定の１つの音源からの音と、それ以外の音源からの音が重畳した音に分離することができる。これによって、音声認識の対象としたい音源からの音（対話者の音声）と、それ以外の音源からの音が重畳した音（雑音）を分離することができる。

また、特許文献２には、スペクトル・サブトラクション（ＳＳ：Spectral Subtraction）法を用いて、入力される音から雑音成分を除去する技術が開示されている。

図６を参照しながら、ＳＳ法を用いた雑音成分の除去技術の概要を説明する。ＳＳ法では、同一の面に沿って所定の間隔ｄで配置された複数のマイクロホン６０４、６０６、・・・を用いる。間隔ｄに比べて十分に離れた位置にある音源６０２で発生した音は、マイクロホン６０４、６０６、・・・の近傍ではほぼ平面波として伝播して、マイクロホン６０４、６０６、・・・に到達する。マイクロホン６０４に到達する音は経路６１０に沿って伝播してきており、マイクロホン６０６に到達する音は経路６１２に沿って伝播してきている。平面波として伝播してくる音は、波面６１６や波面６１８において、同一の位相を備えている。従って、音源６０２がマイクロホン６０４、６０６、・・・から見て角度θの方向にある場合、経路６１０に沿ってある時点でマイクロホン６０４に到達した音は、経路６１２に沿って点６２０まで到達しており、その後さらにｄｃｏｓθの長さの経路を伝播してから、マイクロホン６０６の点６２２に到達する。従って、隣接するマイクロホン６０４と６０６では、音の伝播速度をλとすると、到来時間差Δｔ＝ｄｃｏｓθ／λで、それぞれ音が到達する。

上記のような音源の方向と音の到来時間差についての関係を利用して、複数のマイクロホン６０４、６０６、・・・に入力される音に基いて、特定の方向からの音を強調したり、逆に特定の方向からの音を抑圧したりすることができる。
例えば図６に示す例で、θ方向からの音を強調したい場合には、マイクロホン６０６で取得された音信号６２６と、マイクロホン６０４で取得された音信号６２４をΔｔ＝ｄｃｏｓθ／λだけ遅延させた信号の和を算出することで、方向θからの音を強調した音信号を得ることができる。
また、マイクロホン６０６で取得された音信号６２６と、マイクロホン６０４で取得された音信号６２４をΔｔ＝ｄｃｏｓθ／λだけ遅延させて正負を反転させた信号の和を算出し、この信号にスペクトル形状補正フィルタを適用することで、方向θからの音を抑圧した音信号を得ることができる。
上記のようにして、マイクロホン６０４、６０６、・・・の配置と音の方向に応じた遅延時間をそれぞれ設定しておく。そして、それぞれのマイクロホン６０４、６０６、・・・から入力される音信号を、音の方向に応じた遅延時間だけ遅延させてから和を算出する遅延和アレーを用いることで、特定の方向からの音を強調した信号を取得したり、逆に特定の方向からの音を抑圧した信号を取得したりすることができる。図７に、上記のような遅延和アレーを用いた場合の、特定の方向からの音を強調する指向特性７０２と、特定の方向からの音を抑圧する指向特性７０４の例を示す。図７では、θ＝９０°の方向、すなわちマイクロホン６０４、６０６、・・・の正面の方向からの音を強調したり抑圧したりする場合の指向特性を示している。

上記において、対話者の方向からの音を抑圧した信号は、対話者の方向以外からの音を検出しており、雑音成分と推定することができる。ＳＳ法では、対話者の方向からの音を強調した周波数スペクトルと、雑音成分の周波数スペクトルをそれぞれ特定し、両者の差をとることによって、雑音成分が除去された音声の周波数スペクトルを取得する。雑音成分が除去された周波数スペクトルから、音声認識の対象としたい音源からの音（対話者の音声）の特徴を把握することができる。

特開２００４−０６９７７２号公報特開２００１−１００８００号公報

上述のようなＩＣＡを用いた雑音成分の除去技術では、対話者の位置や、それぞれのマイクロホンの位置や、それぞれのマイクロホンの感度特性などが未知であっても、実際の状況に応じてフィルタ行列が最適化されるため、入力される音から雑音成分を除去することができる。従って、対話者が移動して位置が変化したり、マイクロホンの取付け位置や感度特性にばらつきがあったりしても、それに合わせてフィルタ行列が最適化されるため、入力される音から雑音成分を除去することができる。ロバストな音声認識システムを構築することができる。

しかしながら、ＩＣＡによる雑音成分の除去技術には、演算負荷が高いという問題がある。ＩＣＡを用いる場合、最終的な出力信号が統計的に独立となるように、常にフィルタ行列を最適化する必要がある。例えば音源の位置が変わった場合には、フィルタ行列は新たに最適化しなければならない。従って、ＩＣＡによる雑音成分の除去では、音源の移動の有無に関わらず、フィルタ行列を所定の時間間隔で繰り返し更新して、フィルタ行列が最適化された状態を維持する必要がある。このようにフィルタ行列の更新を常時行っていると、計算の負荷が増大して、処理に要する時間が長いものとなってしまう。処理に要する時間が長いと、対話者への応答が遅れ、対話者は不快感を覚えてしまう。

上述したＳＳ法を用いた雑音成分の除去技術では、フィルタ行列の最適化のような複雑な計算を行う必要がないため、演算の負荷はそれほど高いものではない。従って、対話者が話しかけてから、短時間で雑音成分を除去することができる。さらにＳＳ法では、雑音成分を除去するのみではなく、対話者の方向からの音を強調しているため、ＩＣＡを用いる場合に比べて、対話者の音声の特徴をより鮮明に抽出することができる。

しかしながら、ＳＳ法による雑音成分の除去技術は、対話者の位置や、マイクロホンの位置や、マイクロホンの感度特性の変動に影響を受けるという問題がある。特に、マイクロホンの感度特性のばらつきが、雑音成分の除去に大きな影響を及ぼす。
図８と図９は、マイクロホンの感度特性のばらつきが、遅延和アレーによって実現される指向特性に及ぼす影響を示している。図８はマイクロホンの感度特性のばらつきが、特定の方向からの音を強調する処理の際に用いられる指向特性に及ぼす影響を示す。分布７０２は全てのマイクロホンが同じ感度特性を持つ場合の理想的な指向特性を示す。分布８１０と分布８１２は、マイクロホンに感度特性のばらつきがある場合の指向特性を示す。ここでは一例として、マイクロホンの感度特性に±２ｄＢのばらつきがある場合の指向特性を分布８１０で示し、マイクロホンの感度特性に±４ｄＢのばらつきがある場合の指向特性を分布８１２で示す。図８から明らかなように、音声を強調する処理の際には、マイクロホンの感度特性のばらつきによって、わずかに指向特性が鈍化するものの、大きな影響はない。一方、図９はマイクロホンの感度特性のばらつきが、特定の方向からの音を抑圧する処理の際に用いられる指向特性に及ぼす影響を示す。分布７０４は全てのマイクロホンが同じ感度特性を持つ場合の理想的な指向特性を示す。分布９１０と分布９１２は、マイクロホンに感度特性のばらつきがある場合の指向特性を示す。ここでは一例として、マイクロホンの感度特性に±２ｄＢのばらつきがある場合の指向特性を分布９１０で示し、マイクロホンの感度特性に±４ｄＢのばらつきがある場合の指向特性を分布９１２で示す。図９から明らかなように、特定の方向からの音を抑圧する処理の際に用いられる指向特性は、マイクロホンの感度特性のばらつきによって、大きな影響を受ける。マイクロホン間の感度特性にばらつきがあると、特定の方向からの音について、ほとんど抑圧することができなくなってしまう。

上記のように、遅延和アレーによって特定の方向からの音声を抑圧する場合、マイクロホンの感度特性のばらつきが大きな影響を及ぼす。マイクロホンの感度特性にばらつきがあると、音声認識の対象としたい音声まで雑音成分に含ませてしまうことになる。従って、対話者の方向からの音を強調したスペクトルから雑音成分のスペクトルを減算する際に、本来は減算すべきでない対話者の方向からの音の成分についてまで減ずることになってしまう。正確に雑音成分の除去を行うことが困難となる。

上述のように、ＩＣＡを用いる技術と、ＳＳ法を用いる技術には、それぞれ一長一短がある。ＩＣＡを用いる場合には、マイクロホンの感度特性のばらつきは何ら影響しないが、計算負荷が高く、処理が遅くなる。ＳＳ法を用いる場合には、計算負荷が軽いものの、マイクロホンの感度特性のばらつきによって、正確な雑音成分の除去が困難になってしまう。処理の負荷が軽く、なおかつマイクロホンの感度特性のばらつきの影響を受けずに、対話者の音声を鮮明に抽出することが可能な技術が待望されている。

本発明では上記課題を解決する。本発明では、少ない計算負荷で、マイクロホンの感度特性のばらつきの影響を受けずに、対話者の音声を鮮明に抽出して、正確な音声認識を行うことが可能な技術を提供する。

本発明は装置として具現化される。本発明の装置は、対話者が話しかける音声から言語の内容を認識する音声認識装置である。その装置は、音を入力して音信号に変換する複数の音入力手段と、音信号を周波数スペクトル（原周波数スペクトル）に変換する周波数変換手段と、原周波数スペクトルから対話者の音声成分を含む１の周波数スペクトル（基本周波数スペクトル）を取得する音声成分検出手段と、複数の原周波数スペクトルからフィルタ行列を用いる独立成分分析によって雑音成分の１の周波数スペクトル（雑音周波数スペクトル）を取得する雑音成分推定手段と、基本周波数スペクトルから雑音周波数スペクトルを減算して対話者の音声成分の周波数スペクトル（音声周波数スペクトル）を取得するスペクトル減算手段と、音声周波数スペクトルに基いて対話者が話しかけた言語の内容を認識する言語内容認識手段を備えている。

上記の音声認識装置は、複数の音入力手段からの音信号に基いて、対話者の音声成分を含む周波数スペクトル（基本周波数スペクトル）と、雑音成分の周波数スペクトル（雑音周波数スペクトル）をそれぞれ取得して、両者の差を取ることによって、対話者の音声成分の周波数スペクトル（音声周波数スペクトル）を取得する。基本周波数スペクトルは、例えば複数の原周波数スペクトルのうちの１つであってもよいし、遅延和アレーによって対話者の方向からの音声を強調した周波数スペクトルであってもよい。雑音周波数スペクトルは、フィルタ行列を用いるＩＣＡによって、取得することができる。上記のようにして得られる音声周波数スペクトルは、対話者の音声成分を含んでいる基本周波数スペクトルから、雑音周波数スペクトルを除去したものであるから、対話者の音声を鮮明に抽出したものと言える。上記の音声認識装置は、スペクトル減算手段で取得された音声周波数スペクトルに基いて、言語内容の認識を行う。このような構成とすることによって、処理に要する時間が短く、かつ誤認識を起こしにくい音声認識装置を実現することができる。

上記の音声認識装置によれば、複数の音声入力手段の間で感度特性にばらつきがあっても、従来のＳＳ法を用いた技術とは異なり、雑音成分推定手段は正確に雑音成分を推定することができる。これによって、対話者の音声成分の周波数スペクトルを鮮明に抽出して、言語内容の認識を行うことができる。言語内容の認識の精度を向上することができる。

上記の音声認識装置は、フィルタ行列の更新を行うか否かを判定する更新判定手段をさらに備えており、雑音成分推定手段が、更新判定手段によって更新を行うと判定された場合に独立成分分析で用いるフィルタ行列の更新を行うことが好ましい。

上記の音声認識装置によれば、雑音成分推定手段における独立成分分析で用いるフィルタ行列が必要な時にのみ更新されるため、雑音成分推定手段での演算の負荷が軽減される。音声認識に係る処理時間を短縮することができる。

上記の音声認識装置は、対話者の方向を取得する方向取得手段をさらに備えており、音声成分検出手段が、複数の原周波数スペクトルから対話者の方向からの音声成分を強調した１の周波数スペクトルを基本周波数スペクトルとして取得することがさらに好ましい。

対話者の方向を取得することができれば、複数の原周波数スペクトルによる遅延和アレーを用いることで、対話者の方向からの音声成分を強調した周波数スペクトルを得ることができる。対話者の方向の取得は、例えばセンサ等を用いて対話者の位置を検出してもよいし、予め対話者の位置を制限しておいて、その位置を記憶しておいてもよい。
上記の音声認識装置によれば、対話者の方向からの音声成分を強調した周波数スペクトルが基本周波数スペクトルとして取得されるため、対話者の音声成分をより鮮明に抽出することができる。言語内容の認識の精度をさらに向上することができる。

上記の音声認識装置においては、方向取得手段が、対話者を繰り返し撮影し撮影された画像データを時刻と関連付ける撮像手段と、画像データから対話者の方向を特定する方向特定手段を備えており、更新判定手段が、対話者の方向が前回の更新時から所定の角度以上変化した場合にフィルタ行列の更新を行うと判定することがさらに好ましい。

対話者の方向は、例えば複数の撮像手段からの画像データを用いてステレオ視の原理によって計算することができる。
上記の音声認識装置によれば、画像データに基いて対話者の正確な方向を取得することができるため、音声成分強調手段において対話者の方向からの音声成分をより的確に強調することができる。さらに、上記の音声認識装置によれば、対話者の方向が所定の角度以上変化した時点で雑音成分推定手段のフィルタ行列の更新を行うため、不要な更新処理を行うことがなく、かつ必要な更新処理は確実に行うため、処理の負荷をさらに軽減して対話者の音声をより鮮明に抽出することができる。言語内容の認識の精度をさらに向上することができる。

上記したフィルタ行列の更新は、音声認識装置と対話者との位置関係が変化した場合にのみ行うのではなく、音声認識装置と対話者の周囲の環境が変化した場合に行うことで、独立成分分析に用いるフィルタ行列を適切に更新することができる。
すなわち、上記の音声認識装置は、対話者を繰り返し撮影し撮影された画像データを時刻と関連付ける撮像手段と、画像データから周囲の環境の変化を認識する環境認識手段をさらに備えており、更新判定手段が、周囲の環境が変化した場合にフィルタ行列の更新を行うと判定することも好ましい。

周囲の環境の変化は、例えば画像データから対話者の輪郭を抽出し、対話者の輪郭に基づいて対話者の映像と周囲の環境の映像を識別し、周囲の環境の映像の経時的変化から認識することができる。
上記の音声認識装置によれば、雑音成分推定手段における独立成分分析で用いるフィルタ行列が必要な時にのみ更新されるため、雑音成分推定手段での演算の負荷が軽減される。音声認識に係る処理時間を短縮することができる。

本発明は、対話者の音声の周波数スペクトルを取得する装置としても具現化される。本発明の他の１つの装置は、音を入力して音信号に変換する複数の音入力手段と、音信号を周波数スペクトル（原周波数スペクトル）に変換する周波数変換手段と、原周波数スペクトルから対話者の音声成分を含む１の周波数スペクトル（基本周波数スペクトル）を取得する音声成分検出手段と、複数の原周波数スペクトルからフィルタ行列を用いる独立成分分析によって雑音成分の１の周波数スペクトル（雑音周波数スペクトル）を取得する雑音成分推定手段と、基本周波数スペクトルから雑音周波数スペクトルを減算して対話者の音声成分の周波数スペクトル（音声周波数スペクトル）を取得するスペクトル減算手段を備えている。

本発明は方法としても具現化される。本発明の方法は、対話者が話しかける音声から言語の内容を認識する音声認識方法である。その方法は、複数の音入力手段によって入力される音を音信号に変換する工程と、音信号を周波数スペクトル（原周波数スペクトル）に変換する工程と、原周波数スペクトルから対話者の音声成分を含む１の周波数スペクトル（基本周波数スペクトル）を取得する工程と、複数の原周波数スペクトルからフィルタ行列を用いる独立成分分析によって雑音成分の１の周波数スペクトル（雑音周波数スペクトル）を取得する工程と、基本周波数スペクトルから雑音周波数スペクトルを減算して対話者の音声成分の周波数スペクトル（音声周波数スペクトル）を取得する工程と、音声周波数スペクトルに基いて対話者が話しかけた言語の内容を認識する工程を備えている。

本発明によれば、少ない計算負荷で、マイクロホンの感度特性のばらつきの影響を受けずに、対話者の音声を鮮明に抽出して、正確な音声認識を行うことができる。

以下に発明を実施するための最良の形態を列記する。
（形態１）音声成分検出手段は、複数の原周波数スペクトルによる遅延和アレーを用いて、対話者の方向からの音声成分を強調した１の周波数スペクトルを基本周波数スペクトルとして取得する。

本実施例では、図１に例示する音声認識装置１００において、対話者Ｖが話しかける音声を認識する例を説明する。音声認識装置１００は、例えばショールームやイベント会場に配置された案内ロボットであり、案内を求めて話しかけてくる来場者（対話者）Ｖが話しかける音声を認識する。

音声認識装置１００は、頭部１０２の前方に並んで配置された右カメラ１０４と左カメラ１０６と、胴体部１０８の前方の集音部１１０に所定の間隔で並んで配置されたマイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆと、頭部１０２の前方に配置されたスピーカ１１６と、右カメラ１０４、左カメラ１０６、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆ、スピーカ１１６と通信可能なコントローラ１１４を備えている。

右カメラ１０４と左カメラ１０６は、一般的なＣＣＤカメラである。右カメラ１０４と左カメラ１０６は、所定の時間間隔で同時に撮影を実施し、撮影された画像データを撮影時刻と関連付けてコントローラ１１４へ出力する。

マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆは、入力される音声によって振動板に加えられる音圧を検知し、検知した音圧に応じた電圧値を内蔵されたアンプによって増幅し、コントローラ１１４へ出力する。

スピーカ１１６は、コントローラ１１４から送信される信号をアンプによって増幅し、増幅された電流の変動に応じて振動板を振動させ、音声を出力する。

図２はコントローラ１１４の構成を示すブロック図である。コントローラ１１４は、処理装置（ＣＰＵ）、記憶装置（光学記憶媒体、磁気記憶媒体、あるいはＲＡＭやＲＯＭといった半導体メモリ等）、入出力装置、演算装置などから構成されているコンピュータ装置である。コントローラ１１４は、右カメラ１０４、左カメラ１０６から入力される画像データと、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆから入力される音信号に基いて、対話者Ｖが話しかける言語の内容を認識して、その内容に対する返答をスピーカ１１６から音声で出力する。コントローラ１１４は機能的に、画像認識部２０２、更新判定部２０４、Ａ／Ｄ変換部２０６、周波数変換部２０８、音声成分強調部２１０、雑音成分推定部２１２、メル周波数変換部２１４および２１６、スペクトル減算部２１８、特徴量計算部２２０、言語認識部２２２、応答制御部２２４、Ｄ／Ａ変換部２２６を備えている。

画像認識部２０２は、右カメラ１０４と左カメラ１０６から出力される画像データに基づいて、対話者Ｖの位置を認識する。対話者Ｖの位置は、右カメラ１０４と左カメラ１０６のそれぞれの画像データにおいて対話者Ｖの輪郭を抽出し、輪郭を抽出された対話者Ｖと音声認識装置１００との相対的な位置関係をステレオ視の原理によって算出することで、算出することができる。画像認識部２０２は、対話者Ｖの位置から対話者Ｖの方向を特定する。画像認識部２０２は、特定された対話者Ｖの方向を、時刻と関連付けて、更新判定部２０４と音声成分強調部２１０に出力する。

更新判定部２０４は、対話者Ｖの方向に基いて、音声成分強調部２１０において音を強調する方向の更新と、雑音成分推定部２１２において雑音成分の推定に用いるフィルタ行列の更新を行うか否かを判定する。
更新判定部２０４は、前回更新を行った際の対話者Ｖの方向を保持している。更新判定部２０４は、画像認識部２０２から新たに対話者Ｖの方向が入力されると、前回更新を行った際の対話者Ｖの方向との比較を行い、所定の角度以上変化しているか否かを評価する。対話者Ｖの方向が、前回の更新時点から所定の角度以上変化している場合に、更新判定部２０４は更新が必要であると判定する。更新が必要であると判定した場合、更新判定部２０４は、音声成分強調部２１０と雑音成分推定部２１２に、更新指示を出力する。

Ａ／Ｄ変換部２０６は、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆから入力されるそれぞれの音信号を、Ａ／Ｄ変換してデジタル化する。図２では図示の簡略化のためにＡ／Ｄ変換部２０６は１つのブロックとして図示されているが、本実施例の音声認識装置１００は、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆのそれぞれに対応するＡ／Ｄ変換手段を、並列に処理可能な状態で備えている。Ａ／Ｄ変換部２０６は、デジタル化された音信号を音データとして周波数変換部２０８へ出力する。

周波数変換部２０８は、Ａ／Ｄ変換部２０６から入力される音データのそれぞれについて、周波数スペクトルの時系列を特定する。周波数変換部２０８は、まず音データのフレーム化処理を行い、次いで各フレームについての高速フーリエ変換を行って、周波数スペクトルの時系列を特定する。図１０に音データのフレーム化処理と、各フレームの音データの周波数スペクトルの時系列を特定する様子を示す。本実施例では、フレームの長さは２０ｍｓであり、フレーム間隔は１０ｍｓである。図１０に示すように、音データ１００２についてフレームＦ１、Ｆ２、Ｆ３、・・・が規定される。周波数変換部２０８は、フレームＦ１、Ｆ２、Ｆ３、・・・のそれぞれにおける音データ１００２の周波数スペクトルｆ１、ｆ２、ｆ３、・・・を特定する。周波数スペクトルは、周波数に対する振幅の分布として与えられる。周波数スペクトルの特定は、例えば高速フーリエ変換を用いて行うことができる。

なお図２では図示の簡略化のために周波数変換部２０８は１つのブロックとして図示されているが、本実施例の音声認識装置１００は、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆの入力信号をデジタル化した音データのそれぞれに対応する周波数変換手段を、並列に処理可能な状態で備えている。周波数変換部２０８は、特定された周波数スペクトルの時系列を音声成分強調部２１０と雑音成分推定部２１２に出力する。

音声成分強調部２１０は、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆのそれぞれに対応する周波数スペクトルの時系列から、対話者Ｖの方向から到来した音を強調した周波数スペクトル（以下では基本周波数スペクトルと呼ぶ）の時系列を算出する。音声成分強調部２１０は、音を強調する方向を保持している。音声成分強調部２１０は、更新判定部２０４から更新指示が送信される度に、音を強調する方向を、画像認識部２０２から入力される対話者Ｖの方向に更新する。

音声成分強調部２１０は、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆのそれぞれに対応する周波数スペクトルの時系列から、遅延和アレーを用いて、基本周波数スペクトルを算出する。具体的には、音を強調する方向から、各マイクロホンに対応する遅延時間を特定し、特定された遅延時間に相当するフレーム数を特定する。音声成分強調部２１０は、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆのそれぞれに対応する周波数スペクトルについて、それぞれについて特定されたフレーム数だけオフセットさせて、和を算出する。音声成分強調部２１０は、算出された基本周波数スペクトルの時系列を、メル周波数変換部２１４へ出力する。

雑音成分推定部２１２は、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆのそれぞれに対応する周波数スペクトルの時系列から、対話者Ｖの音声以外の音の周波数スペクトル（雑音周波数スペクトル）の時系列を算出する。
雑音成分推定部２１２は、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆのそれぞれに対応する周波数スペクトルから、統計的に独立な２の周波数スペクトルを算出する、フィルタ行列を保持している。雑音成分推定部２１２は、統計的に独立な２の周波数スペクトルが算出されると、両者のうちの一方を雑音周波数スペクトルとして選択する。雑音周波数スペクトルの選択は、例えば雑音の周波数スペクトルとして典型的な周波数スペクトル形状を予め記憶しておき、その典型的な周波数スペクトル形状との類似性が高い方を、雑音周波数スペクトルとして選択することができる。雑音成分推定部２１２は、推定された雑音周波数スペクトルの時系列を、メル周波数変換部２１６へ出力する。
なお、雑音成分推定部２１２は、更新判定部２０４から更新指示が入力されると、保持されているフィルタ行列の最適化処理を行う。フィルタ行列の最適化処理は、例えばフィルタ行列によって分離される２の周波数スペクトルについてのコスト関数を最小化する手法によって行うことができる。

メル周波数変換部２１４は、音声成分強調部２１０から出力される強調周波数スペクトルの時系列を、メル周波数に関するスペクトルの時系列へ変換する。メル周波数は音の高低に対する人間の感覚を示す尺度であって、周波数ｆからメル周波数Ｍｅｌ（ｆ）への変換は、次の関係式を用いて行うことができる。

メル周波数変換部２１４は、基本周波数スペクトルをメル周波数に変換したスペクトル（基本メル周波数スペクトル）の時系列を、スペクトル減算部２１８へ出力する。

メル周波数変換部２１６は、雑音成分推定部２１２から出力される雑音周波数スペクトルの時系列を、メル周波数に関するスペクトルの時系列へ変換する。メル周波数変換部２１６は、雑音周波数スペクトルをメル周波数に変換したスペクトル（雑音メル周波数スペクトル）の時系列を、スペクトル減算部２１８へ出力する。

スペクトル減算部２１８は、メル周波数変換部２１４から出力された基本メル周波数スペクトルの時系列から、メル周波数変換部２１６から出力された雑音メル周波数スペクトルの時系列を減じて、雑音成分が除去された対話者Ｖの音声のメル周波数スペクトル（音声メル周波数スペクトル）の時系列を算出する。スペクトル減算部２１８は、特定された音声メル周波数スペクトルの時系列を特徴量計算部２２０へ出力する。

特徴量計算部２２０は、スペクトル減算部２１８から出力される音声メル周波数スペクトルの時系列から、対話者Ｖが話しかけた音声の特徴量の時系列を算出する。本実施例では、特徴量として、メル周波数ケプストラム係数（ＭＦＣＣ）を扱う。特徴量計算部２２０は、計算されたＭＦＣＣの時系列を言語認識部２２２へ出力する。

言語認識部２２２は、特徴量計算部２２０から出力されるＭＦＣＣの時系列から、対話者Ｖが話しかけた言語の内容を認識する。言語認識部２２２は、ＭＦＣＣと音素との対応を示す対応表を保持しており、入力されるＭＦＣＣの時系列から、対話者Ｖが発した音素の時系列を特定する。さらに言語認識部２２２は、特定された音素の時系列から、対話者Ｖが話しかけた言語の内容を示す文字列を特定する。言語認識部２２２は、特定された文字列を応答制御部２２４へ出力する。

応答制御部２２４は、言語認識部２２２で特定された文字列から、対話者Ｖが話しかけた言語の内容に対する適切な返答を生成する。応答制御部２２４は、対話者Ｖが話しかける言語の内容を示す文字列と、その内容に対する適切な返答を表現する音声データの対応を示す対応表を保持しており、入力される文字列をキーとして、適切な返答の音声データを検索する。応答制御部２２４は、検索された適切な返答の音声データをＤ／Ａ変換部２２６へ出力する。

Ｄ／Ａ変換部２２６は、応答制御部２２４から入力される音声データをＤ／Ａ変換して、スピーカ１１６へ出力する。これによって、対話者Ｖが話しかけた言語の内容に応じた適切な返答がスピーカ１１６から音声で出力される。

図３と図４に示すフローチャートを用いて、音声認識装置１００の動作を説明する。音声認識装置１００は、図３のフローチャートに示す音声認識処理を常に実行している。それと並行して、音声認識装置１００は、所定の時間間隔で、図４のフローチャートに示す更新判定処理を実行する。

図３の音声認識処理を開始すると、ステップＳ３０２において、マイクロホン１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅおよび１１２ｆから音信号が入力され、それらの音信号をＡ／Ｄ変換部２０６で音データに変換する。
ステップＳ３０４では、周波数変換部２０８が、音データの周波数スペクトルを特定する。
ステップＳ３０６では、音声成分強調部２１０が、基本周波数スペクトルを算出する。
ステップＳ３０８では、雑音成分推定部２１２が、雑音周波数スペクトルを算出する。
なお本実施例の音声認識装置１００では、ステップＳ３０６とステップＳ３０８は、ステップＳ３０４の後に、同時に並行して実施される。ステップＳ３０６とステップＳ３０８の両方の処理が終了した後、処理はステップＳ３１０へ移行する。
ステップＳ３１０では、基本周波数スペクトルと、雑音周波数スペクトルを、それぞれメル周波数に関するスペクトルに変換する。
ステップＳ３１２では、スペクトル減算部２１８が、基本メル周波数スペクトルから、雑音メル周波数スペクトルを減算（スペクトル・サブトラクション）して、音声メル周波数スペクトルを算出する。
ステップＳ３１４では、特徴量計算部２２０が、音声メル周波数スペクトルから、対話者Ｖの音声の特徴量であるＭＦＣＣを計算する。
ステップＳ３１６では、言語認識部２２２が、ＭＦＣＣから言語の内容を認識して対応する文字列を特定する。
ステップＳ３１８では、応答制御部２２４が、特定された文字列に応じた適切な返答を生成する。
ステップＳ３２０では、スピーカ１１６から、返答が音声で出力される。
ステップＳ３２０の後、処理はステップＳ３０３へ移行し、上述の処理を繰り返し実行する。

図４の更新判定処理が開始されると、ステップＳ４０２において、右カメラ１０４と左カメラ１０６から画像データを取得する。
ステップＳ４０４では、画像認識部２０２が、取得された画像データから対話者Ｖの方向を特定する。
ステップＳ４０６では、更新判定部２０４が、対話者Ｖの方向から、音声成分強調部２１０において音を強調する方向と、雑音成分推定部２１２におけるフィルタ行列の、更新が必要か否かを判断する。更新が必要と判定された場合（ステップＳ４０６でＹＥＳの場合）、処理はステップＳ４０８へ進む。更新が不要と判定された場合（ステップＳ４０６でＮＯの場合）、音声成分強調部２１０において音を強調する方向と、雑音成分推定部２１２のフィルタ行列について、更新をすることなく、図４の更新判定処理は終了する。
ステップＳ４０８では、音声成分強調部２１０において、音を強調する方向を更新する。
ステップＳ４１０では、雑音成分強調部２１２において、フィルタ行列の最適化処理を行って、フィルタ行列の更新を行う。
なお本実施例の音声認識装置１００では、ステップＳ４０８とステップＳ４１０は、ステップＳ４０６で更新が必要と判定された後に、同時に並行して実施される。ステップＳ４０８とステップＳ４１０の両方の処理が終了した後、図４の更新判定処理は終了する。

本実施例の音声認識装置１００によれば、雑音成分を推定するにあたり、対話者Ｖの方向からの音を抑圧するのではなく、ＩＣＡに基づいた信号の分離によって、雑音成分を推定する。このような手法を用いることによって、マイクロホンの感度特性のばらつきの影響を受けることなく、雑音成分を推定することができる。これによって、雑音成分を正確に除去した音声メル周波数スペクトルを得ることができる。言語認識部２２２における誤認識を防ぐことができる。

本実施例の音声認識装置１００によれば、雑音成分推定部２１２におけるフィルタ行列を、常に更新し続けるのではなく、対話者Ｖの方向が所定の角度以上変化した場合に更新する構成としている。フィルタ行列の更新を頻繁に行う場合、処理の負荷は非常に重いものとなってしまうが、本実施例のように必要な時にのみフィルタ行列を更新する構成とすることによって、処理の負荷を大幅に軽減することができる。音声認識処理に要する時間を短時間にすることができる。

上記の実施例では、対話者Ｖの方向が所定の角度以上変化した場合に、更新判定部２０４が更新を指示する例を説明したが、更新の判定基準はこれに限らない。例えば、所定の時間（例えば１０ｓ）が経過するごとに、更新を指示する構成としてもよい。あるいは、音声認識装置１００が対話者を新たに検出するごとに、更新を指示する構成としてもよい。

また上記とは異なり、雑音成分推定部２１２におけるフィルタ行列の更新について、音声認識装置１００および対話者Ｖの周囲の環境が変化した場合に、更新判定部２０４で更新を指示する構成としてもよい。この場合、画像認識部２０２において、右カメラ１０４と左カメラ１０６から出力される画像データから、対話者Ｖの輪郭を抽出して、対話者Ｖの輪郭から対話者Ｖの映像と周囲の環境の映像を識別し、周囲の環境の映像の経時的変化を特定することで、周囲の環境の変化を認識することができる。この場合、更新判定部２０４は、画像認識部２０２から周囲の環境が変化したことを通知されると、雑音成分推定部２１２へフィルタ行列の更新を指示する。

上記の実施例では、音声成分強調部２１０において音を強調する方向の更新と、雑音成分推定部２１２におけるフィルタ行列の更新を同時に行う例を説明したが、これらは別々のタイミングで更新する構成としてもよい。特に、音声成分強調部２１０において音を強調する方向の更新は、雑音成分推定部２１２におけるフィルタ行列の更新に比べて処理の負荷が軽いため、音声成分強調部２１０において音を強調する方向は、対話者Ｖの方向が変化する度に更新する構成としてもよい。

上記の実施例では、音声成分強調部２１０で算出された基本周波数スペクトルと、雑音成分推定部２１２で算出された雑音周波数スペクトルのそれぞれについて、先ずメル周波数変換部２１４および２１６で別個にメル周波数スペクトルへの変換を行い、その後にスペクトル減算部２１８でスペクトル・サブトラクションを行っている。上記とは異なり、先ず音声成分強調部２１０で算出された基本周波数スペクトルと、雑音成分推定部２１２で算出された雑音周波数スペクトルについてスペクトル・サブトラクションを行い、その後にメル周波数スペクトルへの変換を行う構成としてもよい。

以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、特許請求の範囲を限定するものではない。特許請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組み合わせによって技術的有用性を発揮するものであり、出願時請求項記載の組み合わせに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。

図１は音声認識装置１００の外観を示す図である。図２はコントローラ１１４の構成を模式的に示す図である。図３は音声認識装置１００が実施する音声認識処理のフローチャートである。図４は音声認識装置１００が実施する更新判定処理のフローチャートである。図５は独立成分分析（ＩＣＡ）の概要を説明する図である。図６はスペクトル・サブトラクション（ＳＳ）法の概要を説明する図である。図７はＳＳ法における指向特性を示す図である。図８はＳＳ法におけるマイクロホンの感度特性と指向特性の関係を示す図である。図９はＳＳ法におけるマイクロホンの感度特性と指向特性の関係を示す図である。図１０は周波数変換部２０８の処理の概要を説明する図である。

符号の説明

１００：音声認識装置
１０２：頭部
１０４：右カメラ
１０６：左カメラ
１０８：胴体部
１１０：集音部
１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１２ｅ、１１２ｆ：マイクロホン
１１４：コントローラ
１１６：スピーカ
２０２：画像認識部
２０４：更新判定部
２０６：Ａ／Ｄ変換部
２０８：周波数変換部
２１０：音声成分強調部
２１２：雑音成分推定部
２１４、２１６：メル周波数変換部
２１８：スペクトル減算部
２２０：特徴量計算部
２２２：言語認識部
２２４：応答制御部
２２６：Ｄ／Ａ変換部
５０２、５０４：音源
５０６、５０８：マイクロホン
５１０：フィルタ行列
５１２：フィルタ最適化手段
６０２：音源
６０４、６０６：マイクロホン
６１０、６１２：経路
６１６、６１８：波面
６２０、６２２：点
６２４、６２６：音信号
７０２、７０４、８１０、８１２、９１０、９１２：指向特性の分布
１００２：音データ

Claims

対話者が話しかける音声から言語の内容を認識する音声認識装置であって、
音を入力して、音信号に変換する複数の音入力手段と、
音信号を周波数スペクトル（原周波数スペクトル）に変換する周波数変換手段と、
原周波数スペクトルから、対話者の音声成分を含む１の周波数スペクトル（基本周波数スペクトル）を取得する音声成分検出手段と、
複数の原周波数スペクトルから、フィルタ行列を用いる独立成分分析によって、雑音成分の１の周波数スペクトル（雑音周波数スペクトル）を取得する雑音成分推定手段と、
基本周波数スペクトルから雑音周波数スペクトルを減算して、対話者の音声成分の周波数スペクトル（音声周波数スペクトル）を取得するスペクトル減算手段と、
音声周波数スペクトルに基いて、対話者が話しかけた言語の内容を認識する言語内容認識手段と、
対話者の方向を取得する方向取得手段と、
フィルタ行列の更新を行うか否かを判定する更新判定手段を備えており、
更新判定手段は、対話者の方向が変化した場合に、フィルタ行列の更新を行うと判定し、
雑音成分推定手段は、更新判定手段によって更新を行うと判定された場合に、フィルタ行列の更新を行うことを特徴とする音声認識装置。
音声成分検出手段が、複数の原周波数スペクトルから、対話者の方向からの音声成分を強調した１の周波数スペクトルを基本周波数スペクトルとして取得することを特徴とする請求項１の音声認識装置。
方向取得手段が、対話者を繰り返し撮影し、撮影された画像データを時刻と関連付ける撮像手段と、画像データから、対話者の方向を特定する方向特定手段を備えることを特徴とする請求項１または２の音声認識装置。
更新判定手段が、対話者の方向がフィルタ行列の前回の更新時から所定の角度以上変化した場合に、フィルタ行列の更新を行うと判定することを特徴とする請求項１から３の何れか一項の音声認識装置。
対話者が話しかける音声の周波数スペクトルを取得する装置であって、
音を入力して、音信号に変換する複数の音入力手段と、
音信号を周波数スペクトル（原周波数スペクトル）に変換する周波数変換手段と、
原周波数スペクトルから、対話者の音声成分を含む１の周波数スペクトル（基本周波数スペクトル）を取得する音声成分検出手段と、
複数の原周波数スペクトルから、フィルタ行列を用いる独立成分分析によって、雑音成分の１の周波数スペクトル（雑音周波数スペクトル）を取得する雑音成分推定手段と、
基本周波数スペクトルから雑音周波数スペクトルを減算して、対話者の音声成分の周波数スペクトル（音声周波数スペクトル）を取得するスペクトル減算手段と、
対話者の方向を取得する方向取得手段と、
フィルタ行列の更新を行うか否かを判定する更新判定手段を備えており、
更新判定手段は、対話者の方向が変化した場合に、フィルタ行列の更新を行うと判定し、
雑音成分推定手段は、更新判定手段によって更新を行うと判定された場合に、フィルタ行列の更新を行うことを特徴とする周波数スペクトル取得装置。
対話者が話しかける音声から言語の内容を認識する音声認識方法であって、
複数の音入力手段によって、入力される音を音信号に変換する音入力工程と、
音信号を周波数スペクトル（原周波数スペクトル）に変換する周波数変換工程と、
原周波数スペクトルから、対話者の音声成分を含む１の周波数スペクトル（基本周波数スペクトル）を取得する音声成分検出工程と、
複数の原周波数スペクトルから、フィルタ行列を用いる独立成分分析によって、雑音成分の１の周波数スペクトル（雑音周波数スペクトル）を取得する雑音成分推定工程と、
基本周波数スペクトルから雑音周波数スペクトルを減算して、対話者の音声成分の周波数スペクトル（音声周波数スペクトル）を取得するスペクトル減算工程と、
音声周波数スペクトルに基いて、対話者が話しかけた言語の内容を認識する言語内容認識工程と、
対話者の方向を取得する方向取得工程と、
フィルタ行列の更新を行うか否かを判定する更新判定工程と、
更新判定工程において更新を行うと判定された場合に、フィルタ行列の更新を行う更新工程を備えており、
更新判定工程では、対話者の方向が変化した場合に、フィルタ行列の更新を行うと判定することを特徴とする音声認識方法。