JP5041934B2 - ロボット - Google Patents

ロボット Download PDF

Info

Publication number
JP5041934B2
JP5041934B2 JP2007235753A JP2007235753A JP5041934B2 JP 5041934 B2 JP5041934 B2 JP 5041934B2 JP 2007235753 A JP2007235753 A JP 2007235753A JP 2007235753 A JP2007235753 A JP 2007235753A JP 5041934 B2 JP5041934 B2 JP 5041934B2
Authority
JP
Japan
Prior art keywords
noise
condition
speech
speech recognition
mft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007235753A
Other languages
English (en)
Other versions
JP2008122927A (ja
Inventor
幹生 中野
一博 中臺
広司 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2008122927A publication Critical patent/JP2008122927A/ja
Application granted granted Critical
Publication of JP5041934B2 publication Critical patent/JP5041934B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識方法に関するものであり、特に、ロボットのモータ雑音下におけるロボット用音声認識方法に関するものである。
自動音声認識(ASR)は、ロボットが人とコミュニケーションを図る上で必須である。人−ロボット間の自然なコミュニケーションを実現するためには、ロボットが移動中及びジェスチャの実行中であっても音声を認識できることが必要である。例えば、ロボットのジェスチャは、人−ロボット間の自然なコミュニケーションにおいて重要な役割を果たすと考えられる。また、ロボットは、身体動作によってプレゼンテーションタスクを果たすことが期待される。もし、ロボットが、身体動作またはジェスチャを伴うプレゼンテーションを実行している最中に、人の介入音声を認識できれば、ロボットはさらに有用となり得る。
しかしながら、動作中にはモータ雑音の発生が不可避であるため、ロボットによる自動音声認識は難しい。また、モータはロボットのマイクロフォンに近接しているため、モータ雑音のパワーは目標音声のパワーよりも大きい。モータ雑音は不規則に変化するため、従来の雑音適応手法を用いた場合、十分な自動音声認識性能を得ることができない。これまで、雑音に対して頑健な多くの手法が提案されているが、ロボット動作の雑音下における音声認識に関してはあまり研究されていない。
周知の手法としてマルチコンディション学習がある。この手法では、雑音が付加された音声に対して音響モデルを学習させる。この手法によれば、入力信号が音響モデル学習に付加された雑音を含む場合、自動音声認識性能が向上する。この手法は、非定常雑音より定常雑音を扱う場合の方が容易であるという特性を有する。従って、この手法は、定常雑音を発する動作またはジェスチャ実行中の音声認識に対して効果的であることが期待される。
MLLR手法もまた、アフィン変換を伴う適応手法を用いることによって自動音声認識の頑健性を向上させる。マルチコンディション音響モデルのためのMLLR適応は、無雑音音声に基づいて学習させた音響モデルのためのMLLR適応よりも音声認識において有効である。なぜなら、マルチコンディション音響モデルを用いた音声認識の性能は、元来高いからである。実際、予備実験によって、このことが確認された。全ての種類のモータ雑音に対してMLLR手法を用いずにマルチコンディション音響モデルを用意するには長時間を要する。また、過剰適合の懸念もある。
雑音の多い音声入力を処理するために、ミッシング・フィーチャ理論(MFT)(非特許文献1参照)が提案されている。雑音がある場合、音声の時間周波数空間におけるある領域は、音声特徴量としての信頼性が低い。信頼性の高い領域を無視することにより、または、信頼性の高い領域を用いて信頼性の低い領域の特徴量を推定することにより、雑音に対して頑健な音声認識を実現することができる。同様のアプローチとして、マルチバンド自動音声認識手法が提案されている。この手法は、各サブバンドにHMM(Hidden Markov Model, 隠れマルコフモデル)を用い、信頼性の低いサブバンドには小さい重みを付与することにより、積算された尤度を得る。本願において、MFTという用語は、マルチバンド自動音声認識手法を含むものとする。
MFTに基づく手法は、音声特徴量の信頼性が正しく推定されれば、定常雑音及び非定常雑音の双方に対して高い雑音頑健性を示す。MFTに基づく手法を自動音声認識に応用する際の主要問題の一つは、入力された音声特徴量の信頼性をいかにして正しく推定するかということである。SN比(SNR)及び入力された音声特徴量の歪量は通常未知であるから、入力された音声特徴量の信頼性は推定できない。しかしながら、事前収録された雑音を認識に利用することができるので、雑音のパワーが大きい場合であっても、入力された音声特徴量の信頼性の推定は容易になる。従って、MFTは、ロボットのモータに起因する非定常雑音を処理する際には、より適していると考えられる。
スペクトル減算(SS)手法は、雑音除去を行うための周知手法の一つである。ロボット自体のモータの雑音を処理する際にSS手法を適用することが提案されている。このアプローチでは、ロボットの関節角度に起因するモータ雑音が神経系を用いて推定され、推定された雑音を用いてSS手法が適用された。このアプローチにおける一つの問題は、雑音推定が良好でない場合、自動音声認識性能が低下することである。また、SS手法では音声特徴量を直接改変するので、雑音推定に失敗した場合、MFT手法の場合より音声認識性能の低下が著しい。同種類の動作によって常に同じモータ雑音が発生するとは限らないので、SSにより雑音を適切に処理し十分な精度でモータ雑音を推定することは難しい。従って、SSに基づく手法は、ロボットには適していない。
複数のマイクロフォンが利用できる場合、目標音声を抽出するために、ビームフォーミング(BF)、独立成分分析(ICA)、幾何学的音源分離(GSS)といった雑音分離手法を用いることができる。BFは、複数のマイクロフォンを用いて音源を分離する周知手法である。しかしながら、従来のBFの場合、雑音とチャネル間漏出とによって分離された音声に歪が生じる。これによって、自動音声認識性能が低下する。適応ビームフォーミングのように歪の少ないBFは膨大な計算力を必要とするため、リアルタイム音源分離は困難である。ICAは、最も好適な音源分離手法の一つである。ICAでは、音源は互いに独立であり、音源の数はマイクロフォンの数と同じであると仮定される。しかしながら、これらの仮定は、現実の世界において音源を分離する際には強過ぎる。また、ICAは、置換(permutation)問題及びスケール問題と呼ばれる解決困難な問題を有している。GSSにおいては、音源の数とマイクロフォンの数との間の関係における限定は緩和されている。GSSによれば、音源とマイクロフォンの位置に基づく「幾何学的制限」を導入することによって、マイクロフォンの数をNとした場合にN−1個の音源まで分離することができる。GSSとMFTに基づく音声認識とを組合せることにより音声を同時認識するロボット聴取システムが知られている。GSSの効果とともに、チャネル間漏出エネルギを用いた信頼性自動評価を有するMFT方式音声認識が示されている。しかしながら、音源とマイクロフォンの位置には一般的に測定誤差と位置決め誤差があり、GSSでは、幾何学的制限における誤差が性能に悪影響を及ぼす。
音源分離が適切に機能すれば、マルチチャネルアプローチは有効である。しかしながら、いずれの手法によっても、大なり小なり分離誤差が生じる。また、システム全体のサイズが大きくなりがちである。このことは、システムにおけるパラメータ数が増加し、より高い計算能力がシステムにより要求されること意味する。ロボットにおいては利用できる空間と計算能力に限界があるため、ロボットに適用する際には、これらが重大な問題となる。従って、本願では、シングルチャネルアプローチに焦点を当てる。
将来、人型ロボットは、人のパートナーとなることが期待される。このパートナーシップを助長するために、人型ロボットは、それ自体のマイクロフォンを用いてユーザの音声を聞き分ける必要がある。ユーザが常にヘッドセットを装着することを想定するのは現実的ではない。このような人型ロボットを開発する際、そのアクチュエータが発する「雑音」は、大きな問題である。人型ロボットは、基本的には高い冗長系であり、多くのモータとともに、自発的に人に類似した行動を起こすために必要なロボット埋め込み型プロセッサに付随する冷却ファンを備えている。これら人に類似した行動は、人−ロボット間の豊かな相互作用を実現するために効果的である。例えば、ロボットのジェスチャは、人−ロボット間の自然なコミュニケーションにおいて重要な役割を果たすと考えられる。人型ロボットが身体動作を伴ってタスクまたはプレゼンテーションを行えば、人型ロボットと人とコミュニケーションに役立つ。しかしながら、これら動作の実現には、高いトルクと高い出力を有するモータ、及び、高性能CPUを冷却する高回転ファンが必要である。このことは、必然的に大きな雑音につながる。さらに、アクチュエータは、目標音声源より、人型ロボットに埋め込まれたマイクロフォンに近い。これら雑音が近接していることにより、マイクロフォンで捕捉される音響信号は、0dB以下という低いSN比(SNR)を有する。また、モータ雑音は一定ではないため、入力SN比は動的に変化する。これらの要因により、人型ロボットが動作中に人の音声を認識することは難しい。人−人型ロボット間のコミュニケーションを扱う多くの研究は、音声指令を入力するために、人型ロボット自体のマイクロフォンを用いる代わりにヘッドセットを装着することにより、この問題を回避する傾向にある。音声認識において人型ロボット埋め込み型マイクロフォンを用いることを試みた研究者もいる。しかしながら、このような研究者は、定常雑音を扱っている。すなわち、音声認識に関して人型ロボットは静止状態にあると仮定している。
これまで、自動音声認識の先行研究においては数々の雑音への頑健性向上に対する手法が提案されている。マルチコンディション学習による音響モデルの学習は最も有効な手法の一つである。この手法は、あらかじめ雑音を含んだ音声を音響モデルの学習に用いるため、その雑音が既知である場合には強力である。しかし、雑音が大きい環境では、無音区間か発話区間かの区別すらできなくなる。また、定常的な雑音については効果的な学習が期待できるが、非定常な雑音に対しては難しい。このため、高雑音下ではこの手法には限界があると考えられる。
MLLR(最尤線形回帰)は、アフィン変換を用いて音響モデルを雑音に適応するアプローチである。これにより、音響モデルは学習時とは異なる認識環境の雑音や話者に適応される。MLLRも有効な手法であるが、雑音が非常に大きい環境や非定常雑音においては効果が薄いと考えられる。
このように従来の自動音声認識では、音響モデルを雑音へ適応するための研究が多く行われてきた。これは、入力信号から雑音を取り除くというアプローチをとると、音声の歪みが大きくなり、結果的に音響モデルの雑音への適応を行った方が性能が出やすいという側面を有するからと考えられる。しかし、ロボットにおける音声認識では、従来の音声認識が想定していた雑音よりも雑音の大きな環境(SNR(SN比)0dB以下である場合もある) での認識が必要となる。このような環境では音響モデルを雑音へ適応化しても、もはや元の信号の情報はほとんど残っておらず、音声認識を行うことは困難である。したがって、雑音を除去する仕組みが必要となる。
ロボットにおける自動音声認識では、その前処理に用いるため、マイクロフォンアレーを用いた音源分離が数多く行われている。ビームフォーミング(BF)、独立成分分析(ICA) あるいは幾何学的音源分離(GSS)による手法が提案されている。BFは一般的な音源分離手法であるが、音源分離による音声信号の歪みが生じる。歪みの少ない適応BFも提案されているが、計算量が膨大であるという欠点がある。ICAは音源の独立性を仮定するだけで分離を行うことができる有効な手法であるが、実環境においてはしばしばこの仮定が成立しないことがあり、各周波数での分離信号が同じ音源に対応するように分離信号を並べ変えなければならないという置換問題も生じる。BFとICAの中間的な手法として、GSSが挙げられる。GSSでは音源位置とマイク位置及び音源の相関に基づいて音源分離を行うが、実環境では位置の正確な抽出が難しく、分離性能に影響を与える。
ロボットの自動音声認識性能に悪影響を与える雑音には、動作音の他、環境雑音などがある。環境雑音は非定常であり、音源位置や音源数の情報もないため、雑音の推定にはマイクロフォンアレーを用いた手法が必要となる。しかし、本研究で対象とする動作音はロボット自身が発するものであり、ロボットは自己の動作情報を取得可能なため、動作音の推定が可能である。よって、マイクロフォンアレーのような多くの情報を用いて雑音への頑健性を向上させなくとも、もっと少ない情報で効率的に適応ができると考えられる。
本研究と同様に動作音を対象とし、マイク1 本で雑音への適応を行うアプローチとして、SSを用いた手法がある。従来のSS手法は無音区間などを用いて定常雑音の推定を行い、スペクトル領域において推定雑音成分を減算することにより音声信号の抽出を行うものである。SS手法は、AIBO(登録商標)の動作音の軽減に既に用いられている。具体的には関節角度や位置を入力としたニューラルネットワークで推定雑音の学習をさせ、これを用いてSS手法の減算に用いる雑音信号の推定を行い、シミュレーション上での自動認識性能を報告している。しかし、実環境でのパフォーマンスについて言及されていないため反響音のある環境や、マルチコンディション学習による音響モデルを用いた手法と比べ、有効性があるのかどうかは不明である。また、SS手法は定常雑音に対しては有効であると考えられているが、非定常雑音に対しては歪みが生じることがあるため有効な手法とは言い難い。
非定常雑音に対しても有効な手法として、ミッシング・フィーチャ理論(MFT)を用いた手法がある。MFT手法は音声信号のうち雑音や歪みのない部分の情報のみを用いて自動音声認識を行うアプローチである。信頼性の低い部分はマスクされることにより音声認識には用いられない。MFT手法は、マスクするかしないかの二者択一とする狭義のMFT手法と、信頼性の大きさに応じてマスクを連続的な値とする広義のMFT手法とがあり、本願では広義のMFT手法の意で用いる。関連する研究として重みづけを用いたマルチバンド音声認識がある。重みづけを用いたマルチバンド音声認識では、信頼性の低い周波数帯域は重みを小さく、信頼性の高い周波数帯域は重みを大きくすることによりその重みを尤度に反映させて音声認識を行う。MFTを用いた方法では、信頼性の推定を正確に行うことができれば、認識性能は他の雑音適応手法と比較して大きく向上する。信頼性の推定を正確に行うためには雑音の推定が必要であるが、ブラインドで雑音推定を行うこと自体が音声認識と同レベルの難しさを有するという問題がある。従来の音声認識では、この信頼性推定が非常に困難であるため、MFTが有効な手法として用いられることが少なかった。しかし、本研究で対象とするロボットの動作音はその雑音推定が容易であるため、MFTが有効に利用できると考えられる。
ジェー・ベーカー(J. Barker)、エム・コーク(M. Cooke)、ピー・グリーン(P. Green)共著、「ロバストASR・ベースト・オン・クリーン・スピーチ・モデルズ:エバリュエーション・オブ・ミッシング・データ・テクニーク・フォー・コネクテド・ディジット・レコグニション・イン・ノイズ」(Robust ASR based on clean speech models:An evaluation of missing data techniques for connected digit recognition in noise)」、プロシーディングス・ユーロスピーチ2001(Proc. EUROSPEECH 2001)、2001年、第1巻、p.213-216
環境雑音とロボットのモータ雑音との重要な相違点は、ロボットが実行している動作及びジェスチャをロボット自身が把握しているので、ロボットは、そのモータ雑音を推定できる点である。ロボットの各動作及びジェスチャは、毎回、ほぼ同じ雑音を発生させる。動作及びジェスチャに伴う雑音を事前に収録しておくことによって、動作及びジェスチャに基づき雑音プロファイルは容易に推定できる。
この理論を用いて、我々は、ロボットのモータ雑音下における自動音声認識に関する新手法を提案する。この方法は、3つの手法に基づいている。すなわち、マルチコンディション学習、最尤線形回帰(MLLR)、ミッシング・フィーチャ理論(MFT)(非特許文献1参照)である。これらの手法は、以下に説明するように、事前収録された雑音を利用する。
これらの手法は、それぞれ、長所及び短所を有しているため、効果的であるかどうかは動作及びジェスチャの種類に依存する。従って、単にこれら3つの手法を組合せても、全ての種類の動作及びジェスチャ雑音下における音声認識に効果的であるとは言えない。そこで、我々は、動作及びモータ雑音の種類に応じてこれらの手法を選択的に使用することを提案する。種々の動作及びジェスチャ雑音下における孤立単語認識実験結果により、このアプローチの有効性が示された。
環境雑音と人型ロボットのモータ雑音との重要な相違点は、人型ロボットが実行している動作及びジェスチャを人型ロボット自身が把握しているので、人型ロボットは、そのモータ雑音を推定できる点である。各動作及びジェスチャは、毎回、類似の雑音パターンを発生させる。そこで、動作及びジェスチャに伴う雑音を事前に収録しておくことによって、動作及びジェスチャに対応する情報に基づきモータ雑音は容易に推定できる。
本願では、人型ロボットの動作/ジェスチャに関する情報を利用することによって人型ロボットのモータ雑音下における自動音声認識(ASR)を向上させる新手法を提案する。この方法は、音声認識に適した雑音除去と、ミッシング・フィーチャ理論(MFT)に基づく音声認識という二段階から構成される。ミッシング・フィーチャ理論は、入力音に含まれる信頼性の低い音声特徴量をマスクすることによって音声認識を向上させる(非特許文献1参照)。動作/ジェスチャ情報は、MFTのための音声特徴量の信頼性推定に用いられる。種々の動作及びジェスチャ雑音下における孤立単語認識実験結果により、この提案手法の有効性が証明された。
これまで、多くの雑音頑健性自動音声認識手法が提案されている。一般的に、それらは三つのカテゴリに分類される。すなわち、雑音頑健性音響モデル、復号器改変、及び予備処理である。ここでは、これらの手法を提言し、人型ロボットのモータ雑音下における音声認識に対していずれの手法が適当であるかを議論する。
A.雑音頑健性音響モデル
周知の手法としてマルチコンディション学習がある。この手法では、雑音が付加された音声を用いて音響モデルを学習させる。この手法によれば、入力信号が音響モデル学習に付加された雑音を含む場合、自動音声認識性能が向上する。しかしながら、音響モデルを学習させるために、全ての種類のモータ雑音を含む音声データが必要とされる。さらに、長時間を要すること、及び過剰適合の懸念もある。
最尤線形回帰(MLLR)手法もまた、アフィン変換を伴う適応手法を用いることによって自動音声認識の頑健性を向上させる。この手法は、計算量の観点で、マルチコンディション学習ほど時間がかからない。しかしながら、データの準備コストはマルチコンディション学習と同等である。異なる種々のモータ雑音を処理するためには、モータ雑音を含む多量の音声データが必要とされる。
B.復号器改変
自動音声認識用復号器を改変することによって雑音頑健性を向上させる一つのアプローチとしてミッシング・フィーチャ理論(MFT)(非特許文献1参照)がある。雑音がある場合、音声の時間周波数空間におけるある領域は、音声特徴量としての信頼性が低い。MFTでは、このような信頼性の低い音声特徴量はマスクされ、信頼性の高い領域のみが音声認識用復号器における尤度計算に用いられる。従って、この工程では、自動音声認識用復号器に改変が要求される。同様のアプローチとして、マルチバンド自動音声認識手法が提案されている。この手法は、各サブバンドにHMMを用い、信頼性の低いサブバンドには小さい重みを付与することにより、積算された尤度を得る。本願において、MFTという用語は、MFT及びマルチバンド自動音声認識手法の双方を含むものとする。
MFTに基づく手法は、音声特徴量の信頼性が正しく推定されれば、定常雑音及び非定常雑音の双方に対して高い雑音頑健性を示す。MFTに基づく手法を自動音声認識に応用する際の主要課題は、入力された音声特徴量の信頼性をいかにして正しく推定するかということである。SN比及び入力された音声特徴量の歪量は通常未知であるから、入力された音声特徴量の信頼性は推定できない。しかしながら、事前収録された雑音を認識に利用することができるので、雑音のパワーが大きい場合であっても、入力された音声特徴量の信頼性の推定は容易になる。従って、MFTは、ロボットのモータに起因する非定常雑音を処理する際には、より適していると考えられる。
C.予備処理
入力された音声信号のSN比を改善するために予備処理が行われる。シングルチャネルアプローチと、マルチチャネルアプローチという2つのアプローチが周知である。
スペクトル減算(SS)手法は、雑音除去を行うための周知手法の一つである。ロボット自体のモータの雑音を処理する際にSS手法を適用することが提案されている。このアプローチでは、ロボットの関節角度に起因するモータ雑音が神経系を用いて推定され、推定された雑音を用いてSS手法が適用された。このアプローチにおける一つの問題は、雑音推定が良好でない場合、自動音声認識性能が低下することである。また、SS手法では音声特徴量を直接改変するので、雑音推定に失敗した場合、MFT手法の場合より音声認識性能の低下が著しい。同種類の動作によって常に同じモータ雑音が発生するとは限らないので、SSにより雑音を適切に処理し十分な精度でモータ雑音を推定することは難しい。従って、SSに基づく手法は、ロボットには適していない。
もう1つの雑音除去手法として、一種のスペクトル減算に基づく適応雑音除去手法が知られている。この手法は、モノラル入力音のスペクトルパワーに基づき音声存在確率を適応推定する。一般的に、スペクトル減算はミュージカル雑音(musical noises)及びある程度の歪を生じさせるが、この手法では時間的スペクトル的連続性を考慮に入れるので、この手法を用いた雑音除去信号のミュージカル雑音及び歪はより小さい。
雑音源付近に配置された内部マイクロフォンを用いた雑音相殺が知られている。しかしながら、人型ロボットは多数の自由度を有しこのアプローチには、という問題がある。
複数のマイクロフォンが利用できる場合、目標音声を抽出するために、ビームフォーミング(BF)、独立成分分析(ICA)、幾何学的音源分離(GSS)といった雑音分離手法を用いることができる。BFは、複数のマイクロフォンを用いて音源を分離する周知手法である。しかしながら、従来のBFの場合、雑音とチャネル間漏出とによって分離された音声に歪が生じる。これによって、自動音声認識性能が低下する。適応ビームフォーミングのように歪の少ないBFは膨大な計算力を必要とするため、リアルタイム音源分離は困難である。ICAは、最も好適な音源分離手法の一つである。ICAでは、音源は互いに独立であり、音源の数はマイクロフォンの数と同じであると仮定される。しかしながら、これらの仮定は、現実の世界において音源を分離する際には強過ぎる。また、ICAは、置換(permutation)問題及びスケール問題と呼ばれる解決困難な問題を有している。GSSにおいては、音源の数とマイクロフォンの数との間の関係における限定は緩和されている。GSSによれば、音源とマイクロフォンの位置に基づく「幾何学的制限」を導入することによって、マイクロフォンの数をNとした場合にN−1個の音源まで分離することができる。GSSとMFTに基づく音声認識とを組合せることにより音声を同時認識するロボット聴取システムが知られている。GSSの効果とともに、チャネル間漏出エネルギを用いた信頼性自動評価を有するMFT方式音声認識が示されている。しかしながら、音源とマイクロフォンの位置には一般的に測定誤差と位置決め誤差があり、GSSでは、幾何学的制限における誤差が性能に悪影響を及ぼす。
音源分離が適切に機能すれば、マルチチャネルアプローチは有効である。しかしながら、いずれの手法によっても、大なり小なり分離誤差が生じる。また、システム全体のサイズが大きくなりがちである。このことは、システムにおけるパラメータ数が増加し、より高い計算能力がシステムにより要求されること意味する。ロボットにおいては利用できる空間と計算能力に限界があるため、ロボットに適用する際には、これらが重大な問題となる。
従って、本願では、シングルチャネルアプローチに焦点を当てる。次いで、予備処理のために雑音除去を、復号器改変のためにMFT(非特許文献1参照)を用いることとした。我々は、マルチコンディション学習及びMLLRのような雑音頑健性音響モデル学習法は特に用いなかった。しかし、本願で用いられた音響モデルは音声信号に白色雑音を重畳させたものであるので、我々は、白色雑音を重畳させた音声データを用いて学習を行った。この意味で、我々は、雑音頑健性音響モデルを用いた。
本願では、まず、入力信号に対して雑音除去処理を適用する。動作音を含む環境においてはSN比が小さいため、そのような雑音除去処理は必須である。次いで、雑音除去処理により雑音を減算した後に残留する成分を平坦化するために白色雑音を重畳させる。SN比の大きい環境においては雑音除去処理による音声データの歪は小さいが、SN比の小さい環境においては雑音除去処理による音声データの歪は大きく、雑音除去処理によって自動音声認識性能が低下する可能性があると考えられる。雑音除去処理によって、モータ雑音のような定常雑音はほとんど除去可能であるが、動作による非定常雑音成分への適合は不十分であるかもしれない。この課題を解決するために、MFTを含む自動音声認識を実施する。MFTにおけるマスクを生成するために、推定された動作雑音を用い、大きな雑音を含む部分は信頼性が低いものとして扱い、その部分の自動音声認識への寄与度は小さくされる。
本発明は、モータを駆動して身体を動作させる駆動ユニットと、前記動作のパターンを表す動作指令を判別する判別ユニットと、前記動作の際に生じる雑音を収録した雑音テンプレートを動作指令と対応付けて保持する雑音テンプレート保持ユニットと入力信号に含まれる雑音を除去する前処理ユニットと、前記前処理ユニットから出力された雑音除去信号に対して白色雑音を重畳する雑音重畳ユニットと、少なくとも2つの認識アルゴリズムを備えた音声認識ユニットであって、前記判別された動作指令及び前記雑音重畳ユニットから出力された白色雑音を重畳した信号の特徴量に基づいて前記雑音テンプレート保持ユニットから雑音テンプレートを選択し、前記選択した雑音テンプレートの特徴量が前記入力信号の特徴量から差し引かれたクリーン音声の特徴量から前記クリーン音声の特徴量のメディアン値を差し引いた値の絶対値を、前記白色雑音を重畳した信号の特徴量から前記クリーン音声の特徴量を差し引いた値で除算した重み係数を正規化して信頼性関数を算出し、音素モデル及び前記白色雑音を重畳した信号の特徴量の音響尤度を、前記信頼性関数が高いほど大きく重み付けして音声を認識する認識アルゴリズムを含む音声認識ユニットと、前記判別された動作指令に応じて前記認識アルゴリズムの1つを選択する切替ユニットと、を備えたロボットを提供する。
第1実施形態
(雑音頑健性自動音声認識手法の選択的適用)
以下、マルチコンディション音響モデル学習と、MLLRと、ロボットの動作により発生する雑音を処理するMFTとを用いた音声認識手法の詳細について述べる。図1は、本発明によるロボット用音声認識手法のブロック図である。
音声特徴量として、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients,MFCC)ではなく、対数スペクトル特徴量を用いる。これは、以下に説明するように、MFTには対数スペクトル特徴量が適しているからである。音響モデルの学習は、全ての種類の動作及びジェスチャにおける雑音が付与された音声を用いて行われる。
各々の動作について、ある量の音声データを用いて、マルチコンディション音響モデルのためのMLLR変換行列の学習を行う。モータ雑音によって乱された音声を認識する際には、動作タイプに対応したMLLR変換行列を適用する。
また、動作毎に事前収録された雑音を事前収録雑音テンプレートから選択する。事前収録雑音は、音声とモータ雑音とが混合された対象音とのマッチングが行われ、MFTの重みを決定するにあたり、どの時間枠のどの周波数帯がモータ雑音による障害を受けるのかを特定する。この処理の詳細については追って述べる。
前述のように、3つの手法には長所と短所がある。マルチコンディション学習は全ての雑音に対して有効と思われるが、各々の雑音に対する適合は十分ではない可能性がある。MLLRは、各々の雑音に対する適合を可能にするが、MLLR変換は、各々の雑音の全てのインターバルに対して不変であるので、不規則に変化する雑音に対しては機能しない可能性がある。MFTは、このような非定常雑音に対して有効に機能すると思われるが、事前収録雑音と対象音声に含まれる雑音との差異が大きい場合、MFTは有効ではない。
このように、これらの手法の各々は、ある種の雑音に対しては適しているが、その他の雑音に対しては適していない可能性がある。従って、我々は、雑音の種類(図2)に応じてこれらの手法を選択的に適用する。ロボットが動作またはジェスチャを実行し、その動作/ジェスチャの雑音に対して1つの手法が有効であると判断された場合、その手法を適用する。このような選択適用により、適切ではない手法を適用することによる自動音声認識性能の低下を回避することができる。
(モータ雑音のためのミッシング・フィーチャ理論)
ここで、事前収録雑音を用いたMFTの適用方法の詳細について述べる。
前述のように、本願においては、音声特徴量として対数スペクトル特徴量を用いている。その理由は次のとおりである。扱われるモータ雑音は重畳雑音である。重畳雑音に対して直接MFTを用いるために対数スペクトル特徴量ベクトルを使う。MFCCはケプストラム変域で正規化されるのに対し、対数スペクトル特徴量ベクトルは対数スペクトル変域で正規化される。対数スペクトル特徴量ベクトルを用いた場合の自動音声認識性能は、前述のMFCCを用いた場合と同等である。従って、対数スペクトル特徴量ベクトルを用いることとした。
MFTにおいては、音声特徴量ベクトルの信頼性の高い特徴量は大きな重み付けを有し、信頼性の低い特徴量は小さい重み付けを有する。重み付けは音響尤度に影響する。MFTを用いない場合、音素モデルq及び音声特徴量ベクトルsの音響尤度は以下のように定義される。
Figure 0005041934
MFTでは、重みωを用いて、音響尤度は以下のように定義される。
Figure 0005041934
MFTにおける重みは、雑音レベルに基づいて決定される。ここで、推定雑音の対数スペクトルは、n(f,t)で定義される。fは対数スペクトル音声特徴量ベクトルにおける特徴量指数、tは時間枠である。対数スペクトルの範囲は広範であるため、対数スペクトルを0から1の範囲に限定するためにS字状関数(sigmoid function)を用いる。出力値がS字状関数から逸脱しないように、各時間枠の平均雑音パワーを音声特徴量ベクトルから減算する。
Fは、音声特徴量ベクトルの次元数である。
Figure 0005041934
次いで、S字状関数にn’(f,t)を代入する。
Figure 0005041934
ここで、αは、信頼性関数ωの尖鋭度を表すパラメータである。αが大きいと音声特徴量ベクトル間の相違が大きく、その逆も言える。1つの枠の重みの総和が次元数と等しくなるように、信頼性関数ωを正規化する。この正規化により、挿入ペナルティ(insertion penalty)のようなパラメータの最適値における変化が除去される。正規化されたωがMFTに用いられる。
マルチコンディション音響モデルを用いる場合、定常雑音は音響モデルに組込まれる。従って、我々は、推定雑音のパワーが実験的に定義されるしきい値Hより大きい場合にのみMFTを適用する。
動作のタイプが同じである場合、対応するモータ雑音は類似のスペクトルプロファイルを有する。我々は、事前に全ての動作の雑音を収録した。これらの雑音は雑音テンプレートとして用いられる。我々は、雑音テンプレートと対象雑音とをマッチングさせるために以下の方法を用いた。本願では、対象音(音声と雑音の混合)に含まれる雑音を対象雑音と称することに留意されたい。雑音テンプレートと対象雑音との相違に関するN個のサンプルの平均値D(s)は以下のように定義される。
Figure 0005041934
ここで、T,Rはそれぞれ、雑音テンプレート、対象雑音である。T(s),T(-s)は、前方あるいは後方にs個のサンプル分だけシフトさせた音声特徴量ベクトルを意味する。Rは、音声データを含まない音響信号として得られる。本願では、Rは手動で抽出される。
マッチングされたsは以下のように定義される。
Figure 0005041934
T(s)の音声特徴量は、時間シフト情報sとともにn(f,t)としてMFT重み付け計算に送られる。
(実験結果)
我々は、提案手法の有効性を検証するために実験を行った。我々は、ホンダ人型ロボットASIMO(登録商標)を用いた。ASIMOは、その頭部に装着された2つのマイクロフォンを有する。我々は、左側マイクロフォンから収録されたデータを用いて評価を行った。
データは無響室で収録した。これは、室内の残響及びその他の環境雑音源の影響を避けつつ、重畳モータ雑音を処理する提案手法の効果を検証するためである。
データは、音声源からマイクロフォンまでの距離を一定に保ち、ASIMOのモータをオフにした状態で収録した音声信号を含む。我々は、ATR216音素バランス単語セットを用いて、孤立単語認識実験を行った。ATR216音素バランス単語セットには25話者のデータが含まれ、1話者のデータは216の日本語発話からなる。1単語発話は約1.5から2秒間である。音声データは25話者(男性12話者、女性13話者)の会話を含む。音響モデルは、22話者(男性10話者、女性12話者)のデータを用いて学習した。雑音に適合させるために教師なしMLLRを適用した。実験セットは3話者(男性2話者、女性1話者)の会話を含む。このセットは学習セットとは異なる。雑音データは34種類の雑音、すなわちASIMOが動いていない状態のモータ雑音、ジェスチャ雑音、ASIMOが歩行しているときの雑音などを含む。各条件のSN比と動作パターンを表2に示す。34種類の雑音を重畳させた会話データを用いてマルチコンディション音響モデルの学習を行った。これらの動作の雑音は数回収録し、評価用雑音、マルチコンディション音響モデル学習用雑音、マッチングのためのテンプレート用雑音は、互いに排他的なものとした。
我々は、表1に示す6条件の下に音声認識性能を比較した。我々の予備実験でマルチコンディション学習を行った音響モデルが有効であることが検証されていたので、全ての条件についてそのような音響モデルを用いた。MLLR(全て)は、34種類全ての動作の雑音に関する教師ありMLLRを、MLLR(各々)は、各々の動作の雑音に関する教師ありMLLRを意味する。条件Cの場合、MFTの重み付けは全時間にわたる平均雑音により決定した。すなわち、重み付けは全ての時間枠において同じである。一方、条件Fの場合、重み付けは推定雑音を用いて各々の時間枠について算出した。我々は、比較のためにSSの実験も行った。SSにおいては、MFTの場合と同じマッチングアルゴリズムを用いて雑音推定を行った。MLLRを用いずにMFTを適用した場合、他の条件の場合より性能が劣っていたので、これらの条件による結果は示していない。
Figure 0005041934
Figure 0005041934
表2に実験結果を示す。条件A,D,Fにおいて、より良好な性能が得られた。ある種の雑音に対しては、マルチコンディション学習に加えて、MLLR(各々)及びMFTが有効であった。一方、MLLR(全て)及びSSは有効ではなかった。
実験結果に基づき、動作/ジェスチャによって条件A,D,Fを選択することで音声認識性能を向上させることが可能であることが判った。雑音頑健性手法をこのように選択的に適用することにより、全てのタイプの雑音に対して条件A,D,Fのいずれか一つを固定的に用いる方策より良好な結果を得ることができると考えられる。
各々の雑音タイプにMLLRを適用すること、及びMFTを適用することは、ある種の雑音に対しては有効であるように見えるが、その改善幅は比較的小さい。これは、マルチコンディション学習に基づく音響モデルが、ほとんどのタイプの雑音に対して既に良好に適合しているためではないかと考える。マルチコンディション学習に用いられた雑音は、対象音声に重畳させた雑音と全く同じ環境で収録されたが、これらの条件は現実的ではない。現実環境におけるロボットによる音声認識の際には、残響が存在し、話者とロボットとの間の距離は変化する。環境が異なればマルチコンディション学習によって得られる音響モデルの有効性は低下し、MLLRとMFTは、自動音声認識において統計学的に顕著な改善を見せると考えられる。本願で我々は、ロボット自体のモータ雑音を処理する自動音声認識手法を提案した。ロボット自体のモータ雑音下における自動音声認識を改善するために、提案の方法は、3つの手法、すなわち、マルチコンディション学習、MLLR適応、ミッシング・フィーチャ理論を用いた。ミッシング・フィーチャ理論を適用する際には、信頼性の低い音声特徴量の自動推定が主要課題である。我々の方法は、ロボットの制御装置から得られる動作パターン情報と動作パターンに対応する事前収録されたモータ雑音とを利用することによって、この課題を解決した。また、本方法は、これら3つの手法を雑音タイプに応じて選択的に適用するという新たな特徴も有する。予備実験の結果は、本方法が有効であることを示唆している。
モータ雑音を伴うロボットのための自動音声認識のさらなる改善には、いくつかの問題を解決する必要がある。我々は、残響を伴う実環境下において、及び前述のように動的に変化する環境下において、本方法の有効性を確認すべきである。また、MFTにおける重み付けを改善するためには、雑音推定を改良する必要がある。我々は、ロボットに埋め込んだマルチチャネルマイクロフォンを用いて、本方法と音源分離手法とを組合せることを考えている。
第2実施形態
図3は、提案方法のブロック図である。この方法は、3つのブロック、すなわち、予備処理を含む音声特徴量抽出、モータ雑音テンプレートを利用したミッシング・フィーチャ・マスク生成、ミッシング・フィーチャ理論に基づく自動音声認識(MFT−ASR)からなる。
A.予備処理を含む音声特徴量抽出
このブロックでは、MFT−ASRに適した雑音入力から音声特徴量を抽出する。この手法は、3つの処理、すなわち、雑音除去、白色雑音重畳、対数スペクトル特徴量抽出を含む。
1)雑音除去
入力音声は、0dBに満たない極めて低いSN比を有する。このような雑音に満ちた条件では音声特徴量を頑健性をもって抽出することは難しい。そこで、まず、自動音声認識の予備処理として、雑音除去を行う。我々が適用した雑音除去手法は、前述した公知の手法である。
2)白色雑音重畳
歪を生じさせることなく雑音除去を行う手法は存在しない。このような歪は、自動音声認識のための音声特徴量抽出、特に音声特徴量ベクトルの正規化処理に大きく影響する。なぜなら、歪は、時間周波数空間における対象音声を断片化し、多くの音声断片を生成するからである。
我々は、この問題を人間の聴覚機構に基づいて解決することができる。我々は、雑音が理解を補助するという心理学的事実を用いた。図4A,4Bは、ゲシュタルト心理学における「知覚閉合」の一例を示している。図4Aは、人間の知覚において、断片のみからでは統合理解が難しいことがあることを示している。図4Bは、遮蔽または雑音といった他の情報が断片の統合を補助する状態を示す。人間の聴覚システムでは、断片音間の途切れを埋める雑音が統合理解を補助することが知られている。これは一種の知覚閉合であり、「聴覚誘導」と呼ばれている。
この事実は、自動音声認識においても有益である。我々は、雑音除去した音声信号に白色雑音を重畳することを提案する。この処理は、SN比の観点で音声の質を低下させるので、自動音声認識性能を改善しないと思われるかもしれない。しかし、以下2つの理由により自動音声認識性能を改善する。
・重畳白色雑音は歪を緩和する。なぜなら、白色雑音は広帯域雑音であり、いかなる周波数帯でも有効だからである。実際、我々は、歪のパワーが無視できるよう雑音除去信号の半分の強度の白色雑音を重畳させた。従って、白色雑音を加えた歪んだ音声信号は、白色雑音を含む歪みのない音声とみなされる。
・白色雑音を重畳させた音声データを用いて学習した音響モデルは、白色雑音を重畳させた音声の自動音声認識性能を改善する。この場合、システムは、音声に含まれるただ1種類の雑音、すなわち、白色雑音を想定すればよい。自動音声認識においては、多種類の雑音を扱うより1種類の雑音を扱う方が容易であり、白色雑音は、統計学的モデルを用いる自動音声認識に適している。
低レベル白色雑音を重畳させることは、音声学会においては雑音頑健性自動音声認識へのアプローチとして公知である。スペクトル減算の後、歪をぼかすために低レベル白色雑音を重畳させた。その結果、雑音下の音声認識に対するこのアプローチの有用性が示された。重畳させた雑音は、オフィスのバックグラウンド雑音、すなわち、周波数領域において、いくつかの固有特性を有する広帯域雑音である。我々は、より高い頑健性を得るために、この手法を、より強調して使用した。重畳させた雑音のパワーは、音声パワーの半分近くであり、固有特性を有する雑音ではなく白色雑音を用いた。我々が知る限り、人型ロボット聴覚システムへのこの手法の適用は今回が最初である。従って、その意味で我々のアプローチはオリジナルであると考える。
3)対数スペクトル特徴量抽出
白色雑音を重畳させた後、音声特徴量を抽出する。我々は、音声特徴量として、MFCCではなく対数スペクトル特徴量を用いた。これは、モータ雑音の特性によるものである。モータ雑音は、周波数領域において一様なパワーを有していない。通常、パワーは、ある周波数帯に集中している。このことは、モータ雑音の作用はサブ周波数帯に依存することを意味する。一旦MFCCに変換されると、モータ雑音は、係数全体、すなわち、ケプストラム領域における全てのサブ周波数帯にわたり広がる。特徴量の信頼性は、サブ周波数帯ごとに推定される。従って、周波数領域における特徴量ベクトルはMFT−ASRに適している。MFCCの場合、雑音頑健性音声特徴量を得るために、C項正規化、リフタリング、ケプストラム平均正規化という3つの正規化処理が行われる。これらの処理は極めて有効であることが知られている。そこで、我々は、対数スペクトル特徴量に対し、MFCCにおける3つの正規化処理に対応するスペクトル正規化処理、すなわち、平均パワー正規化、スペクトルピーク強調、スペクトル平均正規化を行った。スペクトル正規化の詳細は公知である。
B.モータ雑音を利用したミッシング・フィーチャ・マスク生成
ここでは、どの時間枠のどの周波数帯がモータ雑音による障害を受けるかを表すMFT−ASRミッシング・フィーチャ・マスクを推定する。この推定は、音声及び雑音に関する事前情報を用いない場合、依然として難しい。しかしながら、本願では、システムが、動作指令を用いてモータ雑音を推定する。そこで、ここでは、モータ指令と事前収録されたモータ雑音テンプレートとを用いてミッシング・フィーチャ・マスクを推定する。本手法は、3つの処理、すなわち、事前収録されたモータ雑音テンプレートを用いた雑音テンプレート選択、雑音マッチング、連続ミッシング・フィーチャ・マスク生成を含む。
1)雑音テンプレート選択
この処理は、入力された動作指令に対応する事前収録雑音テンプレートを選択する。雑音テンプレートは、事前収録されたモータ雑音テンプレートデータベースから選択される。このデータベースは、全ての動作の雑音を事前に収録することにより構成される。我々のデータベースには、現在、32種類の雑音テンプレートが収容されている。選択されたテンプレートは雑音マッチング処理に送られる。
2)雑音マッチング
この処理で入力されるのは、選択された雑音テンプレートと人型ロボットのマイクロフォンで捕捉された音である。動作のタイプが同じである場合、対応するモータ雑音は類似のスペクトル特性を有する。そこで、2つの入力をマッチングさせることにより、捕捉された音に含まれる対象雑音を推定することができる。本願では、対象音(音声と雑音の混合)に含まれる雑音を対象雑音と称することに留意されたい。我々は、雑音テンプレートと対象雑音とをマッチングさせるために以下の方法を用いた。雑音テンプレートと対象雑音との相違に関するN個のサンプルの平均値D(s)は以下のように定義される。
Figure 0005041934
ここで、T,Rは、それぞれ、雑音テンプレート、対象雑音である。T(s),T(-s)は、前方あるいは後方にs個のサンプル分だけシフトさせた音声特徴量ベクトルを意味する。Rは、音声データを含まない音響信号として得られる。
マッチングされたsは以下のように定義される。
Figure 0005041934
T(s)の音声特徴量は、時間シフト情報sとともにミッシング・フィーチャ・マスク生成処理に送られる。
3)連続ミッシング・フィーチャ・マスク生成
この処理では、各々の時間枠についてミッシング・フィーチャ・マスクを推定するために、対象雑音の時間シフト情報、選択された雑音テンプレート、補足された音を用いる。ミッシング・フィーチャ・マスクにおける各数値は、対応するサブ周波数帯の信頼性である。信頼性の範囲は0から1なので、連続ミッシング・フィーチャ・マスクを用いていると言える。
ミッシング・フィーチャ・マスクは、雑音レベルに応じて決定される。ここで、いくつかの信号を定義する。推定された雑音T(s)の対数スペクトルをn(k,t)、kは対数スペクトル音声特徴量ベクトル、tは時間枠である。入力音声の対数スペクトル、雑音除去後に白色雑音を重畳した信号は、それぞれ、y(k,t)、p(k,t)である。クリーン音声の対数スペクトルは、以下のように推定される。
Figure 0005041934
重み係数f(k,t)は以下の式で計算される。
Figure 0005041934
ここで、median(a(k))は、数値a(k)のメディアン値を得る関数である。P(k, t) and C'(k, t)は、それぞれ、p(k, t) and c_(k, t)の正規化スペクトルである。
重み係数f(k,t)の範囲は広い場合があるので、我々は、f(k,t)が0からfthの値をとるように、上限しきい値fthを設定した。fthは経験的に5.0とした。次いで、f(k,t)をミッシング・フィーチャ・マスクw(k, t)として正規化を行った。1つの時間枠におけるw(k, t)の総計は、音声特徴量ベクトルKの次元数と等しくなる。この正規化により、挿入ペナルティのようなパラメータ値の最適化数値の変化が抑制される。
Figure 0005041934
C.ミッシング・フィーチャ理論に基づく自動音声認識
ここでは、MFTに基づき復号器が入力音声を認識する。MFTは、非定常雑音に対して有効に作用すると考えられる。白色雑音以外のほとんどの歪及び雑音は、第1ブロックで除去されるが、音声特徴量は、依然、ある種の歪を含んでいる。MFTは、このような歪の処理において有効である。事前収録された雑音と対象音声に含まれる雑音との差異が大きい場合、MFTの効果は低下することに留意されたい。
MFTにおいては、音声特徴量ベクトルにおける信頼性の高い特徴量は大きな重み付けを有し、信頼性の低い特徴量は小さい重み付けを有する。重み付けは音響尤度に影響する。MFTを用いない場合、音素モデルq及び音声特徴量ベクトルsの音響尤度は以下のように定義される。
Figure 0005041934
MFTでは、重みωを用いて、音響尤度は以下のように定義される。
Figure 0005041934
我々は、提案手法の有効性を検証するために、孤立単語認識を通じてシステムを評価した。我々は、実験台としてホンダASIMOを用いた。ASIMOは、その頭部に装着された2つのマイクロフォンを有する。我々は、左側マイクロフォンから収録されたデータを用いた。
我々は、学習及び実験データのために2つのタイプの音声データセットを準備した。クリーン音声データとして、我々は、ATR216音素バランス単語セットを用いた。音響も出る学習には、19話者(男性9話者、女性10話者)を含む単語セット(以下、データセットA)を用いた。さらに、孤立単語認識実験には、3話者(男性2話者、女性1話者)(以下、データセットR)を用いた。ASIMOは、その頭部に装着された2つのマイクロフォンを有するが、我々は、データを収集するためにASIMOの左側マイクロフォンを選択した。
学習用データセットを作成するために、我々は、まず、データセットAの全ての音声データを拡声器を通じて再生し、無響室内で左側マイクロフォンを通じて録音した。ASIMOと音源との間の距離は100cmに固定し、音源の方向もASIMOの中心を向くように固定した。ASIMOの定常雑音もASIMOにより無響室内で録音した。次いで、収録した音声に雑音を加えることで学習データセットAを作成した。
実験データセットは、クリーン音声データと、音源からASIMOの左側マイクロフォンまでの伝達関数との畳み込みを行うことにより生成した。畳み込み音声データにモータ雑音を重畳させた。伝達関数は、インパルス応答の測定により取得した。インパルス応答は、7m(W)×4m(D)×3m(H)の部屋において測定した。この部屋は、3方の壁面が吸音材で覆われ、1つの壁面がガラスで形成されている。床と天井は平坦であり残響を発生する。室内にはキッチン流し台が設置されている。我々は、低周波数の空調音を聞くことができる。従って、この部屋は、人型ロボットのモータに加えて、非対称の残響音と雑音源とを有する。ASIMOは、部屋の中央に置かれた。ASIMOと音源との間の距離は50cm、100cm、150cm、 200cmに設定し、音源の方向は、ASIMOの前面に向けて固定とした。インパルス応答は、ASIMOをオフ状態にして各点で測定した。我々は、また、32種類の雑音、すなわち、定常モータ雑音、ジェスチャ雑音、歩行雑音を収録した。これらの雑音データはデータセット生成だけでなく、事前収録雑音テンプレートのデータベース作成にも使用した。これらの動作の雑音は数回収録し、実験用雑音、マルチコンディション音響モデル学習用雑音、マッチングのためのテンプレート用雑音は、互いに排他的なものとした。実験データセットRは、データセットRと測定された伝達関数との畳み込みを行った後、捕捉したモータ雑音を重畳させることにより生成した。このようにして、2つの音声データセット、すなわち、学習用のAと実験用のRを準備した。
次いで、以下のデータセットを用い、トライフォンに基づく4つの音響モデルAM−1〜AM−4を学習した。
AM−1 データセットAのみ(クリーンモデル) 、
AM−2 データセットA+A(マルチコンディション学習音響モデル) 、
AM−3 データセットA+データセットAに雑音除去を施して得られたA
AM−4 データセットA+データセットAに白色雑音を重畳して得られたA
及びAは、依然、モータ雑音を含んでいるので、厳密に言えば、AM−3とAM−4は、マルチコンディション学習モデルと称さなければならないかもしれない。しかしながら、Aにおけるモータ雑音は低減され、雑音レベルはAより著しく小さい。Aは、白色雑音のみを含む音声データ、すなわち、「単一条件」とみなされる。従って、我々は、AM−3とAM−4を非マルチコンディション学習音響モデルと定義した。
我々は、表3に示す6条件で音声認識性能を比較した。条件Aは、クリーン音響モデルによる従来の音声認識に過ぎない。条件Bでは、公知の雑音頑健性手法であるマルチコンディション学習音響モデルをシステムに用いた。現在、ロボット及びカーナビゲーションへのほとんどの適用はこの手法である。従って、我々は、条件Bを基準条件とみなした。条件Cでは、白色雑音を重畳させることなく、従来の自動音声認識手法を用いて、雑音除去された音声信号の認識を行った。この結果は、雑音除去の基本性能を示すことになる。この場合、我々は、前述の対数スペクトル音声特徴量抽出に際して平均パワー正規化手法を用いなかった。なぜなら、この正規化は、雑音除去における歪によって、対数スペクトル音声特徴量に悪影響を及ぼすからである。実際、我々は、平均パワー正規化手法を用いない場合の対数スペクトル音声特徴量が、この正規化を用いた場合の対数スペクトル音声特徴量より優れた結果をもたらすことを確認した。条件Dでは、雑音除去と白色雑音重畳を行ったが、従来の自動音声認識手法を用いた。従って、この結果は、白色雑音重畳の有効性を示す。条件Eが提案手法である。この条件では、雑音除去、白色雑音重畳、及びMFT−ASR(ミッシング・フィーチャ理論に基づく自動音声認識)を行った。我々は、条件Eにおける性能が、条件AからEの中では最も優れたものになると考えた。しかしながら、ミッシング・フィーチャ・マスク生成において、我々は、修正ミッシング・フィーチャ・マスク情報をシステムに用いた。修正ミッシング・フィーチャ・マスク情報は、入力音声に含まれるモータ雑音を雑音テンプレートとしてシステムに用いることで生成した。条件Fは、我々のアプローチにおいて最良の性能を示すものと思われる。
Figure 0005041934
表4は、実験結果を示す。各雑音タイプ及び各距離ごとに、大きいボールド体の文字は、条件AからEのうちの最良の結果を示し、大きいイタリック体の文字は、次に良好な結果を示している。条件Eの欄においては、基準条件(条件B)に対する提案手法(条件E)の誤り率であるP値を示している。提案手法により性能が改善されたことが統計学的に言えるP値10%未満の部分を、表4では強調して示した。P値が100%を超えた部分は、「−」で示した。
条件Fは、ミッシング・フィーチャ・マスクの推定に事前情報を用いているので、概して、最良の性能を示している。条件BあるいはDは、次に良好な性能を示している。P値によれば、距離200cmで手を使うジェスチャ及び歩行動作の場合、提案手法は、自動音声認識性能において統計学的に著しい改善を見せた。我々は、他のケース、すなわち、距離50cm、100cm、150cmにおける頭部のジェスチャ及び歩行動作において顕著な差異を見出すことはできなかった。
Figure 0005041934
頭部のジェスチャに対して提案手法が良好に機能しなかった理由は、ASIMOにおいて頭部の動作の雑音が特に大きくはないため、すなわち、これらの雑音に対して入力音声が高いSN比を有しているためと考えられる。実際、我々は、頭部の動作音を聞くことができなかった。これにより、頭部の動作に関しては、条件Aが良好な自動音声認識性能を示すことになった。歩行動作の場合には、50cm、100cm、150cmの距離において、やはり入力のSN比が高いという理由で、提案手法が良好に機能しなかったと言える。これらのケースでは、マイクロフォンが頭部に装着され雑音は脚部から来るため、雑音源とマイクロフォンが、やや離れている。従って、他のジェスチャと比較して入力のSN比が高くなる。しかしながら、反響の効果が強くなるため、入力のSN比が高いにもかかわらず、条件Aでは、歩行動作に関して良好な結果が得られなかった。対象音声源までの距離が200cmの場合、入力のSN比が低いので、提案手法は、より有効であった。このように、マルチコンディション学習法と比較すると、提案手法は、低SN比入力の場合に、より有効であり、高SN比入力の場合には、ほぼ同等であると言える。
雑音除去のみを用いた場合(条件C)、良好な性能は得られなかった。これは、我々の雑音除去手法が、自動音声認識に影響を及ぼすほどに強い歪を生じさせることを意味する。しかしながら、雑音除去と白色雑音重畳との組合せ(条件D)は、自動音声認識性能をマルチコンディション学習法(条件B)と同等にまで改善する。もし白色雑音重畳のみ適用すると、雑音レベルは対象音声信号よりずっと高くなり、システムによる音声認識は、より困難になる。従って、このような組合せ使用は、低SN比の入力を扱う際の中核技術である。
MFTの使用(条件E)は、基本的には、特に低SN比の入力に対して有効である。実験結果によれば、提案手法、すなわち雑音除去、白色雑音重畳、及びMFTの組合せは、マルチコンディション学習法より優れている。事前ミッシング・フィーチャ・マスクを有するMFT(条件F)と比較すると、提案手法は、わずかに劣っている。このことは、我々のミッシング・フィーチャ・マスク自動生成が、ほぼ正確なミッシング・フィーチャ・マスクを生成し、事前収録された雑音テンプレートの使用が、モータ雑音の処理に関して有効であることを意味する。
本願では、人型ロボット自体のモータ雑音を処理する自動音声認識手法を提案した。人型ロボット自体のモータ雑音が存在する場合の自動音声認識を改良するために、自動音声認識に適した雑音除去と、事前収録したモータ雑音テンプレートを利用するミッシング・フィーチャ理論方式自動音声認識いう2つの手法を組合せた。通常、雑音除去は入力音声のSN比を向上させる手法である。自動音声認識では、雑音除去による歪が自動音声認識性能を低下させる可能性があるので、高いSN比を有する音声が必ずしも最適な入力ではない。この課題は、雑音除去後の信号に白色雑音を重畳させることで解決した。この考えは、人間の聴覚に関する心理学的事実から発想された。ミッシング・フィーチャ理論の適用においては、信頼性の低い音声特徴量の自動推定が主要課題である。本願の手法は、この課題を、人型ロボットの制御装置から得られる動作パターン情報と動作パターンに対応する事前収録モータ雑音とを利用することによって解決した。自動音声認識システムは、提案手法に基づき、ホンダASIMOを用いて構築した。構築されたシステムを用いて得られた実験結果は、本手法が、特にSN比の低い入力に対して有効であることを証明した。
第3実施形態
3.MFTを用いた動作音への雑音適応化手法
図5は、本発明の第3実施形態における雑音適応化手法のブロック図である。
3.1 雑音除去処理
入力信号のSN比は低い(0dB以下である場合もある) ため、このような環境で自動音声認識に有効な音声特徴量を抽出することは難しい。そこで,入力信号のSN比を改善するため雑音除去処理を行う。雑音除去処理には式(14) に示されるSS法 を用いる。
Figure 0005041934
ここで、X(f)は入力信号のスペクトルを示し、N(トップバー) は入力信号に重畳している雑音信号の平均スペクトルを示す。α,βはSSを行う際のパラメータであるが、本実施形態では一般的に用いられている値(α=1,β=0.1)を用いる。
3.2 白色雑音重畳
雑音除去処理はSN比を向上させるが、同時にスペクトルの歪みを生み出す。このスペクトル歪みが認識性能に悪影響を及ぼす。雑音除去手法に関わらず、背景雑音の状況によっては大きな歪みを生じることがあり、自動音声認識ではスペクトル歪みに対する処理が必要である。特に本願の対象とするロボットの動作雑音では、雑音パワーが大きく、歪みも大きいことが予測される。そこで、本実施形態ではこのスペクトル歪みを軽減するため、雑音除去処理の後に薄く白色雑音を重畳させることとした。定常雑音を加えることで、雑音の引き残し成分を平坦化し、自動音声認識性能を高めることが期待される。
白色雑音の重畳には、入力信号のある程度のレベルの白色雑音を加えることが歪みを抑制するのに役立つと考え以下のような式(15)を用いる。
Figure 0005041934
y(t)は雑音除去処理後の信号であり、random(1)は、−1から+1までの任意の実数値をランダムに返す関数である。本実施形態では、p=0.1とする。すなわち、平均して入力信号の10%程度の大きさの白色雑音が加わることとなる。
3.3 音響モデルの雑音除去処理への適応
ロボットの音声認識では、学習に、定常雑音を含めた音声データを用いるマルチコンディション学習による音響モデルを用いた手法が有効である。ロボットは定常時でもモータ音やファン音を発するため、この雑音を含めて学習することでクリーン音声データのみで音響モデルを学習する場合と比べ、認識性能が向上する。定常雑音が常に発せられているロボットでは、マルチコンディション学習による音響モデルは通常の音声認識で想定されているクリーン音響モデルと等しいとも考えられる。
しかし、マルチコンディション学習による音響モデルを用いると、雑音除去処理を行った際に音声認識性能が低下することがある。この原因として、雑音除去処理によりスペクトル構造が歪むことや、雑音除去処理によりロボットが定常的に発する雑音までもが取り除かれ、学習時の音声データと認識時の音声データに大きな差が生まれることなどが考えられる。
本実施形態ではこの問題を解決するため、雑音除去処理により雑音が除去された音声データを用いて音響モデルを学習することとした。これにより、音響モデルが雑音除去処理後の音声データを学習し、雑音除去処理による音声認識性能の低下を防ぐことが期待できる。
3.4 対数スペクトル特徴量の抽出
白色雑音を重畳した後に音声特徴量を抽出する。音声特徴量には音声認識に一般的に用いられるメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients,MFCC)ではなく、対数スペクトル特徴量を用いる。動作音などの雑音は、スペクトル領域において加算される。しかし、従来用いられているMFCCはスペクトルをさらに離散サイン変換(Discrete Cosine Transform,DCT)した領域であるため、ある周波数帯域に加算された雑音は全ての特徴量に影響を与えてしまう。MFTを用いた音声認識では、雑音に埋もれた信頼性の低い周波数帯域を抽出することが必要であるため、ケプストラム領域の音声特徴量よりもスペクトル領域の音声特徴量の方が都合がよい。MFCCではケプストラム領域に変換された後、C項の除去、リフタリング、CMS(Cepstrum Mean Subtraction、ケプストラム平均減算) の3つの正規化処理が行われる。これらの正規化処理は音声認識性能を向上させる上で重要であることが知られているため、使用した対数スペクトル特徴量においても、対数スペクトル領域において同様の正規化処理を施している。
3.5 MFTマスクの生成
MFTマスクはフレームごと、周波数帯域ごと(音声特徴量の次元ごと) に生成される。自動的なマスクの生成は公知である。しかし、完全に理想的なマスクを生成することは現実的には困難である.本実施形態では、ロボット自身の動作情報は動作前に取得できるため、これに基づいて動作音の推定を行う。動作音の推定については、あらかじめ収録した雑音テンプレートと現在入力されている動作音との時間的なマッチングにより行う。そして、入力された信号と推定された動作音に基づいてマスクの生成を行う。詳細については次に示す。
3.6 雑音テンプレートの選択
あらかじめ収録した動作音を雑音テンプレートとしてデータベースに入力する。本実施形態では、34種類の動作音を用意した。ロボットが動作を行う際には、データベースから動作種類に応じた雑音テンプレートを選択する。現在発せられている動作音はこの雑音テンプレートと同じであると仮定し、雑音テンプレートを用いた雑音推定を行う。
3.7 雑音マッチング
雑音テンプレートの選択が行われても、その雑音と現在発せられている雑音が時間的にはマッチしていない。そこで、時間的に雑音をマッチングさせる必要が生じる。マッチングは以下の方法により行われる。T(f)を雑音テンプレートのスペクトル系列、I(f)を入力信号のスペクトル系列とする。fはフレームとし、d は周波数軸方向のスペクトルの次元とする。Dを1フレームの窓長(サンプル数) とすると、1≦d≦Dである。また、雑音テンプレートにおける各次元のスペクトルの最大値をMとする。
ここで、入力信号I(f) について、Mを超えるものは音声信号が重畳しており、ミスマッチの要因となると考え、そのようなスペクトル系列の値を0 とする.
Figure 0005041934
マッチングはI´とTの相互相関をとることにより行った。最も相関が高いフレームsは式(17)で表される。
Figure 0005041934
得られたsの1≦d≦Dのうち、最もsの値の数が大きいものをsmatchとしてマッチングに用いる。
マッチング後の推定雑音E(f)は式(18)により得られる。
Figure 0005041934
3.8 マスクの生成
まず、マッチングされた雑音テンプレートT(smatch)は対数スペクトルに変換される。変換された対数スペクトルの雑音をn(k,f)とする。kは次元(周波数軸方向) を示し、fはフレーム(時間軸方向) を示す.同様に、入力された雑音を含む対数スペクトルをy(k,f)、雑音除去処理後、白色雑音を重畳した対数スペクトルをp(k,f)とする。推定された音声信号は以下の式(19)で表される。
Figure 0005041934
マスクm(k,f)は以下の式(20)で計算される。
Figure 0005041934
median(a(k))はa(k)の中央値を得る関数である。P(k,f)およびC´(k,f)は対数スペクトルp(k,f)およびc´(k,f)に正規化処理を施したものである。m(k,f)がとても大きな値になることを防ぐため、閾値tthを設けた。したがって、m(k,f)のとる範囲は0からtthである。tthは実験的に5.0とした。
さらに、MFTマスクの正規化を行う。この正規化は、MFTを用いた音声認識を行うことで挿入ペナルティなどの最適パラメータの変化を抑えるために行う。正規化後のMFTマスクをw(k,f)とし、1 フレームにおけるw(k,f)の合計が音声特徴量の次元数kと同じになるように正規化を施す。
Figure 0005041934
3.9 MFTに基づく尤度の計算方法
MFTは非定常な雑音に対しても効果がある。雑音除去処理や白色雑音の重畳によってSN比は改善されるが、MFTを用いることでさらに非定常な雑音成分に対しても効果があると期待できる。しかし、雑音テンプレートと実際に生じた雑音に大きな差がある場合には効果は薄い。
MFTでは信頼性の高い特徴成分に対しては大きな重みを、信頼性の低い特徴成分に対しては小さな重みを用いて尤度の計算を行う。MFTを用いない従来の音声認識では、音素モデルq、音声特徴量sの尤度は以下の式(22)によって与えられる。
Figure 0005041934
MFTを用いた場合、音響尤度は、マスクをω(i,f)として以下の式(23)のように定義される。
Figure 0005041934
4.実験条件
ホンダASIMO(登録商標)を用いて評価実験を行った。ASIMOの左側マイクロフォンを用いて音声の収録を行い、孤立単語認識による評価を行った。評価用データにはATR音素バランス単語を用いた。音素バランス単語には男性12 話者、女性13話者の合計25話者の音声データが含まれ、1 話者あたりの発話数は216である。各発話は「いきおい」、「いよいよ」などの単語発声である。
音響モデルの構築には男性9話者女性10話者の合計19話者の音声データ(学習セットA1) を用いた。このデータは無響室において100cmの距離から収録を行い、音圧の変化にも柔軟に対応できるようにするため、SN比のレベルを変化させて(+5dB,+10dB,+15dB) 学習を行った。
実験用のデータは男性3話者女性3話者の合計6話者の音声データ(実験セットR) を用いた。このデータは音響モデルの学習とは異なる話者から構成されている。収録は、7m(W)×4m(D)×3m(H)の部屋において行った。実用的な環境においても性能を発揮するか検証するため、家庭のリビングを想定した大きさの部屋で、反響音のある環境で収録を行った。話者とロボットのマイクの距離は50cm、100cm、150cm、 200cmの4距離である。ロボットの動作雑音については、32種類の動作を用いて認識実験を行った。この動作音はASIMOの電源を投入し、動作を全く行っていない定常雑音1種類と「バイバイ」や「お辞儀」などの上半身の動作を主とするジェスチャ雑音25種類および「直進」や「回転」など足を用いた動きを主とする歩行雑音8 種類より構成される。実験セットRに動作音を重畳したものを実験セットRとする。
提案手法と従来の有効な手法であるマルチコンディション学習による音響モデルを用いた手法の比較を行うため、マルチコンディション学習用のデータを用意した。マルチコンディション学習はAのデータに加え、ASIMOの電源を投入したときのモータ音やファン音などの定常雑音が重畳されたデータA、動作雑音(動作1≦N≦34) が重畳されたデータA3(N)を用いた。認識実験では、以下の4つの音響モデルを用意した。
AM−1 学習セットAを用いたモデル(クリーンモデル)、
AM−2 学習セットAとAを用いたモデル(マルチコンディション学習モデル1)、
AM−3 学習セットAとA3(N)を用いたモデル(マルチコンディション学習モデル2)、
AM−4 学習セットAとAに雑音除去処理を施したAを用いたモデル、
AM−5 学習セットAとAに白色雑音を重畳したA5(p)を用いたモデル。
音響モデルAM−3は雑音環境ごとに作成しているため、全部で34種類のモデルが存在する。さらに、音響モデルAM−5は重畳する白色雑音の大きさを変化させているため、式(15)に示すp={0.05,0.1,0.2,0.4}とした4種類のモデルが存在する。
評価実験を行うにあたり、ベースラインとして3つの音響モデルを用いた自動音声認識実験を行った。この条件を表5に示す。条件Aでは音声認識において一般的に用いられるクリーンモデルを用いた。条件Bおよび条件Cでは雑音に頑健な手法としてマルチコンディション学習モデルを用いた。条件Bでは定常雑音のみを用いて音響モデルを学習しているのに対し、条件Cではロボットの動作音、すなわち非定常雑音も用いて音響モデルの学習を行った。実験は、以下の3つより構成される。
4.1 雑音除去処理の効果の検証
雑音除去処理を用いることで音声認識性能が向上することの検証を行う。表6に比較した手法を示す。条件Dは雑音除去処理を施し、マルチコンディション学習による音響モデル(マルチコンディション学習モデル1) を用いて音声認識を行った。条件Eは雑音除去処理を行った後の音声データを用いて音響モデルを学習し、自動音声認識を行った。条件Fから条件Iは雑音除去処理の後、白色雑音を重畳した音声データを用いて音響モデルの学習を行い、自動音声認識を行った。これらは式(15)に示すpの値を変化させている。
4.2 MFTを組み合わせることによる効果の検証
次に、提案手法のMFTを用いることで認識性能が向上することの検証を行った。雑音除去処理の後、白色雑音を重畳した音声データを用いて音響モデルを学習する条件Gと、条件GでMFTによる自動音声認識を用いる条件Jから条件Lの手法を比較する。白色雑音の重畳はp=0.1を用いた。pの最適値は、距離や動作によって異なるため、中間的な値としてp=0.1を用いることとした。
MFTを用いた自動音声認識では次の3つの条件のもとにマスクの計算を行った。条件Jで用いている条件は実環境を想定した条件であり、雑音マッチングの際に、雑音と音声が混入した入力信号と雑音テンプレートとのマッチングを行う。雑音テンプレートはあらかじめ収録した雑音であるため、入力信号の雑音と同じ種類の動作音であるが、同一ではない。雑音テンプレートと入力信号の雑音は、マッチングした時間より0msから200msの間でランダムにずらして重畳させてある。条件Kは条件Jよりも理想的で雑音マッチングのしやすい条件である。この条件では雑音区間が完全に抽出できたことを想定し、雑音区間のみで雑音テンプレートと入力信号の雑音のマッチングを行う。この条件でも、入力信号の雑音と雑音テンプレートは同じ種類の動作音であるが、同一ではない。条件Lは最も理想的な条件であり、実環境では想定できない条件である。この条件では、雑音が完全に既知としてマスク計算を行った。雑音が完全に既知である場合に、どの程度の認識性能となるか参考のため実験を行った。したがって、条件Jおよび条件Kでは推定雑音は入力信号の雑音と同一ではないのに対し、条件Lでは入力信号の雑音が推定されている。
4.3 MLLRとの組合せによる効果の検証
雑音に頑健な手法として一般的に用いられているMLLRと本提案手法との組合せについて実験を行った。本願では、人・ロボットのコミュニケーションにおいて、不特定の人とのコミュニケーションを考慮に入れ、教師なしMLLRを行うこととした。具体的に、例えば、展示会場に案内ロボットがおり、人がロボットと話しをすることで、入力音声を用いてMLLRによる音響モデルの適応を行う。対話が進むことで認識性能を向上させることを想定している。
表8に比較した手法を示す。条件B’, 条件C’および条件J’から条件L’は表5に示す条件B,条件Cおよび表7に示す条件Jから条件Lに教師なしMLLRを行ったものである。この実験により、従来から有効な手法とされているマルチコンディション学習による音響モデルを用いた手法と提案手法の、MLLRとの組合せについての比較を行う。
Figure 0005041934
Figure 0005041934
Figure 0005041934
Figure 0005041934
5.実験結果
表9にベースラインとして求めた自動音声認識結果を示す。条件Aから条件Cのうち最も性能のよいものをボールド体で示してある。条件Bおよび条件Cはマルチコンディション学習による音響モデルを用いた自動音声認識結果を示す。クリーンモデルと比べてマルチコンディション学習による音響モデルは有効性が大きいことが確認できる。条件Bおよび条件Cは環境によってどちらが有効であるか異なるが、全体的に見て性能がよい条件Cを従来手法として、以下の実験結果で提案手法との比較を行う。
5.1 雑音除去処理の効果
表10に実験結果を示す。最も自動音声認識性能のよかったものをボールド体で示している。
条件DはSSを施し、マルチコンディション学習による音響モデルを用いて自動音声認識した結果を示す。条件Bと条件Dを比較すると、条件Dの方が認識性能が低い。条件Bと条件Dの違いは、条件BはSSを行わないのに対し、条件DはSSを行う。SSを行うことで認識性能が低下した理由として、雑音が除去されることで認識時と学習時の音声データの差が大きくなり、認識性能低下につながったものと考えられる。
条件EはSSを施した後の音声データを用いて、音響モデルの学習を行っている。条件Eは条件Dと比べて認識性能が高い。また、条件Bと比べても認識性能が高いものがほとんどである。雑音除去が行われた後の音声データを用いて音響モデルの学習を行うことで、雑音除去処理の効果が表れることが確認できる。条件Fから条件IはSSにより生じた歪みを軽減するため、白色雑音の重畳を行っている。音響モデルは、雑音除去処理後、白色雑音の重畳を行った音声データを用いて学習を行い、認識時にも同様の処理を入力信号に施す。
条件Eと条件Fから条件Iを比較すると、条件Fから条件Iの中に最も性能のよいものの多くが入っている。これより、白色雑音を重畳することにより認識性能が向上することが確認できる。また、条件Fから条件Iの中では認識性能が最もよい条件を一意に定めることはできない。認識性能を最大とする白色雑音の重畳の大きさ(式(15)のpの値) は雑音環境によって異なるが、白色雑音を重畳することで認識性能を高めることができることを確認できる。
5.2 MFTを組み合わせることによる効果
表11にMFTを用いた自動音声認識の実験結果を示す。最も実用的な手法はJであり、従来手法Cと比べてJの方が高い性能を示したものをボールド体で示す。また、Cと比べたJの有意性の確認を行った。これには有意水準p 値を用いた。
白色雑音の重畳には、p=0.1を用いた。実験結果より、どの雑音環境、距離についても提案手法の方が従来手法であるマルチコンディション学習による音響モデルを用いたものよりも高い性能を示している。これにより、提案手法の有効性が確認できる。
また、MFTを用いない条件GとMFTを用いた音声認識を行う条件Jとを比較すると、条件Jの方が自動音声認識性能が高いものがほとんどであり、MFTを用いることでロボットの動作音への頑健性を向上させることが確認できる。
5.3 教師なしMLLRを組み合わせることによる効果
表12にマルチコンディション学習による音響モデルを用いた手法と、提案手法のそれぞれに教師なしMLLRを組み合わせた際の実験結果を示す。従来手法B’,C’と提案手法J’の中で最も自動音声認識性能が高いものをボールド体で示す。表11と同様にC’に対する提案手法J’の有意性の確認を行い、p 値を求めている。一部の雑音環境においてはC’の方が高い性能を示しているが、大半の環境では提案手法が有効であり、特に200cmの距離において提案手法が有効であることが確認できる。実験結果より、提案手法は有効な音響モデルの適応化手法とされるMLLRとの組み合せによっても、従来手法よりも高い自動音声認識性能を達成できることが示された。
Figure 0005041934
Figure 0005041934
Figure 0005041934
Figure 0005041934
6.考察
6.1 雑音除去処理による効果と白色雑音の重畳
SSは雑音除去を行う上で有効な処理として捉えられているが、マルチコンディション学習による音響モデルを用いた自動音声認識では、SSを行うことで学習時の音声データと認識時の音声データの差を拡げ、認識性能の低下が起こることがある。本実施形態の実験では、条件Bと条件Dで同じマルチコンディション学習による音響モデルを用いた自動音声認識を行い、条件DにはSSを施した。本来有効であるはずのSSが、マルチコンディション学習による音響モデルとの組合せでは逆に認識性能を低下させることが実験結果より明らかとなった。
本願では、マルチコンディション学習による音響モデルのような、雑音に頑健な音響モデルを用いつつSSを有効に活用するため、SSを行った後の音声データを用いて音響モデルの学習を行った。この手法を用いた条件Eと従来のマルチコンディション学習による音響モデルを用いた条件Bとを比較すると、条件Eの方が自動音声認識性能が高く、雑音に頑健な音響モデルを用いつつSSの効果が表れることが確認できる。SSの効果は特にSN比の低い200cmでよく表れており、定常雑音では8%程度の認識性能の向上が確認できる。
また、本願ではSS処理後に白色雑音を重畳することによりSSによる歪みを抑え、認識性能の向上を図った。条件Fから条件Iは白色雑音の重畳の大きさを変化させた結果を示している。白色雑音を重畳しない条件Eと比べると、白色雑音を重畳したものの方が高い認識性能を示しているものがほとんどであり、白色雑音の重畳はスペクトル歪みを軽減し、認識性能の向上につながることが確認できる。しかし、全ての環境で最適となる白色雑音の重畳量(式(15)のpの値) を一意に見出すことはできなかった。動作の種類ごとに見ると、頭の動作を含む雑音については白色雑音の重畳を大きくした方がよいことが分かる。これは、頭の動作は短い時間のものが多く、他の動作と比べるとマイクの近くで行われるため、雑音も大きい。ところが、SSは平均雑音を用いて雑音除去を行うため、時間の短い雑音は平均すると小さくなる。よって、本来はSSに用いられる平均雑音よりも大きな雑音が重畳しているにも関わらず除去しきれない引き残し成分が大きく表れることが考えられる。頭の動作では、白色雑音の重畳を大きくすることでこの引き残し成分を平坦化し、認識性能向上につながったと考えられる。
その他の雑音では最適な白色雑音の重畳量を見出せないが、傾向として、距離が離れているものほど白色雑音の重畳を小さくした方が効果がある。一見、距離が離れているものはSN比が低いため歪みが大きく発生し、白色雑音の重畳を大きくした方が効果的とも考えられる。しかし、距離が離れた環境では入力信号と比較して雑音信号が大きく、SSのフロアリングがよく効く。このフロアリングにより歪みの発生が軽減され、白色雑音を大きく重畳しなくとも高い性能が達成できたと考えられる。白色雑音の重畳量を決定するに際し、スペクトルの大きさだけでなく、フロアリングや雑音の持続時間も考慮に入れることでより高い認識性能を達成できると考えられる。
6.2 MFTを用いることの効果
雑音除去処理および白色雑音重畳の後、MFTを用いた自動音声認識を行う提案手法Jは従来手法Cと比べてほぼ全ての環境で高い性能を示し、有効であることがわかる。また、MFTを用いない条件Gと比べてMFTを用いる条件Jはほぼ全ての環境で高い性能を示しており、MFTを用いることの効果が確認できる。
条件Jは音声と雑音が重畳した入力信号を用いて雑音テンプレートとの雑音マッチングを行い、推定雑音を求めるが、条件Kは雑音信号が検出できたと仮定し、雑音信号のみを用いて雑音テンプレートとのマッチングを行う。また条件Lは雑音を既知とした条件である。条件Kおよび条件Lは条件Jと比べると理想的な環境であるため、認識性能も向上している。しかし、条件Jも条件Kおよび条件Lと比較して同じような性能を示しており、提案手法の雑音マッチングは音声と雑音が重畳していても効果的にできることを確認できる。50cmの環境では、条件Lの方が条件Jよりも性能が低くなっているものも見られる。条件Lは雑音が既知であるが、この条件でのMFTマスクが正しい自動音声認識結果を得るのに必ずしも最適なマスクということはできない。なぜならば、本実施形態で用いるマスク生成手法は、自動音声認識において重要と考えられるスペクトルの山と谷の重みを大きくし、さらに、雑音の小さな箇所の重みが大きくなるようマスク生成を行う。しかし、音響モデルはクリーンな音声のみで学習されたモデルではないため、このマスク生成手法が全ての入力信号に対して最もよいマスクを生成するとは限らない。したがって、雑音が既知であっても他の条件と比較して最も高い自動音声認識性能とはならない環境が現れたと考えられる。しかし、全体的に見てMFTを用いることで認識性能は向上しており、提案手法のマスク生成手法は有効な手法であると捉えることができる。
提案手法では、マルチコンディション学習による音響モデルは定常的な雑音に対して効果が高いと考え、条件Bをベースとした音響モデルを用いている。すなわち、あらかじめロボットの発する定常雑音を収録しておき、この雑音と音声との重畳を行う。得られた雑音を含む音声にスペクトル減算(SS)を施し、白色雑音を重畳した後にその音声データを用いて音響モデルを学習する。しかし、表9の結果を見ると、条件Bよりも条件Cの方が認識性能が高い場面が多く見られる。提案手法においても条件Cをベースとした音響モデル、すなわち、ロボットの発する定常雑音のみならず動作音も含む音声データを用いて音響モデルの学習を行うことで、認識性能のさらなる向上が期待できると考えられる。
6.3 教師なしMLLRを行った際の提案手法の有効性
教師なしMLLRと組み合わせた場合においても、従来手法C’と比べて提案手法J
’の方が高い性能を示すことが確認できる。MLLRは有効な音響モデルの適応化手法として捉えられており、多くの環境で性能が向上する。本提案手法は、MLLRとの組み合せが可能な雑音適応化手法である。
マルチコンディション学習による音響モデルとMLLRを併用した手法は実用的にも数多く用いられている。本提案手法においても、MLLRとの組み合わせた条件で効果があることで、従来手法と比べたメリットが一層大きくなると考えられる。
我々はこれまで、ロボットによるプレゼンテーションを行うソフトウェアを開発しており、プレゼンテーションの場面では話者からの質問が想定される。このような場合に教師なし適応と提案手法を組み合わせることで、話者との対話の蓄積の中で音響モデルがオンライン適応され、高い認識性能の達成が可能となる。また、同様の場面はプレゼンテーションのみならず、案内ロボットにも考えられ、多くの場面において本提案手法を用いることが可能であるといえる。
本発明の第1実施形態におけるロボット用音声認識手法のブロック図である。 本発明の第1実施形態における雑音適応化手法のブロック図である。 本発明の第2実施形態における雑音適応化手法のブロック図である。 ゲシュタルト心理学における知覚閉合の一例を説明する概略図であり、3つの断片が統合されていない状態を示す。 ゲシュタルト心理学における知覚閉合の一例を説明する概略図であり、遮蔽情報が統合を補助する状態を示す。 本発明の第3実施形態における雑音適応化手法のブロック図である。

Claims (1)

  1. モータを駆動して身体を動作させる駆動ユニットと、
    前記動作のパターンを表す動作指令を判別する判別ユニットと、
    前記動作の際に生じる雑音を収録した雑音テンプレートを動作指令と対応付けて保持する雑音テンプレート保持ユニットと、
    入力信号に含まれる雑音を除去する前処理ユニットと、
    前記前処理ユニットから出力された雑音除去信号に対して白色雑音を重畳する雑音重畳ユニットと、
    少なくとも2つの認識アルゴリズムを備えた音声認識ユニットであって、前記判別された動作指令及び前記雑音重畳ユニットから出力された白色雑音を重畳した信号の特徴量に基づいて前記雑音テンプレート保持ユニットから雑音テンプレートを選択し、前記選択した雑音テンプレートの特徴量が前記入力信号の特徴量から差し引かれたクリーン音声の特徴量から前記クリーン音声の特徴量のメディアン値を差し引いた値の絶対値を、前記白色雑音を重畳した信号の特徴量から前記クリーン音声の特徴量を差し引いた値で除算した重み係数を正規化して信頼性関数を算出し、音素モデル及び前記白色雑音を重畳した信号の特徴量の音響尤度を、前記信頼性関数が高いほど大きく重み付けして音声を認識する認識アルゴリズムを含む音声認識ユニットと、
    前記判別された動作指令に応じて前記認識アルゴリズムの1つを選択する切替ユニットと、
    を備えたロボット。
JP2007235753A 2006-09-13 2007-09-11 ロボット Expired - Fee Related JP5041934B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US84425606P 2006-09-13 2006-09-13
US60/844,256 2006-09-13
US85912306P 2006-11-15 2006-11-15
US60/859,123 2006-11-15

Publications (2)

Publication Number Publication Date
JP2008122927A JP2008122927A (ja) 2008-05-29
JP5041934B2 true JP5041934B2 (ja) 2012-10-03

Family

ID=39507686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007235753A Expired - Fee Related JP5041934B2 (ja) 2006-09-13 2007-09-11 ロボット

Country Status (1)

Country Link
JP (1) JP5041934B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106128451A (zh) * 2016-07-01 2016-11-16 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置
US9542937B2 (en) 2013-01-15 2017-01-10 Honda Motor Co., Ltd. Sound processing device and sound processing method

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548802B2 (en) 2009-05-22 2013-10-01 Honda Motor Co., Ltd. Acoustic data processor and acoustic data processing method for reduction of noise based on motion status
WO2011010647A1 (ja) * 2009-07-21 2011-01-27 独立行政法人産業技術総合研究所 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
US8577678B2 (en) * 2010-03-11 2013-11-05 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
JP5450298B2 (ja) * 2010-07-21 2014-03-26 Toa株式会社 音声検出装置
JP5328744B2 (ja) * 2010-10-15 2013-10-30 本田技研工業株式会社 音声認識装置及び音声認識方法
US9431027B2 (en) 2011-01-26 2016-08-30 Honda Motor Co., Ltd. Synchronized gesture and speech production for humanoid robots using random numbers
JP5966689B2 (ja) * 2012-07-04 2016-08-10 日本電気株式会社 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム
JP2014145838A (ja) * 2013-01-28 2014-08-14 Honda Motor Co Ltd 音響処理装置及び音響処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792990A (ja) * 1993-09-27 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
EP1022724B8 (en) * 1999-01-20 2008-10-15 Sony Deutschland GmbH Speaker adaptation for confusable words
US6205426B1 (en) * 1999-01-25 2001-03-20 Matsushita Electric Industrial Co., Ltd. Unsupervised speech model adaptation using reliable information among N-best strings
JP2001215988A (ja) * 2000-01-31 2001-08-10 Matsushita Electric Ind Co Ltd 車載ナビゲーション装置
JP4190735B2 (ja) * 2001-01-25 2008-12-03 パナソニック株式会社 音声認識方法および装置とナビゲーション装置
JP2002323900A (ja) * 2001-04-24 2002-11-08 Sony Corp ロボット装置、プログラム及び記録媒体
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP2003241791A (ja) * 2002-02-22 2003-08-29 Matsushita Electric Works Ltd 音声認識装置及び方法
JP2004198831A (ja) * 2002-12-19 2004-07-15 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
JP2004219918A (ja) * 2003-01-17 2004-08-05 Canon Inc 音声認識環境判定方法
JP2005275348A (ja) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置
JP4283212B2 (ja) * 2004-12-10 2009-06-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音除去装置、雑音除去プログラム、及び雑音除去方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542937B2 (en) 2013-01-15 2017-01-10 Honda Motor Co., Ltd. Sound processing device and sound processing method
CN106128451A (zh) * 2016-07-01 2016-11-16 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置
CN106128451B (zh) * 2016-07-01 2019-12-10 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置

Also Published As

Publication number Publication date
JP2008122927A (ja) 2008-05-29

Similar Documents

Publication Publication Date Title
JP5041934B2 (ja) ロボット
US20080071540A1 (en) Speech recognition method for robot under motor noise thereof
JP5738020B2 (ja) 音声認識装置及び音声認識方法
US9269368B2 (en) Speaker-identification-assisted uplink speech processing systems and methods
Valin et al. Robust recognition of simultaneous speech by a mobile robot
Yamamoto et al. Enhanced robot speech recognition based on microphone array source separation and missing feature theory
Nakatani et al. Dominance based integration of spatial and spectral features for speech enhancement
JP2021505933A (ja) 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調
Ince et al. Assessment of general applicability of ego noise estimation
Saffari et al. Ava (a social robot): Design and performance of a robotic hearing apparatus
Ince et al. Ego noise suppression of a robot using template subtraction
Kothapally et al. Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking
US11790930B2 (en) Method and system for dereverberation of speech signals
Nakadai et al. A robot referee for rock-paper-scissors sound games
Yamamoto et al. Design and implementation of a robot audition system for automatic speech recognition of simultaneous speech
Huang et al. Multi-microphone adaptive noise cancellation for robust hotword detection
Nishimura et al. Speech recognition for a robot under its motor noises by selective application of missing feature theory and MLLR.
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
Nishimura et al. Speech recognition for a humanoid with motor noise utilizing missing feature theory
Novoa et al. Robustness over time-varying channels in DNN-hmm ASR based human-robot interaction.
Kundegorski et al. Two-Microphone dereverberation for automatic speech recognition of Polish
Meutzner et al. Binaural signal processing for enhanced speech recognition robustness in complex listening environments
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Tran et al. Using full-rank spatial covariance models for noise-robust ASR
Aalburg et al. Single-and Two-Channel Noise Reduction for Robust Speech Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120710

R150 Certificate of patent or registration of utility model

Ref document number: 5041934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees