JP2010054954A

JP2010054954A - 音声強調装置及び音声強調方法

Info

Publication number: JP2010054954A
Application number: JP2008221624A
Authority: JP
Inventors: Tomoya Takatani; 智哉高谷
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2008-08-29
Filing date: 2008-08-29
Publication date: 2010-03-11

Abstract

【課題】マイクロホンで収音した音声に混入した雑音を抑圧する際に、高精度な音声強調装置を提供すること
【解決手段】雑音が混入した音声信号に対して、音声強調フィルタを適用し、音声を強調した信号を作成する音声強調部１１３と、受音した信号を記憶し、独立成分分析アルゴリズムによりフィルタの適応学習を行い、マイクロホンアレー技術との統合により雑音を抑圧するフィルタを作成する雑音推定フィルタ作成部１２０と、前記作成したフィルタを用いて、雑音を強調した信号を作成する雑音推定部１１４と、音声強調部１１３で作成された音声強調信号から雑音推定部１１４で作成された雑音推定信号を減算することで得られる音声信号を出力する減算処理部１１５を備えた音声強調装置において、推定された音声信号の分布尖度に基づき、雑音推定フィルタ作成部１２０で作成されたフィルタの精度を推定し、フィルタ精度が良いときだけフィルタ更新を行うようにした。
【選択図】図２

Description

本発明は、音声強調装置及び音声強調方法に関する。

近年、音声認識技術は著しく進展し、周囲に雑音のない理想的な環境下では音声認識能力の極めて高い音声認識エンジンが供給できるようになってきている。しかしながら、生活音や活動音が存在する一般家庭やオフィスでは、期待通りの音声認識率を得るのが難しく、このような環境下で音声認識エンジンのもつ本来の認識能力を引き出すためには、雑音混じりの音声から雑音を除去して、話者音声のみを音声認識エンジンに受け渡す前処理が必要となる。

その観点から、近年、独立成分分析法（以下、単にＩＣＡ法という）や各種音声強調法が注目を集めており、様々なアルゴリズムが提案されている。そして、これらの各種アルゴリズムのなかで、各音源が統計的に独立という仮定の基に、音声と雑音を分離するＩＣＡ法が注目されている。

その中でも、ＩＣＡ法に基づく高精度な雑音推定部を備えた、事前情報を必要としない、空間的サブトラクションアレー（blind spatial subtraction array，以下、ＢＳＳＡという）法が知られている。
これは、ブラインド音源分離法により得られた雑音推定信号を用いて、音声を強調した信号に残留する雑音成分を最小化する方法であり、信号の定常／非定常性依らず頑健に動作する。

特開２００２−２３７７６号公報特開２００５−７８５７９号公報特開２００５−８４２４４号公報

前述のようなＢＳＳＡによる音声認識においては、一般に、入力された音情報に含まれる雑音をＩＣＡ法により生成されたフィルタを用いて推定し、それを用いて、ユーザ音声が強調された信号の残留雑音成分を減算することで実際に入力されたユーザの音声を強調する。この際に用いられるフィルタは、入力された音情報を適応学習することによって時間の経過とともに時系列的に更新される。

しかしながら、入力される音情報に、必ずユーザの音声が含まれているとは限らず、ユーザの音声を含まない音声に基づいて適応学習する結果、フィルタの精度が低下する。そのような精度の低下したフィルタを用いて雑音を強調することで、最終的に求めるユーザの音声を強調するための性能が劣化することとなる。

本発明は、このような問題を解決するためになされたものであり、ＩＣＡ法に基づいた雑音推定を行うことで外部から入力された音声を認識する音声強調装置であって、入力された音情報内にユーザの音声が含まれているか否かに関わらず、高精度なフィルタを生成可能な音声強調装置を提供することを目的とするものである。

また、本発明は、音声強調装置に適用可能な音声強調方法をも提供するものであって、ＩＣＡ法に基づいた雑音推定を行うことで外部から入力された音声を認識する音声強調方法において、入力された音情報内に、ユーザの音声が含まれているか否かに関わらず、高精度なフィルタを生成可能とし、高精度な音声認識を実現することを目的とするものである。

本発明にかかる音声強調装置は、外部から入力された音情報を受信する受信部と、受信した音情報に対して音声強調フィルタを適用し、音声部分を強調した音信号を作成する音声強調部と、受信した音情報を時系列的に一定時間記憶し、記憶した音情報に基づいて雑音推定フィルタを逐次更新して生成可能な雑音推定フィルタ生成部と、受信した音情報に対して前記生成した雑音推定フィルタを適用し、雑音を推定した雑音信号を作成する雑音推定部と、前記音声強調部において作成された音信号から、前記雑音推定部において作成された雑音信号を減算することで得られた音声信号を出力する減算処理部と、を備えた音声強調装置において、前記出力された音声信号の分布尖度に基づいて、受信した音情報内に音声が含まれているか否かを判断する判断部をさらに備え、前記判断部において、受信した音情報内に音声が含まれていると判断された場合のみ、前記雑音推定フィルタ生成部において作成された雑音推定フィルタを雑音推定部のフィルタとして更新するものである。

このように構成された音声強調装置によると、受信した音情報内に音声が含まれていない場合に、音声を含んでいない音情報に基づいて雑音推定フィルタを更新しないため、生成する雑音推定フィルタの精度を高精度に保つことが可能になる。

また、本発明にかかる音声強調方法は、外部から入力された音情報を受信する音情報受信ステップと、前記音情報受信ステップにおいて受信した音情報に対して音声強調フィルタを適用し、音声部分を強調した音信号を出力する音声強調ステップと、前記音情報受信ステップにおいて受信した音情報を時系列的に一定時間記憶し、記憶した音情報に基づいて独立成分分析アルゴリズムを用いてフィルタを適応させ、そのフィルタとマイクロホンアレー処理を統合した雑音推定フィルタ作成するフィルタ作成ステップと、受信した音情報に対して前記雑音推定フィルタを適用し、雑音を推定した信号を出力する雑音推定ステップと、前記音声強調ステップにおいて作成された音信号から、前記雑音推定ステップにおいて作成された雑音信号を減算する減算ステップと、前記減算ステップにおいて雑音信号を減算することで得られた音声信号を時間領域信号に変換し、出力する音声出力ステップと、前記音声出力ステップにおいて出力された音声信号の分布尖度に基づいて、出力された音声信号内に音声が含まれているか否かを判断する判断ステップとを備え、前記判断ステップにおいて出力された音声信号内に音声が含まれていると判断された場合のみ、前記フィルタ作成ステップにおいて、記憶した音情報に基づいて作成された雑音推定フィルタを雑音推定部のフィルタとして更新するものである。

このように構成された音声強調方法によると、受信した音情報内に音声が含まれていない場合に、音声を含んでいない音情報に基づいて雑音推定フィルタを更新しないため、生成する雑音推定フィルタの精度を高精度に保つことが可能になる。

以上、説明したように、本発明によると、ＩＣＡ法に基づいた雑音推定を行うことで外部から入力された音声を認識する音声強調装置において、入力された音情報内にユーザの音声が含まれているか否かに関わらず、高精度なフィルタを生成させることが可能となる。

さらに、本発明によると、ＩＣＡ法に基づいた雑音推定を行うことで外部から入力された音声を認識する音声強調方法において、入力された音情報内にユーザの音声が含まれているか否かに関わらず、高精度なフィルタを生成可能なとし、高精度な音声認識を実現することが可能となる。

発明の実施の形態１．
以下に、図１から図４を参照しつつ、本発明の第１の実施形態にかかる音声強調装置および音声強調方法について説明する。

図１は、室内Ｒの中に発話者Ｐが存在しており、その室内Ｒ内に音声強調装置１が載置されている様子を示している。図１に示される音声強調装置１は、詳細な図示については省略するが、地面に固定された胴体と、この胴体に接続された頭部、右腕、左腕を備えた、人間の上半身と同様に構成されたヒューマノイド型のロボットであるものとする。前記胴体の内部には、音声強調装置１の動作およびその他の機能を制御する制御部が備えられており、この制御部において、後述する音情報を受信する受信部としてのマイクロフォンから入力された音信号に基づいて音声認識を行う。この制御部は、認識した音声の内容に基づいて選択、決定された結果出力される応答データや、音声強調装置１の全体の動作を制御するための所定のプログラムを記憶するための記憶領域や、前記プログラムを実行するための演算処理部などを備えるコンピュータから構成されている。この制御部の詳細な構成については後述する。

なお、前述した受信部としてのマイクロフォンは、図示は省略するが、音声強調装置の頭部に複数（たとえば４素子）設けられており、これらのマイクロフォンは指向性の有無にかぎらず有しており、水平方向に複数配置されている。

なお、図示は省略するが、音声強調装置１（ロボット）の頭部には、前述した応答データを外部に対して出力するためのスピーカや、音声強調装置１の前方の所定範囲における光学的な情報を撮像データとして取得するためのカメラなどが設けられており、音声強調装置に対する発話者Ｐの相対的な位置を大まかに特定することができる。

なお、音声強調装置１の胴体に接続された右腕および左腕は、前述した制御部に含まれる演算処理部（図示せず）によって、駆動所定の制御プログラムに従って各腕部に含まれる関節部が駆動する量が制御され、各関節の関節駆動角度が決定されることで、所望の位置および姿勢をとることができる。また、これらの右腕および左腕の先端において、物体を把持可能なハンド部などを設けてもよい。

次に、前述した制御部の内部構成について、図２を参照しつつ詳細に説明する。図２は、音声強調装置１に含まれる制御部１００の内部構成を簡略化して示すブロック図であり、受信部としてのマイクロフォン２００によって受信された音情報から音声信号を作成し、後段の逆ＦＦＴ部１１６へ伝送する。以下、詳細に説明する。

制御部１００の内部は、受信部としてのマイクロフォン２００で受信した音情報をリアルタイムに音声を抽出する音声抽出処理部１１０と、抽出処理部１１０において雑音推定を行うために用いられるフィルタを所定の時間間隔で非リアルタイムに作成する雑音推定フィルタ作成部１２０と、を備えている。

音声抽出処理部１１０は、受信したアナログ信号である音情報をディジタル信号に変換するＡ／Ｄ変換部１１１と、ディジタル信号化した音情報を周波数成分に分解するＦＦＴ（Fast Fourier Transform）１１２と、周波数成分に分解された後のディジタル信号としての音情報に所定の音声強調フィルタを適用し、受信した音情報に含まれる音声部分を強調した音信号を作成する音声強調部１１３と、受信した音情報に対してＩＣＡによる学習で得られたフィルタを適用し、音情報に含まれる雑音を強調した雑音信号を作成する雑音推定部１１４と、音声強調部１１３において作成された音信号から、雑音推定部１１４において作成された雑音信号を減算し、雑音信号が減算された後の信号を出力する減算処理部１１５と、減算処理部１１５にて抽出された音声信号を時間領域に復元する逆ＦＦＴ部１１６と、逆ＦＦＴ部１１６により認識された音声信号の分布尖度に基づいて、受信した音情報内に発話者Ｐから発声された音声が含まれているか否かを判断する判断部１１７を備えている。

音声強調部１１３は、複数の素子からなるマイクロフォン２００により受信された音情報に対して、音声強調装置１に対する発話者の相対的な方向などからなる、発話者Ｐの方位情報に基づいて生成される音声強調フィルタを用いて、音情報内に含まれるユーザ音声を強調する。これによって、音情報に含まれる雑音は相対的に抑圧されたディジタル信号が得られる。

雑音推定部１１４は、同じくマイクロフォン２００により受信された音情報について、前述した雑音推定フィルタ作成部１２０において作成された雑音推定フィルタを用いて、音情報内に含まれる雑音を強調した雑音信号を作成する。この雑音推定フィルタの詳細については後述する。

減算処理部１１５は、音声強調部１１３において作成された音信号から雑音信号を減算する処理を行う。詳細には、音情報を表すパワースペクトル領域において音声強調部１１３において作成された音信号から、雑音強調部１１４において作成された雑音信号を引き、後に位相差を与える処理を行うことで、周波数領域の音声信号を作成する。

逆ＦＦＴ部１１６は、減算処理部１１５から出力された周波数領域の音声信号を時間領域の音声信号に変換する。

判断部１１７は、逆ＦＦＴ部１１６により音声認識処理を終えた音声信号内に発話者から発声された音声が含まれているか否かを、その音声信号の分布尖度（カートシス（Kurtois）値）に基づいて判断する。一般に、音声信号に発話者の音声が含まれている場合、その音声信号内の分布尖度（カートシス値）は大きくなる。このような実験例を図３を用いて説明する。図３は、発話者の発声した音声を含む音声信号と、発話者の発声した音声を含まない音声信号の分布尖度（カートシス値）を、それぞれ異なる雑音推定フィルタを用いた条件下で評価した実験結果である。この実験では、評価対象のデータのサンプル長１６０００点（１秒）の音声区間信号と非音声区間信号を各２０点用意した。なお、評価に用いた雑音推定フィルタとしては、初期フィルタとして正方向（±０度）方向に死角、右方向（＋９０度）の利得が１となるＮＢＦと正面方向にビーム形成するＤ＆Ｓを結合した分離フィルタを用いるとともに、条件１では、発話者の音声を含む音声信号で学習した（学習回数３００回、学習係数０．０５）、精度の高い雑音推定フィルタを用いて雑音推定を行った後に算出した音声信号に関する結果を表しており、条件２では、発話者の音声を含まない音声信号で学習した、比較的精度の劣る雑音推定フィルタを用いて雑音推定を行った後に算出した音声信号に関する結果である。

図３から明らかなように、条件１の下で評価した結果、音声を含む区間（音声区間）のカートシス値は大きく、音声を含まない区間（非音声区間）では、ほぼゼロの値であるカートシス値が得られた。条件２の下で評価した結果においても同様に、音声を含む区間（音声区間）のカートシス値は大きく、音声を含まない区間（非音声区間）では、ほぼゼロの値であるカートシス値が得られた。

これらの評価結果から、音声信号のカートシス値は、雑音推定フィルタの精度に依存せず、発話者の音声が含まれているか否かによってほぼ同程度の値となることがわかる。したがって、カートシス値に注目することによって、雑音推定フィルタの精度によらず、音声信号内に発話者の音声が含まれているか否かを精度よく判断可能であることがわかる。判断部１１７においては、このような結果を鑑みて、予め設定したカートシス値の閾値に基づいて、音声信号内に発話者から発声された音声が含まれているか否かを判断する。

雑音推定フィルタ作成部１２０は、ＦＦＴ部１１２にて周波数領域の音情報データを一定時間バッファするためのバッファ部１２１と、バッファ部１２１でバッファした音声信号に基づいて適応学習を行い、判断部１１７の出力に従い、雑音推定フィルタを作成、伝送する雑音推定フィルタ更新部１２２を備えている。なお、バッファを行う時間は特に限定されるものではないが、通常は３秒程度のデータである。

なお、制御部１００においては、これらの構成要素以外にも、図示は省略するが、逆ＦＦＴ部１１６において認識した音声の内容に基づいて選択、決定された結果出力される応答データなどを記憶する記憶領域や、これらの応答データを再生するための音声合成部などを備えているものとする。

このように構成された制御部１００において行われる、雑音推定フィルタを更新する手順を含んだ音声認識を行うフローについて、図４に示すフローチャートを用いて詳細に説明する。

まず、外部からの音情報を受信部としてのマイクロフォン２００で受信すると、入力バッファに音声が溜まる（Ｓ１０１）。音情報はＡ／Ｄ変換部１１１を介してディジタル信号化された後に、ＦＦＴ１１２において周波数成分に分解され（Ｓ１０２）、さらに音声強調部１１３において、音声強調フィルタを適用することで音声を強調した音信号が作成され、作成された音信号が音声信号出力部１１５に出力される（Ｓ１０２ａ）。また、このような音信号の作成と同時に、雑音推定部１１４において、ディジタル化された音情報に雑音推定フィルタを適用して音情報内に含まれる雑音を強調した雑音信号が作成され、音声信号出力部１１５に出力される（Ｓ１０２ｂ）。このとき、適用される雑音推定フィルタは、受信した音情報から得られる音声信号に基づいた学習を行っていない、予め制御部１００内に記憶された雑音推定フィルタが用いられる。

次に、減算処理部１１５において、パワースペクトルドメインにて求められた音信号から雑音信号を減算する減算処理が行われる（Ｓ１０３）。このとき、音信号から雑音信号を減算した後に、位相情報を与えることで、周波数領域の音声信号を作り出すことが可能となる。そして、この音声信号は逆ＦＦＴ部１１６に出力され、逆フーリエ変換により時間波形を作成された後（Ｓ１０４）、判断部１１７において、出力された音声信号の内に発話者から発声された音声が含まれているか否かを判断するために、その音声信号の分布尖度（カートシス値）を算出する（Ｓ１０５、１０６）。

そして、判断部１１７は、算出したカートシス値に基づいて、音声信号内に発話者から発声された音声が含まれているか否かを判断する（Ｓ１０９）。音声信号内に発話者Ｐからの音声（ユーザ情報量）が一定量以上含まれているとフィルタ更新用ＦＬＡGがＯＮとなる（Ｓ２０５）。フィルタ更新用ＦＬＡGがＯＮであると判断されると、雑音推定部１１４において、新たに出力された雑音推定フィルタが更新され、フィルタ更新用ＦＬＡＧがＯＦＦとなる（Ｓ１０７、１０８、１０９）。
この新たに出力された雑音推定フィルタは、バッファ部１２１に溜められた周波数分解された学習データに基づいて、ＩＣＡの適用学習を行うことで、雑音推定フィルタ作成部１２０によってDelay&SUM処理と統合することにより作成される（Ｓ２０１、２０２、２０３）。

また、音声信号内に発話者Ｐからの音声が一定量以上含まれていないと判断され、フィルタ更新用ＦＬＡＧがＯＦＦの場合は、フィルタ更新部１２２において雑音推定フィルタの更新は行われない（Ｓ１０７）。これによって、音声信号内に発話者からの音声が一定量以上含まれていない場合は、雑音推定部１１４においては、以前の雑音推定フィルタが適用される。

その後、マイクロフォン２００でさらに音情報を受信したか否かを判断し（Ｓ１０１）、受信した場合はＳ１０２（Ｓ１０２ａ、１０２ｂ）に戻って、受信した音情報に含まれる音声と雑音を分離する処理を行った後、音声認識を実行する。

以上、説明したような手順により音声認識を行うことで、入力された音情報内にユーザの音声が含まれているか否かに関わらず、高精度な雑音推定フィルタを生成させることができるため、高精度な音声認識を実現することが可能となる。

なお、上述の実施形態においては、音声強調装置１が発話者の存在を検出し、発話者の正面を向いて音声を受信するような動作については特に説明していないが、必要に応じて、音声強調装置に発話者を検出するような機能を持たせ、音声強調装置に対する発話者の相対的な方向を、受信部としてのマイクロフォンの指向性に合わせるようにしてもよい。このようにすると、音声認識の精度がさらに向上する。

また、発話者の発声した音声を認識した後、発話者に対して応答する場合に、単に音声による応答文を出力するだけでなく、音声強調装置に備えられた腕部や頭部を動作させて、発話者に対して伝達する内容をより理解させ易くするようにしてもよい。

また、前述の実施形態は、音声強調装置として、床面に固定されたロボットの例を挙げて説明しているが、本発明はこれに限られるものではない。たとえば、車輪駆動や歩行動作で自律的に移動可能なロボットや、カーナビゲーションシステムなどの組み込まれる音声強調装置においても、有効に利用することが可能である。また、本発明に係る音声強調装置および音声強調方法おいては、特に発話者を視覚的に撮像または認識するようなカメラなどを用いなくともよい。

また、前述の実施形態においては、音声信号を解析して音声認識を行う手法として、音声信号を音節毎に分割し、各音節を記憶領域に記憶された単語データベースを用いて単語に置き換えるような手法を用いているが、本発明はこれに限られるものではない。本発明に適用される音声認識する手法としては、既知および将来的に開発される音声認識する手法を広く適用することが可能である。

本発明に係る第１の実施の形態である音声強調装置が室内に設けられている様子を示す全体外略図である。図１に示す音声強調装置に含まれる制御部の内部構成を簡略化して示すブロック図である。発話者の発声した音声を含む音声信号と、発話者の発声した音声を含まない音声信号の分布尖度）を、それぞれ異なる雑音推定フィルタを用いた条件下で評価した実験結果を示す図である。図１に示す音声強調措置において、受信した音情報から雑音を分離して音声認識を行うための手順を示すフローチャートである。

符号の説明

１・・・音声強調装置
１００・・・制御部
１１０・・・音声抽出処理部
１１１・・・Ａ／Ｄ変換部
１１２・・・ＦＦＴ
１１３・・・音声強調部
１１４・・・雑音推定部
１１５・・・減算処理部
１１６・・・逆ＦＦＴ部
１１７・・・判断部
１２０・・・雑音推定フィルタ作成部
１２１・・・バッファ部
１２２・・・フィルタ更新部
２００・・・マイクロフォン（受信部）
Ｐ・・・発話者

Claims

外部から入力された音情報を受信する受信部と、
受信した音情報に対して音声強調フィルタを適用し、音声部分を強調した音信号を作成する音声強調部と、
受信した音情報を時系列的に一定時間記憶し、記憶した音情報に基づいて雑音推定フィルタを逐次更新して生成可能な雑音推定フィルタ生成部と、
受信した音情報に対して前記生成した雑音推定フィルタを適用し、雑音を推定した雑音信号を作成する雑音推定部と、
前記音声強調部において作成された音信号から、前記雑音推定部において作成された雑音信号を減算することで得られた音声信号を出力する減算処理部と、を備えた音声強調装置において、
前記出力された音声信号の分布尖度に基づいて、受信した音情報内に音声が含まれているか否かを判断する判断部をさらに備え、前記判断部において、受信した音情報内に音声が含まれていると判断された場合のみ、前記雑音推定フィルタ生成部において作成された雑音推定フィルタを雑音推定部のフィルタとして更新することを特徴とする音声強調装置。
外部から入力された音情報を受信する音情報受信ステップと、
前記音情報受信ステップにおいて受信した音情報に対して音声強調フィルタを適用し、音声部分を強調した音信号を出力する音声強調ステップと、
前記音情報受信ステップにおいて受信した音情報を時系列的に一定時間記憶し、記憶した音情報に基づいて独立成分分析アルゴリズムを用いてフィルタを適応させ、そのフィルタとマイクロホンアレー処理を統合した雑音推定フィルタ作成するフィルタ作成ステップと、
受信した音情報に対して前記雑音推定フィルタを適用し、雑音を推定した信号を出力する雑音推定ステップと、
前記音声強調ステップにおいて作成された音信号から、前記雑音推定ステップにおいて作成された雑音信号を減算する減算ステップと、
前記減算ステップにおいて雑音信号を減算することで得られた音声信号を時間領域信号に変換し、出力する音声出力ステップと、
前記音声出力ステップにおいて出力された音声信号の分布尖度に基づいて、出力された音声信号内に音声が含まれているか否かを判断する判断ステップと、を含む音声強調方法であって、
前記判断ステップにおいて、出力された音声信号内に音声が含まれていると判断された場合のみ、前記フィルタ作成ステップにおいて、記憶した音情報に基づいて作成された雑音推定フィルタを雑音推定部のフィルタとして更新することを特徴とする音声強調方法。