JP2019020678A

JP2019020678A - ノイズ低減装置および音声認識装置

Info

Publication number: JP2019020678A
Application number: JP2017141592A
Authority: JP
Inventors: 満次吉田; Mitsuji Yoshida; 和也角野; Kazuya Sumino
Original assignee: RayTron Inc
Current assignee: RayTron Inc
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2019-02-07

Abstract

【課題】音声出力部からの音声出力中における発話音声の認識精度を向上させること。【解決手段】ノイズ低減装置（２０）の第１の音声入力部（２３）には、ユーザの発話音声（ｓｋ）に、出力音声（ｎｋ）が混在した入力音声信号（ｄｋ）が入力され、第２の音声入力部（２４）には、音声出力部から出力される出力音声（ｎｋ）の元の音声信号（ｘｋ）が入力される。ノイズ低減装置（２０）は、入力音声信号と元の音声信号とに基づいて、発話音声の認識処理用のノイズ低減音声信号（ｓｋ１）を生成する第１のノイズ減算部（２１）と、入力音声信号と元の音声信号とに基づいて、発話音声の音声区間検出用のノイズ低減音声信号（ｓｋ２）を生成する第２のノイズ減算部（２２）とを備え、第１のノイズ減算部（２１）および第２のノイズ減算部（２２）は、異なるパラメータを用いて、元の音声信号（ｘｋ）からノイズ成分を推定する。【選択図】図２

Description

本発明は、ノイズ低減装置および音声認識装置に関し、特に、音声を出力する音声出力機器に搭載されるノイズ低減装置および音声認識装置に関する。

テレビ、カーオーディオ、またはコミュニケーションロボットなどの音声出力機器に音声認識装置を搭載する場合、当該機器から出力されるスピーカ音がノイズとなるため、音声認識を正しく行うことが困難である。

たとえば特開平５−２２７７９号公報（特許文献１）に開示されたノイズ低減装置は、スピーカ音に相当する音声出力回路からの音声信号に基づいて適応フィルタでフィルタ処理した出力を加算器（減算手段）に送って、加算器において、マイクロフォンからの主要入力（ユーザの発話音声）からフィルタ処理後の出力を減算することで、ノイズ成分を除去している。適応フィルタは、加算器の出力（残差）を最小にするようにフィルタ特性が制御される。

特開平５−２２７７９号公報

音声認識装置を搭載した市販の音声出力機器の多くは、音声出力（再生）中には音声認識機能を無効とし、音声出力中でない場合にのみ音声認識機能を有効としている。しかし、音声出力期間が長い場合にはユーザの待機時間が増えるため、音声の出力中においても音声認識機能を有効にできる技術が望まれている。

上記特許文献１では、音声認識部の前段において、音声出力回路からの音声信号（再生音声）をフィルタ処理することでノイズ成分を減算しているため、音声出力中においても音声認識可能とされる。しかしながら、適応フィルタによりノイズ成分が減算された音声信号（加算器の出力）は、発話音声の認識処理に使用されることから、発話音声を極力残した上で、ノイズ成分を除去する必要がある。そのため、発話音声に混在したスピーカ音（ノイズ）を完全に除去することができない。したがって、加算器からの出力音声は、スピーカ音の引き残し成分を含むことになる。

特許文献１においては、この、スピーカ音の引き残し成分を含む音声信号が、音声認識部において音声区間の検出にも用いられている。そのため、特許文献１の技術によれば、音声区間を誤検出する可能性がある。したがって、ユーザの発話音声を正しく認識できない可能性がある。

本発明は、上記のような課題を解決するためになされたものであって、その目的は、音声出力部からの音声出力中における発話音声の認識精度を向上させることのできるノイズ低減装置および音声認識装置を提供することである。

この発明のある局面に従うノイズ低減装置は、音声区間内の音声信号から発話音声を認識する音声認識装置用のノイズ低減装置であって、第１の音声入力部と、第２の音声入力部と、第１のノイズ減算部と、第２のノイズ減算部とを備える。音声認識装置が備えるマイクロフォンは、ユーザの発話音声を入力するが、実際には、ユーザの発話音声のみを入力することができず、音声出力部からの出力音声が混在する。そのため、ノイズ低減装置が備える第１の音声入力部は、ユーザの発話音声に、音声出力部からの出力音声が混在した入力音声信号を入力する。第２の音声入力部は、音声出力部から出力される出力音声の元の音声信号を入力する。

音声認識（認識処理）に用いる音声信号は、発話音声を極力残す必要がある。また、出力音声の消し残しによる誤区間検出を防ぐには、出力音声を極力消す必要がある。しかし、発話音声を残すことと出力音声を消すことはトレードオフの関係にあり、両立が困難である。この発明では、認識処理用と音声区間検出用の２種類のノイズ減算部、すなわち第１のノイズ低減部および第２の低減部を設けることで課題解決を図っている。

第１のノイズ減算部は、入力音声信号と元の音声信号とに基づいて、発話音声の認識処理用のノイズ低減音声信号である第１のノイズ低減音声信号を生成する。第２のノイズ減算部は、入力音声信号と元の音声信号とに基づいて、発話音声の音声区間検出用のノイズ低減音声信号である第２のノイズ低減音声信号を生成する。第１のノイズ減算部および第２のノイズ減算部は、異なるパラメータを用いて、元の音声信号からノイズ成分を推定する。

好ましくは、第１のノイズ減算部は、第１のパラメータを用いてノイズ成分を推定する第１の適応フィルタを含み、第１の適応フィルタによる推定結果としての第１のノイズ成分を、入力音声信号から減算する。同様に、第２のノイズ減算部は、第２のパラメータを用いてノイズ成分を推定する第２の適応フィルタを含み、第２の適応フィルタによる推定結果としての第２のノイズ成分を、入力音声信号から減算することが望ましい。

第１および第２のパラメータは、たとえば、それぞれの適応フィルタにおけるステップサイズに対応し、ステップサイズによってフィルタ係数の収束速度が決定される。この場合、第２の適応フィルタにおけるフィルタ係数の収束速度の方が、第１の適応フィルタにおけるフィルタ係数の収束速度よりも速くなるように、パラメータを定めることが望ましい。

あるいは、第１および第２のノイズ減算部の各々は、スペクトル・サブトラクション法に基づいて、入力音声信号および元の音声信号のパワースペクトルを用いてノイズ低減音声信号を生成してもよい。この場合、第１および第２のノイズ減算部においてノイズ成分の推定に用いるパラメータは、元の音声信号のパワースペクトルに適用する乗数に対応し、第２のノイズ減算部において用いられる乗数の方が、第１のノイズ減算部において用いられる乗数よりも大きいことが望ましい。

このノイズ低減装置は、第２の減算部により生成された第２のノイズ低減音声信号に基づいて、発話音声の音声区間を検出する区間検出部をさらに備えていてもよい。

この発明の他の局面に従う音声認識装置は、上記のようなノイズ低減装置を備える。

本発明によれば、音声出力部からの音声出力中における発話音声の認識精度を向上させることができる。

本発明の実施の形態における音声出力機器の概略構成を示すブロック図である。本発明の実施の形態における音声認識装置の機能構成を示すブロック図である。本発明の実施の形態における音声再生装置の機能構成を示すブロック図である。本発明の実施の形態におけるノイズ低減部の構成例を示すブロック図である。本発明の実施の形態における音声認識部の構成例を示すブロック図である。本発明の実施の形態における音声認識装置の基本動作を示すフローチャートである。図６のステップＳ２において実行されるノイズ低減処理の流れを示すフローチャートである。図６のステップＳ３において実行される音声認識処理の流れを示すフローチャートである。本発明の実施の形態の変形例１における音声認識装置の機能構成を示すブロック図である。本発明の実施の形態の変形例２におけるノイズ減算部の構成を示すブロック図である。（Ａ），（Ｂ）は、音声再生装置と一体的に設けられる音声認識装置において音声認識機能が有効となる期間を、一般的な音声認識装置と本発明の実施の形態に係る音声認識装置とで比較して示すタイミングチャートである。（Ａ）〜（Ｄ）は、ノイズ低減処理が必要となる、スピーカ音（出力音声）および発話音声の入力タイミングのパターン例を示すタイミングチャートである。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

以下に、本実施の形態に係る音声認識装置を搭載した音声出力機器について説明する。音声出力機器は、音声を出力（再生）する装置であり、たとえば、コミュニケーションロボット、テレビ、カーナビゲーション、翻訳装置などが想定される。

（音声出力機器の概略構成について）
図１は、本実施の形態における音声出力機器１の概略構成を示すブロック図である。音声出力機器１は、たとえば対話型コミュニケーションロボットであり、マイクロフォン（以下「マイク」と略す）１１と、音声認識装置１２と、音声再生装置１３と、スピーカ１４とを備えている。

マイク１１は、ユーザからの発話音声ｓ_ｋを受け付けて、音波を電気信号に変換する。マイク１１には、発話音声ｓ_ｋの他、環境雑音ｂ_ｋおよびスピーカ１４からの出力音声ｎ_ｋも入力される。つまり、音声出力機器１が音声出力（再生）中である場合、マイク１１から音声認識装置１２への入力音声ｄ_ｋは、発話音声ｓ_ｋと環境雑音ｂ_ｋと出力音声ｎ_ｋとが混在した音声となる。

音声認識装置１２は、マイク１１からの入力音声ｄ_ｋに基づいて、発話音声ｓ_ｋを認識し、ユーザが発話したフレーズ（たとえば「こんにちは」など）を推定する。音声認識装置１２での認識結果Ｒｅｓｕｌｔは音声再生装置１３に出力される。音声認識装置１２の構成例については図２を挙げて後述する。

音声再生装置１３は、音声認識装置１２から得られる認識結果Ｒｅｓｕｌｔに基づいて、音声ｘ_ｋの再生制御を行う。音声ｘ_ｋは、スピーカ１４からの出力音声ｎ_ｋの元の音声に相当する。以下の説明において、出力音声ｎ_ｋを「スピーカ音ｎ_ｋ」、元の音声ｘ_ｋを「再生音声ｘ_ｋ」という。音声再生装置１３の構成例が図３に示されている。

図３を参照して、音声再生装置１３は、音声認識装置１２での認識結果Ｒｅｓｕｌｔに基づいて各種制御を行う制御部４１と、メモリ４２と、アンプ４３とを含む。メモリ４２には、複数のフレーズ（認識結果）に関連付けて、音声データが予め記憶されている。メモリ４２には、複数のフレーズに関連付けて、動作内容（アクション）を示す情報がさらに記憶されていてもよい。

制御部４１は、たとえば、認識結果Ｒｅｓｕｌｔが示す発話フレーズに対応する音声データをメモリ４２から読み出し、読み出した音声データを音声信号としてアンプ４３に送信する。アンプ４３において増幅された音声信号は、再生音声ｘ_ｋとしてスピーカ１４に送られる。スピーカ１４は、音声出力部であって、音声再生装置１３から受信した再生音声ｘ_ｋの電気信号エネルギーを音波に変換して出力する。

あるいは、制御部４１は、認識結果Ｒｅｓｕｌｔ（発話フレーズ）に対応する動作内容情報をメモリ４２から読み出し、音声出力機器１が備える駆動系（図示せず）を駆動制御することによって音声再生以外のアクションを実行する。

ここで、このような音声再生装置と一体的に設けられる一般的な音声認識装置では、図１１（Ａ）に示されるように、スピーカからの音声出力中、音声認識機能は無効とされる。再生音声ｘ_ｋに対応したスピーカ音ｎ_ｋが、ノイズとしてマイクに入力されるからである。

これに対し、本実施の形態では、図１１（Ｂ）に示されるように、スピーカ１４からの音声出力中か否かに関わらず、音声認識機能が有効とされる。つまり、音声認識装置１２は、スピーカ音ｎ_ｋが出力されている期間においても、ユーザが発話したフレーズ（発話音声ｓ_ｋ）を認識することができる。

（音声認識装置の機能構成について）
図２は、音声認識装置１２の機能構成を示すブロック図である。

音声認識装置１２は、ノイズ低減部２０と、音声認識部３０とを含む。本実施の形態における音声認識部３０は、たとえばＨＭＭ（Hidden Markov Model）法に基づいて、フレーズ単位で音声を認識する。音声認識部３０は、主に、音声信号から音声区間を検出する区間検出部３１と、区間検出部３１で検出された音声区間内の音声信号から発話フレーズを認識する認識処理部３２とで構成される。

ノイズ低減部２０は、音声認識部３０の前段に配置され、入力音声ｄ_ｋから、再生音声（すなわち、スピーカ音ｎ_ｋの元の音声）ｘ_ｋに基づくノイズ成分を減算することによって、ノイズを低減する。なお、ノイズ低減部２０において利用される再生音声ｘ_ｋは、アンプ４３を通る前の音声信号であってもよい。

本実施の形態におけるノイズ低減部２０は、第１および第２の入力端子２３，２４と、第１および第２のノイズ減算部２１，２２と、第１および第２の出力端子２５，２６とを含む。なお、本実施の形態において、「第１のノイズ減算部２１」を「第１の減算部２１」、「第２のノイズ減算部２２」を「第２の減算部２２」と略す。

第１の入力端子２３は、第１の音声入力部として機能し、マイク１１から入力音声ｄ_ｋを入力する。入力音声ｄ_ｋは、上述のように、発話音声ｓ_ｋと環境雑音ｂ_ｋとスピーカ音ｎ_ｋとが混在した音声（ｄ_ｋ＝ｓ_ｋ＋ｂ_ｋ＋ｎ_ｋ）である。第１の入力端子２３に入力された入力音声ｄ_ｋは、第１および第２の減算部２１，２２の双方に送られる。

第２の入力端子２４は、第２の音声入力部として機能し、音声再生装置１３からスピーカ１４に出力される再生音声ｘ_ｋを入力する。第２の入力端子２４に入力された再生音声ｘ_ｋもまた、第１および第２の減算部２１，２２の双方に送られる。

入力音声ｄ_ｋに含まれるスピーカ音ｎ_ｋは、この再生音声ｘ_ｋと相関があるが、周囲の空間特性Ｗ_ｋによって変化する。そのため、スピーカ音ｎ_ｋは次の式で表される。
ｎ_ｋ＝Ｗ_ｋ・Ｘ_ｋ
ここで、「Ｗ_ｋ」および「Ｘ_ｋ」は、ベクトル値を表わしている。また、入力ベクトルＸ_ｋは、次のように定義できる。
Ｘ_ｋ＝［ｘ_ｋｘ_ｋ−１・・・ｘ_{ｋ−Ｌ＋１}］^Ｔ
なお、「Ｌ」は、適応フィルタが有する遅延素子の個数に相当し、「Ｔ」は、転置記号を示す。

第１の減算部２１は、第２の入力端子２４から得られる再生音声ｘ_ｋから第１のパラメータを用いてノイズ成分を推定し、第１の入力端子２３から得られる入力音声ｄ_ｋから、推定結果としての第１のノイズ成分を減算する。第１の減算部２１による減算後の残差が、第１のノイズ低減音声ｓ_ｋ１として第１の出力端子２５へ送られる。第１のノイズ低減音声ｓ_ｋ１は、音声認識部３０の認識処理部３２にのみ送信され、認識処理部３２において発話フレーズの認識処理に用いられる。つまり、第１のノイズ低減音声ｓ_ｋ１は、認識処理用のノイズ低減音声である。

第２の減算部２２は、第２の入力端子２４から得られる再生音声ｘ_ｋから第２のパラメータを用いてノイズ成分を推定し、第１の入力端子２３から得られる入力音声ｄ_ｋから、推定結果としての第２のノイズ成分を減算する。第２の減算部２２による減算後の残差が、第２のノイズ低減音声ｓ_ｋ２として第２の出力端子２６へ送られる。第２のノイズ低減音声ｓ_ｋ２は、音声認識部３０の区間検出部３１にのみ送信され、区間検出部３１において音声区間の検出処理に用いられる。つまり、第２のノイズ低減音声ｓ_ｋ２は、区間検出用のノイズ低減音声である。

このように、発話フレーズの認識処理には、第１のノイズ低減音声ｓ_ｋ１だけが利用され、第１のノイズ低減音声ｓ_ｋ１はユーザの発話音声ｓ_ｋを引きすぎないようにしている。これに対して、第２のノイズ低減音声ｓ_ｋ２は、発話音声の音声区間の検出にのみ使用するため、ユーザの発話音声ｓ_ｋが多少消されたとしてもスピーカ音ｎ_ｋの引き残し成分を極力含まない（無くす）ようにすることで、スピーカ音ｎ_ｋの引き残し成分による誤区間検出を防ぐことができる。つまり、第１のノイズ減算部２１は、ユーザの発話音声ｓ_ｋを極力残し、第２のノイズ減算部２２は、スピーカ音ｎ_ｋを極力消すことで認識処理および区間検出処理の双方に適したノイズ低減音声を得ることができる。

図１２（Ａ）〜（Ｄ）には、ノイズ低減処理が必要となる、スピーカ音ｎ_ｋおよび発話音声ｓ_ｋの入力タイミングのパターン例が示されている。図１２（Ｄ）のパターン例では、発話音声ｓ_ｋの音声区間内にスピーカ音ｎ_ｋの音声区間が完全に含まれているため、スピーカ音ｎ_ｋの音声区間の外に、発話音声ｓ_ｋの音声区間の始端および終端がある。この例では、スピーカ音ｎ_ｋの引き残し成分を含む第１のノイズ低減音声ｓ_ｋ１を用いて音声区間を検出したとしても支障が少ない。

これに対し、図１２（Ａ）〜（Ｃ）のパターン例では、発話音声ｓ_ｋの音声区間の始端および終端の少なくともいずれか一方が、スピーカ音ｎ_ｋの音声区間内に位置している。この例では、スピーカ音ｎ_ｋの引き残し成分を含む第１のノイズ低減音声ｓ_ｋ１を用いて音声区間を検出しようとすると、スピーカ音ｎ_ｋの引き残し成分の影響を受けるため、正しい音声区間を検出できない可能性がある。

本実施の形態におけるノイズ低減部２０は、別途、音声区間検出用に第２の減算部２２を備え、第２の減算部２２において、極力、スピーカ音ｎ_ｋの引き残し成分を無くすようにしている。そのため、図１２（Ａ）〜（Ｃ）に示すようなパターン例においても、音声認識部３０の区間検出部３１は、スピーカ音ｎ_ｋの引き残し成分が抑制された第２のノイズ低減音声ｓ_ｋ２に基づいて、音声区間を精度良く検出することができる。

ノイズ低減部２０および音声認識部３０の具体的な構成例について、以下に説明する。

（ノイズ低減部の構成例について）
図４は、ノイズ低減部２０の構成例を示すブロック図である。

ノイズ低減部２０の第１の減算部２１は、第１の推定部２１０と、第１の加算器２１２とを含む。第１の推定部２１０は、第２の入力端子２４に入力された再生音声ｘ_ｋから、第１のパラメータを用いてスピーカ音ｎ_ｋを推定し、推定結果として第１のノイズ成分ｎ_ｋ１を得る。第１の加算器２１２は、第１の入力端子２３に入力された入力音声ｄ_ｋから、第１の推定部２１０で推定された第１のノイズ成分ｎ_ｋ１を減算することで、第１のノイズ低減音声ｓ_ｋ１を生成する。

第１の推定部２１０は、可変フィルタ２１１と、可変フィルタ２１１のフィルタ係数Ｗ_ｋ１を随時更新する更新アルゴリズム２１３とを含む、適応フィルタで構成される。可変フィルタ２１１は、第１の加算器２１２から出力される第１のノイズ低減音声ｓ_ｋ１のパワーを最小にするようにフィルタ特性が制御される。更新アルゴリズム２１３は、第１のノイズ低減音声ｓ_ｋ１に応じて可変フィルタ２１１のフィルタ係数Ｗ_ｋ１を更新し、学習によってフィルタ特性を変化させる。

ノイズ低減部２０の第２の減算部２２も同様に、第２の推定部２２０と、第２の加算器２２２とを含む。第２の推定部２２０は、第２の入力端子２４に入力された再生音声ｘ_ｋから、第２のパラメータを用いてスピーカ音ｎ_ｋを推定し、推定結果として第２のノイズ成分ｎ_ｋ２を得る。第２の加算器２２２は、第１の入力端子２３に入力された入力音声ｄ_ｋから、第２の推定部２２０で推定された第２のノイズ成分ｎ_ｋ２を減算することで、第２のノイズ低減音声ｓ_ｋ２を生成する。

第２の推定部２２０は、可変フィルタ２２１と、可変フィルタ２２１のフィルタ係数Ｗ_ｋ２を随時更新する更新アルゴリズム２２３とを含む、適応フィルタで構成される。可変フィルタ２２１は、第２の加算器２２２から出力される第２のノイズ低減音声ｓ_ｋ２のパワーを最小にするようにフィルタ特性が制御される。更新アルゴリズム２２３は、第２のノイズ低減音声ｓ_ｋ２に応じて可変フィルタ２２１のフィルタ係数Ｗ_ｋ２を更新し、学習によってフィルタ特性を変化させる。

本実施の形態においてノイズ成分（スピーカ音）ｎ_ｋの推定に用いるパラメータは、たとえば、可変フィルタ２１１，２２１のフィルタ係数の収束速度を決定するステップサイズである。つまり、第１の推定部２１０の可変フィルタ２１１と第２の推定部２２０の可変フィルタ２２１とで、相異なるステップサイズを用いて、空間特性Ｗ_ｋに対する追従速度を変えている。

それぞれのフィルタ係数Ｗ_ｋ１，Ｗ_ｋ２の更新アルゴリズムは、たとえば次のように表される。
Ｗ_{ｋ＋１，１}＝Ｗ_ｋ１＋２μ_１ｓ_ｋ１Ｘ_ｋ
Ｗ_{ｋ＋１，２}＝Ｗ_ｋ２＋２μ_２ｓ_ｋ２Ｘ_ｋ
上記式中の「μ_１」、「μ_２」は、適応の速度と安定性を制御するステップサイズである。なお、係数μ_１，μ_２は、可変であってもよいが、少なくともフィルタ係数Ｗ_ｋ１，Ｗ_ｋ２が収束するまで間、次のような関係が成り立つ。
μ_１＜μ_２

つまり、第２の推定部２２０の可変フィルタ２２１のフィルタ係数Ｗ_ｋ２の収束速度の方が、第１の推定部２１０の可変フィルタ２１１のフィルタ係数Ｗ_ｋ１の収束速度よりも速い。これにより、第２の減算部２２は、スピーカ音ｎ_ｋを極力消すことが可能となり、区間検出処理に適したノイズ低減音声（第２のノイズ低減音声）を得ることができる。また、第１のノイズ減算部２１は、ユーザの発話音声ｓ_ｋを極力残すことが可能となり、認識処理に適したノイズ低減音声（第１のノイズ低減音声）を得ることができる。

なお、可変フィルタ２１１，２２１としては、たとえばＦＩＲフィルタ（有限インパルス応答）が用いられる。また、更新アルゴリズム２１３，２２３としては、たとえばＬＭＳ（最小平均自乗）アルゴリズムが挙げられるが、限定的ではなく、様々な手法のアルゴリズムが採用され得る。

（音声認識部の構成例について）
図５は、音声認識部３０の構成例を示すブロック図である。

音声認識部３０は、ノイズ低減部２０から第１のノイズ低減音声ｓ_ｋ１を入力する第１の入力端子３３と、ノイズ低減部２０から第２のノイズ低減音声ｓ_ｋ２を入力する第２の入力端子３４とを含み、第１の入力端子３３に入力された第１のノイズ低減音声ｓ_ｋ１は認識処理部３２にのみ送られ、第２の入力端子３４に入力された第２のノイズ低減音声ｓ_ｋ２は区間検出部３１にのみ送られる。音声認識部３０は、認識処理部３２による認識結果Ｒｅｓｕｌｔを出力する出力端子３５をさらに含む。

なお、ノイズ低減部２０の第１の出力端子２５と音声認識部３０の第１の入力端子３３とは、たとえばケーブルを介して電気的に接続されている。同様に、ノイズ低減部２０の第２の出力端子２６と音声認識部３０の第２の入力端子３４とは、たとえばケーブルを介して電気的に接続されている。

区間検出部３１は、第２のノイズ低減音声ｓ_ｋ２に基づいて、発話音声ｓ_ｋの音声区間を検出する。音声区間の検出は公知の手法により行われてよい。たとえば、特開２００９−２９４５３７号公報または特開２００８−１７０７８９号公報に開示された音声区間検出方法を採用することができる。区間検出部３１は、検出した音声区間の始端と終端を示すタイミング信号ＶＡＤを認識処理部３２に出力する。

認識処理部３２は、分析部５１と、音響モデル等を予め記憶したメモリ５２と、マッチング処理部５３と、棄却処理部５４とを含む。

分析部５１は、第１のノイズ低減音声ｓ_ｋ１と区間検出部３１からのタイミング信号ＶＡＤとを受信し、音声区間内の第１のノイズ低減音声ｓ_ｋ１を切り出した後で、第１のノイズ低減音声ｓ_ｋ１を分析する。具体的には、音声区間内の第１のノイズ低減音声ｓ_ｋ１を所定の時間長のフレーム単位で切り出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、フレーム単位で切り出された音声信号が、ＭＦＣＣ（Mel-frequency cepstral coefficient）特徴量に変換される。

マッチング処理部５３は、分析部５１において抽出された特徴列に基づく音声パターンと、メモリ５２に記憶された音響モデル（たとえばＨＭＭモデル）の音声パターンとをマッチング（照合）して、最も尤度の高いフレーズを発話フレーズの候補として選出する。

棄却処理部５４は、マッチング処理部５３において選出された発話フレーズの候補の受理／棄却を判定する。棄却処理部５４において受理された発話フレーズを示す情報が、認識結果Ｒｅｓｕｌｔとして、出力端子３５を介して音声再生装置１３に出力される。

なお、図４に示したノイズ低減部２０の機能構成および図５に示した音声認識部３０の機能構成は、ハードウェアで実現されてもよいし、ソフトウェアで実現されてもよい。

（動作について）
本実施の形態における音声認識装置１２の動作について説明する。図６は、音声認識装置１２の基本動作を示すフローチャートである。

図６を参照して、マイク１１からノイズ低減部２０の第１の入力端子２３に音声（入力音声ｄ_ｋ）が入力されると（ステップＳ１）、ノイズ低減部２０によるノイズ低減、および、音声認識部３０による音声認識が順に実行される（ステップＳ２，Ｓ３）。その後、音声の認識結果に応じて、音声再生装置１３が音声を再生する（ステップＳ４）。この音声再生装置１３による再生音声ｘ_ｋは、ノイズ低減部２０の第２の入力端子２４に入力され、ステップＳ２のノイズ低減処理において参照信号（リファレンス）として用いられる。

図７は、図６のステップＳ２において実行されるノイズ低減処理の流れを示すフローチャートである。

図７を参照して、ノイズ低減部２０の第１および第２の入力端子２３，２４それぞれに入力音声ｄ_ｋおよび再生音声ｘ_ｋが入力されると（ステップＳ２１）、これら入力音声ｄ_ｋおよび再生音声ｘ_ｋを用いて、第１の減算部２１による第１のノイズ低減音声ｓ_ｋ１の生成（ステップＳ２２）と、第２の減算部２２による第２のノイズ低減音声ｓ_ｋ２の生成（ステップＳ２３）とが並行して行われる。

つまり、ステップＳ２２においては、発話音声ｓ_ｋの認識処理に適したフィルタ処理が行われ、ステップＳ２３においては、発話音声ｓ_ｋの音声区間の検出に適したフィルタ処理が行われる。

ステップＳ２２で生成された第１のノイズ低減音声ｓ_ｋ１は第１の出力端子２５から音声認識部３０の第１の入力端子３３に送られる。ステップＳ２３で生成された第２のノイズ低減音声ｓ_ｋ２は第２の出力端子２６から音声認識部３０の第２の入力端子３４に送られる。

図８は、図６のステップＳ３において実行される音声認識処理の流れを示すフローチャートである。

図８を参照して、音声認識部３０の第１および第２の入力端子３３，３４それぞれに第１および第２のノイズ低減音声ｓ_ｋ１，ｓ_ｋ２が入力されると（ステップＳ３１）、区間検出部３１は、第２のノイズ低減音声ｓ_ｋ２から音声区間を検出する（ステップＳ３２）。つまり、区間検出部３１は、音声区間の始端および終端を検出する。

次に、認識処理部３２の分析部５１が、ステップＳ３２で検出された音声区間の始端と終端との間に位置する第１のノイズ低減音声ｓ_ｋ１を切り出して、第１のノイズ低減音声ｓ_ｋ１を分析する（ステップＳ３３）。第１のノイズ低減音声ｓ_ｋ１の分析によって、第１のノイズ低減音声ｓ_ｋ１の特徴量が抽出されると、マッチング処理部５３が、抽出された特徴列に基づく音声パターンと、メモリ５２に記憶された音響モデルの音声パターンとをマッチング処理する（ステップＳ３４）。マッチング処理部５３は、マッチング処理の結果、最も尤度の高いフレーズを発話フレーズの候補として選出する。

その後、棄却処理部５４が、発話フレーズの候補の棄却処理を行って（ステップＳ３５）、発話フレーズが受理されると、その発話フレーズを示す情報を認識結果Ｒｅｓｕｌｔとして出力する（ステップＳ３６）。

このように、本実施の形態では、分析部５１が、音声区間内の第１のノイズ低減音声ｓ_ｋ１を切り出してから第１のノイズ低減音声ｓ_ｋ１の分析を行うため、音声認識に必要な区間の音声信号だけを分析することができる。したがって、分析部５１における処理負荷を軽減することができる。

なお、分析部５１において第１のノイズ低減音声ｓ_ｋ１の分析を行った後、マッチング処理部５３において音声区間内の特徴量列を切り出すこととしてもよい。つまり、音声区間の始端および終端を示すタイミング信号ＶＡＤは、分析部５１ではなくマッチング処理部５３に送信されてもよい。

以上説明したように、本実施の形態に係る音声認識装置１２によれば、ノイズ低減部２０において、発話音声ｓ_ｋの認識処理用のノイズ低減音声（ｓ_ｋ１）とは別に、発話音声ｓ_ｋの音声区間検出用のノイズ低減音声（ｓ_ｋ２）を生成するため、音声区間の誤検出を低減させることができる。その結果、本実施の形態によれば、スピーカ１４からの音声出力中における発話音声ｓ_ｋの認識精度を向上させることができる。

また、本実施の形態において、音声認識部３０の認識処理部３２は、フレーズ単位で音声を認識するため、音素単位で音声を認識する連続音声認識方法に比べて環境雑音ｂ_ｋに強い。そのため、再生音声ｘ_ｋに基づくノイズ成分だけを除去するだけで（つまり、環境雑音ｂ_ｋが残っていたとしても）、精度良く発話音声ｓ_ｋを認識することができる。

なお、空間特性Ｗ_ｋが既知の場合には、フィルタ係数Ｗ_ｋ１，Ｗ_ｋ２を固定値としてもよい。

（変形例１）
上記実施の形態では、第２のノイズ低減音声ｓ_ｋ２から音声区間を検出する区間検出部が、音声認識部３０に設けられることとしたが、ノイズ低減部２０に設けられてもよい。

図９は、本実施の形態の変形例１における音声認識装置１２Ａの機能構成を示すブロック図である。音声認識装置１２Ａにおいては、ノイズ低減部２０Ａに区間検出部２７が含まれ、音声認識部３０Ａに区間検出部が含まれていない。

区間検出部２７は、第２の減算部２２からの出力、すなわち第２のノイズ低減音声ｓ_ｋ２を入力し、上記と同様に音声区間を検出する。区間検出部２７により検出された音声区間の始端および終端を示すタイミング信号ＶＡＤが、ノイズ低減部２０Ａの第２の出力端子２６から出力される。

音声認識部３０Ａの第２の入力端子３４は、ノイズ低減部２０Ａから出力されるタイミング信号ＶＡＤを入力し、認識処理部３２に送信する。

（変形例２）
上記実施の形態では、ノイズ低減部２０に含まれる各減算部２１，２２は、適応フィルタを用いてノイズ低減を行う構成としたが、限定的ではない。たとえば、ノイズ低減部の各ノイズ減算部は、スペクトル・サブトラクション法に基づいてノイズ低減を行ってもよい。

図１０は、ノイズ減算部の他の構成例を模式的に示すブロック図である。図１０に示すノイズ減算部２１Ａは、入力音声ｄ_ｋおよび再生音声ｘ_ｋのパワースペクトルを用いてノイズ低減音声（ｓ_ｋ１またはｓ_ｋ２）を生成する。

すなわち、ノイズ減算部２１Ａは、入力音声ｄ_ｋを高速フーリエ変換するＦＦＴ（Fast Fourier Transform）部（第１の変換部）２３１と、入力音声ｄ_ｋのパワースペクトルを算出するパワースペクトル算出部（｜Ｚ｜^２）２３３と、再生音声ｘ_ｋからノイズ成分を推定するノイズ推定部２４０と、入力音声ｄ_ｋのパワースペクトルから、ノイズ推定部２４０で推定されたノイズ成分を減算してノイズ低減音声のパワースペクトルを算出する加算器２４４と、ノイズ低減音声のパワースペクトルを音声信号に復元する復元部２５０とを含む。

ノイズ推定部２４０は、再生音声ｘ_ｋを高速フーリエ変換するＦＦＴ部（第２の変換部）２４１と、再生音声ｘ_ｋのパワースペクトルを算出するパワースペクトル算出部（｜Ｚ｜^２）２４２と、パワースペクトル算出部２４２の出力を所定倍する乗算器２４３とを含む。

復元部２５０は、ノイズ低減音声のパワースペクトルから振幅スペクトルを算出する振幅スペクトル算出部（√）２５１と、ノイズ低減音声の振幅スペクトルと、予め位相算出部２３２において算出された（ＦＦＴ後の）入力音声ｄ_ｋの位相スペクトルとを用いて、ノイズ低減音声の複素スペクトルを算出する位相復元部２５２と、ノイズ低減音声の複素スペクトルを逆高速フーリエ変換し、音声信号に変換するＩＦＦＴ（Inverse Fast Fourier Transform）部（逆変換部）２５３とを含む。

この例では、認識処理用である第１のノイズ推定部と音声区間検出用である第２のノイズ推定部とにおいて、乗算器２４３での乗数（α）が異なる。つまり、乗算器２４３での乗数、すなわち再生音声ｘ_ｋのパワースペクトルに適用する乗数が、ノイズ成分（スピーカ音）ｎ_ｋの推定に用いられるパラメータに対応し、第２のノイズ推定部における乗数α_２は第１のノイズ推定部における乗数α_１よりも大きい。

（他の変形例）
上記実施の形態では、音声認識装置が音声出力機器に組み込まれた例を示したが限定的ではない。たとえば、音声出力機器のスピーカの近傍にマイクが配置されるような場合であれば、音声認識装置単体で利用され得る。

また、２種類のノイズ低減音声を生成するノイズ低減部を、ノイズ低減装置として単体で提供することもできる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１音声出力機器、１１マイクロフォン、１２，１２Ａ音声認識装置、１３音声再生装置、１４スピーカ、２０，２０Ａノイズ低減部、２１，２２，２１Ａノイズ減算部、２１０，２２０推定部、２３，２４，３３，３４入力端子、２５，２６，３５出力端子、２７，３１区間検出部、３０，３０Ａ音声認識部、３２認識処理部、４１制御部、４２，５２メモリ、４３アンプ、５１分析部、５３マッチング処理部、５４棄却処理部、２１１，２２１可変フィルタ、２１２，２２２加算器、２１３，２２３更新アルゴリズム、２３１，２４１ＦＦＴ部、２３２位相算出部、２３３，２４２パワースペクトル算出部、２４０ノイズ推定部、２４３乗算器、２４４加算器、２５０復元部、２５１振幅スペクトル算出部、２５２位相復元部、２５３ＩＦＦＴ部。

Claims

音声区間内の音声信号から発話音声を認識する音声認識装置用のノイズ低減装置であって、
ユーザの発話音声に、音声出力部からの出力音声が混在した入力音声信号を入力する第１の音声入力部と、
前記音声出力部から出力される出力音声の元の音声信号を入力する第２の音声入力部と、
前記入力音声信号と前記元の音声信号とに基づいて、発話音声の認識処理用のノイズ低減音声信号である第１のノイズ低減音声信号を生成する第１のノイズ減算部と、
前記入力音声信号と前記元の音声信号とに基づいて、発話音声の音声区間検出用のノイズ低減音声信号である第２のノイズ低減音声信号を生成する第２のノイズ減算部とを備え、
前記第１のノイズ減算部および前記第２のノイズ減算部は、異なるパラメータを用いて、前記元の音声信号からノイズ成分を推定する、ノイズ低減装置。
前記第１のノイズ減算部は、第１のパラメータを用いてノイズ成分を推定する第１の適応フィルタを含み、前記第１の適応フィルタによる推定結果としての第１のノイズ成分を、前記入力音声信号から減算し、
前記第２のノイズ減算部は、第２のパラメータを用いてノイズ成分を推定する第２の適応フィルタを含み、前記第２の適応フィルタによる推定結果としての第２のノイズ成分を、前記入力音声信号から減算する、請求項１に記載のノイズ低減装置。
前記第１および第２のパラメータは、それぞれの適応フィルタにおけるフィルタ係数の収束速度を決定し、
前記第２の適応フィルタにおけるフィルタ係数の収束速度の方が、前記第１の適応フィルタにおけるフィルタ係数の収束速度よりも速い、請求項２に記載のノイズ低減装置。
前記第１および第２のノイズ減算部の各々は、スペクトル・サブトラクション法に基づいて、前記入力音声信号および前記元の音声信号のパワースペクトルを用いてノイズ低減音声信号を生成し、
前記第１および第２のノイズ減算部においてノイズ成分の推定に用いるパラメータは、前記元の音声信号のパワースペクトルに適用する乗数に対応し、前記第２のノイズ減算部において用いられる乗数の方が、前記第１のノイズ減算部において用いられる乗数よりも大きい、請求項１に記載のノイズ低減装置。
前記第２のノイズ減算部により生成された前記第２のノイズ低減音声信号に基づいて、発話音声の音声区間を検出する区間検出部をさらに備える、請求項１〜４のいずれかに記載のノイズ低減装置。
請求項１〜５のいずれかに記載のノイズ低減装置を備えた、音声認識装置。