JP5550456B2

JP5550456B2 - 残響抑圧装置、及び残響抑圧方法

Info

Publication number: JP5550456B2
Application number: JP2010124873A
Authority: JP
Inventors: 一博中臺; 弘史中島; 博奥乃; 龍武田
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2009-06-04
Filing date: 2010-05-31
Publication date: 2014-07-16
Anticipated expiration: 2030-05-31
Also published as: US8391505B2; JP2010282193A; US20100329472A1

Description

本発明は、残響抑圧装置、及び残響抑圧方法に関する。

残響抑圧処理は，遠隔会議通話または補聴器における明瞭度の向上およびロボットの音声認識（ロボット聴覚）に用いられる自動音声認識の認識率の向上のため、自動音声認識の前処理として利用されている重要な技術である。残響抑圧処理において、所定のフレーム毎に、取得した音声信号から残響成分を算出し、取得した音声信号から算出した残響成分を除去することで残響を抑圧していた（例えば、特許文献１参照）。

また、独立成分分析（ＩＣＡ；ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）を用いた残響抑圧手法として、フィルタの更新を、ステップ・サイズを固定して行う手法（例えば、非特許文献１参照）が提案されている。さらに、独立成分分析を用いた残響抑圧手法として、フィルタの更新において、ステップ・サイズを適応的に変更して行う手法（例えば、特許文献２参照）が提案されている。

特開平９―２６１１３３号公報特開２００８―３０６７１２号公報

武田龍、中臺一博、駒谷和範、尾形哲也、奥乃博、"ロボット音声対話のためのＭＦＴとＩＣＡによるバージイン許容機能の評価"、情報処理学会、情報処理学会第７０回全国大会、２００８年、ｐ２−１３５

しかしながら、非特許文献１の従来技術では、分離フィルタの更新を、フレーム毎に固定されたステップ・サイズで行っていたため、ステップ・サイズを細かくした場合、残響音成分を抑圧する処理に時間がかかり、ステップ・サイズが適正で無い場合は残響抑制を精度良く行えないこともあるという問題点があった。また、特許文献２の従来技術では、多チャンネルのセミブラインド独立成分分析において、評価関数の非線形性が高いため、独立成分分析に用いる分離フィルタが高次になり、演算に時間がかかり、演算コストが高くなり実用的ではないという問題点があった。

本発明は、上記の問題点に鑑みてなされたものであって、演算処理を低減しつつ、精度良く残響成分を抑圧する残響抑圧装置及び残響抑圧方法を提供することを課題としている。

上記目的を達成するため、本発明に係る残響抑圧装置は、音声信号を生成し、生成した音声信号を出力する音声信号出力部と、前記音声信号出力部と音源とから発せられた音源信号を集音する複数のマイクロホンによって、前記生成された音声信号と前記生成された音声信号以外を含む入力信号を取得する音声取得部と、前記生成された音声信号と前記入力信号と前記音源信号との相関関係を示す分離行列を算出するとともに、前記音源信号の分離度を前記入力信号に基づいて評価する第１評価関数を算出する第１評価関数算出部と、前記第１評価関数に基づき音源信号の分離度が所定値より高くなる場合の前記分離行列である最適分離行列を算出し、前記算出した最適分離行列に基づいて、前記生成された音声信号以外の音声信号であって、残響成分が抑圧された当該音声信号を１人の人の音声信号として前記入力信号から分離することにより残響成分を抑圧する残響成分抑圧部と、前記分離行列の更新量の大きさを定めるステップ・サイズの関数を、複数の区間に分け当該複数の区間毎に線形関数を用いて近似し、前記近似した線形関数に基づき前記ステップ・サイズを算出し、前記算出されたステップ・サイズを用いて、前記第１評価関数に基づき音源信号の前記分離度が前記所定値より高くなるように前記分離行列の更新を繰り返す分離行列更新部と、を備えることを特徴としている。

また、本発明に係る残響抑圧装置において、前記分離行列更新部は、前記線形関数を用いて近似した各区間の両端のステップ・サイズを用いて前記ステップ・サイズを前記複数の区間について区間毎に算出し、前記ステップ・サイズを評価するための第２評価関数を最小にするように前記ステップ・サイズを算出するようにしてもよい。

また、本発明に係る残響抑圧装置において、前記分離行列更新部は、前記線形関数を用いて近似した各区間の両端のステップ・サイズは、互いに隣り合う区間において連続するように前記複数の区間毎に、前記線形関数を用いて近似するようにしてもよい。

また、本発明に係る残響抑圧装置において、前記入力信号と前記生成された音声信号に対して球面化と分散正規化とを行うことで白色化する白色化部を更に備え、前記第１評価関数算出部は、前記白色化された入力信号に基づき前記分離行列を算出するようにしてもよい。

また、本発明に係る残響抑圧装置において、前記白色化部は、前記白色化された信号に対して時間相関を強制的に除去し、当該時間相関を強制的に除去した信号から、前記白色化された信号に対して前記生成された音声信号と前記入力信号との相関を強制的に除去するようにしてもよい。

また、本発明に係る残響抑圧装置において、前記残響成分抑圧部は、前記複数の区間の数である区間数を算出するためのパラメータを球面化して算出し、
算出したパラメータを用いて前記区間数を算出するようにしてもよい。

また、本発明に係る残響抑圧装置において、前記残響成分抑圧部は、独立成分分析法を用いて前記分離行列の更新と、前記生成された音声信号以外の音声信号であって、前記入力信号から残響成分が抑圧された当該音声信号を分離することにより残響成分を抑圧するようにしてもよい。

上記目的を達成するため、本発明に係る残響抑圧装置の残響抑圧方法は、音声信号出力部が、音声信号を生成し、生成した音声信号を出力する音声信号出力工程と、音声取得部が、前記音声信号出力部と音源とから発せられた音源信号を集音する複数のマイクロホンによって、前記生成された音声信号と前記生成された音声信号以外を含む入力信号を取得する音声取得工程と、第１評価関数算出部が、前記生成された音声信号と前記入力信号と前記音源信号との相関関係を示す分離行列を算出するとともに、前記音源信号の分離度を前記入力信号に基づいて評価する第１評価関数を算出する第１評価関数算出工程と、残響成分抑圧部が、前記第１評価関数算出工程により算出された前記第１評価関数に基づき音源信号の分離度が所定値より高くなる場合の前記分離行列である最適分離行列を算出し、前記算出した最適分離行列に基づいて、前記生成された音声信号以外の音声信号であって、残響成分が抑圧された当該音声信号を１人の人の音声信号として前記入力信号から分離することにより残響成分を抑圧する残響成分抑圧工程と、分離行列更新部が、前記分離行列の更新量の大きさを定めるステップ・サイズの関数を、複数の区間に分け当該複数の区間毎に線形関数を用いて近似し、前記近似した線形関数に基づき前記ステップ・サイズを算出し、前記算出されたステップ・サイズを用いて、前記第１評価関数に基づき音源信号の前記分離度が前記所定値より高くなるように前記分離行列の更新を繰り返す分離行列更新工程と、を備えることを特徴としている。

本発明によれば、音声信号出力部が、音声信号を生成して出力し、音声取得部が、マイクロホンからの入力信号を取得し、第１評価関数算出部が、音声信号と入力信号と音源信号との相関関係を示す分離行列を算出し、且つ入力信号から音源信号の分離度を評価する第１評価関数を算出し、残響成分抑圧部が、最適分離行列を算出し最適分離行列に基づき入力信号から音声信号以外の音源信号を分離することで残響成分を抑圧し、分離行列更新部が、分離行列の更新量を定めるステップ・サイズの関数を複数の区間に分け、複数の区間毎に線形関数で近似しステップ・サイズを算出し第１評価関数値に基づき音源信号の分離度が所定値より高くなるようにステップ・サイズに基づき分離行列の更新を繰り返して残響成分を抑圧するようにしたので、演算処理を低減しつつ、精度良く残響成分の抑圧を行うことができる。

本発明によれば、マイクロホンが取得した音声信号を白色化し、第１評価関数算出部が白色化された信号を用いて分離行列を算出するようにしたので、さらに演算処理を低減しつつ、精度良く残響成分の抑圧を行うことができる。

本発明によれば、ステップ・サイズを算出するための区間数を算出するためのパラメータを球面化して算出し、算出されたパラメータを用いて区間数を算出するようにしたので、演算処理を低減しつつ、精度良く残響成分の抑圧を行うことができる。

本実施形態に係る残響抑圧装置を組み込んだロボットが取得する音声信号の一例を説明する図である。同実施形態に係る残響抑圧装置１００のブロック図の一例を示す図である。同実施形態に係るＳＴＦＴ処理を説明する図である。同実施形態に係るＭＣＳＢ−ＩＣＡ部１１３の内部構成を説明する図である。同実施形態に係るステップ・サイズの更新を説明する図である。同実施形態に係るステップ・サイズの区間線形モデリングを説明する図である。同実施形態に係る処理手順のフローチャートである。第２実施形態に係る処理手順のフローチャートである。第１実施形態に係る実験に用いたデータ及び残響抑圧装置の設定条件である。第１実施形態に係る音声認識の設定を説明する図である。第１実施形態に係る実験条件を説明する図である。第１実施形態に係る実験Ａ（バージ・インの発生なし）且つ環境１の場合の音声認識率を示すグラフである。第１実施形態に係る実験Ａ（バージ・インの発生なし）且つ環境２の場合の音声認識率を示すグラフである。第１実施形態に係る実験Ｂ（バージ・インの発生あり）且つ環境１の場合の音声認識率を示すグラフである。第１実施形態に係る実験Ｂ（バージ・インの発生あり）且つ環境２の場合の音声認識率を示すグラフである。第１実施形態に係る実験Ａと実験ＢのＰＴＲの結果をまとめた図である。

以下、図１〜図１６を用いて本発明の実施形態について詳細に説明する。なお、本発明は斯かる実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。

［第１実施形態］
図１は、本実施形態における残響抑圧装置を組み込んだロボットが取得する音声信号の一例を説明する図である。ロボット１は、図１に示すように、基体部１１と、基体部１１にそれぞれ可動連結される頭部１２（可動部）と、脚部１３（可動部）と、腕部１４（可動部）とを備えている。また、ロボット１は、背負う格好で基体部１１に収納部１５を装着している。なお、基体部１１には、スピーカ２０（音声出力部１４０）が収納され、頭部１２にはマイクロホン３０が収納されている。なお、図１は、ロボット１を側面から見た図であり、マイクロホン３０およびスピーカ２０はそれぞれ複数収納されている。

まず、本実施形態の概略を説明する。図１のように、ロボット１のスピーカ２０から出力される音声信号を、ロボット１の発話Ｓ_ｒとして説明する。
ロボット１が発話している時に、ヒト２が割り込んで発話することをバージ・イン（Ｂａｒｇｅ−ｉｎ）と呼ぶ。バージ・インが発生しているとき、ロボット１には、当該ロボット１の発話のために、割り込んできたヒト２の発話を聞き分けることが困難である。
そして、ヒト２およびロボット１が発話している場合、ロボット１のマイクロホン３０には、ヒト２の発話Ｓ_ｕが空間を経由して伝達する残響音を含むヒト２の音声信号ｈ_ｕと、ロボット１の発話Ｓ_ｒが空間を経由して伝達する残響音を含むロボット１の音声信号ｈ_ｒとが入力される。

本実施形態では、ＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ；独立成分分析）をベースにしたＭＣＳＢ−ＩＣＡ（Ｍｕｌｔｉ−ＣｈａｎｎｅｌＳｅｍｉ−ＢｌｉｎｄＩＣＡ）を用いて残響音をキャンセル、すなわち抑圧して、ヒト２の発話Ｓ_ｕを分離する。このＭＣＳＢ−ＩＣＡにおいて、ロボット１がマイクロホン３０により取得した音声信号と、ロボット１による既知の発話とを白色化し、白色化された値を用いて、ＩＣＡにより第１評価関数が最小値になるように反復処理を行うことで分離フィルタを算出し、マイクロホン３０が取得した音声信号から残響成分を抑圧することでヒト２の音声信号を分離し、ヒト２の発話の音声信号Ｓ_ｕを算出する。また、ＩＣＡにおいて、更新量の大きさであるステップ・サイズをいくつかの区間に分けた区間線形モデルにより算出する。なお、音源信号の分離度が、所定の値より高くなるまで反復処理を行う処理は、使用する評価関数によっては、ＩＣＡにより第１評価関数の値が最小値になるように反復処理を行い、または、最大値になるように反復処理を行うようにしてもよい。

図２は、本実施形態における残響抑圧装置１００のブロック図の一例を示す図である。図２のように、残響抑圧装置１００にはマイクロホン３０、スピーカ２０が接続され、マイクロホン３０は複数のマイクロホン３１、３２・・・を備えている。また、残響抑圧装置１００は、制御部１０１と、音声生成部１０２と、音声出力部１０３と、音声取得部１１１と、ＳＴＦＴ部１１２と、ＭＣＳＢ−ＩＣＡ部１１３と、記憶部１１４と、分離データ出力部１１５とを備えている。

制御部１０１は、ロボット１の発話である音声信号を生成して出力する指示を音声生成部１０２に出力し、ロボット１が発話中であることを示す信号をＳＴＦＴ部１１２とＭＣＳＢ−ＩＣＡ部１１３に出力する。

音声生成部１０２は、制御部１０１からの指示に基づき、ロボット１の発話である音声信号を生成し、生成した音声信号を音声出力部１０３とＳＴＦＴ部１１２とに出力する。

音声出力部１０３には、生成された音声信号が入力される。音声出力部１０３は、入力された音声信号を所定のレベルに増幅してスピーカ２０に出力する。

音声取得部１１１は、マイクロホン３０が集音した音声信号を取得し、取得した音声信号をＳＴＦＴ部１１２に出力する。

ＳＴＦＴ（Ｓｈｏｒｔ−ｔｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ；短時間フーリエ解析：白色化部）部１１２には、取得された音声信号と生成された音声信号が入力される。ＳＴＦＴ部１１２は、取得された音声信号と生成された音声信号とにハニング等の窓関数を音声信号に乗じ、有限期間内で解析位置をシフトしながら解析を行う。そして、ＳＴＦＴ部１１２は、取得された音声信号を、フレームｔ毎にＳＴＦＴ処理して時間−周波数領域の信号ｘ（ω、ｔ）に変換し、また、生成された音声信号を、フレームｔ毎にＳＴＦＴ処理して時間−周波数領域の信号ｓ_ｒ（ω、ｔ）に変換し、変換した信号ｘ（ω、ｔ）と信号ｓ_ｒ（ω、ｔ）を周波数ωごとにＭＣＳＢ−ＩＣＡ部１１３に出力する。図３（ａ）と図３（ｂ）は、ＳＴＦＴ処理を説明する図である。図３（ａ）は、取得された音声信号の波形であり、図３（ｂ）は、この取得された音声信号に乗じられる窓関数である。図３（ｂ）において、記号Ｕはシフト長であり、記号Ｔは解析を行う期間を示している。なお、このシフト長さは、所定の値を用いる。

ＭＣＳＢ−ＩＣＡ部（第１評価関数算出部、残響成分抑圧部、分離行列更新部）１１３には、ＳＴＦＴ部１１２から変換された信号ｘ（ω、ｔ）と信号ｓ_ｒ（ω、ｔ）が周波数ωごとに入力される。また、ＭＣＳＢ−ＩＣＡ部１１３は、入力された信号ｘ（ω、ｔ）と信号ｓ_ｒ（ω、ｔ）と記憶部１１４に記憶されている各モデル及び各係数を用いて、分離フィルタＷ_ｒ、分離フィルタＷ_１ｕおよびＷ_２ｕを、取得された音声信号からヒト２の直接音声信号Ｓｕの分離度を示す第１評価関数に基づき音源信号の分離度が所定値より高くなるときの各分離フィルタを選択するようにして、反復処理により算出する。分離フィルタＷ_ｒ、Ｗ_１ｕおよびＷ_２ｕ算出後、算出された分離フィルタＷ_ｒ、Ｗ_１ｕおよびＷ_２ｕを用いて、マイクロホン３０が取得した音声信号からヒト２の直接発話信号ｓ（ｔ）を推定して分離し、分離した直接発話信号を分離データ出力部１１５に出力する。

図４は、ＭＣＳＢ−ＩＣＡ部１１３の内部構成を説明する図である。図４のように、ＭＣＳＢ−ＩＣＡ部１１３は、強制空間球面化部２１０と、ＩＣＡ部２２１と、スケーリング部２３１と、直接音選択部２４１とを備え、強制空間球面化部２１０は、空間球面化部２１１と分散正規化部２１２を備えている。
ＳＴＦＴ部１１２から入力された信号ｘ（ω、ｔ）は、バッファ２０１を介して強制空間球面化部２１０の空間球面化部２１１に入力され、ＳＴＦＴ部１１２から入力された信号ｓ_ｒ（ω、ｔ）は、バッファ２０２を介して強制空間球面化部２１０の分散正規化部２１２に入力される。そして、強制空間球面化部２１０は、入力された信号ｘ（ω、ｔ）と信号ｓ_ｒ（ω、ｔ）を、球面化と分散正規化により白色化し、白色化した信号をＩＣＡ部２２１に出力する。そして、ＩＣＡ部２２１には、強制空間球面化部２１０から白色化された信号が入力される。ＩＣＡ部２２１は、入力された信号を用いて、第１評価関数を最小値にするように繰り返しＩＣＡ処理を行って分離フィルタを算出し、算出した分離フィルタを用いて分離する音声信号を算出する。そして、ＩＣＡ部２２１は、算出結果をスケーリング部２３１に出力し、スケーリングされた信号を直接音選択部２４１に出力する。なお、スケーリング部２３１は、ｐｒｏｊｅｃｔｉｏｎＢａｃｋ処理を用いてスケーリングを行い、直接音選択部２４１は、入力された信号からパワーが最大のものを選択して、選択した信号を分離データ出力部１１５に出力する。

記憶部１１４には、ロボット１がマイクロホン３０を介して取得する音声信号のモデル、解析するための分離モデル、解析するために必要なパラメータ、ＭＣＳＢ−ＩＣＡ部１１３の更新ルール等が予め書き込まれて記憶され、さらに、算出された分離フィルタＷ_ｒ、分離フィルタＷ_１ｕ及び分離フィルタＷ_２ｕが、更新中に書き込まれて記憶される。

分離データ出力部１１５には、ＭＣＳＢ−ＩＣＡ部１１３から分離された直接発話信号が入力され、入力された直接発話信号を、例えば非図示の音声認識部に出力する。

次に、ロボット１が取得した音声から必要な音声信号を分離するための分離モデルについて説明する。記憶部１１４には、ロボット１がマイクロホン３０を介して取得する音声信号は、式（１）のＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ；有限インパルス応答）のモデルのように定義できる。

式（１）において、記号ｘ_１（ｔ）・・・ｘ_Ｌ（ｔ）は、複数のマイクロホン３０の各スペクル（Ｌはマイクロホン番号）、ｘ（ｔ）はベクトルであり［ｘ_１（ｔ），ｘ_２（ｔ），・・・，ｘ_Ｌ（ｔ）］^Ｔ、ｓ_ｕ（ｔ）はヒト２の発話、ｓ_ｒ（ｔ）は既知のロボット１のスペクトル、ｈ_ｕ（ｎ）はヒト２の音声スペクトルのＮ次元のＦＩＲ係数ベクトル、ｈ_ｒ（ｍ）は既知のロボット１のＭ次元のＦＩＲ係数ベクトルである。式（１）は、ロボット１がマイクロホン３０を介して取得する時刻ｔにおけるモデル化である。

また、記憶部１１４には、ロボット１のマイクロホン３０が集音した音声信号が、式（２）のように残響成分を含んだベクトルＸ（ｔ）としてモデル化され予め記憶されている。さらに、記憶部１１４には、ロボット１の発話の音声信号が、式（３）のように残響成分を含んだベクトルＳ_ｒ（ｔ）としてモデル化されて予め記憶されている。

式（３）において、ｓ_ｒ（ｔ）はロボット１が発話した音声信号であり、ｓ_ｒ（ｔ−１）は空間を伝達されて「１」遅延して音声信号が届くことを表し、ｓ_ｒ（ｔ−Ｍ）は「Ｍ」遅延して届く音声信号が届くことを表している。すなわち、ロボット１から離れている距離が大きく、遅延量が大きいほど残響成分が大きくなることを表している。

次に、独立成分分析を用いて既知の直接音Ｓ_ｒ（ｔ）とＸ（ｔ−ｄ）と、ヒト２の直接発話信号ｓ_ｕとを独立となるように分離するため、ＭＣＳＢ−ＩＣＡの分離モデルを次式（４）のように定義し、記憶部１１４に記憶されている。

式（４）において、ｄ（０より大きい）は、初期反射間隔であり、Ｘ（ｔ−ｄ）は、Ｘ（ｔ）をｄ遅延させたベクトルであり、式（５）は、Ｌ次元の推定された信号ベクトルである。また、式（５）には、ヒト２の発話の直接発話信号といくつかの反射音信号とを含まれている。

また、式（４）において、Ｗ_１ｕは、Ｌ×Ｌのブラインド分離行列（分離フィルタ）であり、Ｗ_２ｕは、Ｌ×Ｌ（Ｎ＋１）の分離行列（分離フィルタ）であり、Ｗ_ｒは、Ｌ×（Ｍ＋１）の残響音キャンセルの分離行列である。また、Ｉ_２とＩ_ｒは、それぞれに対応する大きさの単位行列である。

次に、式（４）を解くためのパラメータについて説明する。式（４）において、分離パラメータのセットＷ＝｛Ｗ_１ｕ、Ｗ_２ｕ、Ｗ_ｒ｝を、結合確率密度関数（ＰｒｏｂａｂｉｌｉｔｙＤｅｎｓｉｔｙＦｕｎｃｔｉｏｎ）とｓ（ｔ）、Ｘ（ｔ−ｄ）およびＳ_ｒ（ｔ）の周辺確率密度関数（個々のパラメータの独立な確率分布を表わす周辺確率密度関数）の積との間の差の尺度としてＫＬ（Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒ；カルバック・ライブラー）情報量を最小化するように推定する。明示的な第１評価関数は、次式（６）のように表される。

式（６）において、ｐ_ｉ（ｓ_ｉ）は確率変数ｓ_ｉの結合確率密度関数であり、Ｅ［・］は時間平均化演算子であり、Ｈは｛ｘ（ｔ），Ｘ（ｔ−ｄ），Ｓ_ｒ（ｔ）｝の結合エントロピーである。

ＭＣＳＢ−ＩＣＡ部１１３は、分離パラメータのセットＷを、（６）式の第１評価関数が最小の値するように、ＫＬ情報量を自然勾配法により最小にするように各分離フィルタを次式（７）〜式（１０）のルールに従い繰り返し更新することで推定を行う。また、式（７）〜式（１０）は、記憶部１１４に予め書き込まれて記憶されている。

なお、式（７）、式（９）〜式（１０）において、上付きＨは共役転置演算（エルミート転置）を表す。また、式（７）において、Λは非ホロノミック拘束行列、すなわち、次式（１１）の対角行列である。

また、式（８）〜式（１０）において、ｕは、更新量の大きさであるステップ・サイズのパラメータであり、φ（ｘ）は、非線形関数ベクトル［φ（ｘ_１）、・・・、φ（ｘ_Ｌ）］^Ｈであり、次式（１２）のように表される。

さらに、音源の結合確率密度関数は、分散量σ^２であるとした場合、雑音に強い結合確率密度関数であるｐ（ｘ）＝ｅｘｐ（−｜ｘ｜／σ^２）／（２σ^２）であり、φ（ｘ）＝ｘ^＊／（２σ^２｜ｘ｜）である。なお、ｘ^＊はｘの共役であると仮定する。この２つの関数は、連続領域である｜ｘ｜＞εにおいて定義される。

ＩＣＡの収束性の向上のため、強制空間球面化部２１０は、前処理として球面化の近似である強制空間球面化と分散正規化を行うことで白色化を行う。また、ｐ（ｘ）＝ｅｘｐ（−｜ｘ｜／σ^２）／（２σ^２）において、球面化により入力信号を球面化（無相関化）し、分散を正規化するため、分散σ^２はほとんど１であると仮定する。

次に、強制空間球面化について説明する。ユーザ発話に関するＬ（Ｎ＋１）×（Ｋ＋Ｊ＋１）の伝達特性行列Ｈは、次式（１３）にように表される。なお、Ｌはロボット１のマイクロホンの本数である。Ｎは伝達特性行列Ｈの列数、Ｋは伝達特性行列Ｈの行、Ｊは定数である。

式（１３）において、ｈ（ｉ）＝［ｈ_１（ｉ），ｈ_２（ｉ），・・・，ｈ_Ｌ（ｉ）］^Ｔである。そして、Ｌ（Ｎ＋１）＝Ｋ＋Ｊ＋１を満たすとき、伝達特性行列Ｈは、Ｌ（Ｎ＋１）×Ｌ（Ｎ＋１）の正方行列であるので、瞬時混合系で記述することができる。そして、既知のロボット発話を含む全体の過程は、次式（１４）のように表すことができる。

式（１４）において、Ｉは（Ｍ＋１）×（Ｍ＋１）の単位行列であり、Ｈ_ｒは既知の行列Ｌ（Ｎ＋１）×（Ｍ＋１）で式（１５）のような伝達特性行列である。

式（１５）において、ｈ_ｒ（ｉ）は式（１６）である。

次に、強制空間球面化部２１０は、時空間相関行列Ｒの固有値Λ、時空間相関行列Ｒの固有ベクトルＥを用いて、次式（１７）〜式（１８）により球面化を行う。

この固有値分解の計算量をさらに抑えるために、強制空間球面化部２１０は、強制的に時間相関の除去と、強制的に既知信号と観測信号との相関の除去を、次式（１９）〜式（２２）を用いて行う。

式（１９）〜式（２２）において、空間相関行列Ｒ（０）は、Ｅ［ｘ（ｔ）ｘ^Ｈ（ｔ）］であり、分散λ_ｒは式（２３）である。

式（１９）〜式（２２）を用いて、式（１７）と式（１８）の演算を行うことは、観測信号（ロボット１のマイクロホン３０が取得したロボット１の発話とヒト２の発話）に空間球面化を行うことと、既知信号（ロボット１の発話）にスケールの正規化を行うことを意味している。そして、強制的な時間相関の除去と、強制的な既知信号と観測信号との相関の除去とにより、観測信号Ｘ（ｔ）は式（２４）により変換され、既知信号Ｓ_ｒ（ｔ）は式（２６）により変換され、強制空間球面化が行われる。
すなわち、ＭＣＳＢ−ＩＣＡ部１１３の空間球面化部２１１には、変換された信号ｘ（ω、ｔ）が周波数ωごとに入力され、周波数ωをインデックスとして順次、次式（２４）を用いて空間球面化を行い、ｚ（ｔ）を算出する。

ただし、Ｖ_ｕは式（２５）である。

さらに、式（２５）において、Ｅ_ｕとΛ_ｕは、固有ベクトル行列であり、固有対角行列Ｒ_ｕ＝Ｅ｜ｘ（ｔ）ｘ^Ｈ（ｔ）｜である。
さらに、ＭＣＳＢ−ＩＣＡ部１１３の分散正規化部２１２には、変換された信号ｓ_ｒ（ω，ｔ）が周波数ωごとに入力され、周波数ωをインデックスとして順次、次式（２６）を用いてスケールの正規化を行う。

強制空間球面化後、式（４）、式（７）〜式（１０）のｘとｓ_ｒが、ｚと式（５）に代入される。そして、空間球面化部２１１は、このように演算されたｚ（ω，ｔ）をＩＣＡ部２２１に出力し、分散正規化部２１２は、スケール正規化された式（２６）の値をＩＣＡ部２２１に出力する。

次に、分離プロセスの再起表現について説明する。まず、処理を行う上で、式（４）を次式（２７）のように書き換える。

式（２７）において、Ｗ_ｕ（ｎ）はＬ×Ｌの分離行列であり、Ｗ_ｒ（ｍ）はＬ×１の分離行列である。演算を簡単にするため、Ｗ_ｕ（ｎ）の範囲（ｎは、１以上かつｄ未満）を省略しているので、Ｗ_ｕ（ｎ）はこの範囲内でゼロに等しいと仮定される。また、Ｗ_１ｕはＷ_ｕ（０）に対応し、Ｗ_２ｕは［Ｗ_ｕ（ｄ），・・・,Ｗｕ（Ｎ）］に対応し、およびＷ_ｒは［Ｗ_ｕ（０），・・・,Ｗｕ（Ｍ）］に対応している。さらに、式（８）〜式（１０）は、増分記号ΔＷ_ｘを用いることで、次式（２８）のように書き換えることができる。なお、Ｗ_ｘとは、Ｗ_ｒとＷ_１ｕおよびＷ_２ｕを略して表している。

式（２７）、ΔＷ_ｘにより、推定された式（５）の再帰的表現は、次式（２９）のように表される。

次式（３０）〜式（３１）のように置くと、式（２９）は式（３２）のように再帰表現として表すことができる。

次に、更新量の大きさであるステップ・サイズｕの推定を一般化するために、ステップ・サイズμを、式（３３）で表されるそれぞれの音源、遅延フレームｍとｎ、それぞれの繰り返し係数ｊとが、各々異なるように係数を修正する。

次に、フレームが異なるＬ×Ｌの式（３４）〜式（３５）の対角ステップ・サイズ行列を用いて、式（３３）は式（３６）のように書き換えることができる。

なお、式（３４）〜式（３５）において、記号ｄｉａｇは、対角成分を表している。式（３５）の更新にともない更新規則である式（２８）は、次式（３７）にように書き換わる。

また、最適なステップ・サイズのパラメータである式（３８）は、次式（３９）のステップ・サイズのための第２評価関数を最小化することにより推定する。

式（３９）は、式（６）を用いて、次式（４０）のように置き換えられる。

式（４０）において、第２項の式（４１）は、第１項の式（４２）に比べて値が非常に小さいと仮定する。この仮定により、式（４０）は、式（４３）のように近似される。

この近似の結果、Ｊ（μ）を最小化する代わりに、式（４４）をそれぞれ独立して最小化することができる。

式（４４）は、まだ推定すべき多数のパラメータを有しているため、さらにパラメータ数を削減し演算コストを削減する。
次に、さらに演算コストを削減する方法について、図５を用いて説明する。図５は、ステップ・サイズの区間線形モデリングを説明する図である。図５（ａ）は、区間線形モデリングを行わない場合のステップ・サイズを示す図であり、図５（ｂ）は、区間モデリングを行う場合のステップ・サイズを示す図である。すなわち、図５（ｂ）のように、ステップ・サイズの関数を全て演算した場合、演算量が多い。このため、いくつかの区間に分け、分けた区間内で線形近似することで演算量を大幅に削減する。
観測された項である式（４５）と既知の音源の項である式（４６）に対する第ｉ番目の要素のステップ・サイズ・パラメータは、遅延フレームの個数の項とほとんど同じであり、すなわち式（４７）である。

ここで、式（４８）の第ｉ番目の要素を式（４９）のように置き換え、式（５０）の第ｉ番目の要素を式（５１）のように置き換えると、式（３６）を次式（５２）のように簡素化できる。

式（５２）において、式（５３）のように置くと、次式（５４）のように表せる。

次に、図５（ｂ）のように、μ_ｉ（ｎ）をＰ個に分割された区間線形関数で近似し、次式（５５）のように定義する。

式（５５）において、式（５６）と式（５７）は、ｎの第ｐ番目の範囲［Ｂ_ｐ，Ｂ_ｐ＋１］内の端点３０１と３０２である。図５（ｂ）において、最終区間Ｐの端点における値はゼロ、すなわち式（５８）がゼロであると仮定する。また、図５（ｂ）のように、線分を３１１〜３１３に区切った場合、線分３１１と線分３１２の接続点である端点３０１は同じ値のため、線分３１１と線分３１２との接続点を連続するように近似している。

次に、この線形区間モデルと式（５５）を用いて、式（５４）の第２項を次式（５９）のように置き直す。

さらに、式（５８）の項でまとめて（ｓｕｍｍａｒｉｚｉｎｇ）、そのパラメータをＹ_ｉ（ｔ，ｐ）に置き換えると、Ｐ個の項の和で表せるので、式（５９）、すなわち式（５４）は次式（６０）のように表すことができる。

あるいは、行列表現を用いて、次式（６１）のように表せる。

式（６１）において、式（６２）は式（６３）であり、Ｙ_ｉ（ｔ）は式（６４）である。

このように、区間線形モデルにより、ステップ・サイズ推定する場合において、区間数Ｐの数は、式（４）と比較して大幅に減少し、演算コストを下げることができる。
そして、ｌ回目の繰り返しから（ｌ＋１）回目の繰り返しまでのステップ・サイズである式（６５）の更新規則は、式（６６）のように表される。

式（６６）において、γはステップ・サイズのパラメータであり、Ｒｅ［ｘ］はｘの実数を表す。そして、この式（６６）の適応において、パラメータγと区間数Ｐを設定する必要がある。
次に、区間数Ｐを算出するために、次式（６７）〜式（６８）の規則を用いてＹ_ｉ（ｔ）の球面化により収束速度を早める。

式（６８）において、Ｅ_ｉは、式（６９）の固有ベクトル行列であり、Λ_ｉは、式（６９）の固有値対向行列である。

式（６１）〜式（６４）、式（６６）のＹ_ｉ（ｔ）は、全てＰ_ｉ（ｔ）に代入される。この結果、式（３７）におけるステップ・サイズｕは、式（７０）に置き換わる。

また、この処理は、Ｗのｊ回目の反復で式（６５）が収束するのを待たずに、式（６５）の反復をｑ回停止することができる。これは、この適応がＷの推定の一部であるためであり、式（６５）を（ｊ＋１）回目の反復における式（６２）の初期値として再利用することができるためである。そして、ｊ回目の反復でステップ・サイズのパラメータγをスケジュールするために次式（７１）のアニーリング法を用いる。

なお、式（７１）において、α_γおよびβ_γは定数パラメータである。

次に、残響抑圧の処理手順を、図１、図５〜図７を用いて説明する。図６は、ステップ・サイズの更新を説明する図である。図７は、本実施形態における処理手順のフローチャートである。まず、ＭＣＳＢ−ＩＣＡ部１１３は、繰り返し処理で用いる係数ｉと係数ｊおよびｌをそれぞれ初期化（＝１）にする（ステップＳ１）。

次に、音声取得部１１１には、マイクロホン３０が集音した音声信号が入力され、入力された音声信号をＳＴＦＴ部１１２に出力する（ステップＳ２）。マイクロホン３０が集音する音声信号は、音声生成部１０２が生成した音声信号Ｓ_ｒに、スピーカ２０から発せられた音声が壁、天井、床などで反響した残響成分を含む音声信号ｈ_ｒである。

次に、ＳＴＦＴ部１１２には、マイクロホン３０が取得した音声信号と、音声生成部１０２が生成した音声信号とが入力され、取得された音声信号をフレームｔ毎にＳＴＦＴ処理して時間−周波数領域の信号ｘ（ω、ｔ）に変換し、変換した信号ｘ（ω、ｔ）を周波数ωごとにＭＣＳＢ−ＩＣＡ部１１３に出力する。また、ＳＴＦＴ部１１２は、生成された音声信号を、フレームｔ毎にＳＴＦＴ処理して時間−周波数領域の信号ｓ_ｒ（ω、ｔ）に変換し、変換した信号ｓ_ｒ（ω、ｔ）を周波数ωごとにＭＣＳＢ−ＩＣＡ部１１３に出力する。

ＭＣＳＢ−ＩＣＡ部１１３の強制空間球面化部２１０には、バッファ２０１とバッファ２０２を介して、周波数ωごとに変換された信号ｘ（ω、ｔ）（マイクロホン入力に基づく信号）と変換された信号ｓ_ｒ（ω、ｔ）（ロボット発話に基づく信号）とが入力され、入力された信号ｘ（ω、ｔ）と信号ｓ_ｒ（ω、ｔ）に対して、強制空間空面化を行う（ステップＳ３）。
強制空間球面化は、ＭＣＳＢ−ＩＣＡ部１１３の空間球面化部２１１と分散正規化部２１２により以下のように行われる。空間球面化部２１１には、変換された信号ｘ（ω、ｔ）が周波数ωごとに入力され、周波数ωをインデックスとして順次、式（２４）を用いて空間球面化を行い、ｚ（ｔ）に変換する。分散正規化部２１２には、変換された信号ｓ_ｒ（ω，ｔ）が周波数ωごとに入力され、周波数ωをインデックスとして順次、式（２６）を用いてスケールの正規化を行う。
空間球面化部２１１は、このように演算されたｚ（ω，ｔ）をＩＣＡ部２２１に出力し、分散正規化部２１２は、このように正規化された式（２６）の値をＩＣＡ部２２１に出力する。

以下、ｉ番目の分離音ｓ_ｉ（ｔ）について、ステップＳ４〜ステップＳ１２をＬ回（Ｌはマイクロホン３０の個数）繰り返すことで更新し、さらに、ステップＳ４〜ステップＳ１４をＬ回繰り返すことで残響成分を抑圧したヒト２の発話信号を抽出する。
まず、ＩＣＡ部２２１は、ｉ＝１番目の分離音ｓ^［ｊ］（ｔ）の予測値（式（５））を、式（３６）を用いて算出する（ステップＳ４）。

次に、ＩＣＡ部２２１は、ｊ番目の分離フィルタＷ_１ｕ、Ｗ_２ｕ及びＷ_ｒの各勾配ΔＷ^［ｊ］を、算出された分離音ｓ_ｒ（ｔ）の予測値と式（７）〜式（１０）を用いて算出する（ステップＳ５、図６の勾配ΔＷ^［ｊ］算出工程４０１）。

次に、ＩＣＡ部２２１は、ｌ番目のステップ・サイズｕ演算用のパラメータＹ_ｉ（ｔ）を、時間減衰を考慮して式（６７）と式（６８）の規則に従って球面化する（ステップＳ６）。

次に、ＩＣＡ部２２１は、ステップＳ６で算出されたｌ番目のＹ_ｉ（ｔ）を用いて、式（６７）により区間線形モデルの区間数Ｐを算出する。
次に、ＩＣＡ部２２１は、ステップ・サイズのパラメータγを、式（７１）により算出する。
次に、ＩＣＡ部２２１は、算出した区間数Ｐとステップ・サイズのパラメータγとを用いて、式（６６）により式（６２）のステップ・サイズを算出して更新する（ステップＳ７、図６のステップ・サイズμ算出工程４０３）。
なお、ステップ・サイズの推定のための反復回数は、ｑ回（ｑは１以上、Ｌ未満の自然数）で停止するようにしても良い。

次に、ＩＣＡ部２２１は、ｌが所定の値のＬ未満か否かを判定し（ステップＳ８）、ｌがＬ未満の場合（ステップＳ８；Ｙｅｓ）、ｌに１を加算し（ステップＳ９）、ステップＳ６に戻り、ｌがＬ以上の場合（ステップＳ８；Ｎｏ）、ステップＳ１０に進む。

ｌがＬ以上の場合（ステップＳ８；Ｎｏ）、ＩＣＡ部２２１は、分離フィルタＷ_１ｕ、Ｗ_２ｕ及びＷ_ｒの次（ｊ＋１）の各分離フィルタＷ^{［ｊ＋１］}＝を、式（３７）を用いて更新する（ステップＳ１０、図６の勾配ΔＷ^［ｊ］算出工程４０１、ステップ・サイズμ算出工程４０３、乗算工程４０４、加算工程４０５）。なお、ＩＣＡ部２２１は、式（６）のＪ（Ｗ）が小さくなるように、各分離フィルタを推定して更新していく。

次に、ＩＣＡ部２２１は、ｊが所定の値のＬ未満か否かを判定し（ステップＳ１１）、ｊがＬ未満の場合（ステップＳ１１；Ｙｅｓ）、ｊに１を加算し（ステップ１２）、ステップＳ４に戻り、ｊがＬ以上の場合（ステップＳ１１；Ｎｏ）、ステップＳ１３に進む。

ｊがＬ以上の場合（ステップＳ１１；Ｎｏ）、ＩＣＡ部２２１は、ｉが所定の値のＬ未満か否かを判定し（ステップＳ１３）、ｉがＬ未満の場合（ステップＳ１３；Ｙｅｓ）、ｉに１を加算し（ステップＳ１４）、ステップＳ６に戻り、ｉがＬ以上の場合（ステップＳ１３；Ｎｏ）、ステップＳ１５に進む。
ｉがＬ以上の場合（ステップＳ１３；Ｎｏ）、ＩＣＡ部２２１は、算出された各分離音ｓ（ｔ）の推定値結果をスケーリング部２３１に出力し、スケーリングされた信号を直接音選択部２４１に出力する。なお、スケーリング部２３１は、ｐｒｏｊｅｃｔｉｏｎＢａｃｋ処理等を用いてスケーリングを行い、直接音選択部２４１は、入力された信号からパワーが最大のものを選択して分離データ出力部１１５に出力する（ステップＳ１５）。
すなわち、直接音選択部２４１は、複数のマイク３０が取得した音声信号から、ヒト２の発話信号ｈｕから残響成分を抑圧して、ヒト２の直接発話である音声信号Ｓｕを選択している。

以上のように、マイクロホン３０が取得した音声信号を白色化し、白色化された信号を区間線形モデルにより算出した区間数に基づきＩＣＡ処理して分離フィルタ（Ｗ_ｒ、Ｗ_１ｕ、Ｗ_２ｕ）と分離音ｓ（ｔ）の推定値とを、区間線形モデルを用いて区間数Ｐに分けて算出したステップ・サイズを用いて更新するようにしたので、残響抑圧における演算効率を上げることができ、少ない演算量で精度の良い残響抑圧を行うことができる。また、ステップ・サイズ算出時に、パラメータＹ_ｉ（ｔ）を球面化して算出するようにしたので、より少ない演算量で残響抑圧を行うことができる。

［第２実施形態］
第１実施形態との違いは、ステップＳ６ａの処理である。第１実施形態では、ステップ・サイズｕ演算用のパラメータＹ_ｉ（ｔ）を球面化して算出したが、第２実施形態では、時間減衰を考慮せず、すなわち、球面化を行わずにステップ・サイズｕのパラメータＹ_ｉ（ｔ）を算出する（ステップＳ６ａ）。なお、時間減衰を考慮しないとは、Ｙ_ｉ（ｔ）の要素が１の場合に相当する。すなわち、パラメータＹ_ｉ（ｔ）の要素数に応じて、要素数が１の場合は、第２実施形態のように球面化を行わずにパラメータＹ_ｉ（ｔ）を算出してステップ・サイズｕを算出し、要素数が１以上の場合は、第１実施形態のように球面化を行ってパラメータＹ_ｉ（ｔ）を算出してステップ・サイズｕを算出する。

以上のように、パラメータＹ_ｉ（ｔ）の要素数に応じて、要素数が１の場合は、球面化を行わずにパラメータＹ_ｉ（ｔ）を算出してステップ・サイズｕを算出するようにしたので、第１実施形態と同様に、残響抑圧における演算効率を上げることができ、少ない演算量で精度の良い残響抑圧を行うことができる。

［実験結果例］
次に、本実施形態の残響抑圧装置を備えるロボット１で行った実験方法と実験結果の一例を説明する。図９〜図１２は、実験条件である。音声データに対するこのインパルス応答は、通常の部屋（環境Ｉ；残響時間ＲＴ_２０＝２４０ｍｓｅｃ，４．２ｍ×７．０ｍ）と、ホールに似た部屋（環境ＩＩ；残響時間ＲＴ_２０＝６７０ｍｓｅｃ，７．５５ｍ×９．５５ｍ）の２つの部屋において、１６ＫＨｚで記録された。
図９は、実験に用いたデータ及び残響抑圧装置の設定条件である。図９のように、インパルス応答は１６ＫＨｚサンプル、残響時間は２４０ｍｓと６７０ｍｓ、ロボット１とヒト２との距離は１．５ｍ、ロボット１とヒト２の角度は０度、４５度、９０度、−４５度、−９０度、使用したマイクロホン３０の本数は２本（ロボット１の頭部に設置）、ＳＴＦＴ分析はハニング窓のサイズ６４ｍｓ（５１２ポイント）かつシフト量２４ｍｓ（１６０ポイント）、入力信号データ（１６ビット、ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ））は［−１．０１．０］に正規化されたものである。また、ロボット１の頭部に取り付けられたマイクロホン３０の本数は２本である。

図１０は、音声認識の設定を説明する図である。図１０のように、テスト・セットは２００の文章（日本語）、訓練セットは２００人（それぞれ１５０の文章）、音響モデルはＰＴＭ−ｔｒｉｐｈｏｎｅ、３値のＨＭＭ（隠れマルコフモデル）、言語モデルは語彙サイズ２０ｋ、発話解析はハニング窓のサイズ３２ｍｓかつシフト量１０ｍｓ、特徴量はＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｍＣｏｅｆｆｉｃｉｅｎｔ；スペクトル包絡）は２５次（１２次ＭＦＣＣとΔ１２次ＭＦＣＣと１次元Δパワー）であり、次いで、ケプストラム平均正規化を用いた。なお、Δパワーは、例えば、フレーム中の信号のパワーを計算し、計算に用いたフレームと後前後２フレームずつ計５フレームを使って線形回帰を行って算出する。
また、ユーザ（ヒト２）の音声およびロボットの音声について２００個の日本語の文章を使用し、これらの文章を対応する記録されたインパルス応答に畳み込んだ。また、音声認識エンジンは、公知のＪｕｌｉｕｓ（http://julius.sourceforge.jp/）を使用している。さらに、２００人の男性と女性の話者によって発せられた明瞭な音声の1５０個の文章を使ってｔｒｉｐｈｏｎｅベースの音響モデル(３状態および４混合)を学習した(閉じた語)。統計的言語モデルは、２万語からなり、これらの語は新聞から抽出した。

実験は、バージ・インが発生していない場合（実験Ａ）、バージ・インが発生している場合（実験Ｂ）の２種類である。バージ・インが発生していない場合は、ロボット１が取得する音声信号は、ユーザの音声信号（含む残響音）のみであり、バージ・インが発生している場合は、ユーザの音声信号とロボット１の音声信号とを含んでいる。また、全てのデータは、行列Ｗ_１ｕ、Ｗ_２ｕおよびＷ_ｒを推定するために使用された(バッチ処理)。また、各実験では、ＰＴＲ（ＰｒｏｃｅｓｓｉｎｇＴｉｍｅＲａｔｉｏ；処理時間比）も評価した。

さらに、各実験において、他のＳＴＦＴ設定条件は、フレーム間隔係数ｄ＝２、反響キャンセルのフィルタ長Ｎと通常の分離モードの残響除去のフィルタ長Ｍは同じ値とし、環境ＩのＮ（＝Ｍ）を９に設定し、環境ＩＩのＮ（＝Ｍ）を２３に設定した。
さらに、各実験において図１１の６つの条件で実験を行った。図１１は、実験条件を説明する図である。図１１のように、実験条件１は、本実施形態の方法を用いた方法で、区間数Ｐ＝１、パラメータはα_γ= ０．２およびβ_γ=５．０×１０^−３であり、実験条件２は、本実施形態の方法を用いた方法で、区間数Ｐ＝２、パラメータはα_γ= ０．２およびβ_γ=５．０×１０^−３であり、実験条件３は、本実施形態の方法を用いた方法で、区間数Ｐ＝０、パラメータはα_γ= ０．２およびβ_γ=５．０×１０^−３である。なお、区間数Ｐ＝２は（Ｂ_０，Ｂ_１，Ｂ_２）＝（０，４，Ｎ）、区間数Ｐ＝１は（Ｂ_０，Ｂ_１）＝（０，Ｎ）と設定した。ここで、区間数Ｐ＝０は、すべてのμ（ｎ）について同じ適応ステップ・サイズを使用することを意味している。さらに、サブＩＣＡフィルタの最大反復回数は、３に設定した。
実験条件４は、ステップ・サイズをアニーリング・ベースで算出した値を用いる場合（λ＝０．９）であり、実験条件５は、ステップ・サイズμを０．０５に固定した場合であり、実験条件６は、ステップ・サイズμを０．１に固定した場合である。なお、アニーリング・ベースにおいてステップ・サイズの算出は、パラメータα_γ= ０．６およびβ_γ=５．０×１０^−３である。

つぎに、ＩＣＡ処理による演算コストの比較であるＰＴＲについて説明する。まず、使用する適応法は、それぞれの分離フィルタＷのそれぞれの反復において、О（ＬＰ^２）（Ｌはマイクロホンの本数、Ｐはステップ・サイズ算出の区間数、Оは漸近記法におけるオーダーである。）を必要とする。そして、Ｗを推定するためにｐ_１回の反復を行い、ステップ・サイズｕ_ｉを推定するためにｑ_１回の反復を行う場合、総演算コストはｐ_１（Ｌ２（Ｎ＋Ｍ）＋ｑ_１（ＬＰ^２））である。一方、ｐ２回の反復を使用する標準的なＩＣＡ処理との処理時間比（ＰＴＲ）は、おおよそ次式（７２）のように表すことができる。

式（７２）のように、多数のマイクロホンロフォン３０を使用し、大きなＮおよびＭ（ＮとＭは分離行列の行数と列数）を用いた場合に、一般的な手法に比べ効率的であることを意味している。

次に、実験結果を図１２〜図１６を用いて説明する。図１２は、バージ・インが発生していない場合の環境１における音声認識率の一例を示す図であり、図１３は、バージ・インが発生していない場合の環境２における音声認識率の一例を示す図である。また、図１４は、バージ・インが発生している場合の環境１における音声認識率の一例を示す図であり、図１５は、バージ・インが発生している場合の環境２における音声認識率の一例を示す図である。一例として、残響音がないクリーンな音声信号による認識率は、実験に用いた残響抑圧装置では約９３％である。各グラフの横軸は反復回数であり、縦軸は音声認識率（％）である。

図１２〜図１５のように、ステップ・サイズを固定した場合、収束が速いは、実験条件６の大きなステップ・サイズ（μ＝０．１）の方が実験条件５の小さなステップ・サイズ（μ＝０．０５）より速いが、収束後の音声認識率は、実験条件６の大きなステップ・サイズ（μ＝０．１）の方が実験条件５の小さなステップ・サイズ（μ＝０．０５）より悪い。すなわち、ステップ・サイズを固定した手法では、分離性能（音声認識率）と収束速度とを両立できないことが分かる。一方、実験条件４のステップ・サイズをアーニング・ベースで算出した場合、ステップ・サイズを固定した実験条件５と６より、全ての実験で分離性能と収束速度が勝っていた。
次に、本実施形態の方法において、実験条件１の区間数Ｐ＝２および実験条件２の区間数Ｐ＝１は、ほとんどすべての状況において、他のすべての実験条件４〜６に勝っていた。なお、区間数Ｐ＝０の結果は、1つの適応ステップ・サイズでの性能を意味し、すなわち、区間線型モデルを適用していない場合の実験結果を意味している。この点において、区間数Ｐ＝２の実験条件１またはＰ＝１の実験条件２の方が、区間数Ｐ＝０の実験条件３より収束速度が速く、例えば１０程度の少ない反復回数でも音声認識率が高い（分離性能が良い）。

図１２〜図１５において、点線５０１〜５０４は、ステップ・サイズをアニーリングにより算出し反復回数３０回の場合の音声認識率である。また、各図のクロスポイント５１２〜５１４は、実験条件１で実験を行ったときステップ・サイズをアニーリングにより算出し反復回数３０回の場合の音声認識率と同じ音声認識率になる反復回数である。すなわち、本実施形態の方法によれば、従来の手法を用いた他の実験条件に比べて、反復回数が半分または２／３程度に改善されている。

図１６は、実験Ａと実験ＢのＰＴＲの結果をまとめた図である。図１６のように、残響音が長い環境２においてバージ・インが発生している場合でも、ＰＴＲは１．４であり、例えば、従来手法ではＰＴＲ＝２．０であったため、大幅に演算効率が改善されていることがわかる。一例として、残響音が長い環境２においてバージ・インが発生している場合、反復回数が１６回では、本実施形態のリアルタイム係数（＝処理時間／データ持続時間）が１．０未満であった。

なお、第１、第２実施形態では、残響抑圧装置１００及び残響抑圧装置１００ａをロボット１（１ａ）に組み込んだ例を説明したが、残響抑圧装置１００及び残響抑圧装置１００ａは、例えば音声認識装置、音声認識装置を有する装置などに組み込んで用いることも可能である。

なお、実施形態の図２の各部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ等の可搬媒体、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）Ｉ／Ｆ（インタフェース）を介して接続されるＵＳＢメモリー、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１・・・ロボット
２０・・・スピーカ
３０、３１、３２・・・マイクロホン
１００・・・残響抑圧装置
１０１・・・制御部
１０２・・・音声生成部
１１１・・・音声取得部
１１２・・・ＳＴＦＴ部（白色化部）
１１３・・・ＭＣＳＢ−ＩＣＡ部（第１評価関数算出部、残響成分抑圧部、分離行列更新部）
１１４・・・記憶部
１１５・・・分離データ出力部
２１０・・・強制空間球面化部
２１１・・・空間球面化部
２１２・・・分散正規化部
２２１・・・ＩＣＡ部
２３１・・・スケーリング部
２４１・・・直接音選択部

Claims

音声信号を生成し、生成した音声信号を出力する音声信号出力部と、
前記音声信号出力部と音源とから発せられた音源信号を集音する複数のマイクロホンによって、前記生成された音声信号と前記生成された音声信号以外を含む入力信号を取得する音声取得部と、
前記生成された音声信号と前記入力信号と前記音源信号との相関関係を示す分離行列を算出するとともに、前記音源信号の分離度を前記入力信号に基づいて評価する第１評価関数を算出する第１評価関数算出部と、
前記第１評価関数に基づき音源信号の分離度が所定値より高くなる場合の前記分離行列である最適分離行列を算出し、前記算出した最適分離行列に基づいて、前記生成された音声信号以外の音声信号であって、残響成分が抑圧された当該音声信号を１人の人の音声信号として前記入力信号から分離することにより残響成分を抑圧する残響成分抑圧部と、
前記分離行列の更新量の大きさを定めるステップ・サイズの関数を、複数の区間に分け当該複数の区間毎に線形関数を用いて近似し、前記近似した線形関数に基づき前記ステップ・サイズを算出し、前記算出されたステップ・サイズを用いて、前記第１評価関数に基づき音源信号の前記分離度が前記所定値より高くなるように前記分離行列の更新を繰り返す分離行列更新部と、
を備えることを特徴とする残響抑圧装置。
前記分離行列更新部は、
前記線形関数を用いて近似した各区間の両端のステップ・サイズを用いて前記ステップ・サイズを前記複数の区間について区間毎に算出し、前記ステップ・サイズを評価するための第２評価関数を最小にするように前記ステップ・サイズを算出する
ことを特徴とする請求項１に記載の残響抑圧装置。
前記分離行列更新部は、
前記線形関数を用いて近似した各区間の両端のステップ・サイズは、互いに隣り合う区間において連続するように前記複数の区間毎に、前記線形関数を用いて近似する
ことを特徴とする請求項１または請求項２に記載の残響抑圧装置。
前記入力信号と前記生成された音声信号に対して球面化と分散正規化とを行うことで白色化する白色化部、
を更に備え、
前記第１評価関数算出部は、前記白色化された入力信号に基づき前記分離行列を算出する
ことを特徴とする請求項１から請求項３のいずれか１項に記載の残響抑圧装置。
前記白色化部は、
前記白色化された信号に対して時間相関を強制的に除去し、当該時間相関を強制的に除去した信号から、前記白色化された信号に対して前記生成された音声信号と前記入力信号との相関を強制的に除去する
ことを特徴とする請求項４に記載の残響抑圧装置。
前記残響成分抑圧部は、
前記複数の区間の数である区間数を算出するためのパラメータを球面化して算出し、
算出したパラメータを用いて前記区間数を算出する
ことを特徴とする請求項１から請求項５のいずれか１項に記載の残響抑圧装置。
前記残響成分抑圧部は、
独立成分分析法を用いて前記分離行列の更新と、前記生成された音声信号以外の音声信号であって、前記入力信号から残響成分が抑圧された当該音声信号を分離することにより残響成分を抑圧する
ことを特徴とする請求項１から請求項６のいずれか１項に記載の残響抑圧装置。
音声信号出力部が、音声信号を生成し、生成した音声信号を出力する音声信号出力工程と、
音声取得部が、前記音声信号出力部と音源とから発せられた音源信号を集音する複数のマイクロホンによって、前記生成された音声信号と前記生成された音声信号以外を含む入力信号を取得する音声取得工程と、
第１評価関数算出部が、前記生成された音声信号と前記入力信号と前記音源信号との相関関係を示す分離行列を算出するとともに、前記音源信号の分離度を前記入力信号に基づいて評価する第１評価関数を算出する第１評価関数算出工程と、
残響成分抑圧部が、前記第１評価関数算出工程により算出された前記第１評価関数に基づき音源信号の分離度が所定値より高くなる場合の前記分離行列である最適分離行列を算出し、前記算出した最適分離行列に基づいて、前記生成された音声信号以外の音声信号であって、残響成分が抑圧された当該音声信号を１人の人の音声信号として前記入力信号から分離することにより残響成分を抑圧する残響成分抑圧工程と、
分離行列更新部が、前記分離行列の更新量の大きさを定めるステップ・サイズの関数を、複数の区間に分け当該複数の区間毎に線形関数を用いて近似し、前記近似した線形関数に基づき前記ステップ・サイズを算出し、前記算出されたステップ・サイズを用いて、前記第１評価関数に基づき音源信号の前記分離度が前記所定値より高くなるように前記分離行列の更新を繰り返す分離行列更新工程と、
を備えることを特徴とする残響抑圧方法。