JP5550456B2 - 残響抑圧装置、及び残響抑圧方法 - Google Patents

残響抑圧装置、及び残響抑圧方法 Download PDF

Info

Publication number
JP5550456B2
JP5550456B2 JP2010124873A JP2010124873A JP5550456B2 JP 5550456 B2 JP5550456 B2 JP 5550456B2 JP 2010124873 A JP2010124873 A JP 2010124873A JP 2010124873 A JP2010124873 A JP 2010124873A JP 5550456 B2 JP5550456 B2 JP 5550456B2
Authority
JP
Japan
Prior art keywords
signal
unit
audio signal
separation matrix
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010124873A
Other languages
English (en)
Other versions
JP2010282193A (ja
Inventor
一博 中臺
弘史 中島
博 奥乃
龍 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2010282193A publication Critical patent/JP2010282193A/ja
Application granted granted Critical
Publication of JP5550456B2 publication Critical patent/JP5550456B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、残響抑圧装置、及び残響抑圧方法に関する。
残響抑圧処理は,遠隔会議通話または補聴器における明瞭度の向上およびロボットの音声認識(ロボット聴覚)に用いられる自動音声認識の認識率の向上のため、自動音声認識の前処理として利用されている重要な技術である。残響抑圧処理において、所定のフレーム毎に、取得した音声信号から残響成分を算出し、取得した音声信号から算出した残響成分を除去することで残響を抑圧していた(例えば、特許文献1参照)。
また、独立成分分析(ICA;Independent Component Analysis)を用いた残響抑圧手法として、フィルタの更新を、ステップ・サイズを固定して行う手法(例えば、非特許文献1参照)が提案されている。さらに、独立成分分析を用いた残響抑圧手法として、フィルタの更新において、ステップ・サイズを適応的に変更して行う手法(例えば、特許文献2参照)が提案されている。
特開平9―261133号公報 特開2008―306712号公報
武田龍、中臺一博、駒谷和範、尾形哲也、奥乃博、"ロボット音声対話のためのMFTとICAによるバージイン許容機能の評価"、情報処理学会、情報処理学会第70回全国大会、2008年、p2−135
しかしながら、非特許文献1の従来技術では、分離フィルタの更新を、フレーム毎に固定されたステップ・サイズで行っていたため、ステップ・サイズを細かくした場合、残響音成分を抑圧する処理に時間がかかり、ステップ・サイズが適正で無い場合は残響抑制を精度良く行えないこともあるという問題点があった。また、特許文献2の従来技術では、多チャンネルのセミブラインド独立成分分析において、評価関数の非線形性が高いため、独立成分分析に用いる分離フィルタが高次になり、演算に時間がかかり、演算コストが高くなり実用的ではないという問題点があった。
本発明は、上記の問題点に鑑みてなされたものであって、演算処理を低減しつつ、精度良く残響成分を抑圧する残響抑圧装置及び残響抑圧方法を提供することを課題としている。
上記目的を達成するため、本発明に係る残響抑圧装置は、音声信号を生成し、生成した音声信号を出力する音声信号出力部と、前記音声信号出力部音源から発せられた音源信号を集音する複数のマイクロホンによって、前記生成された音声信号と前記生成された音声信号以外を含む入力信号を取得する音声取得部と、前記生成された音声信号と前記入力信号と前記音源信号との相関関係を示す分離行列を算出するとともに、前記音源信号の分離度を前記入力信号に基づいて評価する第1評価関数を算出する第1評価関数算出部と、前記第1評価関数に基づき音源信号の分離度が所定値より高くなる場合の前記分離行列である最適分離行列を算出し、前記算出した最適分離行列に基づいて、前記生成された音声信号以外の音声信号であって、残響成分が抑圧された当該音声信号を1人の人の音声信号として前記入力信号から分離することにより残響成分を抑圧する残響成分抑圧部と、前記分離行列の更新量の大きさを定めるステップ・サイズの関数を、複数の区間に分け当該複数の区間毎に線形関数を用いて近似し、前記近似した線形関数に基づき前記ステップ・サイズを算出し、前記算出されたステップ・サイズを用いて、前記第1評価関数に基づき音源信号の前記分離度が前記所定値より高くなるように前記分離行列の更新を繰り返す分離行列更新部と、を備えることを特徴としている。
また、本発明に係る残響抑圧装置において、前記分離行列更新部は、前記線形関数を用いて近似した各区間の両端のステップ・サイズを用いて前記ステップ・サイズを前記複数の区間について区間毎に算出し、前記ステップ・サイズを評価するための第2評価関数を最小にするように前記ステップ・サイズを算出するようにしてもよい。
また、本発明に係る残響抑圧装置において、前記分離行列更新部は、前記線形関数を用いて近似した各区間の両端のステップ・サイズは、互いに隣り合う区間において連続するように前記複数の区間毎に、前記線形関数を用いて近似するようにしてもよい。
また、本発明に係る残響抑圧装置において、前記入力信号と前記生成された音声信号に対して球面化と分散正規化とを行うことで白色化する白色化部を更に備え、前記第1評価関数算出部は、前記白色化された入力信号に基づき前記分離行列を算出するようにしてもよい。
また、本発明に係る残響抑圧装置において、前記白色化部は、前記白色化された信号に対して時間相関を強制的に除去し、当該時間相関を強制的に除去した信号から、前記白色化された信号に対して前記生成された音声信号と前記入力信号との相関を強制的に除去するようにしてもよい。
また、本発明に係る残響抑圧装置において、前記残響成分抑圧部は、前記複数の区間の数である区間数を算出するためのパラメータを球面化して算出し、
算出したパラメータを用いて前記区間数を算出するようにしてもよい。
また、本発明に係る残響抑圧装置において、前記残響成分抑圧部は、独立成分分析法を用いて前記分離行列の更新と、前記生成された音声信号以外の音声信号であって、前記入力信号から残響成分が抑圧された当該音声信号を分離することにより残響成分を抑圧するようにしてもよい。
上記目的を達成するため、本発明に係る残響抑圧装置の残響抑圧方法は、音声信号出力部が、音声信号を生成し、生成した音声信号を出力する音声信号出力工程と、音声取得部が、前記音声信号出力部音源から発せられた音源信号を集音する複数のマイクロホンによって、前記生成された音声信号と前記生成された音声信号以外を含む入力信号を取得する音声取得工程と、第1評価関数算出部が、前記生成された音声信号と前記入力信号と前記音源信号との相関関係を示す分離行列を算出するとともに、前記音源信号の分離度を前記入力信号に基づいて評価する第1評価関数を算出する第1評価関数算出工程と、残響成分抑圧部が、前記第1評価関数算出工程により算出された前記第1評価関数に基づき音源信号の分離度が所定値より高くなる場合の前記分離行列である最適分離行列を算出し、前記算出した最適分離行列に基づいて、前記生成された音声信号以外の音声信号であって、残響成分が抑圧された当該音声信号を1人の人の音声信号として前記入力信号から分離することにより残響成分を抑圧する残響成分抑圧工程と、分離行列更新部が、前記分離行列の更新量の大きさを定めるステップ・サイズの関数を、複数の区間に分け当該複数の区間毎に線形関数を用いて近似し、前記近似した線形関数に基づき前記ステップ・サイズを算出し、前記算出されたステップ・サイズを用いて、前記第1評価関数に基づき音源信号の前記分離度が前記所定値より高くなるように前記分離行列の更新を繰り返す分離行列更新工程と、を備えることを特徴としている。
本発明によれば、音声信号出力部が、音声信号を生成して出力し、音声取得部が、マイクロホンからの入力信号を取得し、第1評価関数算出部が、音声信号と入力信号と音源信号との相関関係を示す分離行列を算出し、且つ入力信号から音源信号の分離度を評価する第1評価関数を算出し、残響成分抑圧部が、最適分離行列を算出し最適分離行列に基づき入力信号から音声信号以外の音源信号を分離することで残響成分を抑圧し、分離行列更新部が、分離行列の更新量を定めるステップ・サイズの関数を複数の区間に分け、複数の区間毎に線形関数で近似しステップ・サイズを算出し第1評価関数値に基づき音源信号の分離度が所定値より高くなるようにステップ・サイズに基づき分離行列の更新を繰り返して残響成分を抑圧するようにしたので、演算処理を低減しつつ、精度良く残響成分の抑圧を行うことができる。
本発明によれば、マイクロホンが取得した音声信号を白色化し、第1評価関数算出部が白色化された信号を用いて分離行列を算出するようにしたので、さらに演算処理を低減しつつ、精度良く残響成分の抑圧を行うことができる。
本発明によれば、ステップ・サイズを算出するための区間数を算出するためのパラメータを球面化して算出し、算出されたパラメータを用いて区間数を算出するようにしたので、演算処理を低減しつつ、精度良く残響成分の抑圧を行うことができる。
本実施形態に係る残響抑圧装置を組み込んだロボットが取得する音声信号の一例を説明する図である。 同実施形態に係る残響抑圧装置100のブロック図の一例を示す図である。 同実施形態に係るSTFT処理を説明する図である。 同実施形態に係るMCSB−ICA部113の内部構成を説明する図である。 同実施形態に係るステップ・サイズの更新を説明する図である。 同実施形態に係るステップ・サイズの区間線形モデリングを説明する図である。 同実施形態に係る処理手順のフローチャートである。 第2実施形態に係る処理手順のフローチャートである。 第1実施形態に係る実験に用いたデータ及び残響抑圧装置の設定条件である。 第1実施形態に係る音声認識の設定を説明する図である。 第1実施形態に係る実験条件を説明する図である。 第1実施形態に係る実験A(バージ・インの発生なし)且つ環境1の場合の音声認識率を示すグラフである。 第1実施形態に係る実験A(バージ・インの発生なし)且つ環境2の場合の音声認識率を示すグラフである。 第1実施形態に係る実験B(バージ・インの発生あり)且つ環境1の場合の音声認識率を示すグラフである。 第1実施形態に係る実験B(バージ・インの発生あり)且つ環境2の場合の音声認識率を示すグラフである。 第1実施形態に係る実験Aと実験BのPTRの結果をまとめた図である。
以下、図1〜図16を用いて本発明の実施形態について詳細に説明する。なお、本発明は斯かる実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。
[第1実施形態]
図1は、本実施形態における残響抑圧装置を組み込んだロボットが取得する音声信号の一例を説明する図である。ロボット1は、図1に示すように、基体部11と、基体部11にそれぞれ可動連結される頭部12(可動部)と、脚部13(可動部)と、腕部14(可動部)とを備えている。また、ロボット1は、背負う格好で基体部11に収納部15を装着している。なお、基体部11には、スピーカ20(音声出力部140)が収納され、頭部12にはマイクロホン30が収納されている。なお、図1は、ロボット1を側面から見た図であり、マイクロホン30およびスピーカ20はそれぞれ複数収納されている。
まず、本実施形態の概略を説明する。図1のように、ロボット1のスピーカ20から出力される音声信号を、ロボット1の発話Sとして説明する。
ロボット1が発話している時に、ヒト2が割り込んで発話することをバージ・イン(Barge−in)と呼ぶ。バージ・インが発生しているとき、ロボット1には、当該ロボット1の発話のために、割り込んできたヒト2の発話を聞き分けることが困難である。
そして、ヒト2およびロボット1が発話している場合、ロボット1のマイクロホン30には、ヒト2の発話Sが空間を経由して伝達する残響音を含むヒト2の音声信号hと、ロボット1の発話Sが空間を経由して伝達する残響音を含むロボット1の音声信号hとが入力される。
本実施形態では、ICA(Independent Component Analysis;独立成分分析)をベースにしたMCSB−ICA(Multi−Channel Semi−Blind ICA)を用いて残響音をキャンセル、すなわち抑圧して、ヒト2の発話Sを分離する。このMCSB−ICAにおいて、ロボット1がマイクロホン30により取得した音声信号と、ロボット1による既知の発話とを白色化し、白色化された値を用いて、ICAにより第1評価関数が最小値になるように反復処理を行うことで分離フィルタを算出し、マイクロホン30が取得した音声信号から残響成分を抑圧することでヒト2の音声信号を分離し、ヒト2の発話の音声信号Sを算出する。また、ICAにおいて、更新量の大きさであるステップ・サイズをいくつかの区間に分けた区間線形モデルにより算出する。なお、音源信号の分離度が、所定の値より高くなるまで反復処理を行う処理は、使用する評価関数によっては、ICAにより第1評価関数の値が最小値になるように反復処理を行い、または、最大値になるように反復処理を行うようにしてもよい。
図2は、本実施形態における残響抑圧装置100のブロック図の一例を示す図である。図2のように、残響抑圧装置100にはマイクロホン30、スピーカ20が接続され、マイクロホン30は複数のマイクロホン31、32・・・を備えている。また、残響抑圧装置100は、制御部101と、音声生成部102と、音声出力部103と、音声取得部111と、STFT部112と、MCSB−ICA部113と、記憶部114と、分離データ出力部115とを備えている。
制御部101は、ロボット1の発話である音声信号を生成して出力する指示を音声生成部102に出力し、ロボット1が発話中であることを示す信号をSTFT部112とMCSB−ICA部113に出力する。
音声生成部102は、制御部101からの指示に基づき、ロボット1の発話である音声信号を生成し、生成した音声信号を音声出力部103とSTFT部112とに出力する。
音声出力部103には、生成された音声信号が入力される。音声出力部103は、入力された音声信号を所定のレベルに増幅してスピーカ20に出力する。
音声取得部111は、マイクロホン30が集音した音声信号を取得し、取得した音声信号をSTFT部112に出力する。
STFT(Short−time Fourier Transformation;短時間フーリエ解析:白色化部)部112には、取得された音声信号と生成された音声信号が入力される。STFT部112は、取得された音声信号と生成された音声信号とにハニング等の窓関数を音声信号に乗じ、有限期間内で解析位置をシフトしながら解析を行う。そして、STFT部112は、取得された音声信号を、フレームt毎にSTFT処理して時間−周波数領域の信号x(ω、t)に変換し、また、生成された音声信号を、フレームt毎にSTFT処理して時間−周波数領域の信号s(ω、t)に変換し、変換した信号x(ω、t)と信号s(ω、t)を周波数ωごとにMCSB−ICA部113に出力する。図3(a)と図3(b)は、STFT処理を説明する図である。図3(a)は、取得された音声信号の波形であり、図3(b)は、この取得された音声信号に乗じられる窓関数である。図3(b)において、記号Uはシフト長であり、記号Tは解析を行う期間を示している。なお、このシフト長さは、所定の値を用いる。
MCSB−ICA部(第1評価関数算出部、残響成分抑圧部、分離行列更新部)113には、STFT部112から変換された信号x(ω、t)と信号s(ω、t)が周波数ωごとに入力される。また、MCSB−ICA部113は、入力された信号x(ω、t)と信号s(ω、t)と記憶部114に記憶されている各モデル及び各係数を用いて、分離フィルタW、分離フィルタW1uおよびW2uを、取得された音声信号からヒト2の直接音声信号Suの分離度を示す第1評価関数に基づき音源信号の分離度が所定値より高くなるときの各分離フィルタを選択するようにして、反復処理により算出する。分離フィルタW、W1uおよびW2u算出後、算出された分離フィルタW、W1uおよびW2uを用いて、マイクロホン30が取得した音声信号からヒト2の直接発話信号s(t)を推定して分離し、分離した直接発話信号を分離データ出力部115に出力する。
図4は、MCSB−ICA部113の内部構成を説明する図である。図4のように、MCSB−ICA部113は、強制空間球面化部210と、ICA部221と、スケーリング部231と、直接音選択部241とを備え、強制空間球面化部210は、空間球面化部211と分散正規化部212を備えている。
STFT部112から入力された信号x(ω、t)は、バッファ201を介して強制空間球面化部210の空間球面化部211に入力され、STFT部112から入力された信号s(ω、t)は、バッファ202を介して強制空間球面化部210の分散正規化部212に入力される。そして、強制空間球面化部210は、入力された信号x(ω、t)と信号s(ω、t)を、球面化と分散正規化により白色化し、白色化した信号をICA部221に出力する。そして、ICA部221には、強制空間球面化部210から白色化された信号が入力される。ICA部221は、入力された信号を用いて、第1評価関数を最小値にするように繰り返しICA処理を行って分離フィルタを算出し、算出した分離フィルタを用いて分離する音声信号を算出する。そして、ICA部221は、算出結果をスケーリング部231に出力し、スケーリングされた信号を直接音選択部241に出力する。なお、スケーリング部231は、projection Back処理を用いてスケーリングを行い、直接音選択部241は、入力された信号からパワーが最大のものを選択して、選択した信号を分離データ出力部115に出力する。
記憶部114には、ロボット1がマイクロホン30を介して取得する音声信号のモデル、解析するための分離モデル、解析するために必要なパラメータ、MCSB−ICA部113の更新ルール等が予め書き込まれて記憶され、さらに、算出された分離フィルタW、分離フィルタW1u及び分離フィルタW2uが、更新中に書き込まれて記憶される。
分離データ出力部115には、MCSB−ICA部113から分離された直接発話信号が入力され、入力された直接発話信号を、例えば非図示の音声認識部に出力する。
次に、ロボット1が取得した音声から必要な音声信号を分離するための分離モデルについて説明する。記憶部114には、ロボット1がマイクロホン30を介して取得する音声信号は、式(1)のFIR(Finite Impulse Response;有限インパルス応答)のモデルのように定義できる。
Figure 0005550456
式(1)において、記号x(t)・・・x(t)は、複数のマイクロホン30の各スペクル(Lはマイクロホン番号)、x(t)はベクトルであり[x(t),x(t),・・・,x(t)]、s(t)はヒト2の発話、s(t)は既知のロボット1のスペクトル、h(n)はヒト2の音声スペクトルのN次元のFIR係数ベクトル、h(m)は既知のロボット1のM次元のFIR係数ベクトルである。式(1)は、ロボット1がマイクロホン30を介して取得する時刻tにおけるモデル化である。
また、記憶部114には、ロボット1のマイクロホン30が集音した音声信号が、式(2)のように残響成分を含んだベクトルX(t)としてモデル化され予め記憶されている。さらに、記憶部114には、ロボット1の発話の音声信号が、式(3)のように残響成分を含んだベクトルS(t)としてモデル化されて予め記憶されている。
Figure 0005550456
Figure 0005550456
式(3)において、s(t)はロボット1が発話した音声信号であり、s(t−1)は空間を伝達されて「1」遅延して音声信号が届くことを表し、s(t−M)は「M」遅延して届く音声信号が届くことを表している。すなわち、ロボット1から離れている距離が大きく、遅延量が大きいほど残響成分が大きくなることを表している。
次に、独立成分分析を用いて既知の直接音S(t)とX(t−d)と、ヒト2の直接発話信号sとを独立となるように分離するため、MCSB−ICAの分離モデルを次式(4)のように定義し、記憶部114に記憶されている。
Figure 0005550456
式(4)において、d(0より大きい)は、初期反射間隔であり、X(t−d)は、X(t)をd遅延させたベクトルであり、式(5)は、L次元の推定された信号ベクトルである。また、式(5)には、ヒト2の発話の直接発話信号といくつかの反射音信号とを含まれている。
Figure 0005550456
また、式(4)において、W1uは、L×Lのブラインド分離行列(分離フィルタ)であり、W2uは、L×L(N+1)の分離行列(分離フィルタ)であり、Wは、L×(M+1)の残響音キャンセルの分離行列である。また、IとIは、それぞれに対応する大きさの単位行列である。
次に、式(4)を解くためのパラメータについて説明する。 式(4)において、分離パラメータのセットW={W1u、W2u、W}を、結合確率密度関数(Probability Density Function)とs(t)、X(t−d)およびS(t)の周辺確率密度関数(個々のパラメータの独立な確率分布を表わす周辺確率密度関数)の積との間の差の尺度としてKL(Kullback−Leibler;カルバック・ライブラー)情報量を最小化するように推定する。明示的な第1評価関数は、次式(6)のように表される。
Figure 0005550456
式(6)において、p(s)は確率変数sの結合確率密度関数であり、E[・]は時間平均化演算子であり、Hは{x(t),X(t−d),S(t)}の結合エントロピーである。
MCSB−ICA部113は、分離パラメータのセットWを、(6)式の第1評価関数が最小の値するように、KL情報量を自然勾配法により最小にするように各分離フィルタを次式(7)〜式(10)のルールに従い繰り返し更新することで推定を行う。また、式(7)〜式(10)は、記憶部114に予め書き込まれて記憶されている。
Figure 0005550456
Figure 0005550456
Figure 0005550456
Figure 0005550456
なお、式(7)、式(9)〜式(10)において、上付きHは共役転置演算(エルミート転置)を表す。また、式(7)において、Λは非ホロノミック拘束行列、すなわち、次式(11)の対角行列である。
Figure 0005550456
また、式(8)〜式(10)において、uは、更新量の大きさであるステップ・サイズのパラメータであり、φ(x)は、非線形関数ベクトル[φ(x)、・・・、φ(x)]であり、次式(12)のように表される。
Figure 0005550456
さらに、音源の結合確率密度関数は、分散量σであるとした場合、雑音に強い結合確率密度関数であるp(x)=exp(−|x|/σ)/(2σ)であり、φ(x)=x/(2σ|x|)である。なお、xはxの共役であると仮定する。この2つの関数は、連続領域である|x|>εにおいて定義される。
ICAの収束性の向上のため、強制空間球面化部210は、前処理として球面化の近似である強制空間球面化と分散正規化を行うことで白色化を行う。また、p(x)=exp(−|x|/σ)/(2σ)において、球面化により入力信号を球面化(無相関化)し、分散を正規化するため、分散σはほとんど1であると仮定する。
次に、強制空間球面化について説明する。ユーザ発話に関するL(N+1)×(K+J+1)の伝達特性行列Hは、次式(13)にように表される。なお、Lはロボット1のマイクロホンの本数である。Nは伝達特性行列Hの列数、Kは伝達特性行列Hの行、Jは定数である。
Figure 0005550456
式(13)において、h(i)=[h(i),h(i),・・・,h(i)]である。そして、L(N+1)=K+J+1を満たすとき、伝達特性行列Hは、L(N+1)×L(N+1)の正方行列であるので、瞬時混合系で記述することができる。そして、既知のロボット発話を含む全体の過程は、次式(14)のように表すことができる。
Figure 0005550456
式(14)において、Iは(M+1)×(M+1)の単位行列であり、Hは既知の行列L(N+1)×(M+1)で式(15)のような伝達特性行列である。
Figure 0005550456
式(15)において、h(i)は式(16)である。
Figure 0005550456
次に、強制空間球面化部210は、時空間相関行列Rの固有値Λ、時空間相関行列Rの固有ベクトルEを用いて、次式(17)〜式(18)により球面化を行う。
Figure 0005550456
Figure 0005550456
この固有値分解の計算量をさらに抑えるために、強制空間球面化部210は、強制的に時間相関の除去と、強制的に既知信号と観測信号との相関の除去を、次式(19)〜式(22)を用いて行う。
Figure 0005550456
Figure 0005550456
Figure 0005550456
Figure 0005550456
式(19)〜式(22)において、空間相関行列R(0)は、E[x(t)x(t)]であり、分散λは式(23)である。
Figure 0005550456
式(19)〜式(22)を用いて、式(17)と式(18)の演算を行うことは、観測信号(ロボット1のマイクロホン30が取得したロボット1の発話とヒト2の発話)に空間球面化を行うことと、既知信号(ロボット1の発話)にスケールの正規化を行うことを意味している。そして、強制的な時間相関の除去と、強制的な既知信号と観測信号との相関の除去とにより、観測信号X(t)は式(24)により変換され、既知信号S(t)は式(26)により変換され、強制空間球面化が行われる。
すなわち、MCSB−ICA部113の空間球面化部211には、変換された信号x(ω、t)が周波数ωごとに入力され、周波数ωをインデックスとして順次、次式(24)を用いて空間球面化を行い、z(t)を算出する。
Figure 0005550456
ただし、Vは式(25)である。
Figure 0005550456
さらに、式(25)において、EとΛは、固有ベクトル行列であり、固有対角行列R=E|x(t)x(t)|である。
さらに、MCSB−ICA部113の分散正規化部212には、変換された信号s(ω,t)が周波数ωごとに入力され、周波数ωをインデックスとして順次、次式(26)を用いてスケールの正規化を行う。
Figure 0005550456
強制空間球面化後、式(4)、式(7)〜式(10)のxとsが、zと式(5)に代入される。そして、空間球面化部211は、このように演算されたz(ω,t)をICA部221に出力し、分散正規化部212は、スケール正規化された式(26)の値をICA部221に出力する。
次に、分離プロセスの再起表現について説明する。まず、処理を行う上で、式(4)を次式(27)のように書き換える。
Figure 0005550456
式(27)において、W(n)はL×Lの分離行列であり、W(m)はL×1の分離行列である。演算を簡単にするため、W(n)の範囲(nは、1以上かつd未満)を省略しているので、W(n)はこの範囲内でゼロに等しいと仮定される。また、W1uはW(0)に対応し、W2uは[W(d),・・・,Wu(N)]に対応し、およびWは[W(0),・・・,Wu(M)]に対応している。さらに、式(8)〜式(10)は、増分記号ΔWを用いることで、次式(28)のように書き換えることができる。なお、Wとは、WとW1uおよびW2uを略して表している。
Figure 0005550456
式(27)、ΔWにより、推定された式(5)の再帰的表現は、次式(29)のように表される。
Figure 0005550456
次式(30)〜式(31)のように置くと、式(29)は式(32)のように再帰表現として表すことができる。
Figure 0005550456
Figure 0005550456
Figure 0005550456
次に、更新量の大きさであるステップ・サイズuの推定を一般化するために、ステップ・サイズμを、式(33)で表されるそれぞれの音源、遅延フレームmとn、それぞれの繰り返し係数jとが、各々異なるように係数を修正する。
Figure 0005550456
次に、フレームが異なるL×Lの式(34)〜式(35)の対角ステップ・サイズ行列を用いて、式(33)は式(36)のように書き換えることができる。
Figure 0005550456
Figure 0005550456
Figure 0005550456
なお、式(34)〜式(35)において、記号diagは、対角成分を表している。式(35)の更新にともない更新規則である式(28)は、次式(37)にように書き換わる。
Figure 0005550456
また、最適なステップ・サイズのパラメータである式(38)は、次式(39)のステップ・サイズのための第2評価関数を最小化することにより推定する。
Figure 0005550456
Figure 0005550456
式(39)は、式(6)を用いて、次式(40)のように置き換えられる。
Figure 0005550456
式(40)において、第2項の式(41)は、第1項の式(42)に比べて値が非常に小さいと仮定する。この仮定により、式(40)は、式(43)のように近似される。
Figure 0005550456
Figure 0005550456
Figure 0005550456
この近似の結果、J(μ)を最小化する代わりに、式(44)をそれぞれ独立して最小化することができる。
Figure 0005550456
式(44)は、まだ推定すべき多数のパラメータを有しているため、さらにパラメータ数を削減し演算コストを削減する。
次に、さらに演算コストを削減する方法について、図5を用いて説明する。図5は、ステップ・サイズの区間線形モデリングを説明する図である。図5(a)は、区間線形モデリングを行わない場合のステップ・サイズを示す図であり、図5(b)は、区間モデリングを行う場合のステップ・サイズを示す図である。すなわち、図5(b)のように、ステップ・サイズの関数を全て演算した場合、演算量が多い。このため、いくつかの区間に分け、分けた区間内で線形近似することで演算量を大幅に削減する。
観測された項である式(45)と既知の音源の項である式(46)に対する第i番目の要素のステップ・サイズ・パラメータは、遅延フレームの個数の項とほとんど同じであり、すなわち式(47)である。
Figure 0005550456
Figure 0005550456
Figure 0005550456
ここで、式(48)の第i番目の要素を式(49)のように置き換え、式(50)の第i番目の要素を式(51)のように置き換えると、式(36)を次式(52)のように簡素化できる。
Figure 0005550456
Figure 0005550456
Figure 0005550456
Figure 0005550456
Figure 0005550456
式(52)において、式(53)のように置くと、次式(54)のように表せる。
Figure 0005550456
Figure 0005550456
次に、図5(b)のように、μ(n)をP個に分割された区間線形関数で近似し、次式(55)のように定義する。
Figure 0005550456
式(55)において、式(56)と式(57)は、nの第p番目の範囲[B,Bp+1]内の端点301と302である。図5(b)において、最終区間Pの端点における値はゼロ、すなわち式(58)がゼロであると仮定する。また、図5(b)のように、線分を311〜313に区切った場合、線分311と線分312の接続点である端点301は同じ値のため、線分311と線分312との接続点を連続するように近似している。
Figure 0005550456
Figure 0005550456
Figure 0005550456
次に、この線形区間モデルと式(55)を用いて、式(54)の第2項を次式(59)のように置き直す。
Figure 0005550456
さらに、式(58)の項でまとめて(summarizing)、そのパラメータをY(t,p)に置き換えると、P個の項の和で表せるので、式(59)、すなわち式(54)は次式(60)のように表すことができる。
Figure 0005550456
あるいは、行列表現を用いて、次式(61)のように表せる。
Figure 0005550456
式(61)において、式(62)は式(63)であり、Y(t)は式(64)である。
Figure 0005550456
Figure 0005550456
Figure 0005550456
このように、区間線形モデルにより、ステップ・サイズ推定する場合において、区間数Pの数は、式(4)と比較して大幅に減少し、演算コストを下げることができる。
そして、l回目の繰り返しから(l+1)回目の繰り返しまでのステップ・サイズである式(65)の更新規則は、式(66)のように表される。
Figure 0005550456
Figure 0005550456
式(66)において、γはステップ・サイズのパラメータであり、Re[x]はxの実数を表す。そして、この式(66)の適応において、パラメータγと区間数Pを設定する必要がある。
次に、区間数Pを算出するために、次式(67)〜式(68)の規則を用いてY(t)の球面化により収束速度を早める。
Figure 0005550456
Figure 0005550456
式(68)において、Eは、式(69)の固有ベクトル行列であり、Λは、式(69)の固有値対向行列である。
Figure 0005550456
式(61)〜式(64)、式(66)のY(t)は、全てP(t)に代入される。この結果、式(37)におけるステップ・サイズuは、式(70)に置き換わる。
Figure 0005550456
また、この処理は、Wのj回目の反復で式(65)が収束するのを待たずに、式(65)の反復をq回停止することができる。これは、この適応がWの推定の一部であるためであり、式(65)を(j+1)回目の反復における式(62)の初期値として再利用することができるためである。そして、j回目の反復でステップ・サイズのパラメータγをスケジュールするために次式(71)のアニーリング法を用いる。
Figure 0005550456
なお、式(71)において、αγおよびβγは定数パラメータである。
次に、残響抑圧の処理手順を、図1、図5〜図7を用いて説明する。図6は、ステップ・サイズの更新を説明する図である。図7は、本実施形態における処理手順のフローチャートである。まず、MCSB−ICA部113は、繰り返し処理で用いる係数iと係数jおよびlをそれぞれ初期化(=1)にする(ステップS1)。
次に、音声取得部111には、マイクロホン30が集音した音声信号が入力され、入力された音声信号をSTFT部112に出力する(ステップS2)。マイクロホン30が集音する音声信号は、音声生成部102が生成した音声信号Sに、スピーカ20から発せられた音声が壁、天井、床などで反響した残響成分を含む音声信号hである。
次に、STFT部112には、マイクロホン30が取得した音声信号と、音声生成部102が生成した音声信号とが入力され、取得された音声信号をフレームt毎にSTFT処理して時間−周波数領域の信号x(ω、t)に変換し、変換した信号x(ω、t)を周波数ωごとにMCSB−ICA部113に出力する。また、STFT部112は、生成された音声信号を、フレームt毎にSTFT処理して時間−周波数領域の信号s(ω、t)に変換し、変換した信号s(ω、t)を周波数ωごとにMCSB−ICA部113に出力する。
MCSB−ICA部113の強制空間球面化部210には、バッファ201とバッファ202を介して、周波数ωごとに変換された信号x(ω、t)(マイクロホン入力に基づく信号)と変換された信号s(ω、t)(ロボット発話に基づく信号)とが入力され、入力された信号x(ω、t)と信号s(ω、t)に対して、強制空間空面化を行う(ステップS3)。
強制空間球面化は、MCSB−ICA部113の空間球面化部211と分散正規化部212により以下のように行われる。空間球面化部211には、変換された信号x(ω、t)が周波数ωごとに入力され、周波数ωをインデックスとして順次、式(24)を用いて空間球面化を行い、z(t)に変換する。分散正規化部212には、変換された信号s(ω,t)が周波数ωごとに入力され、周波数ωをインデックスとして順次、式(26)を用いてスケールの正規化を行う。
空間球面化部211は、このように演算されたz(ω,t)をICA部221に出力し、分散正規化部212は、このように正規化された式(26)の値をICA部221に出力する。
以下、i番目の分離音s(t)について、ステップS4〜ステップS12をL回(Lはマイクロホン30の個数)繰り返すことで更新し、さらに、ステップS4〜ステップS14をL回繰り返すことで残響成分を抑圧したヒト2の発話信号を抽出する。
まず、ICA部221は、i=1番目の分離音s[j](t)の予測値(式(5))を、式(36)を用いて算出する(ステップS4)。
次に、ICA部221は、j番目の分離フィルタW1u、W2u及びWの各勾配ΔW[j]を、算出された分離音s(t)の予測値と式(7)〜式(10)を用いて算出する(ステップS5、図6の勾配ΔW[j]算出工程401)。
次に、ICA部221は、l番目のステップ・サイズu演算用のパラメータY(t)を、時間減衰を考慮して式(67)と式(68)の規則に従って球面化する(ステップS6)。
次に、ICA部221は、ステップS6で算出されたl番目のY(t)を用いて、式(67)により区間線形モデルの区間数Pを算出する。
次に、ICA部221は、ステップ・サイズのパラメータγを、式(71)により算出する。
次に、ICA部221は、算出した区間数Pとステップ・サイズのパラメータγとを用いて、式(66)により式(62)のステップ・サイズを算出して更新する(ステップS7、図6のステップ・サイズμ算出工程403)。
なお、ステップ・サイズの推定のための反復回数は、q回(qは1以上、L未満の自然数)で停止するようにしても良い。
次に、ICA部221は、lが所定の値のL未満か否かを判定し(ステップS8)、lがL未満の場合(ステップS8;Yes)、lに1を加算し(ステップS9)、ステップS6に戻り、lがL以上の場合(ステップS8;No)、ステップS10に進む。
lがL以上の場合(ステップS8;No)、ICA部221は、分離フィルタW1u、W2u及びWの次(j+1)の各分離フィルタW[j+1]=を、式(37)を用いて更新する(ステップS10、図6の勾配ΔW[j]算出工程401、ステップ・サイズμ算出工程403、乗算工程404、加算工程405)。なお、ICA部221は、式(6)のJ(W)が小さくなるように、各分離フィルタを推定して更新していく。
次に、ICA部221は、jが所定の値のL未満か否かを判定し(ステップS11)、jがL未満の場合(ステップS11;Yes)、jに1を加算し(ステップ12)、ステップS4に戻り、jがL以上の場合(ステップS11;No)、ステップS13に進む。
jがL以上の場合(ステップS11;No)、ICA部221は、iが所定の値のL未満か否かを判定し(ステップS13)、iがL未満の場合(ステップS13;Yes)、iに1を加算し(ステップS14)、ステップS6に戻り、iがL以上の場合(ステップS13;No)、ステップS15に進む。
iがL以上の場合(ステップS13;No)、ICA部221は、算出された各分離音s(t)の推定値結果をスケーリング部231に出力し、スケーリングされた信号を直接音選択部241に出力する。なお、スケーリング部231は、projection Back処理等を用いてスケーリングを行い、直接音選択部241は、入力された信号からパワーが最大のものを選択して分離データ出力部115に出力する(ステップS15)。
すなわち、直接音選択部241は、複数のマイク30が取得した音声信号から、ヒト2の発話信号huから残響成分を抑圧して、ヒト2の直接発話である音声信号Suを選択している。
以上のように、マイクロホン30が取得した音声信号を白色化し、白色化された信号を区間線形モデルにより算出した区間数に基づきICA処理して分離フィルタ(W、W1u、W2u)と分離音s(t)の推定値とを、区間線形モデルを用いて区間数Pに分けて算出したステップ・サイズを用いて更新するようにしたので、残響抑圧における演算効率を上げることができ、少ない演算量で精度の良い残響抑圧を行うことができる。また、ステップ・サイズ算出時に、パラメータY(t)を球面化して算出するようにしたので、より少ない演算量で残響抑圧を行うことができる。
[第2実施形態]
第1実施形態との違いは、ステップS6aの処理である。第1実施形態では、ステップ・サイズu演算用のパラメータY(t)を球面化して算出したが、第2実施形態では、時間減衰を考慮せず、すなわち、球面化を行わずにステップ・サイズuのパラメータY(t)を算出する(ステップS6a)。なお、時間減衰を考慮しないとは、Y(t)の要素が1の場合に相当する。すなわち、パラメータY(t)の要素数に応じて、要素数が1の場合は、第2実施形態のように球面化を行わずにパラメータY(t)を算出してステップ・サイズuを算出し、要素数が1以上の場合は、第1実施形態のように球面化を行ってパラメータY(t)を算出してステップ・サイズuを算出する。
以上のように、パラメータY(t)の要素数に応じて、要素数が1の場合は、球面化を行わずにパラメータY(t)を算出してステップ・サイズuを算出するようにしたので、第1実施形態と同様に、残響抑圧における演算効率を上げることができ、少ない演算量で精度の良い残響抑圧を行うことができる。
[実験結果例]
次に、本実施形態の残響抑圧装置を備えるロボット1で行った実験方法と実験結果の一例を説明する。図9〜図12は、実験条件である。音声データに対するこのインパルス応答は、通常の部屋(環境I;残響時間RT20=240msec,4.2m×7.0m)と、ホールに似た部屋(環境II;残響時間RT20=670msec,7.55m×9.55m)の2つの部屋において、16KHzで記録された。
図9は、実験に用いたデータ及び残響抑圧装置の設定条件である。図9のように、インパルス応答は16KHzサンプル、残響時間は240msと670ms、ロボット1とヒト2との距離は1.5m、ロボット1とヒト2の角度は0度、45度、90度、−45度、−90度、使用したマイクロホン30の本数は2本(ロボット1の頭部に設置)、STFT分析はハニング窓のサイズ64ms(512ポイント)かつシフト量24ms(160ポイント)、入力信号データ(16ビット、PCM(Pulse Code Modulation))は[−1.0 1.0]に正規化されたものである。また、ロボット1の頭部に取り付けられたマイクロホン30の本数は2本である。
図10は、音声認識の設定を説明する図である。図10のように、テスト・セットは200の文章(日本語)、訓練セットは200人(それぞれ150の文章)、音響モデルはPTM−triphone、3値のHMM(隠れマルコフモデル)、言語モデルは語彙サイズ20k、発話解析はハニング窓のサイズ32msかつシフト量10ms、特徴量はMFCC(Mel−Frequency Cepstrm Coefficient;スペクトル包絡)は25次(12次MFCCとΔ12次MFCCと1次元Δパワー)であり、次いで、ケプストラム平均正規化を用いた。なお、Δパワーは、例えば、フレーム中の信号のパワーを計算し、計算に用いたフレームと後前後2フレームずつ計5フレームを使って線形回帰を行って算出する。
また、ユーザ(ヒト2)の音声およびロボットの音声について200個の日本語の文章を使用し、これらの文章を対応する記録されたインパルス応答に畳み込んだ。また、音声認識エンジンは、公知のJulius(http://julius.sourceforge.jp/)を使用している。さらに、200人の男性と女性の話者によって発せられた明瞭な音声の150個の文章を使ってtriphoneベースの音響モデル(3状態および4混合)を学習した(閉じた語)。統計的言語モデルは、2万語からなり、これらの語は新聞から抽出した。
実験は、バージ・インが発生していない場合(実験A)、バージ・インが発生している場合(実験B)の2種類である。バージ・インが発生していない場合は、ロボット1が取得する音声信号は、ユーザの音声信号(含む残響音)のみであり、バージ・インが発生している場合は、ユーザの音声信号とロボット1の音声信号とを含んでいる。また、全てのデータは、行列W1u、W2uおよびWを推定するために使用された(バッチ処理)。また、各実験では、PTR(Processing Time Ratio;処理時間比)も評価した。
さらに、各実験において、他のSTFT設定条件は、フレーム間隔係数d=2、反響キャンセルのフィルタ長Nと通常の分離モードの残響除去のフィルタ長Mは同じ値とし、環境IのN(=M)を9に設定し、環境IIのN(=M)を23に設定した。
さらに、各実験において図11の6つの条件で実験を行った。図11は、実験条件を説明する図である。図11のように、実験条件1は、本実施形態の方法を用いた方法で、区間数P=1、パラメータはαγ= 0.2およびβγ=5.0×10−3であり、実験条件2は、本実施形態の方法を用いた方法で、区間数P=2、パラメータはαγ= 0.2およびβγ=5.0×10−3であり、実験条件3は、本実施形態の方法を用いた方法で、区間数P=0、パラメータはαγ= 0.2およびβγ=5.0×10−3である。なお、区間数P=2は(B,B,B)=(0,4,N)、区間数P=1は(B,B)=(0,N)と設定した。ここで、区間数P=0は、すべてのμ(n)について同じ適応ステップ・サイズを使用することを意味している。さらに、サブICAフィルタの最大反復回数は、3に設定した。
実験条件4は、ステップ・サイズをアニーリング・ベースで算出した値を用いる場合(λ=0.9)であり、実験条件5は、ステップ・サイズμを0.05に固定した場合であり、実験条件6は、ステップ・サイズμを0.1に固定した場合である。なお、アニーリング・ベースにおいてステップ・サイズの算出は、パラメータαγ= 0.6およびβγ=5.0×10−3である。
つぎに、ICA処理による演算コストの比較であるPTRについて説明する。まず、使用する適応法は、それぞれの分離フィルタWのそれぞれの反復において、О(LP)(Lはマイクロホンの本数、Pはステップ・サイズ算出の区間数、Оは漸近記法におけるオーダーである。)を必要とする。そして、Wを推定するためにp回の反復を行い、ステップ・サイズuを推定するためにq回の反復を行う場合、総演算コストはp(L2(N+M)+q(LP))である。一方、p2回の反復を使用する標準的なICA処理との処理時間比(PTR)は、おおよそ次式(72)のように表すことができる。
Figure 0005550456
式(72)のように、多数のマイクロホンロフォン30を使用し、大きなNおよびM(NとMは分離行列の行数と列数)を用いた場合に、一般的な手法に比べ効率的であることを意味している。
次に、実験結果を図12〜図16を用いて説明する。図12は、バージ・インが発生していない場合の環境1における音声認識率の一例を示す図であり、図13は、バージ・インが発生していない場合の環境2における音声認識率の一例を示す図である。また、図14は、バージ・インが発生している場合の環境1における音声認識率の一例を示す図であり、図15は、バージ・インが発生している場合の環境2における音声認識率の一例を示す図である。一例として、残響音がないクリーンな音声信号による認識率は、実験に用いた残響抑圧装置では約93%である。各グラフの横軸は反復回数であり、縦軸は音声認識率(%)である。
図12〜図15のように、ステップ・サイズを固定した場合、収束が速いは、実験条件6の大きなステップ・サイズ(μ=0.1)の方が実験条件5の小さなステップ・サイズ(μ=0.05)より速いが、収束後の音声認識率は、実験条件6の大きなステップ・サイズ(μ=0.1)の方が実験条件5の小さなステップ・サイズ(μ=0.05)より悪い。すなわち、ステップ・サイズを固定した手法では、分離性能(音声認識率)と収束速度とを両立できないことが分かる。一方、実験条件4のステップ・サイズをアーニング・ベースで算出した場合、ステップ・サイズを固定した実験条件5と6より、全ての実験で分離性能と収束速度が勝っていた。
次に、本実施形態の方法において、実験条件1の区間数P=2および実験条件2の区間数P=1は、ほとんどすべての状況において、他のすべての実験条件4〜6に勝っていた。なお、区間数P=0の結果は、1つの適応ステップ・サイズでの性能を意味し、すなわち、区間線型モデルを適用していない場合の実験結果を意味している。この点において、区間数P=2の実験条件1またはP=1の実験条件2の方が、区間数P=0の実験条件3より収束速度が速く、例えば10程度の少ない反復回数でも音声認識率が高い(分離性能が良い)。
図12〜図15において、点線501〜504は、ステップ・サイズをアニーリングにより算出し反復回数30回の場合の音声認識率である。また、各図のクロスポイント512〜514は、実験条件1で実験を行ったときステップ・サイズをアニーリングにより算出し反復回数30回の場合の音声認識率と同じ音声認識率になる反復回数である。すなわち、本実施形態の方法によれば、従来の手法を用いた他の実験条件に比べて、反復回数が半分または2/3程度に改善されている。
図16は、実験Aと実験BのPTRの結果をまとめた図である。図16のように、残響音が長い環境2においてバージ・インが発生している場合でも、PTRは1.4であり、例えば、従来手法ではPTR=2.0であったため、大幅に演算効率が改善されていることがわかる。一例として、残響音が長い環境2においてバージ・インが発生している場合、反復回数が16回では、本実施形態のリアルタイム係数(=処理時間/データ持続時間)が1.0未満であった。
なお、第1、第2実施形態では、残響抑圧装置100及び残響抑圧装置100aをロボット1(1a)に組み込んだ例を説明したが、残響抑圧装置100及び残響抑圧装置100aは、例えば音声認識装置、音声認識装置を有する装置などに組み込んで用いることも可能である。
なお、実施形態の図2の各部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD−ROM等の可搬媒体、USB(Universal Serial Bus) I/F(インタフェース)を介して接続されるUSBメモリー、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1・・・ロボット
20・・・スピーカ
30、31、32・・・マイクロホン
100・・・残響抑圧装置
101・・・制御部
102・・・音声生成部
111・・・音声取得部
112・・・STFT部(白色化部)
113・・・MCSB−ICA部(第1評価関数算出部、残響成分抑圧部、分離行列更新部)
114・・・記憶部
115・・・分離データ出力部
210・・・強制空間球面化部
211・・・空間球面化部
212・・・分散正規化部
221・・・ICA部
231・・・スケーリング部
241・・・直接音選択部

Claims (8)

  1. 音声信号を生成し、生成した音声信号を出力する音声信号出力部と、
    前記音声信号出力部音源から発せられた音源信号を集音する複数のマイクロホンによって、前記生成された音声信号と前記生成された音声信号以外を含む入力信号を取得する音声取得部と、
    前記生成された音声信号と前記入力信号と前記音源信号との相関関係を示す分離行列を算出するとともに、前記音源信号の分離度を前記入力信号に基づいて評価する第1評価関数を算出する第1評価関数算出部と、
    前記第1評価関数に基づき音源信号の分離度が所定値より高くなる場合の前記分離行列である最適分離行列を算出し、前記算出した最適分離行列に基づいて、前記生成された音声信号以外の音声信号であって、残響成分が抑圧された当該音声信号を1人の人の音声信号として前記入力信号から分離することにより残響成分を抑圧する残響成分抑圧部と、
    前記分離行列の更新量の大きさを定めるステップ・サイズの関数を、複数の区間に分け当該複数の区間毎に線形関数を用いて近似し、前記近似した線形関数に基づき前記ステップ・サイズを算出し、前記算出されたステップ・サイズを用いて、前記第1評価関数に基づき音源信号の前記分離度が前記所定値より高くなるように前記分離行列の更新を繰り返す分離行列更新部と、
    を備えることを特徴とする残響抑圧装置。
  2. 前記分離行列更新部は、
    前記線形関数を用いて近似した各区間の両端のステップ・サイズを用いて前記ステップ・サイズを前記複数の区間について区間毎に算出し、前記ステップ・サイズを評価するための第2評価関数を最小にするように前記ステップ・サイズを算出する
    ことを特徴とする請求項1に記載の残響抑圧装置。
  3. 前記分離行列更新部は、
    前記線形関数を用いて近似した各区間の両端のステップ・サイズは、互いに隣り合う区間において連続するように前記複数の区間毎に、前記線形関数を用いて近似する
    ことを特徴とする請求項1または請求項2に記載の残響抑圧装置。
  4. 前記入力信号と前記生成された音声信号に対して球面化と分散正規化とを行うことで白色化する白色化部、
    を更に備え、
    前記第1評価関数算出部は、前記白色化された入力信号に基づき前記分離行列を算出する
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の残響抑圧装置。
  5. 前記白色化部は、
    前記白色化された信号に対して時間相関を強制的に除去し、当該時間相関を強制的に除去した信号から、前記白色化された信号に対して前記生成された音声信号と前記入力信号との相関を強制的に除去する
    ことを特徴とする請求項4に記載の残響抑圧装置。
  6. 前記残響成分抑圧部は、
    前記複数の区間の数である区間数を算出するためのパラメータを球面化して算出し、
    算出したパラメータを用いて前記区間数を算出する
    ことを特徴とする請求項1から請求項5のいずれか1項に記載の残響抑圧装置。
  7. 前記残響成分抑圧部は、
    独立成分分析法を用いて前記分離行列の更新と、前記生成された音声信号以外の音声信号であって、前記入力信号から残響成分が抑圧された当該音声信号を分離することにより残響成分を抑圧する
    ことを特徴とする請求項1から請求項6のいずれか1項に記載の残響抑圧装置。
  8. 音声信号出力部が、音声信号を生成し、生成した音声信号を出力する音声信号出力工程と、
    音声取得部が、前記音声信号出力部音源から発せられた音源信号を集音する複数のマイクロホンによって、前記生成された音声信号と前記生成された音声信号以外を含む入力信号を取得する音声取得工程と、
    第1評価関数算出部が、前記生成された音声信号と前記入力信号と前記音源信号との相関関係を示す分離行列を算出するとともに、前記音源信号の分離度を前記入力信号に基づいて評価する第1評価関数を算出する第1評価関数算出工程と、
    残響成分抑圧部が、前記第1評価関数算出工程により算出された前記第1評価関数に基づき音源信号の分離度が所定値より高くなる場合の前記分離行列である最適分離行列を算出し、前記算出した最適分離行列に基づいて、前記生成された音声信号以外の音声信号であって、残響成分が抑圧された当該音声信号を1人の人の音声信号として前記入力信号から分離することにより残響成分を抑圧する残響成分抑圧工程と、
    分離行列更新部が、前記分離行列の更新量の大きさを定めるステップ・サイズの関数を、複数の区間に分け当該複数の区間毎に線形関数を用いて近似し、前記近似した線形関数に基づき前記ステップ・サイズを算出し、前記算出されたステップ・サイズを用いて、前記第1評価関数に基づき音源信号の前記分離度が前記所定値より高くなるように前記分離行列の更新を繰り返す分離行列更新工程と、
    を備えることを特徴とする残響抑圧方法。
JP2010124873A 2009-06-04 2010-05-31 残響抑圧装置、及び残響抑圧方法 Active JP5550456B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US21776009P 2009-06-04 2009-06-04
US61/217,760 2009-06-04

Publications (2)

Publication Number Publication Date
JP2010282193A JP2010282193A (ja) 2010-12-16
JP5550456B2 true JP5550456B2 (ja) 2014-07-16

Family

ID=43380761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010124873A Active JP5550456B2 (ja) 2009-06-04 2010-05-31 残響抑圧装置、及び残響抑圧方法

Country Status (2)

Country Link
US (1) US8391505B2 (ja)
JP (1) JP5550456B2 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2337375B1 (en) * 2009-12-17 2013-09-11 Nxp B.V. Automatic environmental acoustics identification
JP5634347B2 (ja) * 2011-08-08 2014-12-03 三菱電機株式会社 信号分離装置及び信号分離方法
US10473628B2 (en) * 2012-06-29 2019-11-12 Speech Technology & Applied Research Corporation Signal source separation partially based on non-sensor information
US10540992B2 (en) 2012-06-29 2020-01-21 Richard S. Goldhor Deflation and decomposition of data signals using reference signals
CN104793522A (zh) * 2015-04-21 2015-07-22 西北农林科技大学 一种喷药机器人的声控系统
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) * 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
WO2021100136A1 (ja) * 2019-11-20 2021-05-27 日本電信電話株式会社 音源信号推定装置、音源信号推定方法、プログラム
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
CA2186416C (en) * 1995-09-26 2000-04-18 Suehiro Shimauchi Method and apparatus for multi-channel acoustic echo cancellation
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
JPH09261133A (ja) 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 残響抑圧方法および装置
JP4313728B2 (ja) * 2004-06-17 2009-08-12 日本電信電話株式会社 音声認識方法、その装置およびプログラム、その記録媒体
US8041046B2 (en) * 2004-06-30 2011-10-18 Pioneer Corporation Reverberation adjusting apparatus, reverberation adjusting method, reverberation adjusting program, recording medium on which the reverberation adjusting program is recorded, and sound field correcting system
JP4653674B2 (ja) * 2005-04-28 2011-03-16 日本電信電話株式会社 信号分離装置、信号分離方法、そのプログラムおよび記録媒体
JP4556875B2 (ja) * 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
JP4444345B2 (ja) * 2007-06-08 2010-03-31 本田技研工業株式会社 音源分離システム
JP5178370B2 (ja) * 2007-08-09 2013-04-10 本田技研工業株式会社 音源分離システム
US8848933B2 (en) * 2008-03-06 2014-09-30 Nippon Telegraph And Telephone Corporation Signal enhancement device, method thereof, program, and recording medium
JP5620689B2 (ja) * 2009-02-13 2014-11-05 本田技研工業株式会社 残響抑圧装置及び残響抑圧方法

Also Published As

Publication number Publication date
JP2010282193A (ja) 2010-12-16
US8391505B2 (en) 2013-03-05
US20100329472A1 (en) 2010-12-30

Similar Documents

Publication Publication Date Title
JP5550456B2 (ja) 残響抑圧装置、及び残響抑圧方法
JP5572445B2 (ja) 残響抑圧装置、及び残響抑圧方法
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP4774100B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
Yoshioka et al. Making machines understand us in reverberant rooms: Robustness against reverberation for automatic speech recognition
US8160273B2 (en) Systems, methods, and apparatus for signal separation using data driven techniques
JP5738020B2 (ja) 音声認識装置及び音声認識方法
JP4532576B2 (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP6703460B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US20080208538A1 (en) Systems, methods, and apparatus for signal separation
Schmid et al. Variational Bayesian inference for multichannel dereverberation and noise reduction
JP6124949B2 (ja) 音声処理装置、音声処理方法、及び音声処理システム
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
Doclo et al. Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
JPWO2019026973A1 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
JP4348393B2 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP2007093630A (ja) 音声強調装置
Takeda et al. ICA-based efficient blind dereverberation and echo cancellation method for barge-in-able robot audition
Takeda et al. Upper-limit evaluation of robot audition based on ICA-BSS in multi-source, barge-in and highly reverberant conditions
Kinoshita et al. A linear prediction-based microphone array for speech dereverberation in a realistic sound field
US20230306980A1 (en) Method and System for Audio Signal Enhancement with Reduced Latency
Miyoshi et al. Calculating inverse filters for speech dereverberation
Takeda et al. Automatic estimation of reverberation time with robot speech to improve ICA-based robot audition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140520

R150 Certificate of patent or registration of utility model

Ref document number: 5550456

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150