JP2014089420A

JP2014089420A - 信号処理装置、方法およびプログラム

Info

Publication number: JP2014089420A
Application number: JP2012240669A
Authority: JP
Inventors: Makoto Hirohata; 誠広畑; Masashi Nishiyama; 正志西山
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-10-31
Filing date: 2012-10-31
Publication date: 2014-05-15
Anticipated expiration: 2032-10-31
Also published as: US20140122068A1; JP6054142B2; US9478232B2

Abstract

【課題】声と背景音の分離性能を向上させる。
【解決手段】信号処理装置は、取得部と第１背景音推定部と代表成分推定部と第１声推定部と第１フィルタ作成部と分離部とを備える。取得部は、音響信号を周波数分析して得られる特徴量を取得する。第１背景音推定部は、特徴量の背景音成分のうち非定常性を持つ第１背景音成分を推定する。代表成分推定部は、一定時間に取得された特徴量から推定された第１背景音成分の最大値に基づいて、一定時間内の第１背景音成分を代表する代表成分を推定する。第１声推定部は、特徴量の声成分である第１声成分を推定する。第１フィルタ作成部は、第１声成分と代表成分とに基づいて、特徴量から声成分および背景音成分を抽出する第１フィルタを作成する。分離部は、第１フィルタを用いて音響信号を声信号および背景音信号に分離する。
【選択図】図１

Description

本発明の実施形態は、信号処理装置、方法およびプログラムに関する。

音声認識や映像制作などにおいてマイクロホンで取得した音響信号には、ユーザや役者の音声である声信号だけでなく、背景雑音や音楽などの背景音信号が含まれる。声信号と背景音信号が混入した音響信号から所望の信号のみを抽出する技術として音源分離技術が存在する。

例えば、非負行列因子分解（ＮＭＦ：non-Negative Matrix Factorization）を用いた音源分離技術が知られている。ＮＭＦは、複数のスペクトルを基底行列と係数行列の積に分解する手法である。トレーニングサンプルを用いて、背景音の基底行列を作成しておけば、処理対象とする音響信号のスペクトルに合わせて係数行列を調整することで、分散の大きい非定常な背景音のスペクトルが推定可能になる。背景音のスペクトルと同様に声のスペクトルも推定でき、背景音と声の信号をそれぞれ抽出できる。

特開２００９−１２８９０６

"Ｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｓｐｅｅｃｈｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ"，Ｓ．Ｆ．Ｂｏｌｌ，ＩＣＡＳＳＰ１９７９． "ＣｏｎｓｔｒｕｃｔｉｏｎａｎｄＥｖａｌｕａｔｉｏｎｏｆａＲｏｂｕｓｔＭｕｌｔｉ−ＦｅａｔｕｒｅＳｐｅｅｃｈ／ＭｕｓｉｃＤｉｓｃｒｉｍｉｎａｔｏｒ"，Ｅ．Ｓｃｈｅｉｒｅｒｅｔａｌ，ＩＣＡＳＳＰ１９９７． "モフォロジー処理を用いたスペクトルサブトラクションにおけるミュージカルノイズ除去"，野村行弘ほか，電子情報通信学会論文誌，Ｖｏｌ．Ｊ８９−Ｄ，Ｎｏ．５，ｐｐ．９９１−１０００． "Ｐｅｒｃｅｐｔｕａｌｅｖａｌｕａｔｉｏｎｏｆｓｐｅｅｃｈｑｕａｌｉｔｙ（ＰＥＳＱ）, ａｎｏｂｊｅｃｔｉｖｅｍｅｔｈｏｄｆｏｒｅｎｄ−ｔｏ−ｅｎｄｓｐｅｅｃｈｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｏｆｎａｒｒｏｗｂａｎｄｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋｓａｎｄＳｐｅｅｃｈＣｏｄｅｃｓ"，ＩＴＵＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＰ．８６２，Ｆｅｂｒｕａｒｙ２００１．

様々な背景音の混入やシーンチェンジに対して高精度な音源分離を行うには、過去に取得した音響信号をトレーニングサンプルとして用いることが望ましい。一方、遅延を最小限に抑えるなど、少ない計算コストで音源分離を実現するためには、例えば数秒以下の少ないサンプルで背景音を推定することが望ましい。

しかしながら、従来の技術では、サンプル数が少ないと背景音のスペクトル分布を高精度に推定できなかった。すなわち、背景音の平均成分の推定精度が劣化し（推定した背景音成分が不足し）、抽出した声にはより多くの背景音が残る（分離性能が劣化する）という問題があった。

実施形態の信号処理装置は、取得部と第１背景音推定部と代表成分推定部と第１声推定部と第１フィルタ作成部と分離部とを備える。取得部は、音響信号を周波数分析して得られる特徴量を取得する。第１背景音推定部は、特徴量の背景音成分のうち非定常性を持つ第１背景音成分を推定する。代表成分推定部は、一定時間に取得された特徴量から推定された第１背景音成分の最大値に基づいて、一定時間内の第１背景音成分を代表する代表成分を推定する。第１声推定部は、特徴量の声成分である第１声成分を推定する。第１フィルタ作成部は、第１声成分と代表成分とに基づいて、特徴量から声成分および背景音成分を抽出する第１フィルタを作成する。分離部は、第１フィルタを用いて音響信号を声信号および背景音信号に分離する。

第１の実施形態にかかる信号処理装置のブロック図。信号処理装置のハードウェア構成図。第１の実施形態における信号処理のフローチャート。音響信号の定常性および非定常性に関する定義を示す図。第１の実施形態の混合音分離の効果を説明する図。第１の実施形態の混合音分離の効果を説明する図。第１の実施形態による客観評価実験の結果を説明する図。第１の実施形態による客観評価実験の結果を説明する図。第１の実施形態による客観評価実験の結果を説明する図。第２の実施形態にかかる信号処理装置のブロック図。第２の実施形態における信号処理のフローチャート。第２の実施形態の混合音分離の効果を説明する図。第２の実施形態の混合音分離の効果を説明する図。第２の実施形態の混合音分離の効果を説明する図。第２の実施形態による客観評価実験の結果の説明図。第２の実施形態による客観評価実験の結果の説明図。第３の実施形態による信号処理装置のブロック図。

以下に添付図面を参照して、この発明にかかる信号処理装置の好適な実施形態を詳細に説明する。

（第１の実施形態）
第１の実施形態の信号処理装置は、声信号および背景音信号を含んだ音響信号を声信号と背景音信号とに分離する。例えば、本実施形態の信号処理装置を音声認識の前処理として利用することにより、音声認識の認識性能を向上させることができる。また、映像視聴の際に、抽出した声信号と背景音信号の混合率を変更することで、所望の信号を聴き取りやすくすることができる。

本実施形態の信号処理装置は、音響信号から取得した特徴量を用いて非定常性を持つ第１背景音成分を推定する。第１背景音成分を推定する際、過去の一定時間内に取得した少ない特徴量で推定した背景音基底行列を用いる。推定した第１背景音成分に加え、一定時間に推定した第１背景音成分を用いて、一定時間内の第１背景音成分を代表する代表成分を推定する。また、取得した特徴量を用いて第１声成分を推定する。推定した第１声成分と代表成分を用いて、声または背景音のスペクトルを抽出する第１フィルタを作成する。作成した第１フィルタと音響信号のスペクトルを用いて、声信号と背景音信号に分離する。

このように、本実施形態の信号処理装置は、過去に推定した第１背景音成分を用いて推定した代表成分に基づき分離を行う。これにより、背景音スペクトルが声スペクトルに残存する問題を改善できる。

図１は、第１の実施形態にかかる信号処理装置１００の構成例を示すブロック図である。信号処理装置１００は、取得部１０１と、算出部１０２と、第１背景音推定部１０３と、代表成分推定部１０４と、第１声推定部１０５と、第１フィルタ作成部１０６と、分離部１０７と、を備える。

取得部１０１は、声信号と背景音信号を含んだ音響信号を周波数分析し、音響信号の特徴量を取得する。なお、取得部１０１が周波数分析等により外部装置で求められた特徴量を取得するように構成してもよい。

算出部１０２は、一定時間に取得される特徴量を用いて、背景音を表す背景音基底行列を算出する。

第１背景音推定部１０３は、取得した特徴量および算出された背景音基底行列を利用して、特徴量の背景音成分のうち非定常性を持つ第１背景音成分を推定する。

代表成分推定部１０４は、過去を含む一定時間に取得された１以上の特徴量により推定された第１背景音成分から、一定時間内の第１背景音成分の代表成分を推定する。

第１声推定部１０５は、取得した特徴量を利用して、特徴量の声成分である第１声成分を推定する。

第１フィルタ作成部１０６は、推定された第１声成分と第１背景音成分の代表成分とから、声のスペクトルまたは背景音のスペクトルを抽出する第１フィルタを作成する。

分離部１０７は、第１フィルタと音響信号のスペクトルとを用いて、音響信号を声信号および背景音信号に分離する。

次に、信号処理装置１００のハードウェア構成について説明する。図２は、信号処理装置１００のハードウェア構成例を示す説明図である。

信号処理装置１００は、図２に示すような通常のコンピュータを利用したハードウェアで構成されている。信号処理装置１００は、制御部２０１と、記憶部２０２と、外部記憶部２０３と、操作部２０４と、通信部２０５と、マイク２０６と、がバス２０７で接続された構成となっている。

制御部２０１は、装置全体を制御するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等である。記憶部２０２は、各種データや各種プログラムを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等である。外部記憶部２０３は、各種データや各種プログラムを記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）ドライブ装置等の記憶部である。操作部２０４は、ユーザの指示入力を受け付けるキーボードやマウスなどである。通信部２０５は、外部装置との通信を制御する。マイク２０６は、ユーザの発声などの音声を取得する。

このようなハードウェア構成において、例えば制御部２０１がＲＯＭ等の記憶部２０２や外部記憶部２０３に記憶された各種プログラムを実行することにより図１に示す各構成部の機能が実現される。このように各構成部は、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（Integrated Circuit）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。以下、各構成部の機能の詳細についてさらに説明する。

取得部１０１は、マイク２０６に入力された音響信号を取得する。この音響信号には、人の声を表す声信号だけでなく、背景雑音や音楽などの背景音信号が含まれる。音響信号は、例えば４８ｋＨｚでサンプリングされたデジタル信号である。なお、取得部１０１は、マイク２０６ではなく、外部記憶部２０３、または、通信部２０５によって接続された外部装置から音響信号を取得してもよい。

また、取得部１０１は、取得した音響信号を周波数分析し、周波数に関する特徴量（ベクトル）を取得する。具体的には、音響信号を長さ２０４８サンプル、間隔１０２４サンプルのフレームに分割する。取得部１０１は、例えばハニング窓またはハミング窓を使用してフレームを分割する。次に、取得部１０１は、各時刻ｔのフレームから周波数に関する特徴量Ｚｔを取得する。特徴量Ｚｔは、各フレームの音響信号をフーリエ変換して得られるスペクトルＸｔだけでなく、ＬＰＣケプストラムおよびＭＦＣＣなどのケプストラム系の特徴量を用いることができる。また、異なる方式で算出された複数の特徴量を統合した特徴量を用いることもできる。

算出部１０２は、例えばＮＭＦにより、取得部１０１で取得された過去の複数フレームの特徴量から、背景音を表現する基底行列（背景音基底行列Ｈ２）を推定する。算出部１０２は、声を表現する基底行列（声基底行列Ｈ１）と、背景音基底行列Ｈ２を統合（連結）することにより、基底行列Ｈ３を求める。後述するように、声基底行列Ｈ１は、事前に求めて記憶部２０２や外部記憶部２０３に記憶しておく。算出部１０２は、基底行列Ｈ３と係数ベクトルＵｔとの積が、現在のフレームの特徴量に近似値となるような係数ベクトルＵｔを求める。

なお、各フレームの特徴量がＤ次元のベクトルであるとき、声基底行列Ｈ１は行数Ｄ、列数Ｍの行列、背景音基底行列Ｈ２は行数Ｄ、列数Ｎの行列、係数ベクトルＵｔはＭ＋Ｎ次元のベクトルとなる。

第１背景音推定部１０３は、背景音基底行列Ｈ２に対応する係数ベクトルＵｔの要素を抽出する。上記例の場合、背景音基底行列Ｈ２に対応する係数ベクトルＵｔの要素とは、Ｍ＋Ｎ次元の係数ベクトルＵｔの要素のうち、Ｍ＋１次元からＮ次元までのＮ個の要素となる。すなわち、背景音基底行列Ｈ２に対応する係数ベクトル（以下、係数ベクトルＵｂｔとする）はＮ次元のベクトルとなる。第１背景音推定部１０３は、背景音基底行列Ｈ２と、抽出した係数ベクトルＵｂｔとの積で表現されたベクトルＢ１ｔを第１背景音成分とする。

Ｄは取得した特徴量の次元数と同じになる。複数の周波数に関する特徴量を統合した特徴量を用いてもよいため、Ｄは任意の数（例えば３２）になり得る。また、ＭとＮは例えば３２と６４など任意の数に設定でき、異なる値でもよいし同じ値でもよい。

声基底行列Ｈ１は、例えば以下のようにして求めることができる。まず、別途用意した声の音響信号から取得した複数の特徴量を、基底行列Ｈと係数行列Ｕとの積で近似する。基底行列Ｈと係数行列Ｕの導出は、基底行列Ｈと係数行列Ｕの積と、複数の特徴量で構成される行列Ｚとの二乗誤差を基準とした反復法により行う。

この際、基底行列Ｈおよび係数行列Ｕの初期行列にはランダム値を用いることができる。次に、導出した基底行列Ｈに対して正規化等の後処理が行われ、声基底行列Ｈ１として記憶部２０２や外部記憶部２０３に記憶される。なお、係数ベクトルＵｔの導出は、基底行列Ｈ３は固定した状態で、声基底行列Ｈ１を求める際に行った反復法を適用すればよい。

算出部１０２は、現在のフレームの時刻ｔが更新時刻Ｔ１を超えた際に、一定時間Ｔ２分の過去のフレームの特徴量を背景音基底行列Ｈ２の推定に用いる。ここで、更新時刻Ｔ１は一定時間Ｔ３ごとに設定してもよい。また、更新時刻Ｔ１は、雑音重畳音、音楽重畳音といった音の種類やシーンの変化を検出した時刻として設定してもよい（例えば、非特許文献２参照）。

処理の重複を回避するため、更新時刻Ｔ１と前回の更新時刻Ｔ１’の間隔は一定時間Ｔ４（例えば１秒）以上とすることが望ましい。また、一定時間Ｔ２は、更新時刻Ｔ１と前回の更新時刻Ｔ１’に対し、Ｔ２＜Ｔ１−Ｔ１’を満たせば、任意の時間を設定できる。例えば、一定時間Ｔ３＝５秒、Ｔ２＝０．３秒と設定できる。

算出部１０２は、背景音基底行列Ｈ２の推定に反復法を適用する際、時刻ｔ（＞Ｔ１）のフレームを処理する時だけでなく、時刻（ｔ＋１）〜時刻（ｔ＋ｋ）においても反復法を適用して背景音基底行列Ｈ２を更新できる。このとき、算出部１０２は、時刻（ｔ＋ｋ）での処理後に得られた背景音基底行列Ｈ２をそれまで使用していた各フレームの背景音基底行列Ｈ２と入れ替える。これにより、背景音基底行例Ｈ２の更新に必要な計算コストを分散させることができる。各時刻に行う反復法の適用回数をｒ（例えば１）とすると、背景音基底行列Ｈ２の更新が完了するまでの反復法の適用回数Ｒはｒ×ｋ回となる。なお、時刻（ｔ＋１）と時刻（ｔ＋ｋ）の差が一定時間Ｔ４以上であれば、更新間隔となる変数ｋの値は、１０など任意の値に設定できる。

代表成分推定部１０４は、第１背景音推定部１０３で推定した過去の第１背景音成分Ｂ１（ｔ−１）、Ｂ１（ｔ−２）、・・・、Ｂ１（ｔｓ）と、現在の第１背景音成分Ｂ１ｔと、を用いて代表成分Ａ１ｔを推定する。代表成分Ａ１ｔを構成する要素はそれぞれ独立に推定される。例えば、代表成分推定部１０４は、過去と現在を含めた一定時間内の第１背景音成分の該当要素の中の最大値を、代表成分Ａ１ｔの対応する要素とする。過去の第１背景音成分は、算出部１０２で新たな背景音基底行列Ｈ２が設定された時刻から推定されたものを対象とする。時刻ｔｓは、背景音基底行列Ｈ２の更新が完了し、背景音基底行列Ｈ２の入れ替え処理が行われた時刻とする。

従来の方法では、例えば、現在の第１背景音成分Ｂ１ｔを用いて音源分離に用いるフィルタが作成される。このような方法では、短い時間のサンプルで推定した背景音基底の影響により第１背景音成分Ｂ１ｔが実際の入力背景音に対して不足し、背景音成分を適切に取り除くことができない場合がある。

これに対し、本実施形態では、上述のように、過去の時刻で推定された第１背景音成分の最大値を用いて代表成分を推定する。そして、代表成分も用いてフィルタを作成し、このフィルタを用いて音源分離を行う（詳細は後述）。このため、サンプルが少ないことにより第１背景音成分が実際の入力背景音に対して不足した場合であっても、不足を補い、適切に背景音声分を取り除くことができる。

なお、代表成分の算出方法は最大値を求める方法に限られるものではない。第１背景音成分の不足を補える値であって最大値に基づいて算出される値であればどのような値を代表成分としてもよい。例えば、最大値に所定の係数を乗じた値を代表成分としてもよい。

第１声推定部１０５は、第１背景音推定部１０３にて求めた係数ベクトルＵｔのうち、声基底行列Ｈ１に対応する係数ベクトルの要素を抽出する。第１声推定部１０５は、声基底行列Ｈ１と、抽出した係数ベクトルＵｖｔとの積で表現されたベクトルＶ１ｔを第１声成分とする。

第１フィルタ作成部１０６は、第１声成分Ｖ１ｔと代表成分Ａ１ｔとを用いて、声スペクトルＶｔまたは背景音スペクトルＢｔを抽出するフィルタ（第１フィルタ）を作成する。まず、第１フィルタ作成部１０６は、第１声成分Ｖ１ｔと代表成分Ａ１ｔとを、それぞれ第１声スペクトルＶ１’ｔと第１平均スペクトルＡ１’ｔとに変換する。例えば第１フィルタ作成部１０６は、取得部１０１にてスペクトルを特徴量に変換する変換処理の逆変換により、第１声成分Ｖ１ｔと代表成分Ａ１ｔとを、第１声スペクトルＶ１’ｔと第１平均スペクトルＡ１’ｔとに変換する。スペクトル自体を特徴量とする場合は、変換および逆変換は不要である。

第１フィルタ作成部１０６は、次に、声スペクトルＶｔのｉ番目の要素Ｖｔｉを抽出する第１フィルタＦＶ１ｔｉを、以下の（１）式により求める。
ＦＶ１ｔｉ＝
｜Ｖ１’ｔｉ｜＾Ｌ／（｜Ｖ１’ｔｉ｜＾Ｌ＋｜Ａ１’ｔｉ｜＾Ｌ）・・・（１）

第１フィルタ作成部１０６は、背景音スペクトルＢｔのｉ番目の要素Ｂｔｉを抽出する第１フィルタＦＢ１ｔｉを、以下の（２）式により求める。
ＦＢ１ｔｉ＝
｜Ａ１’ｔｉ｜＾Ｌ／（｜Ｖ１’ｔｉ｜＾Ｌ＋｜Ａ１’ｔｉ｜＾Ｌ）・・・（２）

ここで、Ｌはパラメータ値であり、例えば２に設定できる。なお、ＦＶ１ｔｉ＝１−ＦＢ１ｔｉの関係が成り立つため、声スペクトルＶｔおよび背景音スペクトルＢｔのいずれか一方の第１フィルタ（ＦＶ１ｔｉまたはＦＢ１ｔｉ）を求めればよい。

第１フィルタ作成部１０６は、第１フィルタに対して、時間軸上での平滑化、および、要素間での平滑化などの後処理を実行してもよい。このように、第１声スペクトルを抽出するフィルタの作成に、代表成分推定部１０４で推定した代表成分を用いることで、背景音スペクトルが声スペクトルに残存する問題を改善することができる。

分離部１０７は、声スペクトルの第１フィルタＦＶ１ｔまたは背景音スペクトルの第１フィルタＦＢ１ｔを用いて、声スペクトルＶｔおよび背景音スペクトルＢｔを抽出する。分離部１０７は、まず、取得部１０１で取得した時刻ｔのスペクトルＸｔを用いて、声スペクトルＶｔのｉ番目の要素Ｖｔｉを以下の（３）式により求める。
Ｖｔｉ＝Ｘｔｉ×ＦＶ１ｔｉ・・・（３）

次に、分離部１０７は、声スペクトルＶｔを逆フーリエ変換することで、声信号Ｓｖを求める。なお、２つのフレーム間でのオーバーラップしたサンプルの振幅値は、それぞれのフレームから逆フーリエ変換で求めた値の合計値とする。背景音信号Ｓｂは、入力信号Ｓと声信号Ｓｖとの差分としてもよいし、声信号を求めた方法と同様に求めてもよい。これにより、音響信号から声信号と背景音信号とを分離することができる。すなわち、背景音の混入が少なく純度の高い声信号を聴取することができる。また、分離された声信号を後段の音声認識部（図示なし）に出力することにより、背景音信号の影響を取り除いた音声認識処理が実行できる。

次に、このように構成された信号処理装置１００による信号処理について図３を用いて説明する。図３は、第１の実施形態における信号処理の一例を示すフローチャートである。

まず、取得部１０１は、分析対象となる音響信号の開始時刻を時刻ｔ＝０に設定する（ステップＳ３０１）。取得部１０１は、背景音基底行列Ｈ２の更新処理を行う更新時刻Ｔ１を設定する（ステップＳ３０２）。取得部１０１は、音響信号を周波数分析することにより、スペクトルＸｔと特徴量Ｚｔとを取得する（ステップＳ３０３）。例えば、取得部１０１は、分析対象となる音響信号をフレーム単位に分割する。そして、取得部１０１は、時刻ｔに関するフレームのサンプルからスペクトルＸｔとスペクトルを変換した特徴量Ｚｔとを取得する。

算出部１０２は、声基底行列Ｈ１と背景音基底行列Ｈ２の初期値を設定する（ステップＳ３０４）。算出部１０２は、例えば、別途用意した声の音響信号から作成した基底行列の値を、声基底行列Ｈ１の初期値として設定する。算出部１０２は、別途用意した背景音の音響信号から作成した基底行列の値を、背景音基底行列Ｈ２の初期値としてもよいし、ランダム値を背景音基底行列Ｈ２の初期値としてもよい。

算出部１０２は、学習特徴が取得できているか否かを判定する（ステップＳ３０５）。学習特徴とは、一定時間Ｔ２分の過去のフレームの特徴量である。学習特徴が取得できていない場合（ステップＳ３０５：Ｎｏ）、算出部１０２は、現在のフレーム（時刻ｔ）の特徴量Ｚｔを背景音基底行列Ｈ２の学習特徴として設定する（ステップＳ３０６）。

学習特徴が取得できている場合（ステップＳ３０５：Ｙｅｓ）、算出部１０２は、背景音基底行列Ｈ２の更新が完了しているか否かを判定する（ステップＳ３０７）。更新が完了した後である場合（ステップＳ３０７：Ｙｅｓ）、算出部１０２は、現在のフレームの時刻ｔが更新時刻Ｔ１より大きいか否かを判定する（ステップＳ３０８）。

更新時刻Ｔ１より大きい場合（ステップＳ３０８：Ｙｅｓ）、背景音基底行列Ｈ２の更新処理を再び行えるようにするため、ステップＳ３０９に進む。ステップＳ３０９では、算出部１０２は、背景音基底行列Ｈ２の更新に用いる学習特徴に設定している特徴をリセット（学習特徴を削除）する（ステップＳ３０９）。ステップＳ３０９を実行した後は、ステップＳ３０６に戻る。

ステップＳ３０７で更新が完了する前である場合（ステップＳ３０７：Ｎｏ）、算出部１０２は、学習特徴を用いて、反復法に基づき背景音基底行列Ｈ２の推定を行う（ステップＳ３１０）。

算出部１０２は、背景音基底行列Ｈ２の更新が完了したか否かを判定する（ステップＳ３１１）。例えば、算出部１０２は、背景音基底行列Ｈ２の更新を開始してから実行した反復法の適用回数が、完了までに必要とする適用回数Ｒに達したか否かを判定する。適用回数Ｒに達している場合（ステップＳ３１１：Ｙｅｓ）、算出部１０２は、背景音基底行列Ｈ２の更新処理を行う更新時刻Ｔ１を次回の更新処理を行う時刻に設定する（ステップＳ３１２）。

ステップＳ３１１で適用回数Ｒに達していないと判定された場合（ステップＳ３１１：Ｎｏ）、ステップＳ３０６の後、ステップＳ３１２の後、および、ステップＳ３０８で時刻ｔが更新時刻Ｔ１以前と判定された場合（ステップＳ３０８：Ｎｏ）、ステップＳ３１３に進む。

ステップＳ３１３では、算出部１０２は、背景音基底行列Ｈ２とステップＳ３０４で設定した声基底行列Ｈ１を用いて、現在のフレームの特徴量Ｚｔを近似する係数ベクトルＵｔを導出する（ステップＳ３１３）。

第１背景音推定部１０３は、係数ベクトルＵｔから背景音基底行列Ｈ２に対応する係数ベクトルＵｂｔを抽出し、背景音基底行列Ｈ２と係数ベクトルＵｂｔの積で表現されたベクトルＢ１ｔを第１背景音成分として求める（ステップＳ３１４）。

第１声推定部１０５は、係数ベクトルＵｔから声基底行列Ｈ１に対応する係数ベクトルＵｖｔを抽出し、声基底行列Ｈ１と係数ベクトルＵｖｔの積で表現されたベクトルＶ１ｔを第１声成分として求める（ステップＳ３１５）。

代表成分推定部１０４は、現在のフレームの時刻ｔにて背景音基底行列Ｈ２の更新が完了したか否かを判定する（ステップＳ３１６）。時刻ｔにて更新が完了していた場合（ステップＳ３１６：Ｙｅｓ）、代表成分推定部１０４は、過去成分Ｚｐの各要素を０に設定する（ステップＳ３１７）。過去成分Ｚｐとは、第１背景音推定部１０３によって過去に推定された第１背景音成分で構成される成分を表す。これにより背景音基底行列Ｈ２の入れ替え（更新）の度に過去成分が削除され、過去成分は同一の背景音基底行列Ｈ２を用いて求められたものとなる。

ステップＳ３１７の後、および、ステップＳ３１６で時刻ｔにて更新が完了していなかった場合（ステップＳ３１６：Ｎｏ）、代表成分推定部１０４は、現在のフレームの第１背景音成分Ｂ１ｔと過去成分Ｚｐを用いて、代表成分Ａ１ｔを求める（ステップＳ３１８）。また、代表成分推定部１０４は、求めた代表成分Ａ１ｔを過去成分Ｚｐとして設定する。代表成分推定部１０４は、例えば代表成分Ａ１ｔのｉ番目の要素Ａ１ｔｉを、第１背景音成分Ｂ１ｔのｉ番目の要素Ｂ１ｔｉと過去成分Ｚｐのｉ番目の要素Ｚｐｉの最大値とする。

第１フィルタ作成部１０６は、第１フィルタを作成する（ステップＳ３１９）。例えば、第１フィルタ作成部１０６は、第１声成分Ｖ１ｔと代表成分Ａ１ｔを、第１声スペクトルＶ１’ｔと第１平均スペクトルＡ１’ｔに変換する。そして、第１フィルタ作成部１０６は、変換により得られた第１声スペクトルＶ１’ｔと第１平均スペクトルＡ１’ｔを用いて、上記（１）式または（２）式により、声スペクトルＶｔを抽出する第１フィルタＦＶ１ｔまたは背景音スペクトルＢｔを抽出する第１フィルタＦＢ１ｔを作成する。

分離部１０７は、声スペクトルの第１フィルタＦＶ１ｔまたは背景音スペクトルの第１フィルタＦＢ１ｔを用いて、声信号Ｓｖと背景音信号Ｓｂを求める（ステップＳ３２０）。

分離部１０７は、取得部１０１にて取得した音響信号の全てのフレーム（全区間）に対して、処理を行ったか否かを判定する（ステップＳ３２１）。全区間で処理を行っていなかった場合（ステップＳ３２１：Ｎｏ）、分離部１０７は、時刻ｔを次のフレームの時刻に更新し（ステップＳ３２２）、ステップＳ３０３に戻る。全区間で処理を行っていた場合（ステップＳ３２１：Ｙｅｓ）、信号処理を完了する。

図４は、音響信号の定常性および非定常性に関する定義を示す図である。定常音（定常性の音響信号）は、平均が一定であり、分散が小さい音である。例えば、声の場合は「あー」などのような伸ばし音が定常音である。また、背景音の場合は、歓声およびエアコンの動作音などが定常音である。

非定常音（非定常性の音響信号）は、平均が一定であり、分散が大きい音である。例えば、声の場合は話し声が非定常音である。また、背景音の場合は、音楽およびシーン切替り時の音が非定常音である。

定常音に対し、非定常音は分散が大きい。声の大半が非定常音に分類される。図４では、定常音および非定常音のスペクトル値の例が示されている。

図５および図６は、話し声と定常的な背景音が混合した音に対する分離を行った際の本実施形態による効果を説明するための図である。図５では、入力混合音成分５０１が、入力背景音成分５０２と、第１背景音成分５０３とを含むことが示されている。少ないサンプルで背景音基底行列Ｈ２を推定すると、例えば図５の矢印で示す差分５０４に対応する時刻では、入力背景音成分５０２に対して第１背景音成分５０３が不足する。このため、例えば第１背景音成分５０３を用いて作成したフィルタを用いる方法では、声に背景音が残存する場合がある。

本実施形態では、図６に示すように、過去の第１背景音成分を用いて推定した代表成分６０１を使用するため、声に背景音が残存する問題を改善できる。

図７〜図９は、第１の実施形態による客観評価実験の結果の一例を説明するための図である。図７は、実験に使用した声と背景音に関する情報の例を示す。例えば、声として４種類の音源（映画２種類、アニメ１種類、ニュース１種類）を用い、背景音として２０種類（クラシック、インストルメント、サウンドトラック、歓声がそれぞれ５種類）の音源を用いることが示されている。音源は、例えばそれぞれ２０秒の音を用いる。

図８および図９に示すように、実験では、声に対して、背景音を４つの条件（ＳＮＲ０、ＳＮＲ５、ＳＮＲ１０、ＳＮＲ１５）のいずれかで混入した混合音を用いた。そして、この混合音を声信号と背景音信号とに分離した。それぞれの条件での平均精度を図８および図９に示す。なお、図８および図９中の従来１は、第１背景音成分５０３を用いて作成したフィルタで抽出した声信号の評価結果である。

図８は、ＳＮＲ改善度に基づく評価結果を示す図である。ＳＮＲ改善度は、背景音の抑制精度を評価できる。評価値は、例えば非特許文献３に記載の方法を用いて求めればよい。

図９は、ＰＥＳＱ改善度に基づく評価結果を示す図である。ＰＥＳＱは、抽出した声信号の劣化度合いを評価できる。ＰＥＳＱは、例えば非特許文献４に記載の方法を用いて求めればよい。図７および図８より、本実施形態による改善効果が確認できる。

このように、本実施形態の信号処理装置は、過去に推定した第１背景音成分で構成される過去成分Ｚｐを用いて推定した代表成分Ａ１ｔにより声信号Ｓｖおよび背景音信号Ｓｂを抽出する。これにより、時刻ｔに推定した第１背景音成分Ｂ１ｔが実際の入力背景音に対して不足しても、代表成分Ａ１ｔを用いることにより不足分を補うことができる。その結果、声信号の抽出精度を向上させることができる。

（第２の実施形態）
次に、第２の実施形態にかかる信号処理装置について説明する。図１０は、第２の実施形態にかかる信号処理装置２００の構成の一例を示すブロック図である。図１０に示すように、信号処理装置２００は、取得部１０１と、算出部１０２と、第１背景音推定部１０３と、代表成分推定部１０４と、第１声推定部１０５と、第１フィルタ作成部１０６と、第２背景音推定部４０１と、第２声推定部４０２と、第２フィルタ作成部４０３と、第３フィルタ作成部４０４と、分離部４０５と、を備える。

第２の実施形態では、第２背景音推定部４０１、第２声推定部４０２、第２フィルタ作成部４０３、および、第３フィルタ作成部４０４を追加したことと、分離部４０５の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる信号処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

第２背景音推定部４０１は、取得部１０１で取得された特徴量から定常性を持つ第２背景音成分を推定する。第２声推定部４０２は、第１背景音推定部１０３で推定された第１背景音成分と第２背景音成分とから、第２声成分を推定する。第２フィルタ作成部４０３は、第２背景音成分と第２声成分とから、声のスペクトルまたは背景音のスペクトルを抽出する第２フィルタを作成する。第３フィルタ作成部４０４は、第１フィルタと第２フィルタとを統合した第３フィルタを作成する。

分離部４０５は、第３フィルタと音響信号のスペクトルとを用いて、音響信号を声信号および背景音信号に分離する。

本実施形態の信号処理装置２００のハードウェアは、第１の実施形態の信号処理装置１００のハードウェア構成を示す図２と同様であるため説明を省略する。以下、本実施形態の信号処理装置２００の各構成部の機能の詳細についてさらに説明する。

第２背景音推定部４０１は、取得部１０１で取得された過去の複数フレームの特徴量を用いて第２背景音成分Ｂ２を推定する。具体的には、第２背景音推定部４０１は、過去の複数フレームの特徴量の平均値（平均特徴）を第２背景音成分Ｂ２として求める。なお、第２背景音成分Ｂ２を求める際に利用する特徴量は、算出部１０２で背景音基底行列Ｈ２の更新に用いた学習特徴を用いることができる。

第２声推定部４０２は、取得部１０１で取得された現在のフレームの特徴量Ｚｔと第１背景音推定部１０３で推定した第１背景音成分Ｂ１ｔと第２背景音成分Ｂ２とを用いて、第２声成分Ｖ２ｔを推定する。例えば、第２声推定部４０２は、特徴量Ｚｔから第１背景音成分Ｂ１ｔと第２背景音成分Ｂ２の最大値を差し引いた成分を、第２声成分Ｖ２ｔとして求める。このとき、第２声成分Ｖ２ｔのｉ番目の要素Ｖ２ｔｉは、Ｚｔｉ−ｍａｘ（Ｂ１ｔｉ，Ｂ２ｉ）となる。

なお、Ｂ１ｔｉは第１背景音成分Ｂ１ｔのｉ番目の要素、Ｂ２ｉは第２背景音成分Ｂ２のｉ番目の要素である。また、ｍａｘ（ａ，ｂ）は、値ａと値ｂの最大値を取る関数である。このように、非定常成分を表現する第１背景音と定常成分を表現する第２背景音との両方を用いるため、定常性であるか非定常性であるかによらず、背景音を高精度に抑制して声成分を推定できる（後述の図１４、第２フィルタ効果参照）。

第２フィルタ作成部４０３は、第２声推定部４０２で推定された第２声成分Ｖ２ｔと、第２背景音推定部４０１で推定された第２背景音成分Ｂ２と、を用いて、声スペクトルＶｔまたは背景音スペクトルＢｔを抽出するフィルタ（第２フィルタ）を作成する。第２フィルタ作成部４０３は、まず、第２声成分Ｖ２ｔと第２背景音成分Ｂ２を、第２声スペクトルＶ２’ｔと第２背景音スペクトルＢ２’に変換する。例えば第２フィルタ作成部４０３は、取得部１０１にてスペクトルを特徴量に変換する変換処理の逆変換により、第２声成分Ｖ２ｔと第２背景音成分Ｂ２を、第２声スペクトルＶ２’ｔと第２背景音スペクトルＢ２’に変換する。

第２フィルタ作成部４０３は、次に、声スペクトルＶｔのｉ番目の要素Ｖｔｉを抽出する第２フィルタＦＶ２ｔｉを以下の（４）式により求める。
ＦＶ２ｔｉ＝
｜Ｖ２’ｔｉ｜＾Ｌ／（｜Ｖ２’ｔｉ｜＾Ｌ＋｜Ｂ２’ｉ｜＾Ｌ）・・・（４）

また、第２フィルタ作成部４０３は、背景音スペクトルＢｔのｉ番目の要素Ｂｔｉを抽出する第２フィルタＦＢ２ｔｉを以下の（５）式により求める。ここで、Ｌはパラメータ値であり、第１フィルタ作成部１０６と同様に設定できる。
ＦＢ２ｔｉ＝
｜Ｂ２’ｉ｜＾Ｌ／（｜Ｖ２’ｔｉ｜＾Ｌ＋｜Ｂ２’ｉ｜＾Ｌ）・・・（５）

第３フィルタ作成部４０４は、第１フィルタ作成部１０６で作成した第１フィルタと、第２フィルタ作成部４０３で作成した第２フィルタと、を用いて、声スペクトルＶｔまたは背景音スペクトルＢｔを抽出するフィルタを作成する。例えば、第３フィルタ作成部４０４は、声スペクトルＶｔのｉ番目の要素Ｖｔｉを抽出する第３フィルタＦＶ３ｔｉを、以下の（６）式により求める。
ＦＶ３ｔｉ＝α×ＦＶ１ｔｉ＋（１−α）×ＦＶ２ｔｉ・・・（６）

ここでαはブレンド率である。αは、０≦α≦１の範囲で任意の値に設定すればよく、例えば０．１に設定できる。このように第３フィルタ作成部４０４は、第１フィルタおよび第２フィルタのαを重みとする重み付き加算により第３フィルタを作成する。なお、第３フィルタの作成方法はこれに限られるものではない。

また、第３フィルタ作成部４０４は、背景音スペクトルＢｔのｉ番目の要素Ｂｔｉを抽出する第３フィルタＦＢ３ｔｉを、以下の（７）式または（８）式により求める。
ＦＢ３ｔｉ＝α×ＦＢ１ｔｉ＋（１−α）×ＦＢ２ｔｉ・・・（７）
ＦＢ３ｔｉ＝１−ＦＶ３ｔｉ・・・（８）

第３フィルタ作成部４０４は、第１フィルタおよび第２フィルタを作成する際に用いた構成要素値を用いて第３フィルタの要素値を算出してもよい。例えば、以下の（９）式で表される変数Ｖ３ｔｉ、および、以下の（１０）式で表される変数Ｂ３ｔｉを用いて、第３フィルタＦＶ３ｔｉを以下の（１１）式により求めてもよい。
Ｖ３ｔｉ＝
α×｜Ｖ１’ｔｉ｜＾Ｌ＋（１−α）×｜Ｖ２’ｔｉ｜＾Ｌ・・・（９）
Ｂ３ｔｉ＝
α×｜Ｂ１’ｔｉ｜＾Ｌ＋（１−α）×｜Ｂ２’ｉ｜＾Ｌ・・・（１０）
ＦＶ３ｔｉ＝
｜Ｖ３ｔｉ｜＾Ｌ／（｜Ｖ３ｔｉ｜＾Ｌ＋｜Ｂ３ｔｉ｜＾Ｌ）・・・（１１）

声は背景音に比べ非定常性が強く、声の非定常成分を推定している第１フィルタでは、第２フィルタに比べ声成分を抽出しやすい。その結果、第３フィルタは、声成分を抽出しやすい第１フィルタの特性と、背景音の抑制精度の高い第２フィルタの特性を生かすことができ、さらに高精度な分離が可能となる（後述の図１４、第３フィルタ効果、図１５および図１６参照）。

分離部４０５は、第３フィルタ作成部４０４で作成された、声スペクトルの第３フィルタＦＶ３ｔまたは背景音スペクトルの第３フィルタＦＢ３ｔを用いて、声スペクトルＶｔおよび背景音スペクトルＢｔを抽出する。分離部４０５は、まず、取得部１０１で取得した時刻ｔのスペクトルＸｔを用いて、声スペクトルＶｔのｉ番目の要素Ｖｔｉを以下の（１２）式により求める。
Ｖｔｉ＝Ｘｔｉ×ＦＶ１ｔｉ・・・（１２）

次に、分離部４０５は、声スペクトルＶｔを逆フーリエ変換することで、声信号Ｓｖを求める。これにより、音響信号から声信号と背景音信号を分離することができる。すなわち、背景音の混入が少なく純度の高い声信号を聴取することができる。

次に、このように構成された信号処理装置２００による信号処理について図１１を用いて説明する。図１１は、第２の実施形態における信号処理の一例を示すフローチャートである。

ステップＳ３０１からステップＳ３１０は、第１の実施形態の図３のフローチャートにおけるステップＳ３０１からステップＳ３１０と同様であるので同一の符号を付し説明を省略する。

ステップＳ３１０の後、算出部１０２は、背景音基底行列Ｈ２の推定を開始してから実行した反復法の適用回数が、完了までに必要とする適用回数Ｒに達したか否かを判定する（ステップＳ５０１）。適用回数Ｒに達していない場合（ステップＳ５０１：Ｎｏ）、ステップＳ３１３に進む。適用回数Ｒに達している場合（ステップＳ５０１：Ｙｅｓ）、ステップＳ５０２に進む。

ステップＳ５０２では、第２背景音推定部４０１は、背景音基底行列Ｈ２の更新に用いる学習特徴の平均値である平均特徴を第２背景音成分Ｂ２として求める（ステップＳ５０２）。ステップＳ５０２の後、ステップＳ３１２に進む。

以下、ステップＳ３１２からＳ３１９は、第１の実施形態の図３のフローチャートにおけるステップＳ３１２からＳ３１９と同様であるので同一の符号を付し説明を省略する。

ステップＳ３１９の後、第２声推定部４０２は、取得した現在のフレームの特徴量Ｚｔから、第１背景音成分Ｂ１ｔと第２背景音成分Ｂ２の最大成分を差し引いて、第２声成分Ｖ２ｔを求める（ステップＳ５０３）。

第２フィルタ作成部４０３は、第２フィルタを作成する（ステップＳ５０４）。例えば、第２フィルタ作成部４０３は、第２声成分Ｖ２ｔと第２背景音成分Ｂ２を第２声スペクトルＶ２’ｔと第２背景音スペクトルＢ２’に変換する。そして、第２フィルタ作成部４０３は、変換により得られた第２声スペクトルＶ２’ｔと第２背景音スペクトルＢ２’を用いて、上記（４）式または（５）式により、声スペクトルＶｔを抽出する第２フィルタＦＶ２ｔまたは背景音スペクトルＢｔを抽出する第２フィルタＦＢ２ｔを作成する。

第３フィルタ作成部４０４は、第１フィルタと第２フィルタをパラメータαに基づき統合し、声スペクトルＶｔを抽出する第３フィルタＦＶ３ｔまたは背景音スペクトルＢｔを抽出する第３フィルタＦＢ３ｔを作成する（ステップＳ５０５）。

分離部４０５は、声スペクトルの第３フィルタＦＶ３ｔまたは背景音スペクトルの第３フィルタＦＢ３ｔを用いて、声信号Ｓｖと背景音信号Ｓｂを求める（ステップＳ５０６）。

以下、ステップＳ３２１およびＳ３２２は、第１の実施形態の図３のフローチャートにおけるステップＳ３２１およびＳ３２２と同様であるので同一の符号を付し説明を省略する。

図１２から図１４は、話し声と非定常な背景音が混合した音に対する分離を行った際の本実施形態による効果を説明するための図である。図１２では、入力混合音成分１２０１、入力背景音成分１２０２、および、第２背景音成分１２０３のスペクトル値の例が示されている。入力混合音成分１２０１と入力背景音成分１２０２との差分が、入力声成分１２１１である。

学習特徴の平均スペクトルである第２背景音成分１２０３では、入力背景音の非定常成分が考慮できない。このため、混合音と背景音（第２背景音成分１２０３）の差分で推定した声成分１２２１には、背景音が残存する場合がある。図１２の下部には、入力声成分１２２２および推定された声成分１２２１のスペクトル値の例が示されている。この例のように、第２背景音成分１２０３を用いる場合は、入力声成分１２２２と推定される声成分１２２１との差分が大きくなる（背景音が残存する）。

一方、本実施形態では、図１３に示すように、第２声成分を推定するために加工した背景音成分１３０１を用いる。例えば、第２背景音成分１３０２と第１背景音成分１３０３のうち最大値を背景音成分１３０１として用いる。図１３の下部には、入力声成分１３２２および推定された第２声成分１３２１のスペクトル値の例が示されている。この例のように、本実施形態によれば、入力声成分１３２２と推定される第２声成分１３２１との差分を小さくすることができる。すなわち、非定常性（第１背景音成分）も考慮した背景音の抑制が実現できる。

図１４は、混合音を、第１フィルタ、第２フィルタおよび第３フィルタそれぞれで分離した場合の結果の例を示す図である。混合音は、背景音に対応するスペクトル１４０１と、セリフに対応するスペクトル１４０２と、を含んでいる。セリフに対応するスペクトル１４０２は可能な限り損失せずに、背景音に対応するスペクトル１４０１を抑制することが望ましい。

第１フィルタのみを用いる場合、セリフの損失は少ないが（スペクトル１４０３）、背景音に対応するスペクトルの抑制効果は相対的に小さい。第２フィルタのみを用いる場合、背景音に対応するスペクトル１４０４の抑制効果は相対的に大きい。両者を考慮した第３フィルタを用いれば、セリフの損失が少なく（スペクトル１４０５）、背景音に対応するスペクトル１４０６の抑制効果も大きくすることができる。

図１５および図１６は、第２の実施形態による客観評価実験の結果の一例を説明するための図である。図１５および図１６の実験に用いた声、背景音、および混合音は図８および図９の客観評価実験に用いたもの（図７）と同じである。図１５は、ＳＮＲ改善度に基づく評価結果を示す図である。図１６は、ＰＥＳＱ改善度に基づく評価結果を示す図である。図１５および図１６により、本実施形態による改善効果が確認できる。なお、図１５および図１６中の従来２は、図１２の１２２１に示したように、混合音と第２背景音成分との差分から推定して求めた声信号の評価結果である。

このように、第２の実施形態にかかる信号処理装置では、定常性のある背景音および非定常性のある背景音の両方を考慮して音響信号を分離できる。

（第３の実施形態）
次に、第３の実施形態にかかる信号処理装置について説明する。図１７は、第３の実施形態にかかる信号処理装置３００の構成の一例を示すブロック図である。図１７に示すように、信号処理装置３００は、取得部１０１と、算出部１０２と、第１背景音推定部１０３と、代表成分推定部１０４と、第１声推定部１０５と、第１フィルタ作成部１０６と、第２背景音推定部４０１と、第２声推定部４０２と、第２フィルタ作成部４０３と、第３フィルタ作成部４０４と、分離部４０５と、混合率取得部６０１と、混合部６０２と、を備える。

第３の実施形態では、混合率取得部６０１および混合率６０２を追加したことが第２の実施形態と異なっている。その他の構成および機能は、第２の実施形態にかかる信号処理装置２００のブロック図である図１０と同様であるので、同一符号を付し、ここでの説明は省略する。

混合率取得部６０１は、分離部４０５または外部入力から声信号および背景音信号の混合率を取得する。混合率取得部６０１は、分離部４０５で取得した信号から新たに抽出した特徴量に基づき混合率を取得する。

例えば、混合率取得部６０１は、振幅の２乗値として求めたパワーの平均値に関して、声信号の方が背景音信号を上回るように混合率を設定し取得できる。または、混合率取得部６０１は、パワーや周波数解析で求めた特徴量の強度に応じて、声信号または背景音信号をさらに強調するように混合率を設定し取得してもよい。また、混合率取得部６０１は、外部入力としてユーザが設定した混合率を取得してもよい。

混合部６０２は、分離部４０５で分離した声信号および背景音信号を、混合率取得部６０１で取得した混合率に従い混合し、混合信号（混合音）を生成する。

このように、取得した混合率に応じて声信号および背景音信号を混合することで、例えばスポーツ実況に関する音声に対しては、会場の雰囲気を楽しめるように背景音の混合率を高めに設定することが可能になる。また、コンテンツのジャンルに応じて声の混合率および背景音の混合率を制御すれば、ドラマでは声を重視し、音楽では背景音を重視するといったコンテンツの特徴を強調した音声の提供が可能になる。さらに、声が聴き取りにくユーザが、背景音の混合率を下げ、声の混合率を上げる混合率を設定すれば、声が聴き取りにくいという不満を改善することも可能になり、個人の好みに対応することができる。

以上説明したとおり、第１〜第３の実施形態によれば、声と背景音の分離性能を向上させることができる。

第１〜第３の実施形態にかかる信号処理装置で実行されるプログラムは、記憶部２０２等に予め組み込まれて提供される。

第１〜第３の実施形態にかかる信号処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１〜第３の実施形態にかかる信号処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第３の実施形態にかかる信号処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１〜第３の実施形態にかかる信号処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、ＣＰＵがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００信号処理装置
１０１取得部
１０２算出部
１０３第１背景音推定部
１０４代表成分推定部
１０５第１声推定部
１０６第１フィルタ作成部
１０７分離部
２００信号処理装置
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０６マイク
２０７バス
４０１第２背景音推定部
４０２第２声推定部
４０３第２フィルタ作成部
４０４第２フィルタ作成部
４０５分離部

Claims

音響信号を周波数分析して得られる前記音響信号の特徴量を取得する取得部と、
前記特徴量から、前記特徴量の背景音成分のうち非定常性を持つ第１背景音成分を推定する第１背景音推定部と、
一定時間に取得された１以上の前記特徴量から推定された前記第１背景音成分の最大値に基づいて、前記一定時間内の前記第１背景音成分を代表する代表成分を推定する代表成分推定部と、
前記特徴量から、前記特徴量の声成分である第１声成分を推定する第１声推定部と、
前記第１声成分と前記代表成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第１フィルタを作成する第１フィルタ作成部と、
前記第１フィルタを用いて、前記音響信号を声信号および背景音信号に分離する分離部と、
を備える信号処理装置。
前記特徴量から、前記特徴量の背景音成分のうち定常性を持つ第２背景音成分を推定する第２背景音推定部と、
前記特徴量と前記第１背景音成分と前記第２背景音成分を用いて、前記特徴量の声成分である第２声成分を推定する第２声推定部と、
前記第２声成分と前記第２背景音成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第２フィルタを作成する第２フィルタ作成部と、
前記第１フィルタと前記第２フィルタを統合した第３フィルタを作成する第３フィルタ作成部と、をさらに備え、
前記分離部は、前記第３フィルタを用いて、前記音響信号を声信号および背景音信号に分離する、
請求項１に記載の信号処理装置。
分離された前記声信号および前記背景音信号の混合率を取得する混合率取得部と、
前記混合率に基づいて前記声信号および前記背景音信号を混合した混合音を作成する混合部と、をさらに備える、
請求項２に記載の信号処理装置。
前記第２背景音推定部は、前記一定時間分の前記特徴量の平均値を前記第２背景音成分として推定する、
請求項２に記載の信号処理装置。
前記第２声推定部は、前記第１背景音成分および前記第２背景音成分のうち最大値を前記特徴量から減算した値を前記第２声成分として推定する、
請求項２に記載の信号処理装置。
前記第３フィルタ作成部は、前記第１フィルタと前記第２フィルタとの重み付き加算により前記第３フィルタを作成する、
請求項２に記載の信号処理装置。
前記第１背景音推定部は、前記一定時間に取得される前記特徴量から前記第１背景音成分を推定する、
請求項１に記載の信号処理装置。
前記一定時間に取得される前記特徴量を用いて、非負行列因子分解により背景音を表す背景音基底行列を算出する算出部をさらに備え、
前記第１背景音推定部は、声を表す声基底行列と前記背景音基底行列とを用いて前記第１背景音成分を推定する、
請求項７に記載の信号処理装置。
前記代表成分推定部は、前記一定時間に取得された前記特徴量の最大値を前記代表成分として推定する、
請求項１に記載の信号処理装置。
前記一定時間に取得される前記特徴量を用いて、非負行列因子分解により背景音を表す背景音基底行列を算出する算出部をさらに備え、
前記第１声推定部は、声を表す声基底行列と前記背景音基底行列とを用いて前記第１声成分を推定する、
請求項１に記載の信号処理装置。
音響信号を周波数分析して得られる前記音響信号の特徴量を取得する取得ステップと、
前記特徴量から、前記特徴量の背景音成分のうち非定常性を持つ第１背景音成分を推定する第１背景音推定ステップと、
一定時間に取得された１以上の前記特徴量から推定された前記第１背景音成分の最大値に基づいて、前記一定時間内の前記第１背景音成分を代表する代表成分を推定する代表成分推定ステップと、
前記特徴量から、前記特徴量の声成分である第１声成分を推定する第１声推定ステップと、
前記第１声成分と前記代表成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第１フィルタを作成する第１フィルタ作成ステップと、
前記第１フィルタを用いて、前記音響信号を声信号および背景音信号に分離する分離ステップと、
を含む信号処理方法。
コンピュータを、
音響信号を周波数分析して得られる前記音響信号の特徴量を取得する取得部と、
前記特徴量から、前記特徴量の背景音成分のうち非定常性を持つ第１背景音成分を推定する第１背景音推定部と、
一定時間に取得された１以上の前記特徴量から推定された前記第１背景音成分の最大値に基づいて、前記一定時間内の前記第１背景音成分を代表する代表成分を推定する代表成分推定部と、
前記特徴量から、前記特徴量の声成分である第１声成分を推定する第１声推定部と、
前記第１声成分と前記代表成分とに基づいて、前記特徴量から声成分および背景音成分を抽出する第１フィルタを作成する第１フィルタ作成部と、
前記第１フィルタを用いて、前記音響信号を声信号および背景音信号に分離する分離部、
として機能させるためのプログラム。