JP2014139658A

JP2014139658A - 信号処理装置、信号処理方法およびプログラム

Info

Publication number: JP2014139658A
Application number: JP2013235396A
Authority: JP
Inventors: Toshiyuki Ono; 利幸小野; Makoto Hirohata; 誠広畑; Masashi Nishiyama; 正志西山; Toru Taniguchi; 徹谷口
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-12-20
Filing date: 2013-11-13
Publication date: 2014-07-31
Anticipated expiration: 2033-11-13
Also published as: US9412391B2; US20140180685A1; JP6203003B2

Abstract

【課題】多様な入力信号に対して適切に背景音を出力する。
【解決手段】信号処理装置は、第１背景音算出部と第１信号生成部と抽出部と類似度算出部と混合部とを備える。第１背景音算出部は、第１音響信号と第２音響信号とに基づいて音声信号を除去した第１背景音信号を算出する。第１信号生成部は、第１音響信号と第２音響信号から第１参照信号を生成する。抽出部は、第１参照信号から音声信号を除去した第２背景音信号を抽出する。類似度算出部は、第１背景音信号の特徴データと第２背景音信号の特徴データとが類似する度合いを表す第１類似度を算出する。混合部は、第１類似度が高いほど第１背景音信号に大きい重みを付与し、第１類似度が低いほど第２背景音信号に大きい重みを付与し、第１背景音信号と第２背景音信号の加重和を算出する。
【選択図】図１

Description

本発明の実施形態は、信号処理装置、信号処理方法およびプログラムに関する。

音響信号から音声信号（人の声など）を除去する技術は、音声にかき消され聞き取りづらい背景音を聞き取り易くしたり、音楽のコンテンツから歌手の声を除去することにより楽曲をカラオケ演奏したりすることに利用できる。例えば、右信号と左信号の２チャネルの音響信号から音声信号を除去する技術が知られている。

ところで、２チャネルの音響信号の信号間の関係性には様々なものが存在する。２チャネルの信号を、それぞれ左信号Ｌおよび右信号Ｒとすると、それらは次のようにモデル化される。
Ｌ＝Ｂ_Ｌ＋Ｃ_Ｌ＋ｅ_Ｌ
Ｒ＝Ｂ_Ｒ＋Ｃ_Ｒ＋ｅ_Ｒ

ここで、Ｂ_ＬおよびＢ_Ｒは、それぞれ左信号および右信号に含まれる背景音信号である。また、Ｃ_ＬおよびＣ_Ｒは、それぞれ左信号および右信号に含まれる音声信号である。また、ｅ_Ｌおよびｅ_Ｒは、それぞれ左信号および右信号に含まれるノイズである。ノイズは、マイクノイズや符号化ノイズを含む。多くのコンテンツは、左信号および右信号に音声信号が等しく含まれるように作成されている。従って、左信号および右信号の条件として、背景音とノイズがそれぞれ等しいか否かの組み合わせにより、以下の４通りの条件が存在する。
条件１：Ｂ_Ｌ≠Ｂ_Ｒ、ｅ_Ｌ＝ｅ_Ｒ
条件２：Ｂ_Ｌ≠Ｂ_Ｒ、ｅ_Ｌ≠ｅ_Ｒ
条件３：Ｂ_Ｌ＝Ｂ_Ｒ、ｅ_Ｌ＝ｅ_Ｒ
条件４：Ｂ_Ｌ＝Ｂ_Ｒ、ｅ_Ｌ≠ｅ_Ｒ

条件１および条件２は、背景音が左信号と右信号とで異なる場合である。例えばステレオ信号が、条件１および条件２に該当する。条件３および条件４は、背景音が左信号と右信号とで等しい場合である。例えばモノラル信号が２チャネル信号として入力された場合が、条件３および条件４に該当する。

テレビ放送の音響信号は条件１であることが多い。一部のＤＶＤに収録されている音響信号は条件３である。インターネット上の動画の音響信号などのその他の音響信号は、様々な条件の信号が存在し、予めいずれの条件の音響信号であるかを知ることはできない。また、条件３は、左信号および右信号が完全に一致するため特定が容易である。しかし、条件４は、ノイズの影響のため、入力された音響信号から条件１や条件２と弁別することは一般に困難である。

特許第３３８１０６２号公報特許第３６７０５６２号公報

上述のように、音響信号には様々な条件の信号が存在する。しかしながら、２チャネルの音響信号から音声信号を除去する従来の技術は、条件１および条件２の音響信号に対してのみ有効であり、条件３および条件４の音響信号に対しては、適切に音声を除去することができなかった。例えば、モノラル信号から音声を除去することができなかった。

実施形態の信号処理装置は、第１背景音算出部と第１信号生成部と抽出部と類似度算出部と混合部とを備える。第１背景音算出部は、第１音響信号と第２音響信号とに基づいて音声信号を除去した第１背景音信号を算出する。第１信号生成部は、第１音響信号と第２音響信号から第１参照信号を生成する。抽出部は、第１参照信号から音声信号を除去した第２背景音信号を抽出する。類似度算出部は、第１背景音信号の特徴データと第２背景音信号の特徴データとが類似する度合いを表す第１類似度を算出する。混合部は、第１類似度が高いほど第１背景音信号に大きい重みを付与し、第１類似度が低いほど第２背景音信号に大きい重みを付与し、第１背景音信号と第２背景音信号の加重和を算出する。

第１の実施形態の信号処理装置のブロック図。第１の実施形態の信号処理装置の動作を示すフローチャート。類似度算出部の構成の一例を示す図。類似度算出部の動作の一例を示すフローチャート。類似度生成部の構成の一例のブロック図。類似度生成部の動作の一例を示すフローチャート。類似度算出部の構成の一例を示す図。類似度算出部の動作の一例を示すフローチャート。類似度算出部の構成の一例を示す図。第２の実施形態の信号処理装置のブロック図。第２の実施形態の信号処理装置の動作を示すフローチャート。第２の実施形態の応用例を示した模式図。第３の実施形態の信号処理装置のブロック図。第３の実施形態の信号処理装置の動作を示すフローチャート。第４の実施形態の信号処理装置のブロック図。混合部における各信号の重みの関係を示す図。第４の実施形態の信号処理装置の動作を示すフローチャート。第１から第４の実施形態にかかる信号処理装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる信号処理装置の好適な実施形態を詳細に説明する。

（第１の実施形態）
第１の実施形態にかかる信号処理装置は、まず２チャネルの音響信号から音声信号を除去した背景音信号（例えば差信号）を算出する。次に、音響信号から音声信号を除去した参照信号を生成する。次に、背景音信号と参照信号との類似度を算出し、その類似度に応じた重みで背景音信号と参照信号との加重和を算出する。これにより、２チャネルの音響信号に含まれる背景音信号が等しい条件下でも、音響信号から音声信号を除去した背景音信号を生成する。

図１は、第１の実施形態の信号処理装置１００の構成例を示すブロック図である。信号処理装置１００は、取得部１０１と、第１背景音算出部１０２と、第１信号生成部１０３と、抽出部１０４と、類似度算出部１０５と、混合部１０６と、を備えている。

取得部１０１、第１背景音算出部１０２、第１信号生成部１０３、抽出部１０４、類似度算出部１０５、および、混合部１０６は、例えば、ＣＰＵ（Central Processing Unit）などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（Integrated Circuit）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

取得部１０１は、第１音響信号と第２音響信号との２チャネルの音響信号を取得する。

第１背景音算出部１０２は、第１音響信号と第２音響信号とから、音声信号を除去した第１背景音信号を算出する。第１背景音算出部１０２は、例えば、第１音響信号と第２音響信号との差である差信号を第１背景音信号として算出する。以下では、第１背景音信号として差信号を用いる場合を例に説明する。なお、第１背景音信号の算出方法はこれに限られるものではなく、第１音響信号と第２音響信号とをステレオ信号として背景音信号を算出できる方法であれば、従来から用いられているあらゆる方法を適用できる。例えば、複数に分割した周波数帯域ごとに左右の信号の類似度を算出し、類似度が高いほど当該周波数帯域の信号を抑制することで、音声を含む中央定位する信号を抑制した背景音信号を算出する方法を用いてもよい。

第１信号生成部１０３は、第１音響信号と第２音響信号との少なくとも１つから第１参照信号を生成する。抽出部１０４は、第１参照信号から、音声信号を除去した第２背景音信号を抽出する。類似度算出部１０５は、差信号と第２背景音信号とが類似する度合いを表す第１類似度を算出する。混合部１０６は、第１類似度により定める重みに応じて差信号と第２背景音信号の加重和を算出する。

次に、図１および図２を用いて、信号処理装置１００の動作について説明する。図２は、第１の実施形態の信号処理装置１００の動作の一例を示すフローチャートである。

まず取得部１０１は、第１音響信号と第２音響信号とを取得する（ステップＳ１１）。取得部１０１は、２チャネルの音響信号である第１音響信号と第２音響信号を取得してもよいし、音響信号を含む動画像データから第１音響信号と第２音響信号を抽出（取得）してもよい。また、取得部１０１は、例えば５．１チャネルの音響信号のように、より多チャネルの音響信号から２チャネルの信号を選択したり、多チャネルの音響信号を所定の係数でダウンミックスしたりして、第１音響信号と第２音響信号とを取得してもよい。本実施形態では第１音響信号は２チャネルの音響信号の左信号、第２音響信号は右信号であるとする。

次に、第１背景音算出部１０２は、第１音響信号と第２音響信号との差である差信号を算出する（ステップＳ１２）。第１音響信号をＬ、第２音響信号をＲとして、差信号は次の（１）式で算出される。
Ｓ＝（Ｌ−Ｒ）／２・・・（１）

次に、第１信号生成部１０３は、第１音響信号、第２音響信号、および、第１音響信号と第２音響信号との加重和のうち１つを第１参照信号として生成する（ステップＳ１３）。以下では、第１音響信号と第２音響信号との加重和を第１参照信号とする。第１参照信号は、例えば次の（２）式で算出される。なお、重みは（２）式の例（１／２）に限られるものではない。
Ｍ＝（Ｌ＋Ｒ）／２・・・（２）

次に、抽出部１０４は、第１参照信号から音声信号を除去した第２背景音信号を抽出する（ステップＳ１４）。抽出部１０４は、例えば、非負行列因子分解（ＮＭＦ）を用いた音源分離により、第１参照信号から第２背景音信号を抽出する。以下に、非負行列因子分解を用いた場合の抽出方法の例について説明する。

まず、抽出部１０４は、時刻ｔから時刻ｔ＋Ｎ−１の第１参照信号をフーリエ変換して第１参照信号の振幅スペクトルと位相スペクトルを得る。ここでＮはフーリエ変換の対象となるサンプル数であり、例えば２０４８である。次に、抽出部１０４は、音声信号の振幅スペクトルを表現するための基底の集合と、背景音信号の振幅スペクトルを表現するための基底の集合と、を読み込む。これらの基底は、音声信号や背景音信号を用いて、予め学習し準備しておくことができる。例えば、抽出部１０４は、２０個の基底を用いる。音声信号の振幅スペクトルを表現するための基底の集合を行列表現したものをＥ_ｖとする。また、背景音信号の振幅スペクトルを表現するための基底の集合を行列表現したものをＥ_Ｂとする。次に、抽出部１０４は、非負行列因子分解を用いて、第１参照信号の振幅スペクトルを、読み込んだ基底と係数との形式に分解することにより、係数の値を求める。この計算は、第１参照信号の振幅スペクトルを示すベクトルをｐ、求めるべき係数のベクトルをｗ、Ｅ_ｖとＥ_Ｂを並べた行列をＥ（＝［Ｅ_ｖＥ_Ｂ］）とすると、以下の（３）式の値を最小化するｗを求める計算となる。

具体的には、抽出部１０４は、次の（４）式の計算を行う。

ただし、「・_ｘ」はベクトルのｘ番目の成分を示し、「・_ｘ，ｙ」は行列のｘ行ｙ列の成分を示す。またｗ_ｋ ^（ｎ）はｗ_ｋの算出の、ｎ回目の反復時の値を示す。抽出部１０４は、ｗ_ｋの値が反復により予め定めた値以下の変動しかしなくなるか、予め定めた反復回数を行うまで、（３）式を反復して計算する。なお、ｗ_ｋ ^（ｎ）の反復の初期値には０以外の任意の値を利用できる。例えば、０以外の値をとる乱数が初期値として用いられる。

なお、Ｅ_ｖに係る係数をｗ_ｖ、Ｅ_Ｂに係る係数をｗ_Ｂとする。すなわち、以下の（５）式の関係が成り立つ。

次に、抽出部１０４は、求めた係数を用いて第２背景音信号の振幅スペクトルを算出する。第２背景音信号の振幅スペクトルは、Ｅ_Ｂｗ_Ｂにより算出される。抽出部１０４は、音声信号の振幅スペクトルを算出し、音声信号の振幅スペクトルを第１参照信号の振幅から減算することにより、第２背景音信号の振幅スペクトルを算出してもよい。すなわち、抽出部１０４は、ｐ−Ｅ_ｖｗ_ｖにより第２背景音信号の振幅スペクトルを算出してもよい。

最後に、抽出部１０４は、算出した第２背景音信号の振幅スペクトルと第１参照信号の位相スペクトルとを用いて逆フーリエ変換することにより第２背景音信号を得る。

なお、第２背景音信号の抽出方法は上述した手法に限らない。他にも、音声を減衰するようなバンドパスフィルタを使って、第１参照信号から第２背景音信号を抽出することができる。

第２背景音信号の抽出は、時刻ｔから時刻ｔ＋Ｎ−１の処理が終わったら、処理対象の時刻を変え、繰り返し実行される。

次に、類似度算出部１０５は、差信号の特徴データと第２背景音信号の特徴データとの類似度である第１類似度を算出する（ステップＳ１５）。類似度算出部１０５の動作を図３および図４を用いて説明する。図３は、類似度算出部１０５の構成の一例を示すブロック図である。図４は、類似度算出部１０５の動作の一例を示すフローチャートである。

図３に示すように、類似度算出部１０５は、類似度生成部１００１と、非信頼度算出部１００２と、類似度取得部１００３と、補正部１００４と、を備えている。類似度生成部１００１は、差信号と第２背景音信号との類似度である第１類似度、および、差信号と第１参照信号との類似度である第２類似度を生成する。非信頼度算出部１００２は、差信号がノイズらしい度合いを示す非信頼度を算出する。類似度取得部１００３は、前の時刻で既に算出済の第１類似度である算出済類似度を取得する。補正部１００４は、第２類似度と非信頼度との少なくとも一方に応じて第１類似度を補正する。

図４に示すように、まず、類似度生成部１００１は、差信号の特徴データと第２背景音信号の特徴データとの類似度である第１類似度、および、差信号の特徴データと第１参照信号の特徴データとの類似度である第２類似度を算出（生成）する（ステップＳ１１１）。

図５は、類似度生成部１００１の構成の一例を示すブロック図である。図５に示すように、類似度生成部１００１は、レベル算出部１２０１と、生成部１２０２と、を備えている。レベル算出部１２０１は、差信号、第１参照信号および第２背景音信号の特徴データとして単位時間内の信号の大きさ（レベル）を算出する。生成部１２０２は、各信号のレベルを用いて第１類似度と第２類似度とを生成する。

図６は、類似度生成部１００１の動作の一例を示すフローチャートである。まず、レベル算出部１２０１は、差信号の単位時間内の信号の大きさである差信号レベルを算出する（ステップＳ１３１）。単位時間をＮとすると、例えば時刻ｔから時刻ｔ＋Ｎ−１の差信号レベルは、時刻ｔから時刻ｔ＋Ｎ−１の差信号の信号値の二乗の平均値、または、信号値の絶対値の平均値を用いることができる。また、差信号レベルは、差信号をフーリエ変換した係数の二乗の平均値、および、係数の絶対値の平均値を用いることができる。

次に、レベル算出部１２０１は、第１参照信号の単位時間内の信号の大きさである第１参照信号レベルをＳ１３１と同様にして算出する（ステップＳ１３２）。次に、レベル算出部１２０１は、第２背景音信号の単位時間内の信号の大きさである第２背景音信号レベルをＳ１３１と同様にして算出する（ステップＳ１３３）。

次に、生成部１２０２は、差信号レベルと第２背景音信号レベルとから第１類似度を算出する（ステップＳ１３４）。第１類似度は、例えば０から１までの値である。生成部１２０２は、まず、差信号レベルＬｅｖ（Ｓ）と第２背景音信号レベルＬｅｖ（Ａ）の比Ｒａｔｅを、以下の（６）式により算出する。
Ｒａｔｅ＝Ｌｅｖ（Ｓ）／Ｌｅｖ（Ａ）・・・（６）

次に、生成部１２０２は、Ｒａｔｅを利用して、第１類似度を算出する。単純には、生成部１２０２は、Ｒａｔｅの値が１に近いほど大きい値となるように第１類似度を算出する。生成部１２０２は、例えば次の（７）式により第１類似度Ｓｉｍを算出する。ただし、βは正数のパラメータであり、例えば０．５を用いる。

Ｒａｔｅの値が一定の水準よりも小さい場合は、差信号がノイズであると考えられる。一方、Ｒａｔｅの値が１を上回る場合には、第２背景音信号の抽出精度の不足等の影響で第２背景音信号が実際の背景音の大きさよりも小さくなったために、差信号レベルが第２背景音信号レベルよりも大きくなったと考えることができる。そこで、Ｒａｔｅが１を上回った場合には、第１類似度の値を１にするようにしてもよい。すなわち、第１類似度を次の（８）式で算出する。

ここでは差信号と第２背景音信号の特徴データとして信号の大きさを利用する場合を説明した。信号の大きさ以外の特徴データと、その特徴データ間の近さＺの算出方法と、の組み合わせを用いて、第１類似度を算出することもできる。例えば生成部１２０２は、特徴データとして信号値を直接用いて、各信号の信号値の近さをＺとして算出し、近さＺに基づいて第１類似度を算出してもよい。例えば生成部１２０２は、次の（９）式でＺを算出し、算出したＺを用いて次の（１０）式によりＳｉｍを算出する。

ここで、Ａは第２背景音信号であり、「・（ｉ）」は時刻ｉの信号値であり、Σは単位時間内の時刻ｉについての和である。また、生成部１２０２は、信号値のパターンの類似度によりＳｉｍを算出してもよい。例えば生成部１２０２は、ＳとＡの相関を算出し、その逆数をＺとしてＳｉｍを算出する。また、信号値以外にも、信号値をフーリエ変換した係数のパターンの類似度を用いてＳｉｍを算出することもできる。例えば生成部１２０２は、差信号および第２背景音信号をそれぞれフーリエ変換した複数の係数間の相関を算出し、その逆数をＺとすることができる。また、生成部１２０２は、差信号の振幅スペクトルと第２背景音信号の振幅スペクトルとの間の相関を算出し、その逆数をＺとすることができる。

上述した方法では、特徴データをスカラー値としその類似度により第１類似度を算出した。信号の特徴を示す２つ以上のスカラー値からなるベクトルを特徴データとして、その類似度により第１類似度を算出してもよい。例えば生成部１２０２は、式（６）と式（９）の２つのスカラー値をもつベクトルを特徴データとし、第１類似度を式（８）と式（１０）の加重和により算出することができる。

次に、差信号レベルと第１参照信号レベルを用いて、ステップＳ１３４と同様の手順で、第２類似度を算出する（ステップＳ１３５）。第２類似度をＳｉｍ２とする。

図４に戻る。次に、非信頼度算出部１００２は、非信頼度を算出する（ステップＳ１１２）。非信頼度算出部１００２は、例えば、単位時間内の差信号の信号値の絶対値の平均値が小さいほど低くなるように非信頼度を算出する。これは、単位時間内の差信号の信号値の絶対値の平均値が小さい場合には、差信号がノイズであると考えられるからである。非信頼度算出部１００２は、例えば、ある閾値を設定し、この閾値よりも平均値が大きければ非信頼度を１にし、閾値よりも平均値が小さければ非信頼度を０にする。また、非信頼度算出部１００２は、差信号をフーリエ変換して得られた振幅スペクトルを解析し、全ての帯域にほぼ等しい振幅スペクトルが得られている場合に非信頼度を低く算出してもよい。この場合も、差信号がノイズであると考えられるからである。この非信頼度をＢｅｌと表記する。

次に、類似度取得部１００３は、前の時刻の動作で既に算出されている第１類似度である算出済類似度を取得する（ステップＳ１１３）。算出済類似度は、事前に音響信号に付与されていたメタデータ、および、動画像コンテンツに含まれるメタデータなどのメタデータを用いて得られる事前情報により代替することもできる。例えば、動画像コンテンツがステレオ放送であるという情報が付与されていれば、算出済類似度を１として動作させることができる。

次に、補正部１００４は、第２類似度と非信頼度とにより、第１類似度を補正する（ステップＳ１１４）。第２類似度および非信頼度が低いときは、差信号がノイズらしいと判別される場合であり、差信号は第２背景音信号に類似しにくいと考えられる。逆に、第２類似度や非信頼度が高いときは、差信号はノイズではないため、差信号は第２背景音信号に類似しやすいと考えられる。そこで、第２類似度と非信頼度の高さにより第１類似度を補正する。例えば、補正部１００４は、第２類似度と非信頼度による補正量を調節するパラメータをａ、ｂとして、次の（１１）式の値で第１類似度を補正して置き換える。
Ｓｉｍ＋ａ（Ｓｉｍ２−０．５）＋ｂ（Ｂｅｌ−０．５）・・・（１１）

なお、補正部１００４は、第２類似度と非信頼度の少なくとも一方により第１類似度を補正してもよい。この場合、例えば、ａおよびｂのいずれかを０として、（１１）式により第１類似度を算出すればよい。また、補正部１００４は、第１類似度を、次の（１２）式で与えられる第１類似度、第２類似度および非信頼度の加重和により置き換えてもよい。ただし、ｄ_１、ｄ_２、ｄ_３は総和が１になる重み係数である。
ｄ_１Ｓｉｍ＋ｄ_２Ｓｉｍ２＋ｄ_３Ｂｅｌ・・・（１２）

また、補正量を調節するパラメータ（ａ，ｂ）や重みの係数（ｄ_１、ｄ_２、ｄ_３）は、算出済類似度により制御することができる。算出済類似度が低い場合（すなわち、差信号に占めるノイズの割合が多い場合）、かつ、ノイズが第１参照信号の大きさに比例する場合には、第２類似度による補正量を大きくすることが好ましい。すなわち、算出済類似度が低いほどａやｄ_２を大きくし、算出済類似度が大きいほどａやｄ_２を小さくする。

上述した方法で、時刻ｔから時刻ｔ＋Ｎ−１の第１類似度を算出することができる。類似度算出部１０５は、時刻をｓずつずらしながら、全ての時刻について第１類似度を算出する。例えば、類似度算出部１０５は、時刻ｔから時刻ｔ＋Ｎ−１を算出した後は、時刻ｔ＋ｓから時刻ｔ＋Ｎ−１＋ｓ（ただしｓ＜Ｎ）について第１類似度を算出する。

ｓ＜Ｎであるため、第１類似度を算出する時刻の範囲が重なり合う。類似度算出部１０５は、このように重なり合った範囲の時刻については、既に算出された第１類似度と、今回算出した第１類似度との平均値を、当該時刻の第１類似度としてもよい。

また、第１類似度は時間方向に平滑化してもよい。すなわち、例えば類似度算出部１０５は、時刻ｔ＋ｓから時刻ｔ＋Ｎ−１＋ｓの第１類似度を、時刻ｔから時刻ｔ＋Ｎ−１の第１類似度とαブレンドすることで算出する。これにより、第１類似度の時間変化が滑らかになり、本実施形態により出力される第１出力信号と第２出力信号へのノイズの発生を回避したり、音のふらつきを抑制したりする効果がある。

類似度算出部の変形例（類似度算出部１０５−２）を図７および図８を用いて説明する。図７は、類似度算出部１０５−２の構成例を示すブロック図である。図８は、類似度算出部１０５−２の動作の一例を示すフローチャートである。図７に示すように、類似度算出部１０５−２は、第２信号生成部３０１と、レベル算出部３０２と、類似度生成部３０３と、を備えている。

第２信号生成部３０１は、第１参照信号と第２背景音信号とから、第３参照信号を生成する。レベル算出部３０２は、差信号および第３参照信号それぞれの特徴データとして、差信号レベルおよび第３参照信号レベルを算出する。類似度生成部３０３は、差信号レベルと第３参照信号レベルとから第１類似度を生成する。

図８のフローチャートについて説明する。まず、第２信号生成部３０１は、例えば第１参照信号と第２背景音信号との加重和により第３参照信号を生成する（ステップＳ２１）。第３参照信号は、第１参照信号でもよいし、第２背景音信号でもよい。さらに加重和の重みは、事前に定める任意の値を用いることができる。

また、前の時刻で既に算出済の第１類似度である算出済類似度により重みを制御してもよい。図９は、このように制御する場合の類似度算出部１０５−３の構成例を示すブロック図である。類似度算出部１０５−３は、図７の構成に加えて類似度取得部５０４を備える。類似度取得部５０４は、前の時刻で算出済の算出済類似度を取得する。

算出済類似度が高いとき第２背景音信号に付与する重みを大きくし、算出済類似度が低いとき第１参照信号に付与する重みを大きくすることが望ましい。算出済類似度が低いときは、差信号中に占めるノイズの割合が大きい信号であると予測される。このため、第１参照信号の特徴データと差信号の特徴データを比較することにより差信号のノイズらしさを判定し、第１類似度の算出精度の向上が期待できるためである。

図８に戻る。次に、レベル算出部３０２は、差信号および第３参照信号それぞれの特徴データとして、単位時間内の差信号の大きさである差信号レベルと、単位時間内の第３参照信号の大きさである第３参照信号レベルとを、Ｓ１３１と同様の手順で算出する（ステップＳ２２およびステップＳ２３）。

次に、類似度生成部３０３は、差信号レベルと第３参照信号レベルとから、Ｓ１３４と同様の手順で第１類似度を算出する（ステップＳ２４）。

なお、差信号と第３参照信号から第１類似度を求める場合も、その特徴データと第１類似度の算出方法は上述した方法に限られない。信号値のパターン、信号値をフーリエ変換した係数、および、その係数のパターンからなるスカラー値やベクトル値を特徴データとして用い、その特徴データの類似度により第１類似度を算出することができる。

図２に戻る。次に、混合部１０６は、第１類似度に応じて差信号と第２背景音信号との加重和を算出することにより第１出力信号と第２出力信号を算出する（ステップＳ１６）。第１出力信号は、本実施形態の信号処理装置１００から出力される左信号であり、第２出力信号は本実施形態の信号処理装置１００から出力される右信号である。差信号に付与する重みをαとすると、第１出力信号Ｌ_ＯＵＴと第２出力信号Ｒ_ＯＵＴは、それぞれ次の（１３）式および（１４）式で算出される。ただし、Ｂは第２背景音信号である。
Ｌ_ＯＵＴ＝αＳ＋（１−α）Ｂ・・・（１３）
Ｒ_ＯＵＴ＝αＳ＋（１−α）Ｂ・・・（１４）

差信号に付与する重みαは、第１類似度が大きいほど大きくなるように制御される。例えば、αとして第１類似度の値をそのまま用いることができる。すなわち、次の（１５）式でαが生成される。
α＝Ｓｉｍ・・・（１５）

より第１類似度が１に近いときのみαが大きくなるように、次の（１６）式で算出してもよい。ただし、γは正数のパラメータである。またＳｉｍに対応するαの値をテーブルで保持しておいてもよい。

αの値の取る範囲は、０から１の間が望ましい。また、Ｓｉｍに対応するαの上限値を１以下に設定してもよい。例えば、αはＳｉｍの値に応じて０から０．５の値を取るようにしてもよい。

なお、式（１３）および式（１４）に記した第１出力信号と第２出力信号の算出方法の他に、第１出力信号と第２出力信号の一方に対して、差信号を逆相にして加算してもよい。すなわち、次の（１７）式および（１８）式で第１出力信号と第２出力信号を算出してもよい。これにより、音のステレオ感が増す効果がある。
Ｌ_ＯＵＴ＝αＳ＋（１−α）Ｂ・・・（１７）
Ｒ_ＯＵＴ＝α（−Ｓ）＋（１−α）Ｂ・・・（１８）

混合部１０６は、第１出力信号および第２出力信号を、外部装置や記憶装置などに出力する。混合部１０６は、第１出力信号および第２出力信号の両方を出力してもよいし、第１出力信号および第２出力信号のうちいずれか一方のみを出力してもよい。

このように、第１の実施形態の信号処理装置によれば、差信号の特徴データと第２背景音信号の特徴データとの類似度に応じて差信号と第２背景音信号の加重和を算出する。これにより、多様な入力信号に対して適切に背景音を出力することが可能となる。

なお、音声信号は、例えば人の声であるが、これに限られるものではなく、背景音信号と分離しうる信号であればどのような信号であってもよい。例えば非負行列因子分解等を適用する場合は、学習に用いる音声信号および背景音信号を適宜変更することにより、任意の信号を音声信号として分離することができる。

（第２の実施形態）
図１０は、第２の実施形態の信号処理装置２００の構成例を示すブロック図である。第２の実施形態の信号処理装置２００は、取得部１０１と、第１背景音算出部１０２と、第１信号生成部１０３と、抽出部６０４と、類似度算出部１０５と、混合部６０６と、を備えている。

第２の実施形態では、抽出部６０４および混合部６０６の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる信号処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

抽出部６０４は、第１参照信号から、音声信号を除去した第２背景音信号と音声信号とを抽出する。混合部６０６は、第１類似度により定める重みに応じて差信号と第２背景音信号と音声信号との加重和を算出する。

次に図１０および図１１を用いて、第２の実施形態の信号処理装置２００の動作について説明する。なお、図１１は、第２の実施形態の信号処理装置２００の動作例を示すフローチャートである。

図１１では、ステップＳ７５が追加されたこと、および、ステップＳ７７の処理が、第１の実施形態の信号処理装置１００の動作例を示す図２と異なっている。ステップＳ７１〜ステップＳ７４、および、ステップＳ７６は、それぞれ図２のステップＳ１１〜ステップＳ１４、および、ステップＳ１５と同様であるため、その説明を省略する。

ステップＳ７５では、抽出部６０４は、第１参照信号から音声信号を抽出する（ステップＳ７５）。音声信号は、第１参照信号から第２背景音信号を減算することで得られる。抽出部６０４は、ステップＳ１４と同じ手順でＥ_ｖｗ_ｖを算出することで音声信号を算出してもよい。

ステップＳ７７では、混合部６０６は、差信号と第２背景音信号と音声信号との加重和を算出し、第１出力信号と第２出力信号を生成する（ステップＳ７７）。まず、混合部６０６は、差信号と第２背景音信号の重みの比を決定するための係数αを、ステップＳ１６で説明した方法により第１類似度に基づいて算出する。次に混合部６０６は、背景音信号の大きさを決定するための係数λと、音声信号の大きさを決定するための係数μとを取得する。λとμは、０以上の値であり、所定の効果を得られるように予め定めておくことができる。例えば、音声信号を聞こえやすくするためには、μの値をλの値よりも大きく設定しておけばよい。また、スポーツ番組等で会場の雰囲気をより楽しめるようにするためには、実況の声を小さくして背景音が大きくなるように、μの値をλの値よりも小さく設定しておけばよい。

また、ユーザが指定する設定値を受け取る係数取得部などを設けることで、λとμの値を取得してもよい。また、λとμの値は、それぞれ直接指定するように構成してもよいし、λとμの比と平均的な大きさにより指定してもよい。

混合部６０６は、第１出力信号と第２出力信号を次の（１９）式および（２０）式で算出する。ただし、音声信号をＶとする。
Ｌ_ＯＵＴ＝λ（αＳ＋（１−α）Ｂ）＋μＶ・・・（１９）
Ｒ_ＯＵＴ＝λ（αＳ＋（１−α）Ｂ）＋μＶ・・・（２０）

図１２は、第２の実施形態の応用例を示した模式図である。図１２は、タブレット等の情報端末８０１の例を示している。情報端末８０１は、例えば液晶で作られたディスプレイ８０２を備えている。ディスプレイ８０２は、ユーザからのタッチ入力を受け付ける。ディスプレイ８０２には、例えば、映像表示ウィンドウ８０３、再生ボタン８０４、停止ボタン８０５、表示バー８０６、および、表示バー８０７が表示される。

映像表示ウィンドウ８０３は、動画像の映像を表示するウィンドウである。再生ボタン８０４は、動画像の再生を開始するためのボタンである。停止ボタン８０５は、動画像の再生を停止するためのボタンである。表示バー８０６は、音声信号の混合率を表示するための表示バーである。表示バー８０７は、背景音信号の混合率を表示するための表示バーである。

表示バー８０６は、現在指定されている音声信号の混合率を表示するための指定ボタン８０６−ａを備えている。表示バー８０７は、現在指定されている背景音信号の混合率を表示するための指定ボタン８０７−ａを備えている。

ユーザは指定ボタン８０６−ａにタッチし、表示バー８０６に沿って横方向にスライドさせることにより、音声信号の混合率を指定することができる。また、同様に、ユーザは指定ボタン８０７−ａにより背景音信号の混合率を指定することができる。音声信号の混合率と背景音信号の混合率は、それぞれ、ステップＳ７７におけるμとλに対応する。すなわち、ユーザは、混合部６０６が使用する係数λおよび係数μを、図１２のような画面を介して設定することができる。

指定ボタン８０６−ａは、表示バー８０６の左端に位置する時に、予め定めたμの最小値であるμ_ＭＩＮを表し、右端に位置する時に、予め定めたμの最大値であるμ_ＭＡＸを表し、その中間位置にある時は、中間の値を表すようになっている。指定ボタン８０７−ａも指定ボタン８０６−ａと同様に、λの最小値λ_ＭＩＮから最大値λ_ＭＡＸの間の値に対応している。

ユーザは映像を見ながら、指定ボタン８０６−ａと指定ボタン８０７−ａとを移動させることで、音声信号と背景音信号の混合量を自由に設定することができる。これにより、動画像のシーンやコンテンツに合わせて、好みの音響信号を楽しむことができる。

このように、第２の実施形態の信号処理装置２００は、差信号の特徴データと第２背景音信号の特徴データの類似度に応じた重みで算出した差信号と第２背景音信号の加重和の信号と音声信号との加重和を算出する。これにより、多様な入力信号に対して背景音と音声を任意の割合で混合した信号を出力することが可能となる。

以上説明したとおり、第１から第２の実施形態によれば、ステレオ信号だけでなく、モノラル信号などのように音響信号に含まれる背景音信号が等しい場合であっても、音響信号から音声信号を除去した背景音信号を適切に生成することができる。

（第３の実施形態）
図１３は、第３の実施形態の信号処理装置３００の構成例を示すブロック図である。第３の実施形態の信号処理装置３００は、取得部１０１と、第１背景音算出部１０２と、第１信号生成部１０３と、抽出部６０４と、類似度算出部１０５と、混合部７０６と、第３背景音生成部７０７と、を備えている。

第３の実施形態では、混合部７０６の機能と第３背景音生成部７０７が追加された点が第２の実施形態と異なっている。その他の構成および機能は、第２の実施形態にかかる信号処理装置２００のブロック図である図１０と同様であるので、同一符号を付し、ここでの説明は省略する。

多くのコンテンツでは、左信号および右信号に音声信号が等しく含まれるように作成されている。しかし、アマチュアが撮影したホームビデオやステレオマイクによる録音など、左右から話者が発言するケースでは、差信号に音声信号が含まれる場合がある。そこで、第３背景音生成部７０７が、差信号に含まれる音声信号を除去する。

第３背景音生成部７０７は、第１背景音信号（差信号など）から、音声信号をさらに除去した第３背景音信号を生成する。第３背景音信号の生成は、例えば抽出部１０４による第１参照信号からの第２背景音信号の抽出と同様に行うことができる。

次に、図１３および図１４を用いて、第３の実施形態の信号処理装置３００の動作について説明する。なお、図１４は、第３の実施形態の信号処理装置３００の動作例を示すフローチャートである。

図１４では、ステップＳ８７が追加されたこと、および、ステップＳ８８の処理が、第２の実施形態の信号処理装置２００の動作例を示す図１１と異なっている。ステップＳ８１〜ステップＳ８６は、それぞれ図１１のステップＳ７１〜ステップＳ７６と同様であるため、その説明を省略する。

ステップＳ８７では、第３背景音生成部７０７は、第１背景音信号から第３背景音信号を生成する（ステップＳ８７）。

ステップＳ８８では、混合部７０６は、第３背景音信号と第２背景音信号と音声信号との加重和を算出し、第１出力信号と第２出力信号を生成する（ステップＳ８８）。

まず、混合部７０６は、第３背景音信号と第２背景音信号の重みの比を決定するための係数αを、ステップＳ１６で説明した方法により第１類似度に基づいて算出する。次に混合部７０６は、背景音信号の大きさを決定するための係数λと、音声信号の大きさを決定するための係数μとを取得する。

混合部７０６は、第３背景音信号を用いて、第１出力信号と第２出力信号を次の（２１）式および（２２）式で算出する。ただし、第３背景音信号をＢ’とする。
Ｌ_ＯＵＴ＝λ（αＢ’＋（１−α）Ｂ）＋μＶ・・・（２１）
Ｒ_ＯＵＴ＝λ（αＢ’＋（１−α）Ｂ）＋μＶ・・・（２２）

このように、第３の実施形態の信号処理装置３００は、差信号から、音声信号をさらに除去した第３背景音信号を用いることで、より多くのコンテンツにおいて、音声を除去することが可能になる。

（第４の実施形態）
図１５は、第４の実施形態の信号処理装置４００の構成例を示すブロック図である。第４の実施形態の信号処理装置４００は、取得部１０１と、第１背景音算出部１０２と、第１信号生成部１０３と、抽出部９０４と、類似度算出部９０５と、混合部９０６と、第３背景音生成部９０７と、設定部９０８を備えている。

第４の実施形態では、抽出部９０４、類似度算出部９０５、混合部９０６および第３背景音生成部９０７の機能と、設定部９０８が追加された点が第３の実施形態と異なっている。その他の構成および機能は、第３の実施形態にかかる信号処理装置３００のブロック図である図１３と同様であるので、同一符号を付し、ここでの説明は省略する。

第３背景音生成部７０７を追加した、第３の実施形態では、出力信号の生成が背景音信号を重視している場合は効果的であるが、出力信号の生成が音声信号を重視している場合は活用できず、計算コストも増える。そこで第４の実施形態では、出力信号の生成で重視する音源に応じて、抽出部９０４の処理を簡易化するか否か、および、第３背景音生成部９０７の処理を簡易化するか否かを制御し、出力信号の精度を保ちながら、計算コストを削減する。

図１６は、混合部９０６における第３背景音信号、第２背景音信号および音声信号の重みの関係を示す図である。「大」「小」は、例えば、各信号（第３背景音信号、第２背景音信号および音声信号）に対する重みの相対的な大きさを表す。上記（２１）式および（２２）式の例では、λ×α、λ×（１−α）、および、μが、それぞれ第３背景音信号、第２背景音信号および音声信号に対する重みに相当する。例えば、条件１の場合（出力が背景音信号を重視する、かつ、第１類似度が高い）、混合部９０６は、第３背景音信号の重みを、第２背景音信号および音声信号それぞれの重みより大きくして、各信号の加重和を算出する。

抽出部９０４および第３背景音生成部９０７の処理を簡易化するか否かは、図１６の各条件に応じて制御してもよい。例えば、第２背景音信号および音声信号の抽出に関わる抽出部９０４は、出力が背景音信号を重視する、かつ、第１類似度が高い場合のみ（図１６の例では条件１の場合）、処理を簡略化する。第３背景音信号の生成に関わる第３背景音生成部９０７は、出力が音声信号を重視する、または、第１類似度が低い場合（図１６の例では条件２〜４の場合）に、処理を簡略化する。

図１５に戻り、設定部９０８は、出力する音源情報（出力音源）を設定する。音源情報は、例えば背景音信号の出力を重視するか、音声信号の出力を重視するかを示す情報である。以下では、係数λおよびμを用いて音源情報を設定する例を説明する。まず、設定部９０８は、第１出力信号と第２出力信号を算出するために定めた、背景音信号の大きさを決定するための係数λと、音声信号の大きさを決定するための係数μに基づき、出力したい音源が背景音信号か否かを設定する。

設定部９０８は、係数μが０に設定された場合、または、λ−μが閾値λ_ＴＨ以上の場合、出力信号の生成は背景音信号を重視していると判断し、出力音源を背景音信号とする。ここで閾値λ_ＴＨは、例えば最大値λ_ＭＡＸの半分など、正の値であれば任意に設定できる。設定部９０８は、係数μが０ではなく、λ−μが閾値λ_ＴＨ未満の場合、出力音源は音声信号とする。また、設定部９０８は、出力する音源情報を、背景音信号に対する近さを表す一次元の値として設定してもよい。この場合、音源情報の値は、一定値を最大として、λ−μまたはλ／μに比例するように設定する。

次に、図１５および図１７を用いて、第４の実施形態の信号処理装置４００の動作について説明する。なお、図１７は、第４の実施形態の信号処理装置４００の動作例を示すフローチャートである。

図１７では、ステップＳ９４およびステップＳ９５が追加されたこと、および、ステップＳ９６〜ステップＳ１００の処理が、第３の実施形態の信号処理装置３００の動作例を示す図１４と異なっている。ステップＳ９１〜ステップＳ９３は、それぞれ図１４のステップＳ８１〜ステップＳ８３と同様であるため、その説明を省略する。

ステップＳ９４では、類似度算出部９０５は、第１類似度を初期化する。初期化の値としては例えば０に設定できる（ステップＳ９４）。

次に、ステップＳ９５では、設定部９０８は、出力信号の生成時に用いる係数λおよび係数μの値を用いて、出力音源を設定する（ステップＳ９５）。

ステップＳ９６では、抽出部９０４は、出力音源が背景音信号であるか否か、または背景音信号に対する近さを表す値の高さと、第１類似度の大きさに応じて、第１参照信号から、第２背景音信号を抽出する（ステップＳ９６）。例えば、抽出部９０４は、第１類似度の大きさと出力音源の背景音信号に対する近さの重み付き線形和が高いときほど、処理を簡易化する。抽出部９０４は、例えば、（３）式の反復回数を削減することで処理を簡易化する。また、抽出部９０４は、音声を削減するようなバンドパスフィルタを用いることで処理を簡易化しても良い。

なお抽出部９０４は、例えば処理対象の時刻より前の時刻で算出された第１類似度（算出済類似度など）を用いて、処理を簡易化するか否かを制御する。

次いで、ステップＳ９７では、抽出部９０４は、第１参照信号から音声信号を抽出する（ステップＳ９７）。抽出部９０４は、抽出部６０４と同様の方法で音声信号を抽出すればよい。

ステップＳ９８では、類似度算出部９０５は、差信号の特徴データ、第２背景音信号の特徴データおよび第１参照信号の特徴データを用いて第１類似度を算出する（ステップＳ９８）。類似度算出部９０５は、類似度算出部１０５と同様の方法にて類似度を算出することができる。抽出部９０４、混合部９０６および第３背景音生成部９０７は、類似度算出部９０５が算出した最新の類似度を参照してそれぞれの処理を行う。

ステップＳ９９では、第３背景音生成部９０７は、出力音源が背景音信号であるか否か、または背景音信号に対する近さを表す値の高さと、第１類似度の大きさに応じて、第１背景音信号から第３背景音信号を生成する（ステップＳ９９）。例えば第３背景音生成部９０７は、第１類似度の大きさと出力音源の背景音信号に対する近さの重み付き線形和が低いときほど、処理を簡易化する。第３背景音生成部９０７は、第２背景音信号の抽出と同様の処理を行い、例えば、（３）式の反復回数を削減することで処理を簡易化する。また、第３背景音生成部９０７は、音声を削減するようなバンドパスフィルタを用いることで処理を簡易化しても良い。第３背景音生成部９０７は、差信号をそのまま第３背景音信号として出力することで処理を簡略化することもできる。

最後に、ステップＳ１００では、混合部９０６は、第３背景音信号と第２背景音信号と音声信号との加重和を算出し、第１出力信号と第２出力信号を生成する（ステップＳ１００）。混合部９０６は、設定部９０８にて使用した背景音信号の大きさを決定するための係数λと、音声信号の大きさを決定するための係数μを用いて、混合部７０６と同様に第１出力信号と第２出力信号を（２１）式および（２２）式で算出する。

このように、第４の実施形態の信号処理装置４００は、出力信号に関わる、第３背景音信号、第２背景音信号および音声信号のうち、重みが高い信号の生成または抽出に関連する処理を優先することで、精度を保ちながら計算コストを削減することができる。

次に、第１から第４の実施形態にかかる信号処理装置のハードウェア構成について図１８を用いて説明する。図１８は、第１から第４の実施形態にかかる信号処理装置のハードウェア構成を示す説明図である。

第１から第４の実施形態にかかる信号処理装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１から第４の実施形態にかかる信号処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１から第４の実施形態にかかる信号処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１から第４の実施形態にかかる信号処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第４の実施形態にかかる信号処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１から第４の実施形態にかかる信号処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、２００、３００、４００信号処理装置
１０１取得部
１０２第１背景音算出部
１０３第１信号生成部
１０４、６０４、９０４抽出部
１０５、９０５類似度算出部
１０６、６０６、７０６、９０６混合部
３０１第２信号生成部
３０２レベル算出部
３０３類似度生成部
５０４類似度取得部
７０７、９０７第３背景音生成部
９０８設定部

Claims

第１音響信号と第２音響信号とを取得する取得部と、
前記第１音響信号と前記第２音響信号とに基づいて音声信号を除去した第１背景音信号を算出する第１背景音算出部と、
前記第１音響信号と前記第２音響信号との少なくとも１つから第１参照信号を生成する第１信号生成部と、
前記第１参照信号から音声信号を除去した第２背景音信号を抽出する抽出部と、
前記第１背景音信号の特徴データと前記第２背景音信号の特徴データとが類似する度合いを表す第１類似度を算出する類似度算出部と、
前記第１類似度が高いほど前記第１背景音信号に大きい重みを付与し、前記第１類似度が低いほど前記第２背景音信号に大きい重みを付与し、前記第１背景音信号と前記第２背景音信号の加重和を算出する混合部と、
を備える信号処理装置。
前記第１背景音算出部は、前記第１音響信号と前記第２音響信号との差信号である第１背景音信号を算出する、
請求項１に記載の信号処理装置。
前記第１信号生成部は、前記第１音響信号、前記第２音響信号、および、前記第１音響信号と前記第２音響信号との加重和、のうち１つである第１参照信号を生成する、
請求項１又は２に記載の信号処理装置。
前記抽出部は、前記第１参照信号から音声信号をさらに抽出し、
前記混合部は、前記第１背景音信号、前記第２背景音信号、および、抽出された音声信号の加重和を算出する、
請求項１から３のいずれか一項に記載の信号処理装置。
前記第１背景音信号から音声信号をさらに除去した第３背景音信号を生成する第３背景音生成部をさらに備え、
前記混合部は、前記第３背景音信号、前記第２背景音信号、および、抽出された音声信号の加重和を算出する、
請求項４に記載の信号処理装置。
出力を重視する音源を示す音源情報を設定する設定部をさらに備え、
前記抽出部は、前記音源情報と前記第１類似度に応じて、前記第１参照信号から音声信号を抽出し、
前記第３背景音生成部は、前記第１類似度と前記音源情報に応じて、前記第３背景音信号を生成し、
前記混合部は、前記音源情報が音声を重視することを示す場合に前記抽出された音声信号に大きい重みを付与し、前記音源情報が背景音を重視することを示す場合に前記第３背景音信号および前記第２背景音信号に大きい重みを付与する、
請求項５に記載の信号処理装置。
前記抽出部は、前記音源情報が背景音を重視することを示し、かつ、前記第１類似度が閾値以上の場合に簡易な処理に切り替える、
請求項６に記載の信号処理装置。
前記第３背景音生成部は、前記音源情報が音声を重視することを示す、または、前記第１類似度が閾値未満の場合に簡易な処理に切り替える、
請求項６に記載の信号処理装置。
前記第３背景音生成部は、前記音源情報が音声を重視することを示す、または、前記第１類似度が閾値未満の場合に前記第１背景音信号を前記第３背景音信号として生成する、
請求項６に記載の信号処理装置。
前記類似度算出部は、前記第１背景音信号の特徴データと前記第１参照信号の特徴データとが類似する度合いを表す第２類似度をさらに算出し、
前記第２類似度に応じて前記第１類似度を補正する補正部を備える、
請求項１に記載の信号処理装置。
前記類似度算出部は、第１時刻に算出された前記第１類似度である算出済類似度を取得する類似度取得部をさらに備え、
前記補正部は、前記第１時刻より後の第２時刻に算出された前記第１類似度を補正する量を、前記算出済類似度が低いほど大きくする、
請求項１０に記載の信号処理装置。
前記類似度算出部は、
前記第１背景音信号がノイズらしい度合いを示す非信頼度を算出する非信頼度算出部と、
前記非信頼度に応じて前記第１類似度を補正する補正部と、を備える、
請求項１に記載の信号処理装置。
前記類似度算出部は、
単位時間内における前記第１背景音信号の大きさである第１背景音信号レベルと、前記単位時間内における前記第２背景音信号の大きさである第２背景音信号レベルと、を算出するレベル算出部と、
前記第２背景音信号レベルに対する前記第１背景音信号レベルの比が大きいほど前記第１類似度を高く算出する類似度生成部と、を備える、
請求項１に記載の信号処理装置。
前記類似度算出部は、前記第１参照信号と前記第２背景音信号との加重和である第３参照信号を生成する第２信号生成部を備え、
前記類似度算出部は、前記第１背景音信号の特徴データと前記第３参照信号の特徴データとの類似度により前記第１類似度を算出する、
請求項１に記載の信号処理装置。
前記類似度算出部は、第１時刻に算出された前記第１類似度である算出済類似度を取得する類似度取得部をさらに備え、
前記第２信号生成部は、前記算出済類似度が大きいほど前記第２背景音信号に付与する重みを大きくする、
請求項１４に記載の信号処理装置。
前記類似度算出部は、
単位時間内における前記第１背景音信号の大きさである第１背景音信号レベルと、前記単位時間内における前記第３参照信号の大きさである第３参照信号レベルと、を算出するレベル算出部と、
前記第３参照信号レベルに対する前記第１背景音信号レベルの比が大きいほど前記第１類似度を高く算出する類似度生成部と、を備える、
請求項１４に記載の信号処理装置。
第１音響信号と第２音響信号とを取得する取得ステップと、
前記第１音響信号と前記第２音響信号とに基づいて音声信号を除去した第１背景音信号を算出する第１背景音算出ステップと、
前記第１音響信号と前記第２音響信号との少なくとも１つから第１参照信号を生成する第１信号生成ステップと、
前記第１参照信号から音声信号を除去した第２背景音信号を抽出する抽出ステップと、
前記第１背景音信号の特徴データと前記第２背景音信号の特徴データとが類似する度合いを表す第１類似度を算出する類似度算出ステップと、
前記第１類似度が高いほど前記第１背景音信号に大きい重みを付与し、前記第１類似度が低いほど前記第２背景音信号に大きい重みを付与し、前記第１背景音信号と前記第２背景音信号の加重和を算出する混合ステップと、
を含む信号処理方法。
コンピュータを、
第１音響信号と第２音響信号とを取得する取得部と、
前記第１音響信号と前記第２音響信号とに基づいて音声信号を除去した第１背景音信号を算出する第１背景音算出部と、
前記第１音響信号と前記第２音響信号との少なくとも１つから第１参照信号を生成する第１信号生成部と、
前記第１参照信号から音声信号を除去した第２背景音信号を抽出する抽出部と、
前記第１背景音信号の特徴データと前記第２背景音信号の特徴データとが類似する度合いを表す第１類似度を算出する類似度算出部と、
前記第１類似度が高いほど前記第１背景音信号に大きい重みを付与し、前記第１類似度が低いほど前記第２背景音信号に大きい重みを付与し、前記第１背景音信号と前記第２背景音信号の加重和を算出する混合部、
として機能させるためのプログラム。