JP2022514878A

JP2022514878A - 音質の推定および制御を使用した音源分離のための装置および方法

Info

Publication number: JP2022514878A
Application number: JP2021535739A
Authority: JP
Inventors: ウーレ，クリスティアン; トルコリ，マッテオ; ディッシュ，ザシャ; パウルス，ヨウニ; ヘッレ，ユルゲン; ヘルムート，オリヴァー; フックス，ハーラルト
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2018-12-21
Filing date: 2019-12-20
Publication date: 2022-02-16
Anticipated expiration: 2039-12-20
Also published as: KR102630449B1; EP3899936B1; EP3899936A1; EP3671739A1; KR20210110622A; CN113574597B; CA3124017C; US20210312939A1; BR112021012308A2; EP3899936C0; JP7314279B2; CN113574597A; CA3124017A1; WO2020127900A1; ES2966063T3; MX2021007323A

Abstract

オーディオ入力信号から分離オーディオ信号を生成するための装置が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。装置は、音源分離器（１１０）と、決定モジュール（１２０）と、信号プロセッサ（１３０）とを備える。音源分離器（１１０）は、オーディオ入力信号に依存する推定される目的信号を決定するように構成され、推定される目的信号は、目的オーディオ信号部分のみを含む信号の推定値である。決定モジュール（１２０）は、１つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて１つもしくは複数の結果値を決定するように構成され、１つもしくは複数のパラメータ値は、１つもしくは複数の結果値であるか、または１つもしくは複数の結果値に依存する。信号プロセッサ（１３０）は、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、分離オーディオ信号を生成するように構成され、推定される残差信号は、残差オーディオ信号部分のみを含む信号の推定値である。【選択図】図１ａ

Description

本発明は、オーディオ信号の音源分離に関し、特に分離出力信号の音質の信号適応制御に関し、特に音質の推定および制御を使用した音源分離のための装置および方法に関する。

音源分離では、出力信号の品質が劣化し、この劣化は干渉信号の減衰と共に単調に増加する。
オーディオ信号の音源分離はこれまで行われてきた。
オーディオ信号の音源分離は、以下のように混合信号

が与えられた場合の目的信号

を得ることを目的とし、

式中、

は、すべての干渉信号を含み、以下ではこれらを「干渉信号」と呼ぶ。分離の出力

は、以下のような目的信号の推定値

であり、

場合によってはこれに加えて、干渉信号の推定値

でもある。

そのような処理は、通常、出力信号に、音質を悪化させるアーチファクトを導入する。この音質の劣化は、分離量、すなわち干渉信号の減衰とともに単調に増加する。多くの用途では、完全分離を必要とせず部分的な強調で済み、干渉音は減衰されるが、依然として出力信号に存在する。
これには、導入されるアーチファクトがより少なく、干渉信号の漏れが知覚されるアーチファクトを部分的にマスクするので、完全に分離された信号よりも音質が高いという追加の利点がある。
オーディオ信号を部分的にマスクすることは、その音の大きさ（例えば、その知覚される強度）が部分的に低減されることを意味する。大きな減衰を達成するよりもむしろ、出力の音質が規定の音質レベルを下回らないことがさらに求められ、必要とされる可能性がある。
そのような用途の一例が会話（dialog）の強調である。テレビ、ラジオ放送および映画の音声におけるオーディオ信号は、多くの場合、音声信号と背景信号、例えば環境音や音楽の混合である。これらの信号が、音声のレベルが背景のレベルと比較して低すぎるように混合されると、聴取者が言われたことを理解するのが困難になる可能性があり、または理解するのに非常に大きな聴取努力を必要とし、聴取者を疲労させることになる。そのようなシナリオでは、背景のレベルを自動的に低減するための方法を適用することができるが、結果は高音質のものでなければならない。

先行技術には、音源分離のための様々な方法が存在する。先行技術では目的信号を信号の混合から分離することが論じられている。これらの方法を、２つの手法に分類することができる。第１のカテゴリの方法は、信号モデルおよび／または混合モデルに関する定式化された仮定に基づくものである。信号モデルは、ここでは

および

である入力信号の特性を記述する。混合モデルは、ここでは加算によって、入力信号が混合信号

を生成するためにどのように組み合わされるかの特性を記述する。
これらの仮定に基づいて、方法が分析的または発見的に設計される。例えば、独立成分分析の方法は、混合が統計的に独立した２つの音源を含み、混合が２つのマイクロホンによって取り込まれており、混合が、両方の信号を加算する（瞬時混合を生成する）ことによって導出されていると仮定することによって導出することができる。混合の逆のプロセスが、次いで、混合行列の反転として数学的に導出され、この分離行列の要素は指定された方法に従って計算される。ほとんどの分析的に導出された方法は、分離問題を基準の数値最適化、例えば、真の目的と推定される目的との間の平均二乗誤差として定式化することによって導出される。

第２のカテゴリはデータ駆動型である。ここでは、目的信号の表現が推定されるか、または入力混合から目的信号を取り出すためのパラメータセットが推定される。推定は、訓練データセットで訓練されたモデルに基づくものであり、したがって「データ駆動型」という名前である。推定は、基準を最適化することによって、例えば、訓練データが与えられた場合の、真の目的と推定される目的との間の平均二乗誤差を最小化することによって導出される。このカテゴリの一例が、音声信号と干渉信号との混合が与えられた場合に、音声信号の推定値を出力するように訓練された人工ニューラルネットワーク（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＡＮＮ））である。訓練中、人工ニューラルネットワークの調整可能なパラメータは、訓練データセットに対して計算される性能基準が、データセット全体にわたって平均して最適化されるように決定される。
音源分離に関して、平均二乗誤差において最適であるか、または任意の他の数値基準に関して最適である解は、必ずしも人間の聴取者によって好まれる最高音質を有する解ではない。

第２の問題は、音源分離が常に２つの効果、すなわち、第１に干渉音の所望の減衰、第２に音質の望ましくない劣化をもたらすことに起因する。２つの効果は相関しており、例えば、所望の効果を増加させると、望ましくない効果が増加する。最終的な目的は、２つの効果の間のトレードオフを制御することである。
音質は、推定する、例えば、聴取試験によって、または音質の計算モデルによって定量化することができる。音質には複数の態様があり、以下ではこれを音質成分（ＳｏｕｎｄＱｕａｌｉｔｙＣｏｍｐｏｎｅｎｔ（ＳＱＣ））と呼ぶ。
例えば、音質は、知覚されるアーチファクト（これらは、信号処理、例えば音源分離によって導入された、音質を低下させる信号成分である）の強度によって決定される。
または、例えば、音質は、知覚される干渉信号の強度によって、または、例えば、（目的信号が音声である場合の）音声明瞭度によって、または、例えば、全体的な音質によって決定される。
音質成分

（の推定値）を計算する音質の様々な計算モデルが存在し、式中、Ｍは音質成分の数を表す。
そのような方法は、通常、目的信号および目的信号の推定値を与えられた場合の音質成分

または干渉信号も与えられた場合の音質成分

を推定する。
実際の用途では、目的信号

（および干渉信号

）は利用できず、そうでなければ分離は必要とされないはずである。入力信号

および目的信号の推定値

しか利用できない場合、これらの方法では音質成分を計算することができない。

先行技術には、明瞭度を含む音質の態様を推定するための様々な計算モデルが記載されている。
ブラインド音源分離評価（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎＥｖａｌｕａｔｉｏｎ（ＢＳＳＥｖａｌ））（［１］参照）は、多基準性能評価ツールボックスである。推定された信号は、直交射影によって、目的信号成分と、他の音源からの干渉と、アーチファクトとに分解される。メトリックは、これらの成分のエネルギー比として計算され、ｄＢ単位で表される。これらは、音源対歪み比（ＳｏｕｒｃｅｔｏＤｉｓｔｏｒｔｉｏｎＲａｔｉｏ（ＳＤＲ））、音源対干渉比（ＳｏｕｒｃｅｔｏＩｎｔｅｒｆｅｒｅｎｃｅＲａｔｉｏ（ＳＩＲ））および音源対アーチファクト比（ＳｏｕｒｃｅｔｏＡｒｔｉｆａｃｔＲａｔｉｏ（ＳＡＲ））である。
音源分離のための知覚評価方法（ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎｍｅｔｈｏｄｓｆｏｒＡｕｄｉｏＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ（ＰＥＡＳＳ））（［２］参照）は、ＢＳＳＥｖａｌの知覚的に動機付けされる後継法として設計された。信号射影は、時間セグメントに対して、ガンマトーンフィルタバンクを用いて実行される。

ＰＥＭＯ－Ｑ（［３］参照）は、複数の特徴を提供するために使用される。主観的評価で訓練されたニューラルネットワークを使用して、これらの特徴から４つの知覚スコアが得られる。スコアは、全体的知覚スコア（ＯｖｅｒａｌｌＰｅｒｃｅｐｔｕａｌＳｃｏｒｅ（ＯＰＳ））、干渉関連知覚スコア（Ｉｎｔｅｒｆｅｒｅｎｃｅ－ｒｅｌａｔｅｄＰｅｒｃｅｐｔｕａｌＳｃｏｒｅ（ＩＰＳ））、アーチファクト関連知覚スコア（Ａｒｔｉｆａｃｔ－ｒｅｌａｔｅｄＰｅｒｃｅｐｔｕａｌＳｃｏｒｅ（ＡＰＳ））、および目的関連知覚スコア（Ｔａｒｇｅｔ－ｒｅｌａｔｅｄＰｅｒｃｅｐｔｕａｌＳｃｏｒｅ（ＴＰＳ））である。
音質の知覚評価（ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎｏｆＡｕｄｉｏＱｕａｌｉｔｙ（ＰＥＡＱ））（［４］参照）は、オーディオ符号化のために設計されたメトリックである。ＰＥＡＱでは、参照信号および試験信号の頭蓋膜表現を計算するために、末梢耳モデルを使用する。これらの表現間の差分の態様は、いくつかの出力変数によって定量化される。主観的データで訓練されたニューラルネットワークによって、これらの変数は組み合わされて主出力、例えば、全体的な差分値（ＯｖｅｒａｌｌＤｉｆｆｅｒｅｎｃｅＧｒａｄｅ（ＯＤＧ））を与える。
音声品質の知覚評価（ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎｏｆＳｐｅｅｃｈＱｕａｌｉｔｙ（ＰＥＳＱ））（［５］参照）は、電気通信ネットワーク上で伝送される音声のために設計されたメトリックである。したがって、この方法は、電話の送受話器を模倣する前処理を含む。可聴妨害の尺度が、信号の特定の音の大きさから計算され、ＰＥＳＱスコアにおいて組み合わされる。これらから、ＭＯＳスコアが多項式写像関数によって予測される（［６］参照）。

ＶｉＳＱＯＬＡｕｄｉｏ（［７］参照）は、仮想音声品質客観聴取者（ＶｉｒｔｕａｌＳｐｅｅｃｈＱｕａｌｉｔｙＯｂｊｅｃｔｉｖｅＬｉｓｔｅｎｅｒ（ＶｉＳＱＯＬ））から開発された低ビットレートで符号化された音楽用に設計されたメトリックである。どちらのメトリックも、ニューログラムと呼ばれる信号の内部表現を作成するための末梢聴覚系のモデルに基づくものである。これらは、元々は圧縮画像の品質を評価するために開発された、構造的類似性指数の適応を介して比較される。
補聴器音質指数（Ｈｅａｒｉｎｇ－ＡｉｄＡｕｄｉｏＱｕａｌｉｔｙＩｎｄｅｘ（ＨＡＡＱＩ））（［８］参照）は、補聴器を介して聴取する個人のための音楽品質を予測するように設計された指数である。この指数は、難聴の影響を含むように拡張された、聴覚末梢系のモデルに基づくものである。これは、正常な聴覚または聴覚障害を有する聴取者によって行われた品質評価のデータベースに適合される。難聴シミュレーションを省略することができ、この指数は正常聴覚者にも有効になる。同じ聴覚モデルに基づき、ＨＡＡＱＩの著者らはまた、音声品質の指数である補聴器音声品質指数（ＨＡＳＱＩ）（［９］参照）、および音声明瞭度の指数である補聴器音声知覚指数（ＨＡＳＰＩ）（［１０］参照）も提案した。

短時間客観明瞭度（Ｓｈｏｒｔ－ＴｉｍｅＯｂｊｅｃｔｉｖｅＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙ（ＳＴＯＩ））（［１１］参照）は、平均音声明瞭度との単調な関係を有すると予期される尺度である。ＳＴＯＩは、特に、ある種の時間周波数重み付けによって処理される音声に対処する。
［１２］において、人工ニューラルネットワークは、入力信号および出力推定目的信号のみを与えられた場合の音源対歪み比を推定するように訓練され、音源対歪み比の計算は、通常、入力として、真の目的および干渉信号も取る。分離アルゴリズムのプールが、同じ入力信号に対して並列に実行される。音源対歪み比推定値は、時間フレームごとに、最良の音源対歪み比を有するアルゴリズムからの出力を選択するために使用される。したがって、音質と分離との間のトレードオフに対する制御が定式化されておらず、分離アルゴリズムのパラメータの制御が提案されていない。さらに、音源対歪み比が使用され、これは知覚的に動機付けされず、例えば［１３］において、知覚された品質との相関が不十分であることが示された。

さらに、近年、音質成分の推定値が費用関数に統合される教師あり学習による音声強調に関する研究が行われているが、従来、音声強調モデルは、推定音声とクリーン音声との間の平均二乗誤差（ＭＳＥ）に基づいて最適化される。例えば、［１４］、［１５］、［１６］では、ＭＳＥの代わりにＳＴＯＩに基づく費用関数が使用される。［１７］では、ＰＥＳＱやＰＥＡＳＳに基づく強化学習が使用される。しかし、音質と分離との間のトレードオフに対する制御は利用できない。
［１８］では、処理によって適用される時間周波数利得を制御するために可聴性尺度がアーチファクト識別尺度と一緒に使用されるオーディオ処理デバイスが提案されている。これは、例えば、雑音低減の量が、アーチファクトが導入されないという制約を受ける最大レベルであり、音質と分離との間のトレードオフが固定されると規定するためである。さらに、システムは教師あり学習を含まない。アーチファクトを識別するために、真の目的および干渉信号を必要とせずに、（場合によっては音声が存在しないセグメント内の）出力信号と入力信号とを直接比較する尺度である、カートシス比が使用される。この単純な尺度は、可聴性尺度によって強化される。

本発明の目的は、音源分離のための改善された概念を提供することである。本発明の目的は、請求項１に記載の装置、請求項１６に記載の方法、および請求項１７に記載のコンピュータプログラムによって解決される。

オーディオ入力信号から分離オーディオ信号を生成するための装置が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。装置は、音源分離器と、決定モジュールと、信号プロセッサとを備える。音源分離器は、オーディオ入力信号に依存する推定される目的信号を決定するように構成され、推定される目的信号は、目的オーディオ信号部分のみを含む信号の推定値である。決定モジュールは、１つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて１つもしくは複数の結果値を決定するように構成され、１つもしくは複数のパラメータ値は、１つもしくは複数の結果値であるか、または１つもしくは複数の結果値に依存する。信号プロセッサは、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、分離オーディオ信号を生成するように構成され、推定される残差信号は、残差オーディオ信号部分のみを含む信号の推定値である。
さらに、オーディオ入力信号から分離オーディオ信号を生成するための方法が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。方法は以下を含む：
オーディオ入力信号に依存する推定される目的信号を決定するステップであって、推定される目的信号が、目的オーディオ信号部分のみを含む信号の推定値である、ステップ。
１つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて１つもしくは複数の結果値を決定するステップであって、１つもしくは複数のパラメータ値が、１つもしくは複数の結果値であるか、または１つもしくは複数の結果値に依存する、ステップ。ならびに：
１つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、分離オーディオ信号を生成するステップであって、推定される残差信号が、残差オーディオ信号部分のみを含む信号の推定値である、ステップ。
さらに、コンピュータまたは信号プロセッサ上で実行されるときに上述の方法を実施するためのコンピュータプログラムが提供される。

一実施形態による、オーディオ入力信号から分離オーディオ信号を生成するための装置を示す図である。人工ニューラルネットワークをさらに備える、別の実施形態による分離オーディオ信号を生成するための装置を示す図である。音質の推定を使用するように構成され、後処理を行うように構成された一実施形態による装置を示す図である。後処理パラメータの直接推定が行われる、別の実施形態による装置を示す図である。音質および二次分離の推定が行われる、さらなる実施形態による装置を示す図である。分離パラメータの直接推定が行われる、別の実施形態による装置を示す図である。

以下において、本発明の実施形態を、図を参照してより詳細に説明する。
図１ａに、一実施形態による、オーディオ入力信号から分離オーディオ信号を生成するための装置を示す。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。
装置は、音源分離器１１０と、決定モジュール１２０と、信号プロセッサ１３０とを備える。
音源分離器１１０は、オーディオ入力信号に依存する推定される目的信号を決定するように構成され、推定される目的信号は、目的オーディオ信号部分のみを含む信号の推定値である。

決定モジュール１２０は、１つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて１つもしくは複数の結果値を決定するように構成され、１つもしくは複数のパラメータ値は、１つもしくは複数の結果値であるか、または１つもしくは複数の結果値に依存する。
信号プロセッサ１３０は、１つまたは複数のパラメータ値に応じて、また、推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、分離オーディオ信号を生成するように構成される。推定される残差信号は、残差オーディオ信号部分のみを含む信号の推定値である。
任意選択的に、一実施形態では、決定モジュール１２０は、例えば、推定される目的信号に応じて、かつオーディオ入力信号および推定される残差信号の少なくとも一方に応じて、１つまたは複数の結果値を決定するように構成されてもよい。

実施形態は、教師あり学習を使用した音質と分離との間のトレードオフに対する知覚的に動機付けられた信号適応制御を提供する。これは、２つの方法で達成することができる。第１の方法は、出力信号の音質を推定し、この推定値を使用して、分離のパラメータまたは分離信号の後処理を適合させる。第２の実施形態では、回帰法は、出力信号の音質が所定の要件を満たすように制御パラメータを直接出力する。
実施形態によれば、音質

の推定値を得るために分離の入力信号および出力信号の分析が行われ、（決定された処理パラメータを使用するときの）出力の音質が規定の音質値を下回らないように

に基づいて処理パラメータを決定する。
いくつかの実施形態では、分析は、（９）の品質尺度

を出力する。品質尺度から、以下の式（１３）の制御パラメータ

が計算され（例えば、スケーリング係数）、最終出力は、以下の式（１３）のように初期出力と入力を混合することによって得られる。計算

は、反復的にまたは回帰によって行うことができ、そこで回帰パラメータは訓練信号セットから学習される、図２参照。実施形態では、スケーリング係数の代わりに、制御パラメータは、例えば、平滑化パラメータなどであってもよい。
いくつかの実施形態では、分析により、（１３）の制御パラメータ

が直接得られる、図３参照。

図４および図５は、さらなる実施形態を定義している。
いくつかの実施形態は、後述するように、後処理ステップにおいて音質の制御を達成する。
本明細書に記載の実施形態のサブセットを、分離方法とは無関係に適用することができる。本明細書に記載のいくつかの実施形態は、分離プロセスのパラメータを制御する。
スペクトル重み付けを使用した音源分離は、時間周波数領域または短時間スペクトル領域の信号を処理する。入力信号

は、短時間フーリエ変換（ＳＴＦＴ）によって変換されるか、またはフィルタバンクによって処理されて、複素数値ＳＴＦＴ係数またはサブバンド信号

をもたらし、式中、

は時間フレームインデックスを表し、

は、周波数ビンインデックスまたはサブバンドインデックスを表す。所望の信号の複素数値ＳＴＦＴ係数またはサブバンド信号は

であり、干渉信号の複素数値ＳＴＦＴ係数またはサブバンド信号は

である。

分離出力信号は、以下のようにスペクトル重み付けによって計算され、

式中、スペクトル重み

は、要素ごとに入力信号と乗算される。その目的は、干渉源

が大きい場合に

の要素を減衰させることである。このために、スペクトル重みを、目的の推定値

または干渉源の推定値

または信号対干渉源比の推定値に基づいて、例えば、以下のように計算することができ、

または

式中、

および

は、分離を制御するパラメータである。例えば、

を大きくすると、干渉源の減衰が大きくなる可能性があるが、音質の劣化も大きくなる可能性がある。スペクトル重みを、例えば、

が閾値よりも大きくなるように閾値処理することによってさらに変更することができる。変更された利得

は、以下のように計算される。

閾値ｖを増加させると、干渉源の減衰が減少し、音質の潜在的な劣化が減少する。
必要な数量（目的

または干渉源

または信号対干渉源比）の推定は、これらの方法の中核であり、過去に様々な推定方法が開発されてきた。それらは、上記の２つの手法のどちらか１つに従う。

は、次いで、ＳＴＦＴまたはフィルタバンクの逆の処理を使用して計算される。

以下では、実施形態による目的信号の推定を使用した音源分離について説明する。
目的信号の表現はまた、例えば人工ニューラルネットワークによって入力信号から直接推定することもできる。人工ニューラルネットワークが目的時間信号、またはそのＳＴＦＴ係数、またはＳＴＦＴ係数の大きさを推定するように訓練されている様々な方法が最近提案されている。
音質に関しては、教師あり学習モデル

を適用してこれらの計算モデルの出力を推定することによって音質成分（ＳｏｕｎｄＱｕａｌｉｔｙＣｏｍｐｏｎｅｎｔ（ＳＱＣ））が取得される。

教師あり学習法

は、以下によって実現される。

１．訓練可能なパラメータ、

個の入力変数および

個の出力変数を用いて教師あり学習モデル

を構成すること、

２．目的

および混合

のための例示的な信号でデータセットを生成すること、
３．音源分離

によって目的信号の推定値を計算すること、
４．（９）または（１０）による音質の計算モデルによって得られた信号から音質成分

を計算すること、

５．教師あり学習モデル

を、推定される目的

（音源分離の出力）および混合

の対応する例示的な信号が与えられた場合に推定値

を出力するように訓練すること。あるいは、教師あり学習モデル

を、

および

が与えられた場合に（

の場合）推定

を出力するように訓練すること。

６．適用において、訓練されたモデルには、音源分離方法を混合

と共に使用して混合

から得られた推定される目的

（音源分離の出力）が供給される。
分離出力信号の品質管理のための教師あり学習法の適用が提供される。

以下では、実施形態による教師あり学習を使用した音質の推定について説明する。
図１ｂに、決定モジュール１２０が人工ニューラルネットワーク１２５を備える一実施形態を示す。人工ニューラルネットワーク１２５は、例えば、推定される目的信号に応じて１つまたは複数の結果値を決定するように構成され得る。人工ニューラルネットワーク１２５は、例えば、推定される目的信号および推定される残差信号およびオーディオ入力信号のうちの少なくとも１つに夫々が依存する複数の入力値を受け取るように構成され得る。人工ニューラルネットワーク１２５は、例えば、１つまたは複数の結果値を、人工ニューラルネットワーク１２５の１つまたは複数の出力値として決定するように構成され得る。
任意選択的に、一実施形態では、人工ニューラルネットワーク１２５は、例えば、推定される目的信号と、オーディオ入力信号および推定される残差信号の少なくとも一方とに応じて、１つまたは複数の結果値を決定するように構成されてもよい。

一実施形態では、複数の入力値の各々は、例えば、推定される目的信号および推定される残差信号およびオーディオ入力信号のうちの少なくとも１つに依存し得る。１つまたは複数の結果値は、例えば、推定される目的信号の推定される音質を示し得る。
一実施形態によれば、複数の入力値の各々は、例えば、推定される目的信号および推定される残差信号およびオーディオ入力信号のうちの少なくとも１つに依存し得る。１つまたは複数の結果値は、例えば、１つまたは複数のパラメータ値であり得る。
一実施形態では、人工ニューラルネットワーク１２５は、例えば、複数の訓練セットを受け取ることによって訓練されるように構成され得、複数の訓練セットの各々が、人工ニューラルネットワーク１２５の複数の入力訓練値および人工ニューラルネットワーク１２５の１つまたは複数の出力訓練値を含み、複数の出力訓練値の各々が、例えば、訓練目的信号および訓練残差信号および訓練入力信号のうちの少なくとも１つに依存し得、１つまたは複数の出力訓練値の各々が、例えば、訓練目的信号の音質の推定に依存し得る。

実施形態において、音質成分の推定値は、教師あり学習モデル（ＳＬＭ）、例えば人工ニューラルネットワーク（ＡＮＮ）１２５を使用した教師あり学習によって取得される。人工ニューラルネットワーク１２５は、例えば、Ａ個のユニットを有する入力層と、各々少なくとも２つのユニットの入力層を有する少なくとも１つの隠れ層と、１つまたは複数のユニットを有する出力層とを備える全結合人工ニューラルネットワーク１２５とすることができる。
教師あり学習モデルを、回帰モデルまたは分類モデルとして実装することができる。回帰モデルは、出力層における１つのユニットの出力において１つの目的値を推定する。あるいは、回帰問題を、出力値を少なくとも３ステップに量子化し、

が量子化ステップの数に等しい

個のユニットを有する出力層を使用することによって、分類問題として定式化することもできる。
量子化ステップごとに、１つの出力ユニットが使用される。

教師あり学習モデルは、まず、混合信号

、推定目的

、および音質成分

の複数の例を含むデータセットで訓練され、音質成分は、例えば、推定される目的

および真の目的

から計算されたものである。データセットの１つは

で表される。教師あり学習モデルの出力は、ここでは

で表される。

入力層のユニットの数

は、入力値の数に対応する。モデルへの入力は、入力信号から計算される。各信号を、時間周波数変換のフィルタバンク、例えば短期フーリエ変換（ＳＴＦＴ）によって任意選択的に処理することができる。例えば、入力を、

および

からの

個の隣接フレームから計算されたＳＴＦＴ係数を連結することによって構築することができ、

または

である。１フレーム当たりのスペクトル係数の総数を

とすると、入力係数の総数は

である。

人工ニューラルネットワーク１２５の各ユニットは、その出力を、次に非線形圧縮関数で任意選択的に処理される入力値の線形結合として計算し、

式中、

は、単一ニューロンの出力を表し、

は、

個の入力値を表し、

は、線形結合の

個の重みを表し、

は、

個の追加バイアス項を表す。第１の隠れ層内のユニットについて、入力値の数

は入力係数の数Ｄに等しい。すべての

および

は、訓練手順で決定される人工ニューラルネットワーク１２５のパラメータである。
ある層のユニットは、次の層のユニットに接続され、先行する層のユニットの出力は、次の層のユニットへの入力である。

訓練は、数値最適化法、例えば勾配降下法を使用して予測誤差を最小化することによって実行される。単一項目の予測誤差は、差分

の関数である。最適化基準に使用される全データセットまたはデータセットのサブセットにわたる予測誤差は、例えば、平均二乗誤差ＭＳＥまたは平均絶対誤差ＭＡＥであり、

は、データセット内の項目の数を表す。

他の誤差メトリックは、それらが

の単調関数であり、微分可能である場合に訓練の目的で実行可能である。また、人工ニューラルネットワークを構築するための他の構造および要素、例えば、畳み込みニューラルネットワーク層や再帰型ニューラルネットワーク層も存在する。
これらはすべて、多次元入力から一次元または多次元出力への写像を実施し、写像関数は、スカラー基準を最適化することによって訓練手順で決定されるパラメータセット（例えば、

や

）によって制御されるという共通点を有する。
訓練後、教師あり学習モデルを、真の目的

を必要とせずに混合を与えられた場合の未知の推定される目的

の音質の推定に使用することができる。

音質の計算モデルに関して、［１］～［１１］に記載されている計算モデル、特に、ブラインド音源分離評価（ＢＳＳＥｖａｌ）（［１］参照）、音源分離のための知覚評価方法（ＰＥＡＳＳ）（［２］参照）、ＰＥＭＯ－Ｑ（［３］参照）、音質の知覚評価（ＰＥＡＱ）（［４］参照）、音声品質の知覚評価（ＰＥＳＱ）（［５］および［６］参照）、ＶｉＳＱＯＬＡｕｄｉｏ（［７］参照）、補聴器音質指数（ＨＡＡＱＩ）（［８］参照）、補聴器音声品質指数（ＨＡＳＱＩ）（［９］参照）、補聴器音声知覚指数（ＨＡＳＰＩ）（［１０］参照）、および短時間客観明瞭度（ＳＴＯＩ）（［１１］参照）など、（明瞭度を含む）音質の態様を推定するための様々な計算モデルが、実施形態に従った実験において首尾よく使用されている。
よって、一実施形態によれば、訓練目的信号の音質の推定は、例えば、音質の１つまたは複数の計算モデルに依存し得る。

例えば、一実施形態では、訓練目的信号の音質の推定は、例えば、以下の音質の計算モデルのうちの１つまたは複数に依存し得る。
ブラインド音源分離評価、
音源分離のための知覚評価方法、
音質の知覚評価、
音声品質の知覚評価、
仮想音声品質客観聴取者オーディオ、
補聴器音質指数、
補聴器音声品質指数、
補聴器音声知覚指数、および
短時間客観明瞭度。
例えば、他の実施形態では音質の他の計算モデルも使用され得る。

以下では、音質の制御について説明する。
音質の制御は、音質成分を推定し、音質成分推定値に基づいて処理パラメータを計算することによって、または音質成分が目的値

を満たす（かまたはその目的を下回らない）ように最適な処理パラメータを直接推定することによって実施することができる。
以上では、音質成分の推定について説明した。同様に、最適な処理パラメータを、最適な処理パラメータの所望の値で回帰法を訓練することによって推定することができる。最適な処理パラメータは、後述するように計算される。この処理を、以下ではパラメータ推定モジュール（ＰａｒａｍｅｔｅｒＥｓｔｉｍａｔｉｏｎＭｏｄｕｌｅ（ＰＥＭ））と呼ぶ。

音質

の目的値は、分離と音質との間のトレードオフを決定する。このパラメータをユーザが制御することができ、またはこのパラメータは音響再生シナリオに応じて指定される。高品質の機器による静かな環境の家庭での音響再生は、より高い音質およびより低い分離から利益を得る可能性がある。スマートフォンに組み込まれたラウドスピーカによる雑音環境の車両での音響再生は、より低い音質であるが、より高い分離および音声明瞭度から利益を得る可能性がある。
また、推定量（音質成分または処理パラメータのどちらか）を、後処理の制御または二次分離の制御のどちらかにさらに適用することもできる。
ゆえに、４つの異なる概念を、提案の方法の実施のために使用することができる。これらの概念が、図２、図３、図４、および図５に示されており、これらの概念を以下で説明する。

図２に、音質の推定を使用するように構成され、後処理を行うように構成された一実施形態による装置を示す。
そのような実施形態によれば、決定モジュール１２０は、例えば、推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、音質値を１つまたは複数の結果値として推定するように構成され得、音質値は推定される目的信号の推定される音質を示す。決定モジュール１２０は、例えば、音質値に応じて１つまたは複数のパラメータ値を決定するように構成され得る。
よって、一実施形態によれば、決定モジュール１２０は、例えば、推定される目的信号の推定される音質に応じて、制御パラメータを１つまたは複数のパラメータ値として決定するように構成され得る。信号プロセッサ１３０は、例えば、制御パラメータに応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、分離オーディオ信号を決定するように構成され得る。

以下では、特定の実施形態について説明する。
第１のステップで、分離が適用される。分離信号および未処理の信号は、品質推定モジュール（ＱｕａｌｉｔｙＥｓｔｉｍａｔｉｏｎＭｏｄｕｌｅ（ＱＥＭ））への入力である。ＱＥＭは、音質成分の推定値

を計算する。
推定される音質成分

は、後処理を制御するためのパラメータセット

を計算するために使用される。
変数

、

、および

は時間的に変化し得るが、以下では明確な表記のために時間依存性を省く。
そのような後処理は、例えば、入力信号のスケーリングまたはフィルタリングされたコピーを出力信号のスケーリングまたはフィルタリングされたコピーに加算し、それによって干渉信号の減衰（例えば、分離の影響）を低減すること、例えば、

であり、式中、パラメータ

は分離量を制御する。

他の実施形態では、式：

が、例えば、用いられてもよく、式中、

は推定される残差信号である。
分離を低減させると、
１）アーチファクトの量が低減され、
２）分離アーチファクトをマスクする干渉音の漏れが増加する。
よって、一実施形態では、信号プロセッサ１３０は、例えば、式（１３）に応じて分離オーディオ信号を決定するように構成され得、式中、

は分離オーディオ信号であり、

は推定される目的信号であり、

はオーディオ入力信号であり、

は制御パラメータであり、

は指数である。

パラメータは、音質の推定値

および目的品質尺度

を与件として以下のように計算される。

この関数ｆは、例えば、以下の疑似コードによって示されるように、反復拡張探索とすることができる。

あるいは、関係

を、以下によって計算することもできる。

１．値セット

、

の

を計算すること

２．内挿および外挿によって

の残りの値を計算すること。
例えば、処理パラメータ

が式（１３）のように後処理を制御している場合、

は、例えば、

の相対増幅の１８ｄＢ、１２ｄＢ、および６ｄＢに対応する

の固定数の値について計算される。
したがって、写像

が近似され、

を選択することができる。

要約すると、一実施形態では、信号プロセッサ１３０は、例えば、分離オーディオ信号を、分離オーディオ信号の第１のバージョンを決定することによって、かつ分離オーディオ信号を１または複数回変更して分離オーディオ信号の１つまたは複数の中間バージョンを取得することによって生成するように構成され得る。決定モジュール１２０は、例えば、分離オーディオ信号の１つまたは複数の中間値のうちの１つに応じて音質値を変更するように構成され得る。信号プロセッサ１３０は、例えば、音質値が規定の音質値以上である場合、分離オーディオ信号の変更を停止するように構成され得る。

図３に、後処理パラメータの直接推定が行われる、別の実施形態による装置を示す。
まず、分離が適用される。分離信号は、パラメータ推定モジュール（ＰＥＭ）への入力である。推定されるパラメータは、後処理を制御するために適用される。ＰＥＭは、分離信号

および入力信号

からｐ（ｎ）を直接推定するように訓練されている。これは、式（１４）の演算が訓練段階に移動され、回帰法が、

の代わりに

を推定するように訓練されることを意味する。したがって、以下の関数が学習される。

この手順には、上述した手順とは対照的に、計算が少なくて済むという利点があることは明らかである。これには、モデルが

の固定された設定について訓練されるため、柔軟性が低いという犠牲を伴う。しかしながら、いくつかのモデルを、異なる値の

で訓練することができる。そのようにして、

の選択に関する最終的な柔軟性を保持することができる。
一実施形態では、信号プロセッサ１３０は、例えば、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号の後処理に応じて分離オーディオ信号を生成するように構成され得る。

図４に、音質および二次分離の推定が行われる、さらなる実施形態による装置を示す。
まず、分離が適用される。分離信号は、ＱＥＭへの入力である。推定される音質成分は、二次分離を制御するためのパラメータセットを計算するために使用される。二次分離

への入力は、入力信号

または第１の分離の出力

のどちらか、それら２つの線形結合

であり、式中、

および

は、重み付けパラメータまたは第１の分離からの中間結果である。

よって、そのような実施形態では、信号プロセッサ１３０は、例えば、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号とオーディオ入力信号との線形結合に応じて分離オーディオ信号を生成するように構成され得るか、または信号プロセッサ１３０は、例えば、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号と推定される残差信号との線形結合に応じて分離オーディオ信号を生成するように構成され得る。
二次分離を制御するための適切なパラメータは、例えば、スペクトル重みを変更するパラメータである。

図５に、分離パラメータの直接推定が行われる、別の実施形態による装置を示す。
まず、分離が適用される。分離信号は、ＰＥＭへの入力である。推定されるパラメータは、二次分離を制御する。
二次分離ｚ（ｎ）への入力は、入力信号ｘ（ｎ）または第１の分離の出力

または
、それら２つの線形結合

であり、式中、

および

は、重み付けパラメータまたは第１の分離からの中間結果である。
例えば、以下のパラメータが制御される：上記の式（５）、（６）からの

および

ならびに

。

実施形態による反復処理に関して、図４および図５は、１回の反復による反復処理を示している。一般には、これを複数回繰り返し、ループとして実装することができる。
反復処理（間に品質推定なし）は、複数の分離を連結する他の先行する方法と非常に似ている。
そのような手法は、例えば、複数の異なる方法を組み合わせるのに適し得る（１つの方法を繰り返すよりも優れている）。

いくつかの態様が装置の文脈で説明されているが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明も表していることは明らかである。同様に、方法ステップの文脈で説明された態様も、対応するブロックもしくは項目または対応する装置の特徴の説明を表している。方法ステップの一部または全部が、例えば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路のようなハードウェア装置によって（またはハードウェア装置を使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちの１つまたは複数がそのような装置によって実行され得る。
特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアで、または少なくとも部分的にハードウェアで、または少なくとも部分的にソフトウェアで実施することができる。実施態様は、それぞれの方法が行われるようにプログラマブルコンピュータシステムと協働する（または協働することができる）、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、Ｂｌｕ－Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ可読であり得る。

本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの１つが行われるように、プログラマブルコンピュータシステムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると、方法のうちの１つを行うように動作する。プログラムコードは、例えば、機械可読キャリアに格納され得る。
他の実施形態は、機械可読キャリアに格納された、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムを含む。
言い換えると、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作するときに本明細書に記載される方法のうちの１つを行うためのプログラムコードを有するコンピュータプログラムである。

本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムを含み、記録されているデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録された媒体は通常、有形および／または非一時的である。
本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成され得る。
さらなる実施形態は、本明細書に記載される方法のうちの１つを行うように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを含む。

さらなる実施形態は、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記載される方法のうちの１つを行うためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載される方法の機能の一部または全部が行われ得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書に記載される方法のうちの１つを行うためにマイクロプロセッサと協働し得る。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって行われる。

本明細書に記載される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実施され得る。
本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して行われ得る。
上述した実施形態は、本発明の原理の単なる例示である。当業者には本明細書に記載される構成および詳細の改変および変形が明らかになることを理解されたい。したがって、本明細書において実施形態の記述および説明として提示された具体的な詳細によってではなく、次の特許請求の範囲によってのみ限定されることが意図されている。

参考文献：
［１］Ｅ．Ｖｉｎｃｅｎｔ，Ｒ．Ｇｒｉｂｏｎｖａｌ，ａｎｄＣ．Ｆｅｖｏｔｔｅ，’’Ｐｅｒｆｏｒｍａｎｃｅｍｅａｓｕｒｅｍｅｎｔｉｎｂｌｉｎｄａｕｄｉｏｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ，’’ ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１４，ｎｏ．４，ｐｐ．１４６２－１４６９，２００６．
［２］Ｖ．Ｅｍｉｙａ，Ｅ．Ｖｉｎｃｅｎｔ，Ｎ．Ｈａｒｌａｎｄｅｒ，ａｎｄＶ．Ｈｏｈｍａｎｎ，’’Ｓｕｂｊｅｃｔｉｖｅａｎｄｏｂｊｅｃｔｉｖｅｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｏｆａｕｄｉｏｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ，’’ ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓ．，ｖｏｌ．１９，ｎｏ．７，２０１１．

［３］Ｒ．ＨｕｂｅｒａｎｄＢ．Ｋｏｌｌｍｅｉｅｒ，’’ＰＥＭＯ－Ｑ－ａｎｅｗｍｅｔｈｏｄｆｏｒｏｂｊｅｃｔｉｖｅａｕｄｉｏｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｕｓｉｎｇａｍｏｄｅｌｏｆａｕｄａｔｏｒｙｐｅｒｃｅｐｔｉｏｎ，’’ ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓ．，ｖｏｌ．１４，２００６．
［４］ＩＴＵ－ＲＲｅｃ．ＢＳ．１３８７－１，’’Ｍｅｔｈｏｄｆｏｒｏｂｊｅｃｔｉｖｅｍｅａｓｕｒｅｍｅｎｔｓｏｆｐｅｒｃｅｉｖｅｄａｕｄｉｏｑｕａｌｉｔｙ，’’ ２００１．
［５］ＩＴＵ－ＴＲｅｃ．Ｐ．８６２，’’Ｐｅｒｃｅｐｔｕａｌｅｖａｌｕａｔｉｏｎｏｆｓｐｅｅｃｈｑｕａｌｉｔｙ（ＰＥＳＱ）：Ａｎｏｂｊｅｃｔｉｖｅｍｅｔｈｏｄｆｏｒｅｎｄ－ｔｏ－ｅｎｄｓｐｅｅｃｈｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｏｆｎａｒｒｏｗ－ｂａｎｄｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋｓａｎｄｓｐｅｅｃｈｃｏｄｅｃｓ，’’ ２００１．

［６］ＩＴＵ－ＴＲｅｃ．Ｐ．８６２．１，’’ＭａｐｐｉｎｇｆｕｎｃｔｉｏｎｆｏｒｔｒａｎｓｆｏｒｍｉｎｇＰ．８６２ｒａｗｒｅｓｕｌｔｓｓｃｏｒｅｓｔｏＭＯＳ－ＬＱＯ，’’ ２００３．
［７］Ａ．Ｈｉｎｅｓ，Ｅ．Ｇｉｌｌｅｎｅｔａｌ．，’’ＶｉＳＱＯＬＡｕｄｉｏ：ＡｎＯｂｊｅｃｔｉｖｅＡｕｄｉｏＱｕａｌｉｔｙＭｅｔｒｉｃｆｏｒＬｏｗＢｉｔｒａｔｅＣｏｄｅｃｓ，’’ Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．１３７，ｎｏ．６，２０１５．
［８］Ｊ．Ｍ．ＫａｔｅｓａｎｄＫ．Ｈ．Ａｒｅｈａｒｔ，’’ＴｈｅＨｅａｒｉｎｇ－ＡｉｄＡｕｄｉｏＱｕａｌｉｔｙＩｎｄｅｘ（ＨＡＡＱＩ），’’ ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓ．，ｖｏｌ．２４，ｎｏ．２，２０１６，ｅｖａｌｕａｔｉｏｎｃｏｄｅｋｉｎｄｌｙｐｒｏｖｉｄｅｄｂｙＰｒｏｆ．Ｊ．Ｍ．Ｋａｔｅｓ．

［９］Ｊ．Ｍ．ＫａｔｅｓａｎｄＫ．Ｈ．Ａｒｅｈａｒｔ，’’ＴｈｅＨｅａｒｉｎｇ－ＡｉｄＳｐｅｅｃｈＱｕａｌｉｔｙＩｎｄｅｘ（ＨＡＳＱＩ）ｖｅｒｓｉｏｎ２，’’ ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，ｖｏｌ．６２，ｎｏ．３，ｐｐ．９９－１１７，２０１４．
［１０］Ｊ．Ｍ．ＫａｔｅｓａｎｄＫ．Ｈ．Ａｒｅｈａｒｔ，’’ＴｈｅＨｅａｒｉｎｇ－ＡｉｄＳｐｅｅｃｈＰｅｒｃｅｐｔｉｏｎＩｎｄｅｘ（ＨＡＳＰＩ），’’ ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，ｖｏｌ．６５，ｐｐ．７５－９３，２０１４．
［１１］Ｃ．Ｔａａｌ，Ｒ．Ｈｅｎｄｒｉｋｓ，Ｒ．Ｈｅｕｓｄｅｎｓ，ａｎｄＪ．Ｊｅｎｓｅｎ，’’Ａｎａｌｇｏｒｉｔｈｍｆｏｒｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙｐｒｅｄｉｃｔｉｏｎｏｆｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｗｅｉｇｈｔｅｄｎｏｉｓｙｓｐｅｅｃｈ，’’ ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓ．，ｖｏｌ．１９，ｎｏ．７，２０１１．
［１２］Ｅ．Ｍａｎｉｌｏｗ，Ｐ．Ｓｅｅｔｈａｒａｍａｎ，Ｆ．Ｐｉｓｈｄａｄｉａｎ，ａｎｄＢ．Ｐａｒｄｏ，’’Ｐｒｅｄｉｃｔｉｎｇａｌｇｏｒｉｔｈｍｅｆｆｉｃａｃｙｆｏｒａｄａｐｔｉｖｅｍｕｌｔｉ－ｃｕｅｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ，’’ ｉｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ（ＷＡＳＰＡＡ），２０１７ＩＥＥＥＷｏｒｋｓｈｏｐｏｎ，２０１７，ｐｐ．２７４－２７８．

［１３］Ｍ．Ｃａｒｔｗｒｉｇｈｔ，Ｂ．Ｐａｒｄｏ，Ｇ．Ｊ．Ｍｙｓｏｒｅ，ａｎｄＭ．Ｈｏｆｆｍａｎ，’’Ｆａｓｔａｎｄｅａｓｙｃｒｏｗｄｓｏｕｒｃｅｄｐｅｒｃｅｐｔｕａｌａｕｄｉｏｅｖａｌｕａｔｉｏｎ，’’ ｉｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１６ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，２０１６．
［１４］Ｓ．－Ｗ．Ｆｕ，Ｔ．－Ｗ．Ｗａｎｇ，Ｙ．Ｔｓａｏ，Ｘ．Ｌｕ，ａｎｄＨ．Ｋａｗａｉ，’’Ｅｎｄ－ｔｏ－ｅｎｄｗａｖｅｆｏｒｍｕｔｔｅｒａｎｃｅｅｎｈａｎｃｅｍｅｎｔｆｏｒｄｉｒｅｃｔｅｖａｌｕａｔｉｏｎｍｅｔｒｉｃｓｏｐｔｉｍｉｚａｔｉｏｎｂｙｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，’’ ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＴＡＳＬＰ），ｖｏｌ．２６，ｎｏ．９，２０１８．

［１５］Ｙ．Ｋｏｉｚｕｍｉ，Ｋ．Ｎｉｗａ，Ｙ．Ｈｉｏｋａ，Ｋ．Ｋｏａｂａｙａｓｈｉ，ａｎｄＹ．Ｈａｎｅｄａ，’’Ｄｎｎ－ｂａｓｅｄｓｏｕｒｃｅｅｎｈａｎｃｅｍｅｎｔｔｏｉｎｃｒｅａｓｅｏｂｊｅｃｔｉｖｅｓｏｕｎｄｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｓｃｏｒｅ，’’ ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２０１８．
［１６］Ｙ．Ｚｈａｏ，Ｂ．Ｘｕ，Ｒ．Ｇｉｒｉ，ａｎｄＴ．Ｚｈａｎｇ，’’Ｐｅｒｃｅｐｔｕａｌｌｙｇｕｉｄｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｕｓｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ，’’ ｉｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，２０１８．

［１７］Ｙ．Ｋｏｉｚｕｍｉ，Ｋ．Ｎｉｗａ，Ｙ．Ｈｉｏｋａ，Ｋ．Ｋｏｂａｙａｓｈｉ，ａｎｄＹ．Ｈａｎｅｄａ，’’Ｄｎｎ－ｂａｓｅｄｓｏｕｒｃｅｅｎｈａｎｃｅｍｅｎｔｓｅｌｆ－ｏｐｔｉｍｉｚｅｄｂｙｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｕｓｉｎｇｓｏｕｎｄｑｕａｌｉｔｙｍｅａｓｕｒｅｍｅｎｔｓ，’’ ｉｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１７ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，２０１７．
［１８］Ｊ．ＪｅｎｓｅｎａｎｄＭ．Ｓ．Ｐｅｄｅｒｓｅｎ，’’Ａｕｄｉｏｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｃｏｍｐｒｉｓｉｎｇａｒｔｉｆａｃｔｒｅｄｕｃｔｉｏｎ，’’ ＵＳＰａｔｅｎｔＵＳ９，４３２，７６６Ｂ２，Ａｕｇ．３０，２０１６．

本発明の目的は、音源分離のための改善された概念を提供することである。本発明の目的は、請求項１に記載の装置、請求項１５に記載の方法、および請求項１６に記載のコンピュータプログラムによって解決される。

オーディオ入力信号から分離オーディオ信号を生成するための装置が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。装置は、音源分離器と、決定モジュールと、信号プロセッサとを備える。音源分離器は、オーディオ入力信号に依存する推定される目的信号を決定するように構成され、推定される目的信号は、目的オーディオ信号部分のみを含む信号の推定値である。決定モジュールは、１つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて１つもしくは複数の結果値を決定するように構成され、１つもしくは複数のパラメータ値は、１つもしくは複数の結果値であるか、または１つもしくは複数の結果値に依存する。信号プロセッサは、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、分離オーディオ信号を生成するように構成され、推定される残差信号は、残差オーディオ信号部分のみを含む信号の推定値である。
さらに、オーディオ入力信号から分離オーディオ信号を生成するための方法が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。
さらに、信号プロセッサが、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号とオーディオ入力信号との線形結合に応じて分離オーディオ信号を生成するように構成されるか、または信号プロセッサが、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号と推定される残差信号との線形結合に応じて分離オーディオ信号を生成する。方法は以下を含む：
オーディオ入力信号に依存する推定される目的信号を決定するステップであって、推定される目的信号が、目的オーディオ信号部分のみを含む信号の推定値である、ステップ。
１つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて１つもしくは複数の結果値を決定するステップであって、１つもしくは複数のパラメータ値が、１つもしくは複数の結果値であるか、または１つもしくは複数の結果値に依存する、ステップ。ならびに：
１つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、分離オーディオ信号を生成するステップであって、推定される残差信号が、残差オーディオ信号部分のみを含む信号の推定値である、ステップ。
さらに、分離オーディオ信号を生成するステップは、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号とオーディオ入力信号との線形結合に応じて実行し、または、分離オーディオ信号を生成するステップは、１つまたは複数のパラメータ値に応じて、かつ推定される目的信号と推定される残差信号との線形結合に応じて実行する。
さらに、コンピュータまたは信号プロセッサ上で実行されるときに上述の方法を実施するためのコンピュータプログラムが提供される。

Claims

オーディオ入力信号から分離オーディオ信号を生成するための装置であって、前記オーディオ入力信号が、目的オーディオ信号部分および残差オーディオ信号部分を含み、前記残差オーディオ信号部分が、前記オーディオ入力信号と前記目的オーディオ信号部分との間の残差を示し、前記装置が、
前記オーディオ入力信号に依存する推定される目的信号を決定するための音源分離器（１１０）であって、前記推定される目的信号が、前記目的オーディオ信号部分のみを含む信号の推定値である、音源分離器（１１０）と、
決定モジュール（１２０）であって、１つもしくは複数のパラメータ値を取得するために、前記推定される目的信号の推定される音質に応じて１つもしくは複数の結果値を決定するように構成され、前記１つもしくは複数のパラメータ値が、前記１つもしくは複数の結果値であるか、または１つもしくは複数の結果値に依存する、決定モジュール（１２０）と、
前記１つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号および前記オーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、前記分離オーディオ信号を生成するための信号プロセッサ（１３０）であって、前記推定される残差信号が、前記残差オーディオ信号部分のみを含む信号の推定値である、信号プロセッサ（１３０）と
を備える、装置。
前記決定モジュール（１２０）が、前記推定される目的信号の前記推定される音質に応じて、制御パラメータを前記１つまたは複数のパラメータ値として決定するように構成され、
前記信号プロセッサが、前記制御パラメータに応じて、かつ前記推定される目的信号および前記オーディオ入力信号および前記推定される残差信号のうちの少なくとも１つに応じて、前記分離オーディオ信号を決定するように構成される、
請求項１に記載の装置。
前記信号プロセッサ（１３０）が、前記分離オーディオ信号を、

、に応じて、または

、に応じて決定するように構成され、
式中、ｙは、前記分離オーディオ信号であり、
式中、

は、前記推定される目的信号であり、
式中、

は、前記オーディオ入力信号であり、
式中、

は、前記推定される残差信号であり、
式中、

は、前記制御パラメータであり、
式中、

は、指数である、
請求項２に記載の装置。
前記決定モジュール（１２０）が、前記推定される目的信号および前記オーディオ入力信号および前記推定される残差信号のうちの少なくとも１つに応じて、音質値を前記１つまたは複数の結果値として推定するように構成され、前記音質値が前記推定される目的信号の前記推定される音質を示し、
前記決定モジュール（１２０）が、前記音質値に応じて前記１つまたは複数のパラメータ値を決定するように構成される、
請求項２または３に記載の装置。
前記信号プロセッサ（１３０）が、前記分離オーディオ信号を、前記分離オーディオ信号の第１のバージョンを決定することによって、かつ前記分離オーディオ信号を１または複数回変更して前記分離オーディオ信号の１つまたは複数の中間バージョンを取得することによって生成するように構成され、
前記決定モジュール（１２０）が、前記分離オーディオ信号の前記１つまたは複数の中間値のうちの１つに応じて前記音質値を変更するように構成され、
前記信号プロセッサ（１３０）が、音質値が規定の音質値以上である場合、前記分離オーディオ信号の変更を停止するように構成される、
請求項４に記載の装置。
前記決定モジュール（１２０）が、前記推定される目的信号に応じて、かつ前記オーディオ入力信号および前記推定される残差信号の少なくとも一方に応じて、前記１つまたは複数の結果値を決定するように構成される、
請求項１～５のいずれか一項に記載の装置。
前記決定モジュール（１２０）が、前記推定される目的信号に応じて前記１つまたは複数の結果値を決定するための人工ニューラルネットワーク（１２５）を備え、前記人工ニューラルネットワーク（１２５）が、複数の入力値の各々が前記推定される目的信号および前記推定される残差信号および前記オーディオ入力信号のうちの少なくとも１つに依存する、前記複数の入力値を受け取るように構成され、前記人工ニューラルネットワーク（１２５）が、前記１つまたは複数の結果値を、前記人工ニューラルネットワーク（１２５）の１つまたは複数の出力値として決定するように構成される、
請求項１～６のいずれか一項に記載の装置。
前記複数の入力値の各々が、前記推定される目的信号および前記推定される残差信号および前記オーディオ入力信号のうちの少なくとも１つに依存し、
前記１つまたは複数の結果値が、前記推定される目的信号の前記推定される音質を示す、
請求項７に記載の装置。
前記複数の入力値の各々が、前記推定される目的信号および前記推定される残差信号および前記オーディオ入力信号のうちの少なくとも１つに依存し、
前記１つまたは複数の結果値が、前記１つまたは複数のパラメータ値である、
請求項７に記載の装置。
前記人工ニューラルネットワーク（１２５）が、複数の訓練セットを受け取ることによって訓練されるように構成され、前記複数の訓練セットの各々が、前記人工ニューラルネットワーク（１２５）の複数の入力訓練値および前記人工ニューラルネットワーク（１２５）の１つまたは複数の出力訓練値を含み、前記複数の出力訓練値の各々が、訓練目的信号および訓練残差信号および訓練入力信号のうちの少なくとも１つに依存し、前記または複数の出力訓練値の各々が、前記訓練目的信号の音質の推定に依存する、
請求項７～９のいずれか一項に記載の装置。
前記訓練目的信号の前記音質の前記推定が、音質の１つまたは複数の計算モデルに依存する、
請求項１０に記載の装置。
音質の前記１つまたは複数の計算モデルが、
ブラインド音源分離評価、
音源分離のための知覚評価方法、
音質の知覚評価、
音声品質の知覚評価、
仮想音声品質客観聴取者オーディオ、
補聴器音質指数、
補聴器音声品質指数、
補聴器音声知覚指数、および
短時間客観明瞭度
のうちの少なくとも１つである、
請求項１１に記載の装置。
前記人工ニューラルネットワーク（１２５）が、前記推定される目的信号に応じて、かつ前記オーディオ入力信号および前記推定される残差信号の少なくとも一方に応じて、前記１つまたは複数の結果値を決定するように構成される、
請求項７～１２のいずれか一項に記載の装置。
前記信号プロセッサ（１３０）が、前記１つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号の後処理に応じて前記分離オーディオ信号を生成するように構成される、
請求項１～１３のいずれか一項に記載の装置。
前記信号プロセッサ（１３０）が、前記１つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号と前記オーディオ入力信号との線形結合に応じて前記分離オーディオ信号を生成するように構成されるか、または
前記信号プロセッサ（１３０）が、前記１つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号と前記推定される残差信号との線形結合に応じて前記分離オーディオ信号を生成するように構成される、
請求項１～１４のいずれか一項に記載の装置。
オーディオ入力信号から分離オーディオ信号を生成するための方法であって、前記オーディオ入力信号が、目的オーディオ信号部分および残差オーディオ信号部分を含み、前記残差オーディオ信号部分が、前記オーディオ入力信号と前記目的オーディオ信号部分との間の残差を示し、前記方法が、
前記オーディオ入力信号に依存する推定される目的信号を決定するステップであって、前記推定される目的信号が、前記目的オーディオ信号部分のみを含む信号の推定値である、ステップと、
１つもしくは複数のパラメータ値を取得するために、前記推定される目的信号の推定される音質に応じて１つもしくは複数の結果値を決定するステップであって、前記１つもしくは複数のパラメータ値が、前記１つもしくは複数の結果値であるか、または前記１つもしくは複数の結果値に依存する、ステップと、
前記１つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号および前記オーディオ入力信号および推定される残差信号のうちの少なくとも１つに応じて、前記分離オーディオ信号を生成するステップであって、前記推定される残差信号が、前記残差オーディオ信号部分のみを含む信号の推定値である、ステップ
を含む、方法。
コンピュータまたは信号プロセッサ上で実行されたときに請求項１６に記載の方法を実施するためのコンピュータプログラム。