JP2022514878A - 音質の推定および制御を使用した音源分離のための装置および方法 - Google Patents
音質の推定および制御を使用した音源分離のための装置および方法 Download PDFInfo
- Publication number
- JP2022514878A JP2022514878A JP2021535739A JP2021535739A JP2022514878A JP 2022514878 A JP2022514878 A JP 2022514878A JP 2021535739 A JP2021535739 A JP 2021535739A JP 2021535739 A JP2021535739 A JP 2021535739A JP 2022514878 A JP2022514878 A JP 2022514878A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- estimated
- audio
- residual
- sound quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 79
- 238000000926 separation method Methods 0.000 title claims description 73
- 230000005236 sound signal Effects 0.000 claims abstract description 101
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012805 post-processing Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 12
- 230000008878 coupling Effects 0.000 claims description 8
- 238000010168 coupling process Methods 0.000 claims description 8
- 238000005859 coupling reaction Methods 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 8
- 238000005094 computer simulation Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 239000000203 mixture Substances 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 206010011878 Deafness Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000000969 carrier Substances 0.000 description 3
- 208000016354 hearing loss disease Diseases 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 231100000895 deafness Toxicity 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
オーディオ信号の音源分離はこれまで行われてきた。
オーディオ信号の音源分離は、以下のように混合信号
が与えられた場合の目的信号
を得ることを目的とし、
式中、
は、すべての干渉信号を含み、以下ではこれらを「干渉信号」と呼ぶ。分離の出力
は、以下のような目的信号の推定値
であり、
場合によってはこれに加えて、干渉信号の推定値
でもある。
これには、導入されるアーチファクトがより少なく、干渉信号の漏れが知覚されるアーチファクトを部分的にマスクするので、完全に分離された信号よりも音質が高いという追加の利点がある。
オーディオ信号を部分的にマスクすることは、その音の大きさ(例えば、その知覚される強度)が部分的に低減されることを意味する。大きな減衰を達成するよりもむしろ、出力の音質が規定の音質レベルを下回らないことがさらに求められ、必要とされる可能性がある。
そのような用途の一例が会話(dialog)の強調である。テレビ、ラジオ放送および映画の音声におけるオーディオ信号は、多くの場合、音声信号と背景信号、例えば環境音や音楽の混合である。これらの信号が、音声のレベルが背景のレベルと比較して低すぎるように混合されると、聴取者が言われたことを理解するのが困難になる可能性があり、または理解するのに非常に大きな聴取努力を必要とし、聴取者を疲労させることになる。そのようなシナリオでは、背景のレベルを自動的に低減するための方法を適用することができるが、結果は高音質のものでなければならない。
および
である入力信号の特性を記述する。混合モデルは、ここでは加算によって、入力信号が混合信号
を生成するためにどのように組み合わされるかの特性を記述する。
これらの仮定に基づいて、方法が分析的または発見的に設計される。例えば、独立成分分析の方法は、混合が統計的に独立した2つの音源を含み、混合が2つのマイクロホンによって取り込まれており、混合が、両方の信号を加算する(瞬時混合を生成する)ことによって導出されていると仮定することによって導出することができる。混合の逆のプロセスが、次いで、混合行列の反転として数学的に導出され、この分離行列の要素は指定された方法に従って計算される。ほとんどの分析的に導出された方法は、分離問題を基準の数値最適化、例えば、真の目的と推定される目的との間の平均二乗誤差として定式化することによって導出される。
音源分離に関して、平均二乗誤差において最適であるか、または任意の他の数値基準に関して最適である解は、必ずしも人間の聴取者によって好まれる最高音質を有する解ではない。
音質は、推定する、例えば、聴取試験によって、または音質の計算モデルによって定量化することができる。音質には複数の態様があり、以下ではこれを音質成分(Sound Quality Component(SQC))と呼ぶ。
例えば、音質は、知覚されるアーチファクト(これらは、信号処理、例えば音源分離によって導入された、音質を低下させる信号成分である)の強度によって決定される。
または、例えば、音質は、知覚される干渉信号の強度によって、または、例えば、(目的信号が音声である場合の)音声明瞭度によって、または、例えば、全体的な音質によって決定される。
音質成分
(の推定値)を計算する音質の様々な計算モデルが存在し、式中、Mは音質成分の数を表す。
そのような方法は、通常、目的信号および目的信号の推定値を与えられた場合の音質成分
または干渉信号も与えられた場合の音質成分
を推定する。
実際の用途では、目的信号
(および干渉信号
)は利用できず、そうでなければ分離は必要とされないはずである。入力信号
および目的信号の推定値
しか利用できない場合、これらの方法では音質成分を計算することができない。
ブラインド音源分離評価(Blind Source Separation Evaluation(BSSEval))([1]参照)は、多基準性能評価ツールボックスである。推定された信号は、直交射影によって、目的信号成分と、他の音源からの干渉と、アーチファクトとに分解される。メトリックは、これらの成分のエネルギー比として計算され、dB単位で表される。これらは、音源対歪み比(Source to Distortion Ratio(SDR))、音源対干渉比(Source to Interference Ratio(SIR))および音源対アーチファクト比(Source to Artifact Ratio(SAR))である。
音源分離のための知覚評価方法(Perceptual Evaluation methods for Audio Source Separation(PEASS))([2]参照)は、BSSEvalの知覚的に動機付けされる後継法として設計された。信号射影は、時間セグメントに対して、ガンマトーンフィルタバンクを用いて実行される。
音質の知覚評価(Perceptual Evaluation of Audio Quality(PEAQ))([4]参照)は、オーディオ符号化のために設計されたメトリックである。PEAQでは、参照信号および試験信号の頭蓋膜表現を計算するために、末梢耳モデルを使用する。これらの表現間の差分の態様は、いくつかの出力変数によって定量化される。主観的データで訓練されたニューラルネットワークによって、これらの変数は組み合わされて主出力、例えば、全体的な差分値(Overall Difference Grade(ODG))を与える。
音声品質の知覚評価(Perceptual Evaluation of Speech Quality(PESQ))([5]参照)は、電気通信ネットワーク上で伝送される音声のために設計されたメトリックである。したがって、この方法は、電話の送受話器を模倣する前処理を含む。可聴妨害の尺度が、信号の特定の音の大きさから計算され、PESQスコアにおいて組み合わされる。これらから、MOSスコアが多項式写像関数によって予測される([6]参照)。
補聴器音質指数(Hearing-Aid Audio Quality Index(HAAQI))([8]参照)は、補聴器を介して聴取する個人のための音楽品質を予測するように設計された指数である。この指数は、難聴の影響を含むように拡張された、聴覚末梢系のモデルに基づくものである。これは、正常な聴覚または聴覚障害を有する聴取者によって行われた品質評価のデータベースに適合される。難聴シミュレーションを省略することができ、この指数は正常聴覚者にも有効になる。同じ聴覚モデルに基づき、HAAQIの著者らはまた、音声品質の指数である補聴器音声品質指数(HASQI)([9]参照)、および音声明瞭度の指数である補聴器音声知覚指数(HASPI)([10]参照)も提案した。
[12]において、人工ニューラルネットワークは、入力信号および出力推定目的信号のみを与えられた場合の音源対歪み比を推定するように訓練され、音源対歪み比の計算は、通常、入力として、真の目的および干渉信号も取る。分離アルゴリズムのプールが、同じ入力信号に対して並列に実行される。音源対歪み比推定値は、時間フレームごとに、最良の音源対歪み比を有するアルゴリズムからの出力を選択するために使用される。したがって、音質と分離との間のトレードオフに対する制御が定式化されておらず、分離アルゴリズムのパラメータの制御が提案されていない。さらに、音源対歪み比が使用され、これは知覚的に動機付けされず、例えば[13]において、知覚された品質との相関が不十分であることが示された。
[18]では、処理によって適用される時間周波数利得を制御するために可聴性尺度がアーチファクト識別尺度と一緒に使用されるオーディオ処理デバイスが提案されている。これは、例えば、雑音低減の量が、アーチファクトが導入されないという制約を受ける最大レベルであり、音質と分離との間のトレードオフが固定されると規定するためである。さらに、システムは教師あり学習を含まない。アーチファクトを識別するために、真の目的および干渉信号を必要とせずに、(場合によっては音声が存在しないセグメント内の)出力信号と入力信号とを直接比較する尺度である、カートシス比が使用される。この単純な尺度は、可聴性尺度によって強化される。
さらに、オーディオ入力信号から分離オーディオ信号を生成するための方法が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。方法は以下を含む:
オーディオ入力信号に依存する推定される目的信号を決定するステップであって、推定される目的信号が、目的オーディオ信号部分のみを含む信号の推定値である、ステップ。
1つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するステップであって、1つもしくは複数のパラメータ値が、1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する、ステップ。ならびに:
1つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を生成するステップであって、推定される残差信号が、残差オーディオ信号部分のみを含む信号の推定値である、ステップ。
さらに、コンピュータまたは信号プロセッサ上で実行されるときに上述の方法を実施するためのコンピュータプログラムが提供される。
図1aに、一実施形態による、オーディオ入力信号から分離オーディオ信号を生成するための装置を示す。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。
装置は、音源分離器110と、決定モジュール120と、信号プロセッサ130とを備える。
音源分離器110は、オーディオ入力信号に依存する推定される目的信号を決定するように構成され、推定される目的信号は、目的オーディオ信号部分のみを含む信号の推定値である。
信号プロセッサ130は、1つまたは複数のパラメータ値に応じて、また、推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を生成するように構成される。推定される残差信号は、残差オーディオ信号部分のみを含む信号の推定値である。
任意選択的に、一実施形態では、決定モジュール120は、例えば、推定される目的信号に応じて、かつオーディオ入力信号および推定される残差信号の少なくとも一方に応じて、1つまたは複数の結果値を決定するように構成されてもよい。
実施形態によれば、音質
の推定値を得るために分離の入力信号および出力信号の分析が行われ、(決定された処理パラメータを使用するときの)出力の音質が規定の音質値を下回らないように
に基づいて処理パラメータを決定する。
いくつかの実施形態では、分析は、(9)の品質尺度
を出力する。品質尺度から、以下の式(13)の制御パラメータ
が計算され(例えば、スケーリング係数)、最終出力は、以下の式(13)のように初期出力と入力を混合することによって得られる。計算
は、反復的にまたは回帰によって行うことができ、そこで回帰パラメータは訓練信号セットから学習される、図2参照。実施形態では、スケーリング係数の代わりに、制御パラメータは、例えば、平滑化パラメータなどであってもよい。
いくつかの実施形態では、分析により、(13)の制御パラメータ
が直接得られる、図3参照。
いくつかの実施形態は、後述するように、後処理ステップにおいて音質の制御を達成する。
本明細書に記載の実施形態のサブセットを、分離方法とは無関係に適用することができる。本明細書に記載のいくつかの実施形態は、分離プロセスのパラメータを制御する。
スペクトル重み付けを使用した音源分離は、時間周波数領域または短時間スペクトル領域の信号を処理する。入力信号
は、短時間フーリエ変換(STFT)によって変換されるか、またはフィルタバンクによって処理されて、複素数値STFT係数またはサブバンド信号
をもたらし、式中、
は時間フレームインデックスを表し、
は、周波数ビンインデックスまたはサブバンドインデックスを表す。所望の信号の複素数値STFT係数またはサブバンド信号は
であり、干渉信号の複素数値STFT係数またはサブバンド信号は
である。
式中、スペクトル重み
は、要素ごとに入力信号と乗算される。その目的は、干渉源
が大きい場合に
の要素を減衰させることである。このために、スペクトル重みを、目的の推定値
または干渉源の推定値
または信号対干渉源比の推定値に基づいて、例えば、以下のように計算することができ、
または
式中、
および
は、分離を制御するパラメータである。例えば、
を大きくすると、干渉源の減衰が大きくなる可能性があるが、音質の劣化も大きくなる可能性がある。スペクトル重みを、例えば、
が閾値よりも大きくなるように閾値処理することによってさらに変更することができる。変更された利得
は、以下のように計算される。
閾値vを増加させると、干渉源の減衰が減少し、音質の潜在的な劣化が減少する。
必要な数量(目的
または干渉源
または信号対干渉源比)の推定は、これらの方法の中核であり、過去に様々な推定方法が開発されてきた。それらは、上記の2つの手法のどちらか1つに従う。
は、次いで、STFTまたはフィルタバンクの逆の処理を使用して計算される。
目的信号の表現はまた、例えば人工ニューラルネットワークによって入力信号から直接推定することもできる。人工ニューラルネットワークが目的時間信号、またはそのSTFT係数、またはSTFT係数の大きさを推定するように訓練されている様々な方法が最近提案されている。
音質に関しては、教師あり学習モデル
を適用してこれらの計算モデルの出力を推定することによって音質成分(Sound Quality Component(SQC))が取得される。
教師あり学習法
は、以下によって実現される。
および混合
のための例示的な信号でデータセットを生成すること、
3.音源分離
によって目的信号の推定値を計算すること、
4.(9)または(10)による音質の計算モデルによって得られた信号から音質成分
を計算すること、
を、推定される目的
(音源分離の出力)および混合
の対応する例示的な信号が与えられた場合に推定値
を出力するように訓練すること。あるいは、教師あり学習モデル
を、
および
が与えられた場合に(
の場合)推定
を出力するように訓練すること。
と共に使用して混合
から得られた推定される目的
(音源分離の出力)が供給される。
分離出力信号の品質管理のための教師あり学習法の適用が提供される。
図1bに、決定モジュール120が人工ニューラルネットワーク125を備える一実施形態を示す。人工ニューラルネットワーク125は、例えば、推定される目的信号に応じて1つまたは複数の結果値を決定するように構成され得る。人工ニューラルネットワーク125は、例えば、推定される目的信号および推定される残差信号およびオーディオ入力信号のうちの少なくとも1つに夫々が依存する複数の入力値を受け取るように構成され得る。人工ニューラルネットワーク125は、例えば、1つまたは複数の結果値を、人工ニューラルネットワーク125の1つまたは複数の出力値として決定するように構成され得る。
任意選択的に、一実施形態では、人工ニューラルネットワーク125は、例えば、推定される目的信号と、オーディオ入力信号および推定される残差信号の少なくとも一方とに応じて、1つまたは複数の結果値を決定するように構成されてもよい。
一実施形態によれば、複数の入力値の各々は、例えば、推定される目的信号および推定される残差信号およびオーディオ入力信号のうちの少なくとも1つに依存し得る。1つまたは複数の結果値は、例えば、1つまたは複数のパラメータ値であり得る。
一実施形態では、人工ニューラルネットワーク125は、例えば、複数の訓練セットを受け取ることによって訓練されるように構成され得、複数の訓練セットの各々が、人工ニューラルネットワーク125の複数の入力訓練値および人工ニューラルネットワーク125の1つまたは複数の出力訓練値を含み、複数の出力訓練値の各々が、例えば、訓練目的信号および訓練残差信号および訓練入力信号のうちの少なくとも1つに依存し得、1つまたは複数の出力訓練値の各々が、例えば、訓練目的信号の音質の推定に依存し得る。
教師あり学習モデルを、回帰モデルまたは分類モデルとして実装することができる。回帰モデルは、出力層における1つのユニットの出力において1つの目的値を推定する。あるいは、回帰問題を、出力値を少なくとも3ステップに量子化し、
が量子化ステップの数に等しい
個のユニットを有する出力層を使用することによって、分類問題として定式化することもできる。
量子化ステップごとに、1つの出力ユニットが使用される。
、推定目的
、および音質成分
の複数の例を含むデータセットで訓練され、音質成分は、例えば、推定される目的
および真の目的
から計算されたものである。データセットの1つは
で表される。教師あり学習モデルの出力は、ここでは
で表される。
は、入力値の数に対応する。モデルへの入力は、入力信号から計算される。各信号を、時間周波数変換のフィルタバンク、例えば短期フーリエ変換(STFT)によって任意選択的に処理することができる。例えば、入力を、
および
からの
個の隣接フレームから計算されたSTFT係数を連結することによって構築することができ、
または
である。1フレーム当たりのスペクトル係数の総数を
とすると、入力係数の総数は
である。
式中、
は、単一ニューロンの出力を表し、
は、
個の入力値を表し、
は、線形結合の
個の重みを表し、
は、
個の追加バイアス項を表す。第1の隠れ層内のユニットについて、入力値の数
は入力係数の数Dに等しい。すべての
および
は、訓練手順で決定される人工ニューラルネットワーク125のパラメータである。
ある層のユニットは、次の層のユニットに接続され、先行する層のユニットの出力は、次の層のユニットへの入力である。
の関数である。最適化基準に使用される全データセットまたはデータセットのサブセットにわたる予測誤差は、例えば、平均二乗誤差MSEまたは平均絶対誤差MAEであり、
は、データセット内の項目の数を表す。
の単調関数であり、微分可能である場合に訓練の目的で実行可能である。また、人工ニューラルネットワークを構築するための他の構造および要素、例えば、畳み込みニューラルネットワーク層や再帰型ニューラルネットワーク層も存在する。
これらはすべて、多次元入力から一次元または多次元出力への写像を実施し、写像関数は、スカラー基準を最適化することによって訓練手順で決定されるパラメータセット(例えば、
や
)によって制御されるという共通点を有する。
訓練後、教師あり学習モデルを、真の目的
を必要とせずに混合を与えられた場合の未知の推定される目的
の音質の推定に使用することができる。
よって、一実施形態によれば、訓練目的信号の音質の推定は、例えば、音質の1つまたは複数の計算モデルに依存し得る。
ブラインド音源分離評価、
音源分離のための知覚評価方法、
音質の知覚評価、
音声品質の知覚評価、
仮想音声品質客観聴取者オーディオ、
補聴器音質指数、
補聴器音声品質指数、
補聴器音声知覚指数、および
短時間客観明瞭度。
例えば、他の実施形態では音質の他の計算モデルも使用され得る。
音質の制御は、音質成分を推定し、音質成分推定値に基づいて処理パラメータを計算することによって、または音質成分が目的値
を満たす(かまたはその目的を下回らない)ように最適な処理パラメータを直接推定することによって実施することができる。
以上では、音質成分の推定について説明した。同様に、最適な処理パラメータを、最適な処理パラメータの所望の値で回帰法を訓練することによって推定することができる。最適な処理パラメータは、後述するように計算される。この処理を、以下ではパラメータ推定モジュール(Parameter Estimation Module(PEM))と呼ぶ。
の目的値は、分離と音質との間のトレードオフを決定する。このパラメータをユーザが制御することができ、またはこのパラメータは音響再生シナリオに応じて指定される。高品質の機器による静かな環境の家庭での音響再生は、より高い音質およびより低い分離から利益を得る可能性がある。スマートフォンに組み込まれたラウドスピーカによる雑音環境の車両での音響再生は、より低い音質であるが、より高い分離および音声明瞭度から利益を得る可能性がある。
また、推定量(音質成分または処理パラメータのどちらか)を、後処理の制御または二次分離の制御のどちらかにさらに適用することもできる。
ゆえに、4つの異なる概念を、提案の方法の実施のために使用することができる。これらの概念が、図2、図3、図4、および図5に示されており、これらの概念を以下で説明する。
そのような実施形態によれば、決定モジュール120は、例えば、推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、音質値を1つまたは複数の結果値として推定するように構成され得、音質値は推定される目的信号の推定される音質を示す。決定モジュール120は、例えば、音質値に応じて1つまたは複数のパラメータ値を決定するように構成され得る。
よって、一実施形態によれば、決定モジュール120は、例えば、推定される目的信号の推定される音質に応じて、制御パラメータを1つまたは複数のパラメータ値として決定するように構成され得る。信号プロセッサ130は、例えば、制御パラメータに応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を決定するように構成され得る。
第1のステップで、分離が適用される。分離信号および未処理の信号は、品質推定モジュール(Quality Estimation Module(QEM))への入力である。QEMは、音質成分の推定値
を計算する。
推定される音質成分
は、後処理を制御するためのパラメータセット
を計算するために使用される。
変数
、
、
、および
は時間的に変化し得るが、以下では明確な表記のために時間依存性を省く。
そのような後処理は、例えば、入力信号のスケーリングまたはフィルタリングされたコピーを出力信号のスケーリングまたはフィルタリングされたコピーに加算し、それによって干渉信号の減衰(例えば、分離の影響)を低減すること、例えば、
であり、式中、パラメータ
は分離量を制御する。
が、例えば、用いられてもよく、式中、
は推定される残差信号である。
分離を低減させると、
1)アーチファクトの量が低減され、
2)分離アーチファクトをマスクする干渉音の漏れが増加する。
よって、一実施形態では、信号プロセッサ130は、例えば、式(13)に応じて分離オーディオ信号を決定するように構成され得、式中、
は分離オーディオ信号であり、
は推定される目的信号であり、
はオーディオ入力信号であり、
は制御パラメータであり、
は指数である。
および目的品質尺度
を与件として以下のように計算される。
この関数fは、例えば、以下の疑似コードによって示されるように、反復拡張探索とすることができる。
あるいは、関係
を、以下によって計算することもできる。
の残りの値を計算すること。
例えば、処理パラメータ
が式(13)のように後処理を制御している場合、
は、例えば、
の相対増幅の18dB、12dB、および6dBに対応する
の固定数の値について計算される。
したがって、写像
が近似され、
を選択することができる。
まず、分離が適用される。分離信号は、パラメータ推定モジュール(PEM)への入力である。推定されるパラメータは、後処理を制御するために適用される。PEMは、分離信号
および入力信号
からp(n)を直接推定するように訓練されている。これは、式(14)の演算が訓練段階に移動され、回帰法が、
の代わりに
を推定するように訓練されることを意味する。したがって、以下の関数が学習される。
の固定された設定について訓練されるため、柔軟性が低いという犠牲を伴う。しかしながら、いくつかのモデルを、異なる値の
で訓練することができる。そのようにして、
の選択に関する最終的な柔軟性を保持することができる。
一実施形態では、信号プロセッサ130は、例えば、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号の後処理に応じて分離オーディオ信号を生成するように構成され得る。
まず、分離が適用される。分離信号は、QEMへの入力である。推定される音質成分は、二次分離を制御するためのパラメータセットを計算するために使用される。二次分離
への入力は、入力信号
または第1の分離の出力
のどちらか、それら2つの線形結合
であり、式中、
および
は、重み付けパラメータまたは第1の分離からの中間結果である。
二次分離を制御するための適切なパラメータは、例えば、スペクトル重みを変更するパラメータである。
まず、分離が適用される。分離信号は、PEMへの入力である。推定されるパラメータは、二次分離を制御する。
二次分離z(n)への入力は、入力信号x(n)または第1の分離の出力
または
、それら2つの線形結合
であり、式中、
および
は、重み付けパラメータまたは第1の分離からの中間結果である。
例えば、以下のパラメータが制御される:上記の式(5)、(6)からの
および
ならびに
。
反復処理(間に品質推定なし)は、複数の分離を連結する他の先行する方法と非常に似ている。
そのような手法は、例えば、複数の異なる方法を組み合わせるのに適し得る(1つの方法を繰り返すよりも優れている)。
特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアで、または少なくとも部分的にハードウェアで、または少なくとも部分的にソフトウェアで実施することができる。実施態様は、それぞれの方法が行われるようにプログラマブルコンピュータシステムと協働する(または協働することができる)、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えば、フロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ可読であり得る。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると、方法のうちの1つを行うように動作する。プログラムコードは、例えば、機械可読キャリアに格納され得る。
他の実施形態は、機械可読キャリアに格納された、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを含む。
言い換えると、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作するときに本明細書に記載される方法のうちの1つを行うためのプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成され得る。
さらなる実施形態は、本明細書に記載される方法のうちの1つを行うように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを含む。
本発明によるさらなる実施形態は、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載される方法の機能の一部または全部が行われ得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書に記載される方法のうちの1つを行うためにマイクロプロセッサと協働し得る。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって行われる。
本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して行われ得る。
上述した実施形態は、本発明の原理の単なる例示である。当業者には本明細書に記載される構成および詳細の改変および変形が明らかになることを理解されたい。したがって、本明細書において実施形態の記述および説明として提示された具体的な詳細によってではなく、次の特許請求の範囲によってのみ限定されることが意図されている。
[1]E.Vincent,R.Gribonval,and C.Fevotte,’’Performance measurement in blind audio source separation,’’ IEEE Transactions on Audio,Speech and Language Processing,vol.14,no.4,pp.1462-1469,2006.
[2]V.Emiya,E.Vincent,N.Harlander,and V.Hohmann,’’Subjective and objective quality assessment of audio source separation,’’ IEEE Trans.Audio,Speech and Language Process.,vol.19,no.7,2011.
[4]ITU-R Rec.BS.1387-1,’’Method for objective measurements of perceived audio quality,’’ 2001.
[5]ITU-T Rec.P.862,’’Perceptual evaluation of speech quality(PESQ):An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs,’’ 2001.
[7]A.Hines,E.Gillen et al.,’’ViSQOLAudio:An Objective Audio Quality Metric for Low Bitrate Codecs,’’ J.Acoust.Soc.Am.,vol.137,no.6,2015.
[8]J.M.Kates and K.H.Arehart,’’The Hearing-Aid Audio Quality Index(HAAQI),’’ IEEE Trans.Audio,Speech and Language Process.,vol.24,no.2,2016,evaluation code kindly provided by Prof.J.M.Kates.
[10]J.M.Kates and K.H.Arehart,’’The Hearing-Aid Speech Perception Index(HASPI),’’ Speech Communication,vol.65,pp.75-93,2014.
[11]C.Taal,R.Hendriks,R.Heusdens,and J.Jensen,’’An algorithm for intelligibility prediction of time-frequency weighted noisy speech,’’ IEEE Trans.Audio,Speech and Language Process.,vol.19,no.7,2011.
[12]E.Manilow,P.Seetharaman,F.Pishdadian,and B.Pardo,’’Predicting algorithm efficacy for adaptive multi-cue source separation,’’ in Applications of Signal Processing to Audio and Acoustics(WASPAA),2017 IEEE Workshop on,2017,pp.274-278.
[14]S.-W.Fu,T.-W.Wang,Y.Tsao,X.Lu,and H.Kawai,’’End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks,’’ IEEE/ACM Transactions on Audio,Speech and Language Processing(TASLP),vol.26,no.9,2018.
[16]Y.Zhao,B.Xu,R.Giri,and T.Zhang,’’Perceptually guided speech enhancement using deep neural networks,’’ in Acoustics,Speech and Signal Processing(ICASSP),2018 IEEE International Conference on,2018.
[18]J.Jensen and M.S.Pedersen,’’Audio processing device comprising artifact reduction,’’ US Patent US 9,432,766 B2,Aug.30,2016.
さらに、オーディオ入力信号から分離オーディオ信号を生成するための方法が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。
さらに、信号プロセッサが、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号とオーディオ入力信号との線形結合に応じて分離オーディオ信号を生成するように構成されるか、または信号プロセッサが、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号と推定される残差信号との線形結合に応じて分離オーディオ信号を生成する。方法は以下を含む:
オーディオ入力信号に依存する推定される目的信号を決定するステップであって、推定される目的信号が、目的オーディオ信号部分のみを含む信号の推定値である、ステップ。
1つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するステップであって、1つもしくは複数のパラメータ値が、1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する、ステップ。ならびに:
1つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を生成するステップであって、推定される残差信号が、残差オーディオ信号部分のみを含む信号の推定値である、ステップ。
さらに、分離オーディオ信号を生成するステップは、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号とオーディオ入力信号との線形結合に応じて実行し、または、分離オーディオ信号を生成するステップは、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号と推定される残差信号との線形結合に応じて実行する。
さらに、コンピュータまたは信号プロセッサ上で実行されるときに上述の方法を実施するためのコンピュータプログラムが提供される。
Claims (17)
- オーディオ入力信号から分離オーディオ信号を生成するための装置であって、前記オーディオ入力信号が、目的オーディオ信号部分および残差オーディオ信号部分を含み、前記残差オーディオ信号部分が、前記オーディオ入力信号と前記目的オーディオ信号部分との間の残差を示し、前記装置が、
前記オーディオ入力信号に依存する推定される目的信号を決定するための音源分離器(110)であって、前記推定される目的信号が、前記目的オーディオ信号部分のみを含む信号の推定値である、音源分離器(110)と、
決定モジュール(120)であって、1つもしくは複数のパラメータ値を取得するために、前記推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するように構成され、前記1つもしくは複数のパラメータ値が、前記1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する、決定モジュール(120)と、
前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号および前記オーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、前記分離オーディオ信号を生成するための信号プロセッサ(130)であって、前記推定される残差信号が、前記残差オーディオ信号部分のみを含む信号の推定値である、信号プロセッサ(130)と
を備える、装置。 - 前記決定モジュール(120)が、前記推定される目的信号の前記推定される音質に応じて、制御パラメータを前記1つまたは複数のパラメータ値として決定するように構成され、
前記信号プロセッサが、前記制御パラメータに応じて、かつ前記推定される目的信号および前記オーディオ入力信号および前記推定される残差信号のうちの少なくとも1つに応じて、前記分離オーディオ信号を決定するように構成される、
請求項1に記載の装置。 - 前記決定モジュール(120)が、前記推定される目的信号および前記オーディオ入力信号および前記推定される残差信号のうちの少なくとも1つに応じて、音質値を前記1つまたは複数の結果値として推定するように構成され、前記音質値が前記推定される目的信号の前記推定される音質を示し、
前記決定モジュール(120)が、前記音質値に応じて前記1つまたは複数のパラメータ値を決定するように構成される、
請求項2または3に記載の装置。 - 前記信号プロセッサ(130)が、前記分離オーディオ信号を、前記分離オーディオ信号の第1のバージョンを決定することによって、かつ前記分離オーディオ信号を1または複数回変更して前記分離オーディオ信号の1つまたは複数の中間バージョンを取得することによって生成するように構成され、
前記決定モジュール(120)が、前記分離オーディオ信号の前記1つまたは複数の中間値のうちの1つに応じて前記音質値を変更するように構成され、
前記信号プロセッサ(130)が、音質値が規定の音質値以上である場合、前記分離オーディオ信号の変更を停止するように構成される、
請求項4に記載の装置。 - 前記決定モジュール(120)が、前記推定される目的信号に応じて、かつ前記オーディオ入力信号および前記推定される残差信号の少なくとも一方に応じて、前記1つまたは複数の結果値を決定するように構成される、
請求項1~5のいずれか一項に記載の装置。 - 前記決定モジュール(120)が、前記推定される目的信号に応じて前記1つまたは複数の結果値を決定するための人工ニューラルネットワーク(125)を備え、前記人工ニューラルネットワーク(125)が、複数の入力値の各々が前記推定される目的信号および前記推定される残差信号および前記オーディオ入力信号のうちの少なくとも1つに依存する、前記複数の入力値を受け取るように構成され、前記人工ニューラルネットワーク(125)が、前記1つまたは複数の結果値を、前記人工ニューラルネットワーク(125)の1つまたは複数の出力値として決定するように構成される、
請求項1~6のいずれか一項に記載の装置。 - 前記複数の入力値の各々が、前記推定される目的信号および前記推定される残差信号および前記オーディオ入力信号のうちの少なくとも1つに依存し、
前記1つまたは複数の結果値が、前記推定される目的信号の前記推定される音質を示す、
請求項7に記載の装置。 - 前記複数の入力値の各々が、前記推定される目的信号および前記推定される残差信号および前記オーディオ入力信号のうちの少なくとも1つに依存し、
前記1つまたは複数の結果値が、前記1つまたは複数のパラメータ値である、
請求項7に記載の装置。 - 前記人工ニューラルネットワーク(125)が、複数の訓練セットを受け取ることによって訓練されるように構成され、前記複数の訓練セットの各々が、前記人工ニューラルネットワーク(125)の複数の入力訓練値および前記人工ニューラルネットワーク(125)の1つまたは複数の出力訓練値を含み、前記複数の出力訓練値の各々が、訓練目的信号および訓練残差信号および訓練入力信号のうちの少なくとも1つに依存し、前記または複数の出力訓練値の各々が、前記訓練目的信号の音質の推定に依存する、
請求項7~9のいずれか一項に記載の装置。 - 前記訓練目的信号の前記音質の前記推定が、音質の1つまたは複数の計算モデルに依存する、
請求項10に記載の装置。 - 音質の前記1つまたは複数の計算モデルが、
ブラインド音源分離評価、
音源分離のための知覚評価方法、
音質の知覚評価、
音声品質の知覚評価、
仮想音声品質客観聴取者オーディオ、
補聴器音質指数、
補聴器音声品質指数、
補聴器音声知覚指数、および
短時間客観明瞭度
のうちの少なくとも1つである、
請求項11に記載の装置。 - 前記人工ニューラルネットワーク(125)が、前記推定される目的信号に応じて、かつ前記オーディオ入力信号および前記推定される残差信号の少なくとも一方に応じて、前記1つまたは複数の結果値を決定するように構成される、
請求項7~12のいずれか一項に記載の装置。 - 前記信号プロセッサ(130)が、前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号の後処理に応じて前記分離オーディオ信号を生成するように構成される、
請求項1~13のいずれか一項に記載の装置。 - 前記信号プロセッサ(130)が、前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号と前記オーディオ入力信号との線形結合に応じて前記分離オーディオ信号を生成するように構成されるか、または
前記信号プロセッサ(130)が、前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号と前記推定される残差信号との線形結合に応じて前記分離オーディオ信号を生成するように構成される、
請求項1~14のいずれか一項に記載の装置。 - オーディオ入力信号から分離オーディオ信号を生成するための方法であって、前記オーディオ入力信号が、目的オーディオ信号部分および残差オーディオ信号部分を含み、前記残差オーディオ信号部分が、前記オーディオ入力信号と前記目的オーディオ信号部分との間の残差を示し、前記方法が、
前記オーディオ入力信号に依存する推定される目的信号を決定するステップであって、前記推定される目的信号が、前記目的オーディオ信号部分のみを含む信号の推定値である、ステップと、
1つもしくは複数のパラメータ値を取得するために、前記推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するステップであって、前記1つもしくは複数のパラメータ値が、前記1つもしくは複数の結果値であるか、または前記1つもしくは複数の結果値に依存する、ステップと、
前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号および前記オーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、前記分離オーディオ信号を生成するステップであって、前記推定される残差信号が、前記残差オーディオ信号部分のみを含む信号の推定値である、ステップ
を含む、方法。 - コンピュータまたは信号プロセッサ上で実行されたときに請求項16に記載の方法を実施するためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18215707.3A EP3671739A1 (en) | 2018-12-21 | 2018-12-21 | Apparatus and method for source separation using an estimation and control of sound quality |
EP18215707.3 | 2018-12-21 | ||
PCT/EP2019/086565 WO2020127900A1 (en) | 2018-12-21 | 2019-12-20 | Apparatus and method for source separation using an estimation and control of sound quality |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022514878A true JP2022514878A (ja) | 2022-02-16 |
JP7314279B2 JP7314279B2 (ja) | 2023-07-25 |
Family
ID=65011753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021535739A Active JP7314279B2 (ja) | 2018-12-21 | 2019-12-20 | 音質の推定および制御を使用した音源分離のための装置および方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20210312939A1 (ja) |
EP (2) | EP3671739A1 (ja) |
JP (1) | JP7314279B2 (ja) |
KR (1) | KR102630449B1 (ja) |
CN (1) | CN113574597B (ja) |
BR (1) | BR112021012308A2 (ja) |
CA (1) | CA3124017C (ja) |
ES (1) | ES2966063T3 (ja) |
MX (1) | MX2021007323A (ja) |
WO (1) | WO2020127900A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116997962A (zh) * | 2020-11-30 | 2023-11-03 | 杜比国际公司 | 基于卷积神经网络的鲁棒侵入式感知音频质量评估 |
CN113470689B (zh) * | 2021-08-23 | 2024-01-30 | 杭州国芯科技股份有限公司 | 一种语音分离方法 |
WO2023073596A1 (en) * | 2021-10-27 | 2023-05-04 | WingNut Films Productions Limited | Audio source separation processing workflow systems and methods |
US11763826B2 (en) | 2021-10-27 | 2023-09-19 | WingNut Films Productions Limited | Audio source separation processing pipeline systems and methods |
US20230126779A1 (en) * | 2021-10-27 | 2023-04-27 | WingNut Films Productions Limited | Audio Source Separation Systems and Methods |
CN113850246B (zh) * | 2021-11-30 | 2022-02-18 | 杭州一知智能科技有限公司 | 基于对偶一致网络的声源定位与声源分离的方法和系统 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015097829A1 (ja) * | 2013-12-26 | 2015-07-02 | 株式会社東芝 | 方法、電子機器およびプログラム |
JP2017063419A (ja) * | 2015-09-24 | 2017-03-30 | ジーエヌ リザウンド エー/エスGn Resound A/S | 雑音を受ける発話信号の客観的知覚量を決定する方法 |
US20170251320A1 (en) * | 2016-02-29 | 2017-08-31 | Electronics And Telecommunications Research Institute | Apparatus and method of creating multilingual audio content based on stereo audio signal |
WO2018068396A1 (zh) * | 2016-10-12 | 2018-04-19 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808571A (zh) * | 2005-01-19 | 2006-07-26 | 松下电器产业株式会社 | 声音信号分离系统及方法 |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
EP2375409A1 (en) * | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
DE102011084035A1 (de) * | 2011-10-05 | 2013-04-11 | Nero Ag | Vorrichtung, verfahren und computerprogramm zur bewertung einer wahrgenommenen audioqualität |
EP2747081A1 (en) | 2012-12-18 | 2014-06-25 | Oticon A/s | An audio processing device comprising artifact reduction |
SG11201507066PA (en) * | 2013-03-05 | 2015-10-29 | Fraunhofer Ges Forschung | Apparatus and method for multichannel direct-ambient decomposition for audio signal processing |
EP2790419A1 (en) * | 2013-04-12 | 2014-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio |
GB2516483B (en) * | 2013-07-24 | 2018-07-18 | Canon Kk | Sound source separation method |
WO2016033269A1 (en) * | 2014-08-28 | 2016-03-03 | Analog Devices, Inc. | Audio processing using an intelligent microphone |
MX2018003529A (es) * | 2015-09-25 | 2018-08-01 | Fraunhofer Ges Forschung | Codificador y metodo para codificar una se?al de audio con ruido de fondo reducido que utiliza codificacion predictiva lineal. |
EP3220661B1 (en) * | 2016-03-15 | 2019-11-20 | Oticon A/s | A method for predicting the intelligibility of noisy and/or enhanced speech and a binaural hearing system |
EP3453187B1 (en) * | 2016-05-25 | 2020-05-13 | Huawei Technologies Co., Ltd. | Audio signal processing stage, audio signal processing apparatus and audio signal processing method |
DK3252766T3 (da) * | 2016-05-30 | 2021-09-06 | Oticon As | Audiobehandlingsanordning og fremgangsmåde til estimering af signal-til-støj-forholdet for et lydsignal |
US10861478B2 (en) * | 2016-05-30 | 2020-12-08 | Oticon A/S | Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal |
CN106847301A (zh) * | 2017-01-03 | 2017-06-13 | 东南大学 | 一种基于压缩感知和空间方位信息的双耳语音分离方法 |
EP3474280B1 (en) * | 2017-10-19 | 2021-07-07 | Goodix Technology (HK) Company Limited | Signal processor for speech signal enhancement |
CN107993671A (zh) * | 2017-12-04 | 2018-05-04 | 南京地平线机器人技术有限公司 | 声音处理方法、装置和电子设备 |
EP3573058B1 (en) * | 2018-05-23 | 2021-02-24 | Harman Becker Automotive Systems GmbH | Dry sound and ambient sound separation |
-
2018
- 2018-12-21 EP EP18215707.3A patent/EP3671739A1/en not_active Withdrawn
-
2019
- 2019-12-20 MX MX2021007323A patent/MX2021007323A/es unknown
- 2019-12-20 EP EP19824332.1A patent/EP3899936B1/en active Active
- 2019-12-20 WO PCT/EP2019/086565 patent/WO2020127900A1/en active Search and Examination
- 2019-12-20 KR KR1020217023148A patent/KR102630449B1/ko active IP Right Grant
- 2019-12-20 BR BR112021012308-3A patent/BR112021012308A2/pt unknown
- 2019-12-20 ES ES19824332T patent/ES2966063T3/es active Active
- 2019-12-20 JP JP2021535739A patent/JP7314279B2/ja active Active
- 2019-12-20 CA CA3124017A patent/CA3124017C/en active Active
- 2019-12-20 CN CN201980092879.8A patent/CN113574597B/zh active Active
-
2021
- 2021-06-21 US US17/353,297 patent/US20210312939A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015097829A1 (ja) * | 2013-12-26 | 2015-07-02 | 株式会社東芝 | 方法、電子機器およびプログラム |
US20160210983A1 (en) * | 2013-12-26 | 2016-07-21 | Kabushiki Kaisha Toshiba | Method and electronic device |
JP2017063419A (ja) * | 2015-09-24 | 2017-03-30 | ジーエヌ リザウンド エー/エスGn Resound A/S | 雑音を受ける発話信号の客観的知覚量を決定する方法 |
US20170251320A1 (en) * | 2016-02-29 | 2017-08-31 | Electronics And Telecommunications Research Institute | Apparatus and method of creating multilingual audio content based on stereo audio signal |
WO2018068396A1 (zh) * | 2016-10-12 | 2018-04-19 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3671739A1 (en) | 2020-06-24 |
BR112021012308A2 (pt) | 2021-09-08 |
EP3899936B1 (en) | 2023-09-06 |
ES2966063T3 (es) | 2024-04-18 |
CA3124017C (en) | 2024-01-16 |
WO2020127900A1 (en) | 2020-06-25 |
KR102630449B1 (ko) | 2024-01-31 |
JP7314279B2 (ja) | 2023-07-25 |
CN113574597B (zh) | 2024-04-12 |
CA3124017A1 (en) | 2020-06-25 |
MX2021007323A (es) | 2021-08-24 |
EP3899936C0 (en) | 2023-09-06 |
KR20210110622A (ko) | 2021-09-08 |
CN113574597A (zh) | 2021-10-29 |
US20210312939A1 (en) | 2021-10-07 |
EP3899936A1 (en) | 2021-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7314279B2 (ja) | 音質の推定および制御を使用した音源分離のための装置および方法 | |
Choi et al. | Real-time denoising and dereverberation wtih tiny recurrent u-net | |
JP5341983B2 (ja) | サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 | |
Fu et al. | MetricGAN-U: Unsupervised speech enhancement/dereverberation based only on noisy/reverberated speech | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
Ma et al. | Speech enhancement using a masking threshold constrained Kalman filter and its heuristic implementations | |
RU2715026C1 (ru) | Устройство кодирования для обработки входного сигнала и устройство декодирования для обработки кодированного сигнала | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
US20230087486A1 (en) | Method and apparatus for processing an initial audio signal | |
CN113744749B (zh) | 一种基于心理声学域加权损失函数的语音增强方法及系统 | |
KR20190060628A (ko) | 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치 | |
Selvi et al. | Hybridization of spectral filtering with particle swarm optimization for speech signal enhancement | |
US11224360B2 (en) | Systems and methods for evaluating hearing health | |
RU2782364C1 (ru) | Устройство и способ отделения источников с использованием оценки и управления качеством звука | |
JP6233625B2 (ja) | 音声処理装置および方法、並びにプログラム | |
Kim et al. | iDeepMMSE: An improved deep learning approach to MMSE speech and noise power spectrum estimation for speech enhancement. | |
Li et al. | Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement | |
US20240127842A1 (en) | Apparatus, Methods and Computer Programs for Audio Signal Enhancement Using a Dataset | |
Langjahr et al. | Objective quality assessment of target speaker separation performance in multisource reverberant environment | |
Rustrana et al. | Spectral Methods for Single Channel Speech Enhancement in Multi-Source Environment | |
US20240363132A1 (en) | High-performance small-footprint ai-based noise suppression model | |
Romoli et al. | An interactive optimization procedure for stereophonic acoustic echo cancellation systems | |
Freiwald et al. | Loss Functions for Deep Monaural Speech Enhancement | |
KR20220053995A (ko) | 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치 | |
Ljungquist | Masking and Reconstructing Speech to Improve Intelligibility |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210812 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220816 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230712 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7314279 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |