JP2022514878A - 音質の推定および制御を使用した音源分離のための装置および方法 - Google Patents

音質の推定および制御を使用した音源分離のための装置および方法 Download PDF

Info

Publication number
JP2022514878A
JP2022514878A JP2021535739A JP2021535739A JP2022514878A JP 2022514878 A JP2022514878 A JP 2022514878A JP 2021535739 A JP2021535739 A JP 2021535739A JP 2021535739 A JP2021535739 A JP 2021535739A JP 2022514878 A JP2022514878 A JP 2022514878A
Authority
JP
Japan
Prior art keywords
signal
estimated
audio
residual
sound quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021535739A
Other languages
English (en)
Other versions
JP7314279B2 (ja
Inventor
ウーレ,クリスティアン
トルコリ,マッテオ
ディッシュ,ザシャ
パウルス,ヨウニ
ヘッレ,ユルゲン
ヘルムート,オリヴァー
フックス,ハーラルト
Original Assignee
フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2022514878A publication Critical patent/JP2022514878A/ja
Application granted granted Critical
Publication of JP7314279B2 publication Critical patent/JP7314279B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

オーディオ入力信号から分離オーディオ信号を生成するための装置が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。装置は、音源分離器(110)と、決定モジュール(120)と、信号プロセッサ(130)とを備える。音源分離器(110)は、オーディオ入力信号に依存する推定される目的信号を決定するように構成され、推定される目的信号は、目的オーディオ信号部分のみを含む信号の推定値である。決定モジュール(120)は、1つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するように構成され、1つもしくは複数のパラメータ値は、1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する。信号プロセッサ(130)は、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を生成するように構成され、推定される残差信号は、残差オーディオ信号部分のみを含む信号の推定値である。【選択図】図1a

Description

本発明は、オーディオ信号の音源分離に関し、特に分離出力信号の音質の信号適応制御に関し、特に音質の推定および制御を使用した音源分離のための装置および方法に関する。
音源分離では、出力信号の品質が劣化し、この劣化は干渉信号の減衰と共に単調に増加する。
オーディオ信号の音源分離はこれまで行われてきた。
オーディオ信号の音源分離は、以下のように混合信号
Figure 2022514878000002
が与えられた場合の目的信号
Figure 2022514878000003
を得ることを目的とし、
Figure 2022514878000004
式中、
Figure 2022514878000005
は、すべての干渉信号を含み、以下ではこれらを「干渉信号」と呼ぶ。分離の出力
Figure 2022514878000006
は、以下のような目的信号の推定値
Figure 2022514878000007
であり、

Figure 2022514878000008
場合によってはこれに加えて、干渉信号の推定値
Figure 2022514878000009
でもある。
Figure 2022514878000010
そのような処理は、通常、出力信号に、音質を悪化させるアーチファクトを導入する。この音質の劣化は、分離量、すなわち干渉信号の減衰とともに単調に増加する。多くの用途では、完全分離を必要とせず部分的な強調で済み、干渉音は減衰されるが、依然として出力信号に存在する。
これには、導入されるアーチファクトがより少なく、干渉信号の漏れが知覚されるアーチファクトを部分的にマスクするので、完全に分離された信号よりも音質が高いという追加の利点がある。
オーディオ信号を部分的にマスクすることは、その音の大きさ(例えば、その知覚される強度)が部分的に低減されることを意味する。大きな減衰を達成するよりもむしろ、出力の音質が規定の音質レベルを下回らないことがさらに求められ、必要とされる可能性がある。
そのような用途の一例が会話(dialog)の強調である。テレビ、ラジオ放送および映画の音声におけるオーディオ信号は、多くの場合、音声信号と背景信号、例えば環境音や音楽の混合である。これらの信号が、音声のレベルが背景のレベルと比較して低すぎるように混合されると、聴取者が言われたことを理解するのが困難になる可能性があり、または理解するのに非常に大きな聴取努力を必要とし、聴取者を疲労させることになる。そのようなシナリオでは、背景のレベルを自動的に低減するための方法を適用することができるが、結果は高音質のものでなければならない。
先行技術には、音源分離のための様々な方法が存在する。先行技術では目的信号を信号の混合から分離することが論じられている。これらの方法を、2つの手法に分類することができる。第1のカテゴリの方法は、信号モデルおよび/または混合モデルに関する定式化された仮定に基づくものである。信号モデルは、ここでは
Figure 2022514878000011
および
Figure 2022514878000012
である入力信号の特性を記述する。混合モデルは、ここでは加算によって、入力信号が混合信号
Figure 2022514878000013
を生成するためにどのように組み合わされるかの特性を記述する。
これらの仮定に基づいて、方法が分析的または発見的に設計される。例えば、独立成分分析の方法は、混合が統計的に独立した2つの音源を含み、混合が2つのマイクロホンによって取り込まれており、混合が、両方の信号を加算する(瞬時混合を生成する)ことによって導出されていると仮定することによって導出することができる。混合の逆のプロセスが、次いで、混合行列の反転として数学的に導出され、この分離行列の要素は指定された方法に従って計算される。ほとんどの分析的に導出された方法は、分離問題を基準の数値最適化、例えば、真の目的と推定される目的との間の平均二乗誤差として定式化することによって導出される。
第2のカテゴリはデータ駆動型である。ここでは、目的信号の表現が推定されるか、または入力混合から目的信号を取り出すためのパラメータセットが推定される。推定は、訓練データセットで訓練されたモデルに基づくものであり、したがって「データ駆動型」という名前である。推定は、基準を最適化することによって、例えば、訓練データが与えられた場合の、真の目的と推定される目的との間の平均二乗誤差を最小化することによって導出される。このカテゴリの一例が、音声信号と干渉信号との混合が与えられた場合に、音声信号の推定値を出力するように訓練された人工ニューラルネットワーク(Artificial Neural Network(ANN))である。訓練中、人工ニューラルネットワークの調整可能なパラメータは、訓練データセットに対して計算される性能基準が、データセット全体にわたって平均して最適化されるように決定される。
音源分離に関して、平均二乗誤差において最適であるか、または任意の他の数値基準に関して最適である解は、必ずしも人間の聴取者によって好まれる最高音質を有する解ではない。
第2の問題は、音源分離が常に2つの効果、すなわち、第1に干渉音の所望の減衰、第2に音質の望ましくない劣化をもたらすことに起因する。2つの効果は相関しており、例えば、所望の効果を増加させると、望ましくない効果が増加する。最終的な目的は、2つの効果の間のトレードオフを制御することである。
音質は、推定する、例えば、聴取試験によって、または音質の計算モデルによって定量化することができる。音質には複数の態様があり、以下ではこれを音質成分(Sound Quality Component(SQC))と呼ぶ。
例えば、音質は、知覚されるアーチファクト(これらは、信号処理、例えば音源分離によって導入された、音質を低下させる信号成分である)の強度によって決定される。
または、例えば、音質は、知覚される干渉信号の強度によって、または、例えば、(目的信号が音声である場合の)音声明瞭度によって、または、例えば、全体的な音質によって決定される。
音質成分
Figure 2022514878000014
(の推定値)を計算する音質の様々な計算モデルが存在し、式中、Mは音質成分の数を表す。
そのような方法は、通常、目的信号および目的信号の推定値を与えられた場合の音質成分
Figure 2022514878000015
または干渉信号も与えられた場合の音質成分
Figure 2022514878000016
を推定する。
実際の用途では、目的信号
Figure 2022514878000017
(および干渉信号
Figure 2022514878000018
)は利用できず、そうでなければ分離は必要とされないはずである。入力信号
Figure 2022514878000019
および目的信号の推定値
Figure 2022514878000020
しか利用できない場合、これらの方法では音質成分を計算することができない。
先行技術には、明瞭度を含む音質の態様を推定するための様々な計算モデルが記載されている。
ブラインド音源分離評価(Blind Source Separation Evaluation(BSSEval))([1]参照)は、多基準性能評価ツールボックスである。推定された信号は、直交射影によって、目的信号成分と、他の音源からの干渉と、アーチファクトとに分解される。メトリックは、これらの成分のエネルギー比として計算され、dB単位で表される。これらは、音源対歪み比(Source to Distortion Ratio(SDR))、音源対干渉比(Source to Interference Ratio(SIR))および音源対アーチファクト比(Source to Artifact Ratio(SAR))である。
音源分離のための知覚評価方法(Perceptual Evaluation methods for Audio Source Separation(PEASS))([2]参照)は、BSSEvalの知覚的に動機付けされる後継法として設計された。信号射影は、時間セグメントに対して、ガンマトーンフィルタバンクを用いて実行される。
PEMO-Q([3]参照)は、複数の特徴を提供するために使用される。主観的評価で訓練されたニューラルネットワークを使用して、これらの特徴から4つの知覚スコアが得られる。スコアは、全体的知覚スコア(Overall Perceptual Score(OPS))、干渉関連知覚スコア(Interference-related Perceptual Score(IPS))、アーチファクト関連知覚スコア(Artifact-related Perceptual Score(APS))、および目的関連知覚スコア(Target-related Perceptual Score(TPS))である。
音質の知覚評価(Perceptual Evaluation of Audio Quality(PEAQ))([4]参照)は、オーディオ符号化のために設計されたメトリックである。PEAQでは、参照信号および試験信号の頭蓋膜表現を計算するために、末梢耳モデルを使用する。これらの表現間の差分の態様は、いくつかの出力変数によって定量化される。主観的データで訓練されたニューラルネットワークによって、これらの変数は組み合わされて主出力、例えば、全体的な差分値(Overall Difference Grade(ODG))を与える。
音声品質の知覚評価(Perceptual Evaluation of Speech Quality(PESQ))([5]参照)は、電気通信ネットワーク上で伝送される音声のために設計されたメトリックである。したがって、この方法は、電話の送受話器を模倣する前処理を含む。可聴妨害の尺度が、信号の特定の音の大きさから計算され、PESQスコアにおいて組み合わされる。これらから、MOSスコアが多項式写像関数によって予測される([6]参照)。
ViSQOLAudio([7]参照)は、仮想音声品質客観聴取者(Virtual Speech Quality Objective Listener(ViSQOL))から開発された低ビットレートで符号化された音楽用に設計されたメトリックである。どちらのメトリックも、ニューログラムと呼ばれる信号の内部表現を作成するための末梢聴覚系のモデルに基づくものである。これらは、元々は圧縮画像の品質を評価するために開発された、構造的類似性指数の適応を介して比較される。
補聴器音質指数(Hearing-Aid Audio Quality Index(HAAQI))([8]参照)は、補聴器を介して聴取する個人のための音楽品質を予測するように設計された指数である。この指数は、難聴の影響を含むように拡張された、聴覚末梢系のモデルに基づくものである。これは、正常な聴覚または聴覚障害を有する聴取者によって行われた品質評価のデータベースに適合される。難聴シミュレーションを省略することができ、この指数は正常聴覚者にも有効になる。同じ聴覚モデルに基づき、HAAQIの著者らはまた、音声品質の指数である補聴器音声品質指数(HASQI)([9]参照)、および音声明瞭度の指数である補聴器音声知覚指数(HASPI)([10]参照)も提案した。
短時間客観明瞭度(Short-Time Objective Intelligibility(STOI))([11]参照)は、平均音声明瞭度との単調な関係を有すると予期される尺度である。STOIは、特に、ある種の時間周波数重み付けによって処理される音声に対処する。
[12]において、人工ニューラルネットワークは、入力信号および出力推定目的信号のみを与えられた場合の音源対歪み比を推定するように訓練され、音源対歪み比の計算は、通常、入力として、真の目的および干渉信号も取る。分離アルゴリズムのプールが、同じ入力信号に対して並列に実行される。音源対歪み比推定値は、時間フレームごとに、最良の音源対歪み比を有するアルゴリズムからの出力を選択するために使用される。したがって、音質と分離との間のトレードオフに対する制御が定式化されておらず、分離アルゴリズムのパラメータの制御が提案されていない。さらに、音源対歪み比が使用され、これは知覚的に動機付けされず、例えば[13]において、知覚された品質との相関が不十分であることが示された。
さらに、近年、音質成分の推定値が費用関数に統合される教師あり学習による音声強調に関する研究が行われているが、従来、音声強調モデルは、推定音声とクリーン音声との間の平均二乗誤差(MSE)に基づいて最適化される。例えば、[14]、[15]、[16]では、MSEの代わりにSTOIに基づく費用関数が使用される。[17]では、PESQやPEASSに基づく強化学習が使用される。しかし、音質と分離との間のトレードオフに対する制御は利用できない。
[18]では、処理によって適用される時間周波数利得を制御するために可聴性尺度がアーチファクト識別尺度と一緒に使用されるオーディオ処理デバイスが提案されている。これは、例えば、雑音低減の量が、アーチファクトが導入されないという制約を受ける最大レベルであり、音質と分離との間のトレードオフが固定されると規定するためである。さらに、システムは教師あり学習を含まない。アーチファクトを識別するために、真の目的および干渉信号を必要とせずに、(場合によっては音声が存在しないセグメント内の)出力信号と入力信号とを直接比較する尺度である、カートシス比が使用される。この単純な尺度は、可聴性尺度によって強化される。
本発明の目的は、音源分離のための改善された概念を提供することである。本発明の目的は、請求項1に記載の装置、請求項16に記載の方法、および請求項17に記載のコンピュータプログラムによって解決される。
オーディオ入力信号から分離オーディオ信号を生成するための装置が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。装置は、音源分離器と、決定モジュールと、信号プロセッサとを備える。音源分離器は、オーディオ入力信号に依存する推定される目的信号を決定するように構成され、推定される目的信号は、目的オーディオ信号部分のみを含む信号の推定値である。決定モジュールは、1つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するように構成され、1つもしくは複数のパラメータ値は、1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する。信号プロセッサは、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を生成するように構成され、推定される残差信号は、残差オーディオ信号部分のみを含む信号の推定値である。
さらに、オーディオ入力信号から分離オーディオ信号を生成するための方法が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。方法は以下を含む:
オーディオ入力信号に依存する推定される目的信号を決定するステップであって、推定される目的信号が、目的オーディオ信号部分のみを含む信号の推定値である、ステップ。
1つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するステップであって、1つもしくは複数のパラメータ値が、1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する、ステップ。ならびに:
1つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を生成するステップであって、推定される残差信号が、残差オーディオ信号部分のみを含む信号の推定値である、ステップ。
さらに、コンピュータまたは信号プロセッサ上で実行されるときに上述の方法を実施するためのコンピュータプログラムが提供される。
一実施形態による、オーディオ入力信号から分離オーディオ信号を生成するための装置を示す図である。 人工ニューラルネットワークをさらに備える、別の実施形態による分離オーディオ信号を生成するための装置を示す図である。 音質の推定を使用するように構成され、後処理を行うように構成された一実施形態による装置を示す図である。 後処理パラメータの直接推定が行われる、別の実施形態による装置を示す図である。 音質および二次分離の推定が行われる、さらなる実施形態による装置を示す図である。 分離パラメータの直接推定が行われる、別の実施形態による装置を示す図である。
以下において、本発明の実施形態を、図を参照してより詳細に説明する。
図1aに、一実施形態による、オーディオ入力信号から分離オーディオ信号を生成するための装置を示す。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。
装置は、音源分離器110と、決定モジュール120と、信号プロセッサ130とを備える。
音源分離器110は、オーディオ入力信号に依存する推定される目的信号を決定するように構成され、推定される目的信号は、目的オーディオ信号部分のみを含む信号の推定値である。
決定モジュール120は、1つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するように構成され、1つもしくは複数のパラメータ値は、1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する。
信号プロセッサ130は、1つまたは複数のパラメータ値に応じて、また、推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を生成するように構成される。推定される残差信号は、残差オーディオ信号部分のみを含む信号の推定値である。
任意選択的に、一実施形態では、決定モジュール120は、例えば、推定される目的信号に応じて、かつオーディオ入力信号および推定される残差信号の少なくとも一方に応じて、1つまたは複数の結果値を決定するように構成されてもよい。
実施形態は、教師あり学習を使用した音質と分離との間のトレードオフに対する知覚的に動機付けられた信号適応制御を提供する。これは、2つの方法で達成することができる。第1の方法は、出力信号の音質を推定し、この推定値を使用して、分離のパラメータまたは分離信号の後処理を適合させる。第2の実施形態では、回帰法は、出力信号の音質が所定の要件を満たすように制御パラメータを直接出力する。
実施形態によれば、音質
Figure 2022514878000021
の推定値を得るために分離の入力信号および出力信号の分析が行われ、(決定された処理パラメータを使用するときの)出力の音質が規定の音質値を下回らないように
Figure 2022514878000022
に基づいて処理パラメータを決定する。
いくつかの実施形態では、分析は、(9)の品質尺度
Figure 2022514878000023
を出力する。品質尺度から、以下の式(13)の制御パラメータ
Figure 2022514878000024
が計算され(例えば、スケーリング係数)、最終出力は、以下の式(13)のように初期出力と入力を混合することによって得られる。計算
Figure 2022514878000025
は、反復的にまたは回帰によって行うことができ、そこで回帰パラメータは訓練信号セットから学習される、図2参照。実施形態では、スケーリング係数の代わりに、制御パラメータは、例えば、平滑化パラメータなどであってもよい。
いくつかの実施形態では、分析により、(13)の制御パラメータ
Figure 2022514878000026
が直接得られる、図3参照。
図4および図5は、さらなる実施形態を定義している。
いくつかの実施形態は、後述するように、後処理ステップにおいて音質の制御を達成する。
本明細書に記載の実施形態のサブセットを、分離方法とは無関係に適用することができる。本明細書に記載のいくつかの実施形態は、分離プロセスのパラメータを制御する。
スペクトル重み付けを使用した音源分離は、時間周波数領域または短時間スペクトル領域の信号を処理する。入力信号
Figure 2022514878000027
は、短時間フーリエ変換(STFT)によって変換されるか、またはフィルタバンクによって処理されて、複素数値STFT係数またはサブバンド信号
Figure 2022514878000028
をもたらし、式中、
Figure 2022514878000029
は時間フレームインデックスを表し、
Figure 2022514878000030
は、周波数ビンインデックスまたはサブバンドインデックスを表す。所望の信号の複素数値STFT係数またはサブバンド信号は
Figure 2022514878000031
であり、干渉信号の複素数値STFT係数またはサブバンド信号は
Figure 2022514878000032
である。
分離出力信号は、以下のようにスペクトル重み付けによって計算され、
Figure 2022514878000033
式中、スペクトル重み
Figure 2022514878000034
は、要素ごとに入力信号と乗算される。その目的は、干渉源
Figure 2022514878000035
が大きい場合に
Figure 2022514878000036
の要素を減衰させることである。このために、スペクトル重みを、目的の推定値
Figure 2022514878000037
または干渉源の推定値
Figure 2022514878000038
または信号対干渉源比の推定値に基づいて、例えば、以下のように計算することができ、
Figure 2022514878000039
または
Figure 2022514878000040
式中、
Figure 2022514878000041
および
Figure 2022514878000042
は、分離を制御するパラメータである。例えば、
Figure 2022514878000043
を大きくすると、干渉源の減衰が大きくなる可能性があるが、音質の劣化も大きくなる可能性がある。スペクトル重みを、例えば、
Figure 2022514878000044
が閾値よりも大きくなるように閾値処理することによってさらに変更することができる。変更された利得
Figure 2022514878000045
は、以下のように計算される。
Figure 2022514878000046
閾値vを増加させると、干渉源の減衰が減少し、音質の潜在的な劣化が減少する。
必要な数量(目的
Figure 2022514878000047
または干渉源
Figure 2022514878000048
または信号対干渉源比)の推定は、これらの方法の中核であり、過去に様々な推定方法が開発されてきた。それらは、上記の2つの手法のどちらか1つに従う。
Figure 2022514878000049
は、次いで、STFTまたはフィルタバンクの逆の処理を使用して計算される。
以下では、実施形態による目的信号の推定を使用した音源分離について説明する。
目的信号の表現はまた、例えば人工ニューラルネットワークによって入力信号から直接推定することもできる。人工ニューラルネットワークが目的時間信号、またはそのSTFT係数、またはSTFT係数の大きさを推定するように訓練されている様々な方法が最近提案されている。
音質に関しては、教師あり学習モデル
Figure 2022514878000050
を適用してこれらの計算モデルの出力を推定することによって音質成分(Sound Quality Component(SQC))が取得される。
Figure 2022514878000051
教師あり学習法
Figure 2022514878000052
は、以下によって実現される。
1.訓練可能なパラメータ、
Figure 2022514878000053
個の入力変数および
Figure 2022514878000054
個の出力変数を用いて教師あり学習モデル
Figure 2022514878000055
を構成すること、
2.目的
Figure 2022514878000056
および混合
Figure 2022514878000057
のための例示的な信号でデータセットを生成すること、
3.音源分離
Figure 2022514878000058
によって目的信号の推定値を計算すること、
4.(9)または(10)による音質の計算モデルによって得られた信号から音質成分
Figure 2022514878000059
を計算すること、
5.教師あり学習モデル
Figure 2022514878000060
を、推定される目的
Figure 2022514878000061
(音源分離の出力)および混合
Figure 2022514878000062
の対応する例示的な信号が与えられた場合に推定値
Figure 2022514878000063
を出力するように訓練すること。あるいは、教師あり学習モデル
Figure 2022514878000064
を、
Figure 2022514878000065
および
Figure 2022514878000066
が与えられた場合に(
Figure 2022514878000067
の場合)推定
Figure 2022514878000068
を出力するように訓練すること。
6.適用において、訓練されたモデルには、音源分離方法を混合
Figure 2022514878000069
と共に使用して混合
Figure 2022514878000070
から得られた推定される目的
Figure 2022514878000071
(音源分離の出力)が供給される。
分離出力信号の品質管理のための教師あり学習法の適用が提供される。
以下では、実施形態による教師あり学習を使用した音質の推定について説明する。
図1bに、決定モジュール120が人工ニューラルネットワーク125を備える一実施形態を示す。人工ニューラルネットワーク125は、例えば、推定される目的信号に応じて1つまたは複数の結果値を決定するように構成され得る。人工ニューラルネットワーク125は、例えば、推定される目的信号および推定される残差信号およびオーディオ入力信号のうちの少なくとも1つに夫々が依存する複数の入力値を受け取るように構成され得る。人工ニューラルネットワーク125は、例えば、1つまたは複数の結果値を、人工ニューラルネットワーク125の1つまたは複数の出力値として決定するように構成され得る。
任意選択的に、一実施形態では、人工ニューラルネットワーク125は、例えば、推定される目的信号と、オーディオ入力信号および推定される残差信号の少なくとも一方とに応じて、1つまたは複数の結果値を決定するように構成されてもよい。
一実施形態では、複数の入力値の各々は、例えば、推定される目的信号および推定される残差信号およびオーディオ入力信号のうちの少なくとも1つに依存し得る。1つまたは複数の結果値は、例えば、推定される目的信号の推定される音質を示し得る。
一実施形態によれば、複数の入力値の各々は、例えば、推定される目的信号および推定される残差信号およびオーディオ入力信号のうちの少なくとも1つに依存し得る。1つまたは複数の結果値は、例えば、1つまたは複数のパラメータ値であり得る。
一実施形態では、人工ニューラルネットワーク125は、例えば、複数の訓練セットを受け取ることによって訓練されるように構成され得、複数の訓練セットの各々が、人工ニューラルネットワーク125の複数の入力訓練値および人工ニューラルネットワーク125の1つまたは複数の出力訓練値を含み、複数の出力訓練値の各々が、例えば、訓練目的信号および訓練残差信号および訓練入力信号のうちの少なくとも1つに依存し得、1つまたは複数の出力訓練値の各々が、例えば、訓練目的信号の音質の推定に依存し得る。
実施形態において、音質成分の推定値は、教師あり学習モデル(SLM)、例えば人工ニューラルネットワーク(ANN)125を使用した教師あり学習によって取得される。人工ニューラルネットワーク125は、例えば、A個のユニットを有する入力層と、各々少なくとも2つのユニットの入力層を有する少なくとも1つの隠れ層と、1つまたは複数のユニットを有する出力層とを備える全結合人工ニューラルネットワーク125とすることができる。
教師あり学習モデルを、回帰モデルまたは分類モデルとして実装することができる。回帰モデルは、出力層における1つのユニットの出力において1つの目的値を推定する。あるいは、回帰問題を、出力値を少なくとも3ステップに量子化し、
Figure 2022514878000072
が量子化ステップの数に等しい
Figure 2022514878000073
個のユニットを有する出力層を使用することによって、分類問題として定式化することもできる。
量子化ステップごとに、1つの出力ユニットが使用される。
教師あり学習モデルは、まず、混合信号
Figure 2022514878000074
、推定目的
Figure 2022514878000075
、および音質成分
Figure 2022514878000076
の複数の例を含むデータセットで訓練され、音質成分は、例えば、推定される目的
Figure 2022514878000077
および真の目的
Figure 2022514878000078
から計算されたものである。データセットの1つは
Figure 2022514878000079
で表される。教師あり学習モデルの出力は、ここでは
Figure 2022514878000080
で表される。
入力層のユニットの数
Figure 2022514878000081
は、入力値の数に対応する。モデルへの入力は、入力信号から計算される。各信号を、時間周波数変換のフィルタバンク、例えば短期フーリエ変換(STFT)によって任意選択的に処理することができる。例えば、入力を、
Figure 2022514878000082
および
Figure 2022514878000083
からの
Figure 2022514878000084
個の隣接フレームから計算されたSTFT係数を連結することによって構築することができ、
Figure 2022514878000085
または
Figure 2022514878000086
である。1フレーム当たりのスペクトル係数の総数を
Figure 2022514878000087
とすると、入力係数の総数は
Figure 2022514878000088
である。
人工ニューラルネットワーク125の各ユニットは、その出力を、次に非線形圧縮関数で任意選択的に処理される入力値の線形結合として計算し、
Figure 2022514878000089
式中、
Figure 2022514878000090
は、単一ニューロンの出力を表し、
Figure 2022514878000091
は、
Figure 2022514878000092
個の入力値を表し、
Figure 2022514878000093
は、線形結合の
Figure 2022514878000094
個の重みを表し、
Figure 2022514878000095
は、
Figure 2022514878000096
個の追加バイアス項を表す。第1の隠れ層内のユニットについて、入力値の数
Figure 2022514878000097
は入力係数の数Dに等しい。すべての
Figure 2022514878000098
および
Figure 2022514878000099
は、訓練手順で決定される人工ニューラルネットワーク125のパラメータである。
ある層のユニットは、次の層のユニットに接続され、先行する層のユニットの出力は、次の層のユニットへの入力である。
訓練は、数値最適化法、例えば勾配降下法を使用して予測誤差を最小化することによって実行される。単一項目の予測誤差は、差分
Figure 2022514878000100
の関数である。最適化基準に使用される全データセットまたはデータセットのサブセットにわたる予測誤差は、例えば、平均二乗誤差MSEまたは平均絶対誤差MAEであり、
Figure 2022514878000101
は、データセット内の項目の数を表す。
Figure 2022514878000102

Figure 2022514878000103
他の誤差メトリックは、それらが
Figure 2022514878000104
の単調関数であり、微分可能である場合に訓練の目的で実行可能である。また、人工ニューラルネットワークを構築するための他の構造および要素、例えば、畳み込みニューラルネットワーク層や再帰型ニューラルネットワーク層も存在する。
これらはすべて、多次元入力から一次元または多次元出力への写像を実施し、写像関数は、スカラー基準を最適化することによって訓練手順で決定されるパラメータセット(例えば、
Figure 2022514878000105

Figure 2022514878000106
)によって制御されるという共通点を有する。
訓練後、教師あり学習モデルを、真の目的
Figure 2022514878000107
を必要とせずに混合を与えられた場合の未知の推定される目的
Figure 2022514878000108
の音質の推定に使用することができる。
音質の計算モデルに関して、[1]~[11]に記載されている計算モデル、特に、ブラインド音源分離評価(BSSEval)([1]参照)、音源分離のための知覚評価方法(PEASS)([2]参照)、PEMO-Q([3]参照)、音質の知覚評価(PEAQ)([4]参照)、音声品質の知覚評価(PESQ)([5]および[6]参照)、ViSQOLAudio([7]参照)、補聴器音質指数(HAAQI)([8]参照)、補聴器音声品質指数(HASQI)([9]参照)、補聴器音声知覚指数(HASPI)([10]参照)、および短時間客観明瞭度(STOI)([11]参照)など、(明瞭度を含む)音質の態様を推定するための様々な計算モデルが、実施形態に従った実験において首尾よく使用されている。
よって、一実施形態によれば、訓練目的信号の音質の推定は、例えば、音質の1つまたは複数の計算モデルに依存し得る。
例えば、一実施形態では、訓練目的信号の音質の推定は、例えば、以下の音質の計算モデルのうちの1つまたは複数に依存し得る。
ブラインド音源分離評価、
音源分離のための知覚評価方法、
音質の知覚評価、
音声品質の知覚評価、
仮想音声品質客観聴取者オーディオ、
補聴器音質指数、
補聴器音声品質指数、
補聴器音声知覚指数、および
短時間客観明瞭度。
例えば、他の実施形態では音質の他の計算モデルも使用され得る。
以下では、音質の制御について説明する。
音質の制御は、音質成分を推定し、音質成分推定値に基づいて処理パラメータを計算することによって、または音質成分が目的値
Figure 2022514878000109
を満たす(かまたはその目的を下回らない)ように最適な処理パラメータを直接推定することによって実施することができる。
以上では、音質成分の推定について説明した。同様に、最適な処理パラメータを、最適な処理パラメータの所望の値で回帰法を訓練することによって推定することができる。最適な処理パラメータは、後述するように計算される。この処理を、以下ではパラメータ推定モジュール(Parameter Estimation Module(PEM))と呼ぶ。
音質
Figure 2022514878000110
の目的値は、分離と音質との間のトレードオフを決定する。このパラメータをユーザが制御することができ、またはこのパラメータは音響再生シナリオに応じて指定される。高品質の機器による静かな環境の家庭での音響再生は、より高い音質およびより低い分離から利益を得る可能性がある。スマートフォンに組み込まれたラウドスピーカによる雑音環境の車両での音響再生は、より低い音質であるが、より高い分離および音声明瞭度から利益を得る可能性がある。
また、推定量(音質成分または処理パラメータのどちらか)を、後処理の制御または二次分離の制御のどちらかにさらに適用することもできる。
ゆえに、4つの異なる概念を、提案の方法の実施のために使用することができる。これらの概念が、図2、図3、図4、および図5に示されており、これらの概念を以下で説明する。
図2に、音質の推定を使用するように構成され、後処理を行うように構成された一実施形態による装置を示す。
そのような実施形態によれば、決定モジュール120は、例えば、推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、音質値を1つまたは複数の結果値として推定するように構成され得、音質値は推定される目的信号の推定される音質を示す。決定モジュール120は、例えば、音質値に応じて1つまたは複数のパラメータ値を決定するように構成され得る。
よって、一実施形態によれば、決定モジュール120は、例えば、推定される目的信号の推定される音質に応じて、制御パラメータを1つまたは複数のパラメータ値として決定するように構成され得る。信号プロセッサ130は、例えば、制御パラメータに応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を決定するように構成され得る。
以下では、特定の実施形態について説明する。
第1のステップで、分離が適用される。分離信号および未処理の信号は、品質推定モジュール(Quality Estimation Module(QEM))への入力である。QEMは、音質成分の推定値
Figure 2022514878000111
を計算する。
推定される音質成分
Figure 2022514878000112
は、後処理を制御するためのパラメータセット
Figure 2022514878000113
を計算するために使用される。
変数
Figure 2022514878000114

Figure 2022514878000115

Figure 2022514878000116
、および
Figure 2022514878000117
は時間的に変化し得るが、以下では明確な表記のために時間依存性を省く。
そのような後処理は、例えば、入力信号のスケーリングまたはフィルタリングされたコピーを出力信号のスケーリングまたはフィルタリングされたコピーに加算し、それによって干渉信号の減衰(例えば、分離の影響)を低減すること、例えば、
Figure 2022514878000118
であり、式中、パラメータ
Figure 2022514878000119
は分離量を制御する。
他の実施形態では、式:
Figure 2022514878000120
が、例えば、用いられてもよく、式中、
Figure 2022514878000121
は推定される残差信号である。
分離を低減させると、
1)アーチファクトの量が低減され、
2)分離アーチファクトをマスクする干渉音の漏れが増加する。
よって、一実施形態では、信号プロセッサ130は、例えば、式(13)に応じて分離オーディオ信号を決定するように構成され得、式中、
Figure 2022514878000122
は分離オーディオ信号であり、
Figure 2022514878000123
は推定される目的信号であり、
Figure 2022514878000124
はオーディオ入力信号であり、
Figure 2022514878000125
は制御パラメータであり、
Figure 2022514878000126
は指数である。
パラメータは、音質の推定値
Figure 2022514878000127
および目的品質尺度
Figure 2022514878000128
を与件として以下のように計算される。
Figure 2022514878000129
この関数fは、例えば、以下の疑似コードによって示されるように、反復拡張探索とすることができる。
Figure 2022514878000130
あるいは、関係
Figure 2022514878000131
を、以下によって計算することもできる。
1.値セット
Figure 2022514878000132

Figure 2022514878000133

Figure 2022514878000134
を計算すること
2.内挿および外挿によって
Figure 2022514878000135
の残りの値を計算すること。
例えば、処理パラメータ
Figure 2022514878000136
が式(13)のように後処理を制御している場合、
Figure 2022514878000137
は、例えば、
Figure 2022514878000138
の相対増幅の18dB、12dB、および6dBに対応する
Figure 2022514878000139
の固定数の値について計算される。
したがって、写像
Figure 2022514878000140
が近似され、
Figure 2022514878000141
を選択することができる。
要約すると、一実施形態では、信号プロセッサ130は、例えば、分離オーディオ信号を、分離オーディオ信号の第1のバージョンを決定することによって、かつ分離オーディオ信号を1または複数回変更して分離オーディオ信号の1つまたは複数の中間バージョンを取得することによって生成するように構成され得る。決定モジュール120は、例えば、分離オーディオ信号の1つまたは複数の中間値のうちの1つに応じて音質値を変更するように構成され得る。信号プロセッサ130は、例えば、音質値が規定の音質値以上である場合、分離オーディオ信号の変更を停止するように構成され得る。
図3に、後処理パラメータの直接推定が行われる、別の実施形態による装置を示す。
まず、分離が適用される。分離信号は、パラメータ推定モジュール(PEM)への入力である。推定されるパラメータは、後処理を制御するために適用される。PEMは、分離信号
Figure 2022514878000142
および入力信号
Figure 2022514878000143
からp(n)を直接推定するように訓練されている。これは、式(14)の演算が訓練段階に移動され、回帰法が、
Figure 2022514878000144
の代わりに
Figure 2022514878000145
を推定するように訓練されることを意味する。したがって、以下の関数が学習される。
Figure 2022514878000146
この手順には、上述した手順とは対照的に、計算が少なくて済むという利点があることは明らかである。これには、モデルが
Figure 2022514878000147
の固定された設定について訓練されるため、柔軟性が低いという犠牲を伴う。しかしながら、いくつかのモデルを、異なる値の
Figure 2022514878000148
で訓練することができる。そのようにして、
Figure 2022514878000149
の選択に関する最終的な柔軟性を保持することができる。
一実施形態では、信号プロセッサ130は、例えば、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号の後処理に応じて分離オーディオ信号を生成するように構成され得る。
図4に、音質および二次分離の推定が行われる、さらなる実施形態による装置を示す。
まず、分離が適用される。分離信号は、QEMへの入力である。推定される音質成分は、二次分離を制御するためのパラメータセットを計算するために使用される。二次分離
Figure 2022514878000150
への入力は、入力信号
Figure 2022514878000151
または第1の分離の出力
Figure 2022514878000152
のどちらか、それら2つの線形結合
Figure 2022514878000153
であり、式中、
Figure 2022514878000154
および
Figure 2022514878000155
は、重み付けパラメータまたは第1の分離からの中間結果である。
よって、そのような実施形態では、信号プロセッサ130は、例えば、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号とオーディオ入力信号との線形結合に応じて分離オーディオ信号を生成するように構成され得るか、または信号プロセッサ130は、例えば、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号と推定される残差信号との線形結合に応じて分離オーディオ信号を生成するように構成され得る。
二次分離を制御するための適切なパラメータは、例えば、スペクトル重みを変更するパラメータである。
図5に、分離パラメータの直接推定が行われる、別の実施形態による装置を示す。
まず、分離が適用される。分離信号は、PEMへの入力である。推定されるパラメータは、二次分離を制御する。
二次分離z(n)への入力は、入力信号x(n)または第1の分離の出力
Figure 2022514878000156
または
、それら2つの線形結合
Figure 2022514878000157
であり、式中、
Figure 2022514878000158
および
Figure 2022514878000159
は、重み付けパラメータまたは第1の分離からの中間結果である。
例えば、以下のパラメータが制御される:上記の式(5)、(6)からの
Figure 2022514878000160
および
Figure 2022514878000161
ならびに
Figure 2022514878000162
実施形態による反復処理に関して、図4および図5は、1回の反復による反復処理を示している。一般には、これを複数回繰り返し、ループとして実装することができる。
反復処理(間に品質推定なし)は、複数の分離を連結する他の先行する方法と非常に似ている。
そのような手法は、例えば、複数の異なる方法を組み合わせるのに適し得る(1つの方法を繰り返すよりも優れている)。
いくつかの態様が装置の文脈で説明されているが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明も表していることは明らかである。同様に、方法ステップの文脈で説明された態様も、対応するブロックもしくは項目または対応する装置の特徴の説明を表している。方法ステップの一部または全部が、例えば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路のようなハードウェア装置によって(またはハードウェア装置を使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちの1つまたは複数がそのような装置によって実行され得る。
特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアで、または少なくとも部分的にハードウェアで、または少なくとも部分的にソフトウェアで実施することができる。実施態様は、それぞれの方法が行われるようにプログラマブルコンピュータシステムと協働する(または協働することができる)、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えば、フロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ可読であり得る。
本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの1つが行われるように、プログラマブルコンピュータシステムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作すると、方法のうちの1つを行うように動作する。プログラムコードは、例えば、機械可読キャリアに格納され得る。
他の実施形態は、機械可読キャリアに格納された、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを含む。
言い換えると、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作するときに本明細書に記載される方法のうちの1つを行うためのプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを含み、記録されているデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は通常、有形および/または非一時的である。
本発明の方法のさらなる実施形態は、したがって、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成され得る。
さらなる実施形態は、本明細書に記載される方法のうちの1つを行うように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを含む。
さらなる実施形態は、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記載される方法のうちの1つを行うためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載される方法の機能の一部または全部が行われ得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書に記載される方法のうちの1つを行うためにマイクロプロセッサと協働し得る。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって行われる。
本明細書に記載される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実施され得る。
本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して行われ得る。
上述した実施形態は、本発明の原理の単なる例示である。当業者には本明細書に記載される構成および詳細の改変および変形が明らかになることを理解されたい。したがって、本明細書において実施形態の記述および説明として提示された具体的な詳細によってではなく、次の特許請求の範囲によってのみ限定されることが意図されている。
参考文献:
[1]E.Vincent,R.Gribonval,and C.Fevotte,’’Performance measurement in blind audio source separation,’’ IEEE Transactions on Audio,Speech and Language Processing,vol.14,no.4,pp.1462-1469,2006.
[2]V.Emiya,E.Vincent,N.Harlander,and V.Hohmann,’’Subjective and objective quality assessment of audio source separation,’’ IEEE Trans.Audio,Speech and Language Process.,vol.19,no.7,2011.
[3]R.Huber and B.Kollmeier,’’PEMO-Q-a new method for objective audio quality assessment using a model of audatory perception,’’ IEEE Trans.Audio,Speech and Language Process.,vol.14,2006.
[4]ITU-R Rec.BS.1387-1,’’Method for objective measurements of perceived audio quality,’’ 2001.
[5]ITU-T Rec.P.862,’’Perceptual evaluation of speech quality(PESQ):An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs,’’ 2001.
[6]ITU-T Rec.P.862.1,’’Mapping function for transforming P.862 raw results scores to MOS-LQO,’’ 2003.
[7]A.Hines,E.Gillen et al.,’’ViSQOLAudio:An Objective Audio Quality Metric for Low Bitrate Codecs,’’ J.Acoust.Soc.Am.,vol.137,no.6,2015.
[8]J.M.Kates and K.H.Arehart,’’The Hearing-Aid Audio Quality Index(HAAQI),’’ IEEE Trans.Audio,Speech and Language Process.,vol.24,no.2,2016,evaluation code kindly provided by Prof.J.M.Kates.
[9]J.M.Kates and K.H.Arehart,’’The Hearing-Aid Speech Quality Index(HASQI)version 2,’’ Journal of the Audio Engineering Society,vol.62,no.3,pp.99-117,2014.
[10]J.M.Kates and K.H.Arehart,’’The Hearing-Aid Speech Perception Index(HASPI),’’ Speech Communication,vol.65,pp.75-93,2014.
[11]C.Taal,R.Hendriks,R.Heusdens,and J.Jensen,’’An algorithm for intelligibility prediction of time-frequency weighted noisy speech,’’ IEEE Trans.Audio,Speech and Language Process.,vol.19,no.7,2011.
[12]E.Manilow,P.Seetharaman,F.Pishdadian,and B.Pardo,’’Predicting algorithm efficacy for adaptive multi-cue source separation,’’ in Applications of Signal Processing to Audio and Acoustics(WASPAA),2017 IEEE Workshop on,2017,pp.274-278.
[13]M.Cartwright,B.Pardo,G.J.Mysore,and M.Hoffman,’’Fast and easy crowdsourced perceptual audio evaluation,’’ in Acoustics,Speech and Signal Processing(ICASSP),2016 IEEE International Conference on,2016.
[14]S.-W.Fu,T.-W.Wang,Y.Tsao,X.Lu,and H.Kawai,’’End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks,’’ IEEE/ACM Transactions on Audio,Speech and Language Processing(TASLP),vol.26,no.9,2018.
[15]Y.Koizumi,K.Niwa,Y.Hioka,K.Koabayashi,and Y.Haneda,’’Dnn-based source enhancement to increase objective sound quality assessment score,’’ IEEE/ACM Transactions on Audio,Speech,and Language Processing,2018.
[16]Y.Zhao,B.Xu,R.Giri,and T.Zhang,’’Perceptually guided speech enhancement using deep neural networks,’’ in Acoustics,Speech and Signal Processing(ICASSP),2018 IEEE International Conference on,2018.
[17]Y.Koizumi,K.Niwa,Y.Hioka,K.Kobayashi,and Y.Haneda,’’Dnn-based source enhancement self-optimized by reinforcement learning using sound quality measurements,’’ in Acoustics,Speech and Signal Processing(ICASSP),2017 IEEE International Conference on,2017.
[18]J.Jensen and M.S.Pedersen,’’Audio processing device comprising artifact reduction,’’ US Patent US 9,432,766 B2,Aug.30,2016.
本発明の目的は、音源分離のための改善された概念を提供することである。本発明の目的は、請求項1に記載の装置、請求項15に記載の方法、および請求項16に記載のコンピュータプログラムによって解決される。
オーディオ入力信号から分離オーディオ信号を生成するための装置が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。装置は、音源分離器と、決定モジュールと、信号プロセッサとを備える。音源分離器は、オーディオ入力信号に依存する推定される目的信号を決定するように構成され、推定される目的信号は、目的オーディオ信号部分のみを含む信号の推定値である。決定モジュールは、1つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するように構成され、1つもしくは複数のパラメータ値は、1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する。信号プロセッサは、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を生成するように構成され、推定される残差信号は、残差オーディオ信号部分のみを含む信号の推定値である。
さらに、オーディオ入力信号から分離オーディオ信号を生成するための方法が提供される。オーディオ入力信号は、目的オーディオ信号部分および残差オーディオ信号部分を含む。残差オーディオ信号部分は、オーディオ入力信号と目的オーディオ信号部分との間の残差を示す。
さらに、信号プロセッサが、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号とオーディオ入力信号との線形結合に応じて分離オーディオ信号を生成するように構成されるか、または信号プロセッサが、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号と推定される残差信号との線形結合に応じて分離オーディオ信号を生成する。方法は以下を含む:
オーディオ入力信号に依存する推定される目的信号を決定するステップであって、推定される目的信号が、目的オーディオ信号部分のみを含む信号の推定値である、ステップ。
1つもしくは複数のパラメータ値を取得するために、推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するステップであって、1つもしくは複数のパラメータ値が、1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する、ステップ。ならびに:
1つまたは複数のパラメータ値に応じて、かつ推定される目的信号およびオーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、分離オーディオ信号を生成するステップであって、推定される残差信号が、残差オーディオ信号部分のみを含む信号の推定値である、ステップ。
さらに、分離オーディオ信号を生成するステップは、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号とオーディオ入力信号との線形結合に応じて実行し、または、分離オーディオ信号を生成するステップは、1つまたは複数のパラメータ値に応じて、かつ推定される目的信号と推定される残差信号との線形結合に応じて実行する。
さらに、コンピュータまたは信号プロセッサ上で実行されるときに上述の方法を実施するためのコンピュータプログラムが提供される。

Claims (17)

  1. オーディオ入力信号から分離オーディオ信号を生成するための装置であって、前記オーディオ入力信号が、目的オーディオ信号部分および残差オーディオ信号部分を含み、前記残差オーディオ信号部分が、前記オーディオ入力信号と前記目的オーディオ信号部分との間の残差を示し、前記装置が、
    前記オーディオ入力信号に依存する推定される目的信号を決定するための音源分離器(110)であって、前記推定される目的信号が、前記目的オーディオ信号部分のみを含む信号の推定値である、音源分離器(110)と、
    決定モジュール(120)であって、1つもしくは複数のパラメータ値を取得するために、前記推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するように構成され、前記1つもしくは複数のパラメータ値が、前記1つもしくは複数の結果値であるか、または1つもしくは複数の結果値に依存する、決定モジュール(120)と、
    前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号および前記オーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、前記分離オーディオ信号を生成するための信号プロセッサ(130)であって、前記推定される残差信号が、前記残差オーディオ信号部分のみを含む信号の推定値である、信号プロセッサ(130)と
    を備える、装置。
  2. 前記決定モジュール(120)が、前記推定される目的信号の前記推定される音質に応じて、制御パラメータを前記1つまたは複数のパラメータ値として決定するように構成され、
    前記信号プロセッサが、前記制御パラメータに応じて、かつ前記推定される目的信号および前記オーディオ入力信号および前記推定される残差信号のうちの少なくとも1つに応じて、前記分離オーディオ信号を決定するように構成される、
    請求項1に記載の装置。
  3. 前記信号プロセッサ(130)が、前記分離オーディオ信号を、
    Figure 2022514878000163
    、に応じて、または
    Figure 2022514878000164
    、に応じて決定するように構成され、
    式中、yは、前記分離オーディオ信号であり、
    式中、
    Figure 2022514878000165
    は、前記推定される目的信号であり、
    式中、
    Figure 2022514878000166
    は、前記オーディオ入力信号であり、
    式中、
    Figure 2022514878000167
    は、前記推定される残差信号であり、
    式中、
    Figure 2022514878000168
    は、前記制御パラメータであり、
    式中、
    Figure 2022514878000169
    は、指数である、
    請求項2に記載の装置。
  4. 前記決定モジュール(120)が、前記推定される目的信号および前記オーディオ入力信号および前記推定される残差信号のうちの少なくとも1つに応じて、音質値を前記1つまたは複数の結果値として推定するように構成され、前記音質値が前記推定される目的信号の前記推定される音質を示し、
    前記決定モジュール(120)が、前記音質値に応じて前記1つまたは複数のパラメータ値を決定するように構成される、
    請求項2または3に記載の装置。
  5. 前記信号プロセッサ(130)が、前記分離オーディオ信号を、前記分離オーディオ信号の第1のバージョンを決定することによって、かつ前記分離オーディオ信号を1または複数回変更して前記分離オーディオ信号の1つまたは複数の中間バージョンを取得することによって生成するように構成され、
    前記決定モジュール(120)が、前記分離オーディオ信号の前記1つまたは複数の中間値のうちの1つに応じて前記音質値を変更するように構成され、
    前記信号プロセッサ(130)が、音質値が規定の音質値以上である場合、前記分離オーディオ信号の変更を停止するように構成される、
    請求項4に記載の装置。
  6. 前記決定モジュール(120)が、前記推定される目的信号に応じて、かつ前記オーディオ入力信号および前記推定される残差信号の少なくとも一方に応じて、前記1つまたは複数の結果値を決定するように構成される、
    請求項1~5のいずれか一項に記載の装置。
  7. 前記決定モジュール(120)が、前記推定される目的信号に応じて前記1つまたは複数の結果値を決定するための人工ニューラルネットワーク(125)を備え、前記人工ニューラルネットワーク(125)が、複数の入力値の各々が前記推定される目的信号および前記推定される残差信号および前記オーディオ入力信号のうちの少なくとも1つに依存する、前記複数の入力値を受け取るように構成され、前記人工ニューラルネットワーク(125)が、前記1つまたは複数の結果値を、前記人工ニューラルネットワーク(125)の1つまたは複数の出力値として決定するように構成される、
    請求項1~6のいずれか一項に記載の装置。
  8. 前記複数の入力値の各々が、前記推定される目的信号および前記推定される残差信号および前記オーディオ入力信号のうちの少なくとも1つに依存し、
    前記1つまたは複数の結果値が、前記推定される目的信号の前記推定される音質を示す、
    請求項7に記載の装置。
  9. 前記複数の入力値の各々が、前記推定される目的信号および前記推定される残差信号および前記オーディオ入力信号のうちの少なくとも1つに依存し、
    前記1つまたは複数の結果値が、前記1つまたは複数のパラメータ値である、
    請求項7に記載の装置。
  10. 前記人工ニューラルネットワーク(125)が、複数の訓練セットを受け取ることによって訓練されるように構成され、前記複数の訓練セットの各々が、前記人工ニューラルネットワーク(125)の複数の入力訓練値および前記人工ニューラルネットワーク(125)の1つまたは複数の出力訓練値を含み、前記複数の出力訓練値の各々が、訓練目的信号および訓練残差信号および訓練入力信号のうちの少なくとも1つに依存し、前記または複数の出力訓練値の各々が、前記訓練目的信号の音質の推定に依存する、
    請求項7~9のいずれか一項に記載の装置。
  11. 前記訓練目的信号の前記音質の前記推定が、音質の1つまたは複数の計算モデルに依存する、
    請求項10に記載の装置。
  12. 音質の前記1つまたは複数の計算モデルが、
    ブラインド音源分離評価、
    音源分離のための知覚評価方法、
    音質の知覚評価、
    音声品質の知覚評価、
    仮想音声品質客観聴取者オーディオ、
    補聴器音質指数、
    補聴器音声品質指数、
    補聴器音声知覚指数、および
    短時間客観明瞭度
    のうちの少なくとも1つである、
    請求項11に記載の装置。
  13. 前記人工ニューラルネットワーク(125)が、前記推定される目的信号に応じて、かつ前記オーディオ入力信号および前記推定される残差信号の少なくとも一方に応じて、前記1つまたは複数の結果値を決定するように構成される、
    請求項7~12のいずれか一項に記載の装置。
  14. 前記信号プロセッサ(130)が、前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号の後処理に応じて前記分離オーディオ信号を生成するように構成される、
    請求項1~13のいずれか一項に記載の装置。
  15. 前記信号プロセッサ(130)が、前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号と前記オーディオ入力信号との線形結合に応じて前記分離オーディオ信号を生成するように構成されるか、または
    前記信号プロセッサ(130)が、前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号と前記推定される残差信号との線形結合に応じて前記分離オーディオ信号を生成するように構成される、
    請求項1~14のいずれか一項に記載の装置。
  16. オーディオ入力信号から分離オーディオ信号を生成するための方法であって、前記オーディオ入力信号が、目的オーディオ信号部分および残差オーディオ信号部分を含み、前記残差オーディオ信号部分が、前記オーディオ入力信号と前記目的オーディオ信号部分との間の残差を示し、前記方法が、
    前記オーディオ入力信号に依存する推定される目的信号を決定するステップであって、前記推定される目的信号が、前記目的オーディオ信号部分のみを含む信号の推定値である、ステップと、
    1つもしくは複数のパラメータ値を取得するために、前記推定される目的信号の推定される音質に応じて1つもしくは複数の結果値を決定するステップであって、前記1つもしくは複数のパラメータ値が、前記1つもしくは複数の結果値であるか、または前記1つもしくは複数の結果値に依存する、ステップと、
    前記1つまたは複数のパラメータ値に応じて、かつ前記推定される目的信号および前記オーディオ入力信号および推定される残差信号のうちの少なくとも1つに応じて、前記分離オーディオ信号を生成するステップであって、前記推定される残差信号が、前記残差オーディオ信号部分のみを含む信号の推定値である、ステップ
    を含む、方法。
  17. コンピュータまたは信号プロセッサ上で実行されたときに請求項16に記載の方法を実施するためのコンピュータプログラム。
JP2021535739A 2018-12-21 2019-12-20 音質の推定および制御を使用した音源分離のための装置および方法 Active JP7314279B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18215707.3A EP3671739A1 (en) 2018-12-21 2018-12-21 Apparatus and method for source separation using an estimation and control of sound quality
EP18215707.3 2018-12-21
PCT/EP2019/086565 WO2020127900A1 (en) 2018-12-21 2019-12-20 Apparatus and method for source separation using an estimation and control of sound quality

Publications (2)

Publication Number Publication Date
JP2022514878A true JP2022514878A (ja) 2022-02-16
JP7314279B2 JP7314279B2 (ja) 2023-07-25

Family

ID=65011753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021535739A Active JP7314279B2 (ja) 2018-12-21 2019-12-20 音質の推定および制御を使用した音源分離のための装置および方法

Country Status (10)

Country Link
US (1) US20210312939A1 (ja)
EP (2) EP3671739A1 (ja)
JP (1) JP7314279B2 (ja)
KR (1) KR102630449B1 (ja)
CN (1) CN113574597B (ja)
BR (1) BR112021012308A2 (ja)
CA (1) CA3124017C (ja)
ES (1) ES2966063T3 (ja)
MX (1) MX2021007323A (ja)
WO (1) WO2020127900A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116997962A (zh) * 2020-11-30 2023-11-03 杜比国际公司 基于卷积神经网络的鲁棒侵入式感知音频质量评估
CN113470689B (zh) * 2021-08-23 2024-01-30 杭州国芯科技股份有限公司 一种语音分离方法
WO2023073596A1 (en) * 2021-10-27 2023-05-04 WingNut Films Productions Limited Audio source separation processing workflow systems and methods
US11763826B2 (en) 2021-10-27 2023-09-19 WingNut Films Productions Limited Audio source separation processing pipeline systems and methods
US20230126779A1 (en) * 2021-10-27 2023-04-27 WingNut Films Productions Limited Audio Source Separation Systems and Methods
CN113850246B (zh) * 2021-11-30 2022-02-18 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统
CN117475360B (zh) * 2023-12-27 2024-03-26 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015097829A1 (ja) * 2013-12-26 2015-07-02 株式会社東芝 方法、電子機器およびプログラム
JP2017063419A (ja) * 2015-09-24 2017-03-30 ジーエヌ リザウンド エー/エスGn Resound A/S 雑音を受ける発話信号の客観的知覚量を決定する方法
US20170251320A1 (en) * 2016-02-29 2017-08-31 Electronics And Telecommunications Research Institute Apparatus and method of creating multilingual audio content based on stereo audio signal
WO2018068396A1 (zh) * 2016-10-12 2018-04-19 科大讯飞股份有限公司 语音质量评价方法和装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808571A (zh) * 2005-01-19 2006-07-26 松下电器产业株式会社 声音信号分离系统及方法
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
DE102011084035A1 (de) * 2011-10-05 2013-04-11 Nero Ag Vorrichtung, verfahren und computerprogramm zur bewertung einer wahrgenommenen audioqualität
EP2747081A1 (en) 2012-12-18 2014-06-25 Oticon A/s An audio processing device comprising artifact reduction
SG11201507066PA (en) * 2013-03-05 2015-10-29 Fraunhofer Ges Forschung Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
EP2790419A1 (en) * 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
GB2516483B (en) * 2013-07-24 2018-07-18 Canon Kk Sound source separation method
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
MX2018003529A (es) * 2015-09-25 2018-08-01 Fraunhofer Ges Forschung Codificador y metodo para codificar una se?al de audio con ruido de fondo reducido que utiliza codificacion predictiva lineal.
EP3220661B1 (en) * 2016-03-15 2019-11-20 Oticon A/s A method for predicting the intelligibility of noisy and/or enhanced speech and a binaural hearing system
EP3453187B1 (en) * 2016-05-25 2020-05-13 Huawei Technologies Co., Ltd. Audio signal processing stage, audio signal processing apparatus and audio signal processing method
DK3252766T3 (da) * 2016-05-30 2021-09-06 Oticon As Audiobehandlingsanordning og fremgangsmåde til estimering af signal-til-støj-forholdet for et lydsignal
US10861478B2 (en) * 2016-05-30 2020-12-08 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
EP3474280B1 (en) * 2017-10-19 2021-07-07 Goodix Technology (HK) Company Limited Signal processor for speech signal enhancement
CN107993671A (zh) * 2017-12-04 2018-05-04 南京地平线机器人技术有限公司 声音处理方法、装置和电子设备
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015097829A1 (ja) * 2013-12-26 2015-07-02 株式会社東芝 方法、電子機器およびプログラム
US20160210983A1 (en) * 2013-12-26 2016-07-21 Kabushiki Kaisha Toshiba Method and electronic device
JP2017063419A (ja) * 2015-09-24 2017-03-30 ジーエヌ リザウンド エー/エスGn Resound A/S 雑音を受ける発話信号の客観的知覚量を決定する方法
US20170251320A1 (en) * 2016-02-29 2017-08-31 Electronics And Telecommunications Research Institute Apparatus and method of creating multilingual audio content based on stereo audio signal
WO2018068396A1 (zh) * 2016-10-12 2018-04-19 科大讯飞股份有限公司 语音质量评价方法和装置

Also Published As

Publication number Publication date
EP3671739A1 (en) 2020-06-24
BR112021012308A2 (pt) 2021-09-08
EP3899936B1 (en) 2023-09-06
ES2966063T3 (es) 2024-04-18
CA3124017C (en) 2024-01-16
WO2020127900A1 (en) 2020-06-25
KR102630449B1 (ko) 2024-01-31
JP7314279B2 (ja) 2023-07-25
CN113574597B (zh) 2024-04-12
CA3124017A1 (en) 2020-06-25
MX2021007323A (es) 2021-08-24
EP3899936C0 (en) 2023-09-06
KR20210110622A (ko) 2021-09-08
CN113574597A (zh) 2021-10-29
US20210312939A1 (en) 2021-10-07
EP3899936A1 (en) 2021-10-27

Similar Documents

Publication Publication Date Title
JP7314279B2 (ja) 音質の推定および制御を使用した音源分離のための装置および方法
Choi et al. Real-time denoising and dereverberation wtih tiny recurrent u-net
JP5341983B2 (ja) サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
Fu et al. MetricGAN-U: Unsupervised speech enhancement/dereverberation based only on noisy/reverberated speech
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
Ma et al. Speech enhancement using a masking threshold constrained Kalman filter and its heuristic implementations
RU2715026C1 (ru) Устройство кодирования для обработки входного сигнала и устройство декодирования для обработки кодированного сигнала
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
US20230087486A1 (en) Method and apparatus for processing an initial audio signal
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
KR20190060628A (ko) 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치
Selvi et al. Hybridization of spectral filtering with particle swarm optimization for speech signal enhancement
US11224360B2 (en) Systems and methods for evaluating hearing health
RU2782364C1 (ru) Устройство и способ отделения источников с использованием оценки и управления качеством звука
JP6233625B2 (ja) 音声処理装置および方法、並びにプログラム
Kim et al. iDeepMMSE: An improved deep learning approach to MMSE speech and noise power spectrum estimation for speech enhancement.
Li et al. Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement
US20240127842A1 (en) Apparatus, Methods and Computer Programs for Audio Signal Enhancement Using a Dataset
Langjahr et al. Objective quality assessment of target speaker separation performance in multisource reverberant environment
Rustrana et al. Spectral Methods for Single Channel Speech Enhancement in Multi-Source Environment
US20240363132A1 (en) High-performance small-footprint ai-based noise suppression model
Romoli et al. An interactive optimization procedure for stereophonic acoustic echo cancellation systems
Freiwald et al. Loss Functions for Deep Monaural Speech Enhancement
KR20220053995A (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
Ljungquist Masking and Reconstructing Speech to Improve Intelligibility

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210812

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220816

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230712

R150 Certificate of patent or registration of utility model

Ref document number: 7314279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150