JP2024516669A - デコードされた音信号へのマルチチャネルコンフォートノイズ注入のための方法およびデバイス - Google Patents

デコードされた音信号へのマルチチャネルコンフォートノイズ注入のための方法およびデバイス Download PDF

Info

Publication number
JP2024516669A
JP2024516669A JP2023566674A JP2023566674A JP2024516669A JP 2024516669 A JP2024516669 A JP 2024516669A JP 2023566674 A JP2023566674 A JP 2023566674A JP 2023566674 A JP2023566674 A JP 2023566674A JP 2024516669 A JP2024516669 A JP 2024516669A
Authority
JP
Japan
Prior art keywords
power spectrum
channel
decoded
background noise
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023566674A
Other languages
English (en)
Inventor
ウラジミール・マレノフスキー
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2024516669A publication Critical patent/JP2024516669A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

デコードされたマルチチャネル音信号にマルチチャネルコンフォートノイズを注入するための方法およびデバイスが、マルチチャネルサウンドデコーダにおいて実装される。デコードされたモノダウンミックス信号におけるバックグラウンドノイズが推定され、デコードされたマルチチャネル音信号の複数のチャネルの各々に対するコンフォートノイズが、推定されたバックグラウンドノイズに応じて計算される。計算されたコンフォートノイズは、デコードされたマルチチャネル音信号のそれぞれのチャネルに注入される。

Description

本開示は、音符号化に関し、詳細には、限定はしないが、音コーデック、詳細には、限定はしないが、ステレオ音コーデックのデコーダにおけるデコードされた音信号へのマルチチャネルコンフォートノイズ注入のための方法およびデバイスに関する。
本開示および添付の特許請求の範囲において、
- 「音」という用語は、音声、音響、および他の音に関係する場合がある。
- 「ステレオ」という用語は、「ステレオフォニック」の略語である。
- 「モノ」という用語は、「モノフォニック」の略語である。
歴史的に、従来の電話は、ユーザの耳の片方にのみ音を出力するためにただ1つのトランスデューサを有するハンドセットを実装されている。この10年間で、ユーザは、主に音楽を聴くために、また時には音声を聴くために、ユーザの両耳で音を受信するヘッドフォンとともにポータブルハンドセットを使用し始めた。それにもかかわらず、会話音声を送信および受信するためにポータブルハンドセットが使用されるとき、内容は、依然としてモノであるが、ヘッドセットが使用されるとユーザの両耳に伝えられる。
その内容全体が参照により本明細書に組み込まれる参考文献[1]に記載される、最新の3GPP(登録商標)(第3世代パートナーシッププロジェクト)音声符号化規格、指定された高度な音声サービス(Enhanced Voice Services:EVS)を用いて、符号化された音、たとえば、ポータブルハンドセットを介して送信および受信される音声および/または音響の品質は、著しく改善された。次の当然のステップは、受信者が、通信リンクの他方の端部においてキャプチャされる現実の音響シーンにできるだけ近づくように、ステレオ情報を送信することである。
効率的なステレオ符号化技法が開発され、低ビットレートに使用されている。非限定的な例として、いわゆるパラメトリックステレオ符号化は、低ビットレートストレオ符号化のための1つの効率的な技法を構成する。
パラメトリックステレオは、一般的なモノコーデックと、ステレオイメージを表す一定量のステレオサイド情報(ステレオパラメータに対応する)を使用して、2つの、左および右チャネルをモノ信号としてエンコードする。2つの入力の、左および右チャネルは、たとえば、左および右チャネルを加算し、その和を2で割ることによって、モノ信号にダウンミックスされる。ステレオパラメータは、通常、変換領域、たとえば離散フーリエ変換(DFT)領域で計算され、いわゆるバイノーラルまたはチャネル間キューに関係している。バイノーラルキュー(それらの内容全体が参照により本明細書に組み込まれる参考文献[2]および[3])は、両耳間レベル差(Interaural Level Difference:ILD)、両耳間時間差(Interaural Time Difference:ITD)、および両耳間相関(Interaural Correlation:IC)を含む。信号特性、ステレオシーン構成などに応じて、一部または全部のバイノーラルキューが符号化され、デコーダに送信される。どのバイノーラルキューが符号化され、送信されるかについての情報が、通常、ステレオサイド情報の一部であるシグナリング情報として送られる。また、バイノーラルキューは、同じまたは異なる符号化技法を使用して量子化(符号化)される可能性があり、これは可変数のビットが使用されることになる。量子化されたバイノーラルキューに加えて、ステレオサイド情報は、通常中高ビットレートで、たとえば、左右のチャネル間の差を計算し、その差を2で割ることによって得られる、ダウンミキシングから生じる量子化された残差信号を含み得る。バイノーラルキュー、残差信号、およびシグナリング情報は、エントロピー符号化技法、たとえば算術エンコーダを使用して符号化され得る。算術エンコーダについての追加情報は、たとえば、参考文献[1]において見つけられ得る。一般に、パラメトリックステレオ符号化は、中低ビットレートにおいて最も効率的である。
さらに、この数年では、音響の生成、記録、表現、符号化、送信、および再生は、聴取者にとって向上した双方向および没入型の体験へと変わっている。没入型の体験は、たとえば、音がすべての方向から来ている間、音シーンに深くはまり込み、または没頭している状態として説明することができる。没入型音響(3D(3次元)音響とも呼ばれる)では、音像(sound image)は、音質、指向性、反響、透過性、および(聴覚的な)空間的広がり(spaciousness)の正確さのような、広範囲の音特性を考慮に入れて、聴取者の周りのすべての3次元で再生される。没入型音響は、ラウドスピーカーベースのシステム、一体型再生システム(サウンドバー)、またはヘッドフォンなどの特定の音プレイバックまたは再生システムに対して生成される。その場合、音再生システムの双方向性は、たとえば、音レベルを調整する、音の位置を変更する、または再生用の異なる言語を選択する能力を含む場合がある。
近年、3GPP(登録商標)(第3世代パートナーシッププロジェクト)が、EVSコーデック(その内容全体が参照により本明細書に組み込まれる参考文献[4]参照)に基づいて、IVAS(没入型音声および音響サービス(Immersive Voice and Audio Services))と呼ばれる没入型サービスのために3Dサウンドコーデックの開発に取り組み始めた。
本開示は、デコードされたマルチチャネル音信号にマルチチャネルコンフォートノイズを注入するための、マルチチャネルサウンドデコーダにおいて実装される方法であって、デコードされたモノダウンミックス信号におけるバックグラウンドノイズを推定するステップと、推定されたバックグラウンドノイズに応じて、デコードされたマルチチャネル音信号の複数のチャネルの各々に対してコンフォートノイズを計算し、計算されたコンフォートノイズをデコードされたマルチチャネル音信号のそれぞれのチャネルに注入するステップとを含む方法に関する。
本開示はまた、デコードされたマルチチャネル音信号にコンフォートノイズを注入するための、マルチチャネルサウンドデコーダにおいて実装されるデバイスであって、デコードされたモノダウンミックス信号におけるバックグラウンドノイズの推定器と、推定されたバックグラウンドノイズに応じて、デコードされたマルチチャネル音信号の複数のチャネルの各々に対してコンフォートノイズを計算するための、および計算されたコンフォートノイズをデコードされたマルチチャネル音信号のそれぞれのチャネルに注入するための、コンフォートノイズの注入器とを備える、デバイスに関係している。
マルチチャネルコンフォートノイズ注入のための方法およびデバイスの上記および他の目的、利点、および特徴は、添付の図面を参照しながら単に例として与えられる、それらの例示的な実施形態の以下の非限定的な説明を読むとより明らかになるであろう。
マルチチャネルコンフォートノイズ注入のためのデバイス、およびマルチチャネルコンフォートノイズ注入のための方法を含む、パラメトリックステレオデコーダおよび対応するパラメトリックステレオデコーディング方法を同時に示す概略ブロック図である。 モノダウンミックス信号の周波数領域への変換器、およびモノダウンミックス信号を周波数領域に変換する動作を同時に示す概略図である。 パワースペクトル圧縮を示すグラフである。 バックグラウンドノイズ推定演算の初期化手順を示す概略フローチャートである。 マルチチャネルコンフォートノイズ注入のためのデバイスおよび方法を含む、上記で説明したパラメトリックステレオデコーダおよびデコーディング方法を形成するハードウェア構成要素の例示的な構成の簡略ブロック図である。
本開示は、概して、サウンドデコーダにおけるマルチチャネルの、たとえばステレオのコンフォートノイズ注入技法に関する。
ステレオコンフォートノイズ注入技法について、単に非限定的な例として、本開示全体にわたってIVASコーデック(またはIVASサウンドコーデック)と呼ばれるIVAS符号化フレームワークのパラメトリックステレオサウンドデコーダを参照しながら説明する。しかしながら、他のタイプのマルチチャネルサウンドデコーダおよびコーデックにそのようなマルチチャネルコンフォートノイズ注入技法を組み込むことは、本開示の範囲内である。
1. 導入
ステレオの信号キャプチャを含むモバイル通信シナリオは、たとえば、参考文献[2]または[3]に記載されるように、低ビットレートのパラメトリックステレオ符号化を使用する場合がある。低ビットレートのパラメトリックステレオエンコーダでは、通常、単一の送信チャネルが、モノダウンミックス音信号を送信するために使用される。ダウンミキシングプロセスは、入って来る音の主方向から信号を抽出するように設計される。モノダウンミックス信号の表現の質は、基盤となるコアコーデックによってかなりの程度まで決定される。利用可能なビットバジェットの制限により、デコードされたモノダウンミックス信号の質は、特に、その内容全体が参照により本明細書に組み込まれる参考文献[5]に記載されるようにバックグラウンドノイズが存在する場合、あまり良くないことが多い。非限定的な例として、CELPベースのコアコーデックの場合、利用可能なビットバジェットは、励起信号のスペクトル包絡線、適応コードブック、固定コードブック、適応コードブックの利得、および固定コードブック利得などの様々な構成要素の符号化の間で分散される。ノイズが多い音声信号のアクティブセグメントでは、固定コードブックの符号化に割り振られるビットの量は、それの透過的表現には十分ではない。合成された音信号のスペクトログラムでいくつかの周波数領域に、たとえば、フォルマント間に、スペクトルホールが観測されることがある。合成された音信号を聴くとき、バックグラウンドノイズは断続的に知覚され、それによってパラメトリックステレオエンコーダの性能を低下させる。
サウンドコーデックのデコーダ、詳細には、限定はしないが、パラメトリックステレオデコーダにおけるデコードされた音信号へのステレオコンフォートノイズ注入のための本開示による方法およびデバイスの技術的効果が、コーデックにおける不十分なバックグラウンドノイズ表現の悪影響を低減する。デコードされた音信号は、音声なしでバックグラウンドノイズが存在すると仮定される非アクティブセグメントの間に分析される。バックグラウンドノイズのスペクトル包絡線の長期推定が計算され、デコーダのメモリに記憶される。バックグラウンドノイズの合成的に作成されたコピーが次いで、デコードされた音信号のアクティブセグメントにおいて生成され、このデコードされた音信号に注入される。本開示によるステレオコンフォートノイズ注入のための方法およびデバイスは、たとえば、EVSコーデック(参考文献[1])において適用される、いわゆる「コンフォートノイズ付加」とは異なる。違いは、とりわけ、少なくとも以下の態様を含む。
- パラメトリックステレオデコーダにおけるバックグラウンドノイズスペクトル包絡線の推定は、大量の平均化を用いて周波数区分において、取得され、フィルタリングされたスペクトルのアダプティブブースティングと組み合わせられた無限インパルス応答(IIR)フィルタリングを用いて実施される。
- ステレオコンフォートノイズ生成および注入は、左チャネルおよび右チャネルで別々に、アップミックス(up-mixed)ステレオ信号において実施される。
ステレオコンフォートノイズ注入のための開示される方法およびデバイスは、IVASサウンドコーデックのパラメトリックステレオデコーダの一部であることがある。
2. パラメトリックステレオデコーダ
図1は、ステレオコンフォートノイズ注入のためのデバイス、およびステレオコンフォートノイズ注入のための方法を含む、パラメトリックステレオデコーダ100、および対応するパラメトリックステレオデコーディング方法150を同時に示す概略ブロック図である。
すでに述べたように、ステレオコンフォートノイズ注入デバイスおよび方法について、単に非限定的な例として、IVASサウンドコーデックにおけるパラメトリックステレオデコーダを参照しながら説明する。
2.1 デマルチプレクサ
図1を参照すると、パラメトリックステレオデコーディング方法150は、IVASサウンドコーデックのパラメトリックステレオエンコーダからビットストリームを受信する動作151を含む。動作151を実施するために、パラメトリックステレオデコーダ100は、デマルチプレクサ101を備える。
デマルチプレクサ101は、受信したビットストリームから、(a)たとえば時間領域における、符号化されたモノダウンミックス信号131と、(b)上記で述べたILD、ITD、および/またはICバイノーラルキュー、ならびに場合によってはダウンミキシングから生じる上記で述べた量子化された残差信号などの、符号化されたステレオパラメータ132とを復元する。
2.2 コアデコーダ
図1のパラメトリックステレオデコーディング方法150は、符号化されたモノダウンミックス信号131をコアデコードする(core decode)動作152を含む。動作152を実施するために、パラメトリックステレオデコーダ100は、コアデコーダ102を備える。
非限定的な例によれば、コアデコーダ102は、CELP(Code-Excited Linear Prediction:符号励振線形予測)ベースのコアコーデックであってもよい。コアデコーダ102はその場合、受信した符号化されたモノダウンミックス信号131から、時間領域において、デコードされたモノダウンミックス信号133を取得するためにCELP技術を使用する。
ACELP(Algebraic Code-Excited Linear Prediction:代数符号励振線形予測)、TCX(Transform-Coded eXcitation)、またはGSC(Generic audio Signal Coder:ジェネリック音響信号符号器)などの他のタイプのコアデコーダ技術を使用することは、本開示の範囲内である。
CELP、ACELP、TCX、およびGSCデコーダについての追加情報は、たとえば、参考文献[1]において見つけられ得る。
2.3 ステレオパラメータデコーダ
図1を参照すると、パラメトリックステレオデコーディング方法150は、デコードされたステレオパラメータ145を取得するために、デマルチプレクサ101からの符号化されたステレオパラメータ132をデコードする動作160を含む。動作160を実施するために、パラメトリックステレオデコーダ100は、ステレオパラメータのデコーダ110を備える。
当然、ステレオパラメータデコーダ110は、ステレオパラメータ132を符号化するために使用された技法に対応するデコーディング技法を使用する。
たとえば、上述のバイノーラルキュー、残差信号、およびシグナリング情報がエントロピー符号化技法、たとえば算術符号化を使用して符号化される場合、デコーダ110は、これらのバイノーラルキュー、残差信号、およびシグナリング情報を復元するために、対応するエントロピー/算術デコーディング技法を使用する。
2.4 周波数変換
図1を参照すると、パラメトリックステレオデコーディング方法150は、デコードされたモノダウンミックス信号133を周波数変換する動作154を含む。動作154を実施するために、パラメトリックステレオデコーダ100は、周波数変換計算器104を備える。
計算器104は、時間領域の、デコードされたモノダウンミックス信号133を周波数領域のモノダウンミックス信号135に変換する。その目的で、計算器104は、離散フーリエ変換(DFT)または離散コサイン変換(DCT)などの周波数変換を使用する。
2.5 ステレオアップミキシング
パラメトリックステレオデコーディング方法150は、デコードされたステレオ音信号の周波数領域の左チャネル136および右チャネル137を生成するために、周波数変換計算器104からの周波数領域のモノダウンミックス信号135、およびステレオパラメータデコーダ110からのデコードされたステレオパラメータ145を、ステレオアップミキシングする動作155を含む。動作154を実施するために、パラメトリックステレオデコーダ100は、ステレオアップミキサ105を備える。
周波数領域の左チャネル136および右チャネル137を生成するために周波数変換計算器104からの周波数領域のモノダウンミックス信号135およびステレオパラメータデコーダ110からのデコードされたステレオパラメータ145をステレオアップミキシングする一例は、たとえば参考文献[2]、参考文献[3]、および参考文献[6]に記載されおり、それらの内容全体が参照により本明細書に組み込まれる。
2.6 逆周波数変換
パラメトリックステレオデコーディング方法150は、アップミックスされた周波数領域の左チャネル138および右チャネル139を逆周波数変換する動作157を含む。動作157を実施するために、パラメトリックステレオデコーダ100は、逆周波数変換計算器107を備える。
詳細には、計算器107は、周波数領域の左チャネル138および右チャネル139を時間領域の左チャネル140および右チャネル141に逆変換する。たとえば、計算器104が離散フーリエ変換を使用する場合、計算器107は、逆離散フーリエ変換を使用する。計算器104がDCT変換を使用する場合、計算器107は、逆DCT変換を使用する。
パラメトリックステレオエンコーダおよびデコーダに関する追加情報は、たとえば、参考文献[2]、[3]、および[6]において見つけられ得る。
3. ステレオコンフォートノイズ注入
本明細書で以下に説明するように、図1のパラメトリックステレオデコーディング方法150は、ステレオコンフォートノイズ注入方法を含み、図1のパラメトリックステレオデコーダ100は、ステレオコンフォートノイズ注入デバイスを含む。
3.1 バックグラウンドノイズ推定
図1を参照すると、パラメトリックステレオデコーディング方法150のステレオコンフォートノイズ注入方法は、バックグラウンドノイズ推定の動作153を含む。動作153を実施するために、パラメトリックステレオデコーダ100のステレオコンフォートノイズ注入デバイスは、バックグラウンドノイズ推定器103を備える。
図1のパラメトリックステレオデコーダ100のバックグラウンドノイズ推定器103は、たとえば、音声非アクティブの間に、デコードされたモノダウンミックス信号133を分析することによって、バックグラウンドノイズ包絡線を推定する。バックグラウンドノイズ包絡線推定プロセスは、通常15~30msの持続時間を有する短いフレームにおいて実行される。各々所与の数のサブフレームを含み、所与の数の連続する音信号サンプルを含む、所与の持続時間のフレームが、音信号符号化の分野において音信号を処理するために使用され、そのようなフレームについての追加情報は、たとえば、参考文献[1]において見つけられ得る。
音声非アクティブについての情報は、EVSコーデック(参考文献[1])で使用されるものと同様の発話区間検出(Voice Activity Detection:VAD)アルゴリズムを使用して、IVASサウンドコーデックのパラメトリックステレオエンコーダ(図示せず)において計算され、デマルチプレクサ101によって受信されるビットストリームにおいてバイナリVADフラグfVADとしてパラメトリックステレオデコーダ100に送信されてもよい。代替的に、バイナリVADフラグfVADは、たとえば、EVSコーデック(参考文献[1])に記載されているように、エンコーダタイプパラメータの一部として符号化されることがある。EVSコーデックにおけるエンコーダタイプパラメータは、信号クラスの以下のセットから選択される:INACTIVE、UNVOICED、VOICED、GENERIC、TRANSITION、およびAUDIO。デコードされたエンコーダタイプパラメータがINACTIVEであるとき、VADフラグfVADは「0」である。他のすべての場合では、VADフラグは「1」である。バイナリVADフラグfVADがビットストリームにおいて送信され、エンコーダタイプパラメータから推論できない場合、それは、デコードされたモノダウンミックス信号133にVADアルゴリズムを実行することによってバックグラウンドノイズ推定器103において明示的に計算され得る。パラメトリックステレオデコーダ100におけるVADフラグfVADは、たとえば、以下の関係(1)を使用して表され得る。
ここでnは、デコードされたモノダウンミックス信号133のサンプルのインデックスであり、Nは、現在のフレームにおけるサンプルの総数(現在のフレームの長さ)である。デコードされたモノダウンミックス信号133は、md(n)、n=0,...,N-1として示される。
音声非アクティブの間にデコードされたモノダウンミックス信号133を分析することによるバックグラウンドノイズ包絡線の推定については、本明細書で後に、セクション3.1.1~3.1.5において説明する。
3.1.1 パワースペクトル圧縮
バックグラウンドノイズ推定器103は、DFT変換を使用して、デコードされたモノダウンミックス信号133を周波数領域に変換する。DFT変換プロセス200は、図2の概略図に示されている。DFT変換201への入力は、デコードされたモノダウンミックス信号133の現在のフレーム202および前のフレーム203を含む。したがって、DFT変換の長さは2Nである。
フレーム境界でスペクトル漏れが発生する影響を減らすために、デコードされたモノダウンミックス信号133はまず、テーパウィンドウ(tapered window)、たとえば正規化正弦ウィンドウ(normalized sine window)204と乗算される。未加工の(raw)正弦ウィンドウws(n)は、以下の関係(2)を使用して表され得る。
正弦ウィンドウws(n)は、たとえば、以下の関係(3)を使用して正規化される(wsn(n))。
デコードされたモノダウンミックス信号133(md(n))は、たとえば、以下の関係(4)を使用して正規化正弦ウィンドウwsn(n)を窓掛けされる(mw(n))。
mw(n)=md(n)wsn(n)、n=0,…,2N-1(4) (4)
窓掛けされた、デコードされたモノダウンミックス信号mw(n)は、次いで、たとえば以下の関係(5)を使用して、DFT変換201を用いて送信される。
入力され、デコードされたモノダウンミックス信号133はリアルであるので、それのスペクトル(図2の205参照)は対称であり、前半すなわちN個のスペクトルビン(k)のみが、デコードされたモノダウンミックス信号133のパワースペクトルを計算するとき、考慮に入れられる。これは、以下の関係(6)を使用して表され得る。
関係(6)からわかるように、デコードされたモノダウンミックス信号133のパワースペクトル(図2の206参照)は、サンプル当たりのエネルギーを得るために正規化される(1/N2)。
正規化されたパワースペクトルP(k)は、周波数ビンを周波数帯域へと凝縮する(compact)ことによって周波数領域において圧縮される。非限定的な例として、デコードされたモノダウンミックス信号133が、16kHzのサンプリング周波数でサンプリングされ、フレームの長さが20msであると仮定する。あらゆるフレームにおけるサンプルの総数は、N=320であり、FFT(DFTを計算するために使用される高速フーリエ変換)変換の長さは、2N=640である。周波数帯域の総数をBと示す。周波数帯域へとスペクトルビンを凝縮するプロセス300は、N=320の例示的な事例について図3に示されている。この例では、0Hzから8kHzの範囲に及ぶ正規化されたパワースペクトルP(k)の320のビン301が、B=61の周波数帯域302に圧縮される。
人間の聴覚系は、低周波数でスペクトル成分により反応する。したがって、図3の区分方式の例では、単一ビンの区分が、fBIN=950Hzまで定義される。この周波数に対応するインデックスをkBINと示す。この例示的な事例では、bin様式の区分の最後の周波数インデックスは、kBIN=38に設定される。低周波数では、kBINまで、スペクトル圧縮は行われず、ビン様式のパワースペクトルは、帯域様式の(圧縮された)パワースペクトルに単にコピーされる。これは、たとえば、以下の関係(7)を使用して表され得る。
N(k)=P(k)、k=0,…,kBIN (7)
kBINよりも高い周波数では、バックグラウンドノイズ推定器103は、対応する周波数帯域においてパワースペクトルP(k)の周波数ビンのスペクトル平均化を用いてビン様式のパワースペクトルを圧縮する。これは、最初にたとえば以下の関係(8)を使用して、各周波数帯域においてパワースペクトルP(k)の平均N0(b)を計算することによって行われる。
ただしbは、周波数帯域を表し、範囲〈klow(b),khigh(b)〉は、b番目の周波数帯域の周波数ビンの集合を識別し、このうちklow(b)は最低周波数ビンであり、khigh(b)は最高周波数ビンである。周波数ビンの数N=320の例示的な事例では、周波数ビンの周波数帯域への割当ては、表1に定義され、ただしkmid(b)は、周波数帯域bの中間周波数ビンを表す。
3.1.2 分散の損失の補償
関係(8)の上記で説明したスペクトル平均化は、バックグラウンドノイズの分散を縮小する傾向がある。分散の損失を補償するために、バックグラウンドノイズ推定器103は、ランダムガウスノイズを平均パワースペクトルに加える。これは、以下のように行われる。最初に、バックグラウンドノイズ推定器103は、たとえば、以下の関係(9)を使用して、各周波数帯域bにおいてランダムガウスノイズの分散σ(b)を計算する。
バックグラウンドノイズ推定器103によって生成されたランダムガウスノイズは、ゼロ平均および各周波数帯域において式(9)を使用して計算された分散を有する。生成されたランダムガウスノイズは、
として示される。圧縮されたパワースペクトルへの生成されたランダムガウスノイズの付加N(b)は、したがって関係(10)を使用して表され得る。
10-5を下回る圧縮されたパワースペクトルの値は、限られている。平均パワースペクトルへのランダムガウスノイズの付加は、初期化手順の後にのみ実施され、初期化手順については、本開示で後に説明する。
3.1.3 スペクトル平滑化
バックグラウンドノイズ推定器103は、非線形IIRフィルタリングを用いて、周波数領域において圧縮されたパワースペクトルN(b)を平滑化する。IIRフィルタリング演算は、VADフラグfVADに依存する。一般的ルールとして、平滑化は、非アクティブセグメントの間により強く、デコードされたステレオ音信号のアクティブセグメントの間により弱い。平滑化された圧縮パワースペクトルは、
、b=0,…,B-1として示される。
デコードされたステレオ音信号の非アクティブセグメントでは、現在のフレームにおいてVADフラグfVADが「0」であるとき、IIR平滑化は、たとえば、以下の関係(11)を使用して実施される。
ただし、括弧内のインデックスmは、現在のフレームを示すために追加された。関係(11)の1行目では、圧縮パワースペクトルの速い下方更新(fast downward update)が、0.8という忘却係数αを使用して単一ビンの区分で実施される。関係(11)の2行目では、遅い上方更新(slow upward update)のみが、1.05という係数αを使用して圧縮パワースペクトルのすべての帯域に対して実施される。関係(11)の3行目は、1および2行目の条件によって記述されるもの以外のあらゆる場合について、0.95という忘却係数αを使用してデフォルトIIRフィルタ構成を表す。
デコードされたステレオ音信号のアクティブセグメントでは、現在のフレームにおいてVADフラグfVADが「1」であるとき、バックグラウンドノイズ推定器103は、いくつかの選択された周波数帯域においてのみIIR平滑化を実施する。平滑化演算は、忘却係数を圧縮パワースペクトルの総エネルギーと平滑化された圧縮パワースペクトルの総エネルギーとの比に比例させたIIRフィルタを用いて実施される。
圧縮パワースペクトルの総エネルギーENは、たとえば、以下の関係(12)を使用して計算され得る。
平滑化された圧縮パワースペクトルの総エネルギー
は、たとえば、以下の関係(13)を使用して計算され得る。
圧縮パワースペクトルの総エネルギーENと、平滑化された圧縮パワースペクトルの総エネルギー
との比renrは、たとえば、以下の関係(14)を使用して計算され得る。
ただしεは、ゼロ除算を回避するために追加される小さな一定値であり、たとえばε=10-7である。
エネルギー比renrが0.5よりも低い場合、圧縮パワースペクトルの総エネルギーENが、平滑化された圧縮パワースペクトルの総エネルギー
よりも著しく低いことを意味する。この場合、現在のフレームmの平滑化された圧縮パワースペクトル
は、たとえば、以下の関係(15)を使用して更新される。
したがって、現在のフレームにおいて著しいエネルギー低下が検出されるすべての帯域では、平滑化された圧縮パワースペクトル
のエネルギーは、エネルギー比renrに比例して、かなり速く更新される。
エネルギー比renrが0.5以上である場合、平滑化された圧縮パワースペクトル
は、2275Hzを上回る周波数帯域においてのみ更新される。これは、この例示的な実施形態ではb≧50に対応する。最初に、バックグラウンドノイズ推定器103は、たとえば、以下の関係(16)を使用して、平滑化された圧縮パワースペクトル
の短期平均を計算する。
ただし、b=50,…,B-1では
である。短期の平滑化された圧縮パワースペクトルは、renrの値にかかわらず、フレームごとに更新される。バックグラウンドノイズ推定器103は、たとえば以下の関係(9)を使用して、renr≧0.5であるフレームの平滑化された圧縮パワースペクトル
を更新する。
この場合も、下方更新(現在のフレームにエネルギー低下が検出される)のみが可能にされるが、更新は、renr<0.5の場合と比較してより遅い。
このセクション3.1.3で説明する、平滑化された圧縮パワースペクトル
の更新は、本開示の次のセクションにおいて説明する初期化手順の間に変更される。
3.1.4 初期化手順
バックグラウンドノイズ推定演算153は、適切な初期化を必要とする。図4は、バックグラウンドノイズ推定演算153の初期化手順を示す概略フローチャートである。そのような初期化手順400の間、バックグラウンドノイズ推定器103は、連続的なIIRフィルタ(successive IIR filter)を使用して、平滑化された圧縮パワースペクトル
を更新する。
バックグラウンドノイズ推定器103は、平滑化された圧縮パワースペクトル
が更新される、連続する非アクティブフレームのカウンタcCNI(fVAD = "0")を使用する。カウンタcCNIは、初期化手順400の開始時(図4のブロック402)に0に初期化される(図4のブロック401)。バックグラウンドノイズ推定器103はまた、初期化手順400が完了されたかどうかをシグナリングするためにバイナリフラグfCNIを使用する。バイナリフラグfCNIもまた、初期化手順400の開始時に0に初期化される(図4のブロック401)。カウンタcCNIおよびフラグfCNIは、図4で説明する単純な状態機械を用いて更新される。
図4を参照すると、初期化手順400は、各フレームに、以下のサブ演算を含む。
- バイナリフラグfCNIが「1」に設定される(サブ演算404)場合、初期化手順400は完了され、終了される(サブ演算411)。
- バイナリフラグfCNIが「0」に設定され(サブ演算404)、バイナリVADフラグfVADが「1」に設定され(サブ演算405)、アクティブフレームを示す場合、カウンタcCNIは0にリセットされ(サブ演算406)、初期化手順400はサブ演算404に戻る。
- バイナリフラグfCNIが「0」に設定され(サブ演算404)、バイナリVADフラグfVADが「0」に設定され(サブ演算405)、非アクティブフレームを示す場合、バックグラウンドノイズ推定器103は、連続的なIIRフィルタを用いて、平滑化された圧縮パワースペクトル
を更新する(サブ演算403)。
- サブ演算403での平滑化された圧縮パワースペクトル
の更新に続いて、カウンタcCNIは、所与の値のパラメータcMAXと比較される(サブ演算408)。
- サブ演算408での比較が、カウンタcCNIがパラメータcMAXよりも小さいことを示す場合、カウンタcCNIは、「1」だけインクリメントされ(サブ演算409)、初期化手順400はサブ演算404に戻る。
- サブ演算408での比較が、カウンタcCNIがパラメータcMAXに等しいかまたはそれよりも大きいことを示す場合、バイナリフラグfCNIは「1」に設定され(サブ演算410)、初期化手順400は完了され、終了される(サブ演算411)。
わかるように、初期化手順400は、所与の数の連続する非アクティブフレームで、平滑化された圧縮パワースペクトル
が更新された後に完了される。これは、パラメータcMAXによって制御される。非限定的な例として、パラメータcMAXは5に設定される。パラメータcMAXをより高い値に設定すると、より安定しているが、初期化の完了により長い期間を要するバックグラウンドノイズ推定演算153の初期化手順400がもたらされ得る。平滑化された圧縮パワースペクトル
がステレオコンフォートノイズ注入のために、また間欠送信(DTX)の間に使用されるので、初期化期間を延長しすぎることは賢明ではない。DTX動作についてのさらなる情報は、たとえば参考文献[1]において見つけられ得る。
初期化手順400の間、バックグラウンドノイズ推定器103は、たとえば、以下の関係(18)を使用して連続的なIIRフィルタを用いて、平滑化された圧縮パワースペクトル
を更新する(サブ演算403)。
ここで[m]は、フレームインデックスであり、b=0,…,B-1に対して
である。このように、忘却係数α=1/(cCNI+1)は、カウンタcCNIに比例し、したがって、平滑化された圧縮パワースペクトル
が更新された非アクティブフレームの数に比例している。この初期化手順400を用いて、平滑化された圧縮パワースペクトル
は、バックグラウンドノイズについての意味のあるスペクトル情報を含む。たとえば、初期化手順が完了される前にデコーダでDTX動作が検出されることが発生する場合、平滑化された圧縮パワースペクトル
をバックグラウンドノイズの推定として使用することが依然として可能である。
3.1.5 パワースペクトル拡大
図3に示し、セクション3.1.1で説明したパワースペクトル圧縮と同様に、バックグラウンドノイズ推定器103は、平滑化された圧縮パワースペクトル
を拡大する逆サブ演算を実施する。低周波数では、kBINまで、拡大は行われず、帯域様式の圧縮パワースペクトルは、たとえば、以下の関係(19)を使用してビン様式の(拡大された)パワースペクトルにコピーされる。
kBINよりも高い周波数では、バックグラウンドノイズ推定器103は、参考文献[1]で説明されるように対数領域において線形補間を用いて帯域様式の圧縮パワースペクトルを拡大する。その目的で、バックグラウンドノイズ推定器103は、たとえば、以下の関係(20)を使用して、倍数的な増加βmult分を最初に計算する。
ただしbは、周波数帯域を識別し、kmid(b)は、第bの帯域の中間ビンを識別する。拡大されたパワースペクトルは、次いで、たとえば以下の関係(21)を使用して、すべてのb=kBIN+1,…,B-1に対して計算される。
関係(20)および(21)において、フレームインデックス[m]は、簡単にするために省略されている。
拡大されたパワースペクトル
は、非アクティブフレームにおいて関係(19)および(21)に従って計算されるので、それは、デコードされたモノダウンミックス信号133におけるバックグラウンドノイズの推定を表す。
3.2 ステレオコンフォートノイズ注入
再び図1を参照すると、パラメトリックステレオデコーディング方法150は、ステレオアップミキサ105から左チャネル136および右チャネル137にコンフォートノイズを注入する動作156を含む。動作156を実施するために、パラメトリックステレオデコーダ100は、ステレオコンフォートノイズ注入器106を備える。
動作156のステレオコンフォートノイズ注入(CNI)技術は、元来3GPP(登録商標) EVSコーデック(参考文献[1])において開発され、統合されたコンフォートノイズ付加(CNA)技術に基づいている。EVSコーデックのCNAの目的は、ノイズが多い音声信号のACELPベースの符号化から生じるエネルギーの損失を補償することである(参考文献[5])。ACELPエンコーダにおける利用可能なビットの数が、励起の固定寄与(固定コードブックインデックスおよび利得)をエンコードするのに不足しているとき、エネルギーの損失は、低ビットレートで特に顕著である。結果として、音声フォルマント間のスペクトルバレー(spectral valley)のデコードされた信号のエネルギーは、元の信号のエネルギーよりも低い。これは、「ノイズ減衰」の望ましくない影響につながり、聴取者によって不快に知覚される。適切なレベルおよびスペクトル形状をもつランダムノイズの付加は、スペクトルバレーをカバーし、それによってノイズフロアを押し上げ、バックグラウンドノイズの途切れない知覚をもたらす。EVSデコーダでは、コンフォートノイズが生成され、周波数領域においてデコードされた信号に付加される。
パラメトリックステレオデコーダ100のデコードされたモノダウンミックス信号133に、コンフォートノイズを生成し、注入することが可能である。しかしながら、デコードされたモノダウンミックス信号133は、ステレオアップミキシング動作155の間に左チャネル136および右チャネル137に変換される。デコードされたモノダウンミックス信号133によって表される、支配的な音の空間特性、および周囲(バックグラウンド)ノイズの空間特性はまったく異なることがあるので、これは、望ましくない空間マスキング解除効果をもたらし得る。この問題を回避するために、コンフォートノイズは、ステレオアップミキシング動作155の後に生成され、左チャネル136および右チャネル137に別々に注入される。バックグラウンドノイズの空間特性は、非アクティブセグメントの間に、デコーダにおいて直接推定される。
3.2.1 デコーダにおけるバックグラウンドノイズ空間特性の推定
非DTX動作モードで動作しているデコーダ100を仮定すると、バックグラウンドノイズの空間特性は、「0」に設定されたVADフラグfVADによってシグナリングされるデコードされたステレオ音信号の非アクティブセグメントの間に推定され得る。主要な空間パラメータは、チャネル間コヒーレンス(inter-channel coherence:ICC)である。ICCパラメータの推定は、デコードされたステレオ信号(左チャネルおよび右チャネル)の周波数領域への変換を含むので、そのようなICCパラメータを計算することは非常に複雑である。ICCパラメータの妥当な近似値は、時間領域において計算され得るチャネル間相関(IC)パラメータである。ICパラメータは、たとえば、以下の関係(22)を使用して、ステレオコンフォートノイズ注入器106によって計算されてもよい。
ただし、l(n)およびr(n)はそれぞれ、計算器104で使用されるものとは逆の周波数変換を使用して周波数領域の左チャネル136および右チャネル137から計算された時間領域のデコードされたステレオ音信号の左チャネルおよび右チャネルであり、Nは、現在のフレームにおけるサンプルの数であり、[m]はフレームインデックスであり、インデックスLRは、パラメータICが左チャネルと右チャネルとの間の相関に関係していることを示すために左(L)および右(R)を指す。
デコーダ100で推定される第2の空間パラメータは、チャネル間レベル差(ILD)である。ステレオコンフォートノイズ注入器106は、たとえば、以下の関係(23)を使用して現在のフレームにおいて、デコードされたステレオ音信号の左チャネルl(n)のエネルギーと右チャネルr(n)のエネルギーの比cLRを表すことによって、パラメータILDを計算してもよい。
次いで、たとえば、以下の関係(24)を使用してILDパラメータを計算する。
ICとILDの両方の空間パラメータが、同じ、単一のフレームから計算されるので、それらの変動は大きい。したがって、ステレオコンフォートノイズ注入器106は、IIRフィルタリングを用いてICおよびILD空間パラメータを平滑化する。平滑化されたチャネル間相関(IC)パラメータは、たとえば、以下の関係(25)、すなわち
を使用して計算されてもよく、平滑化されたチャネル間レベル差(ILD)パラメータは、たとえば以下の関係(26)を使用して計算されてもよい。
図4の初期化手順400の間に、fCNI=0であるとき、ステレオコンフォートノイズ注入器106は、以下のように、平滑化されたICおよびILDパラメータをそれらの瞬時値に設定する。
および
の初期値は「0」である。
3.2.2 ステレオコンフォートノイズ生成および注入
ステレオコンフォートノイズ注入器106は、周波数領域でステレオコンフォートノイズを生成し、注入する。実装形態の以下の、非限定的な例では、
- 周波数領域におけるデコードされたステレオ音信号の左チャネル136の複素スペクトルは、L(k)として示され、ただしk=0,…,M-1であり、Mは周波数変換動作154で使用されるFFT変換の長さである。
- 周波数領域におけるデコードされたステレオ音信号の右チャネル137の複素スペクトルは、R(k)として示され、ただしk=0,…,M-1である。
デコードされたモノダウンミックス信号が16kHzでサンプリングされ、バックグラウンドノイズが0~8000Hzの周波数範囲で推定される以前の非限定的な実装例に従う。アップミックス領域(左チャネル136および右チャネル137)における正常なバックグラウンドノイズ注入のためには、左チャネル136および右チャネル137のサンプリングレートは、少なくとも16kHzとなる。非限定的な例として、デコードされたステレオ音信号の左チャネル136および右チャネル137が、フレームごとのサンプル数M=640について32kHzでサンプリングされると仮定される。これは、パラメトリックステレオデコーダ100におけるフレーム長でもある、20msのFFT長に対応する。たとえば、バックグラウンドノイズスペクトルPの周波数分解能は25Hzであるが、デコードされたステレオ音信号の左チャネル136および右チャネル137のスペクトルの周波数分解能は50Hzである。周波数分解能のミスマッチは、以下の記述で説明するように、2つの隣接したスペクトルビンにおけるバックグラウンドノイズのレベルを平均化することによって、ステレオコンフォートノイズ生成の間に解決され得る。
ステレオコンフォートノイズ注入器106は、たとえば以下の関係(28)を使用して、ガウス確率密度関数(PDF)を用いて2つのランダム信号を生成する。
G1(k)~N(0,1)
G2(k)~N(0,1) (28)
ここでk=0,…,M-1、Mはフレームごとのサンプル数である。2つのランダム信号G1(k)およびG2(k)は、ステレオコンフォートノイズの左チャネルおよび右チャネルを作成するために一緒に混合される。混合は、関係(25)に記載する平滑化されたチャネル間相関(IC)パラメータ、および関係(26)に記載する平滑化されたチャネル間レベル差(ILD)パラメータによって表される、推定バックグラウンドノイズの空間特性にマッチするように設計される。ステレオコンフォートノイズ注入器106は、たとえば以下の関係(29)を使用して、混合係数γを計算する。
ステレオコンフォートノイズ(左および右チャネル用のコンフォートノイズ)のスペクトル包絡線は、関係(19)および(21)において計算される、拡大されたパワースペクトル(デコードされたモノダウンミックス信号133における推定バックグラウンドノイズ)で制御される。また、拡大されたパワースペクトルの周波数分解能は、「2」分の1に低減される。
拡大されたパワースペクトル
の隣接する周波数ビンの各ペアにおける最小および最大レベルは、たとえば以下の関係(30)を使用して表される。
ただしNは周波数ビンの数であり、kは周波数ビンインデックスである。
ステレオコンフォートノイズ注入器106は次いで、たとえば以下の関係(31)を使用して、周波数分解能の低減を実行する。
したがって、関係(31)により、周波数領域の左チャネル136および右チャネル137における注入のためのコンフォートノイズのレベルは、隣接する周波数ピンにおいて拡大されたパワースペクトル
の最大値
と最小値
の比が1.2のしきい値を超える場合、拡大されたパワースペクトル
の2つの隣接する周波数ビンにおいて最小レベルに設定される。これは、推定バックグラウンドノイズの強い傾斜(tilt)を用いて信号における過度のコンフォートノイズ注入を防ぐ。別の状況では、ステレオコンフォートノイズのレベルは、2つの隣接した周波数ビンにわたって平均レベルに設定される。
ステレオコンフォートノイズ注入器106は、たとえば、以下の関係(32)を使用して、新しいフレーム長を反映する係数N/2およびグローバルゲイン(global gain)gscaleを使用して計算されたスケーリングファクタrscale(k)を用いてステレオコンフォートノイズのレベルをスケーリングする。
ただしNは周波数ビンの数であり、kは周波数ビンインデックスであり、gscaleは、本開示において本明細書で後に説明するグローバルゲインである。
ガウスPDFを用いた2つのランダム信号の混合は、たとえば、以下の一対の式(33)によって説明することができる。
ただしNL(k)およびNR(k)は、左136チャネルおよび右137チャネルにそれぞれ注入するための生成されたコンフォートノイズ信号である。式(33)において、生成されたコンフォートノイズ信号NL(k)およびNR(k)は、推定されるチャネル間レベル差(ILD)パラメータおよびチャネル間相関(IC/ICC)パラメータに対応する正確なレベルおよび空間特性を有する。ステレオコンフォートノイズ注入器106は最終的に、たとえば以下の関係(34)を使用して、デコードされたステレオ音信号の左136(L(k))および右137(R(k))チャネルに生成されたコンフォートノイズ信号NL(k)およびNR(k)を注入する。
L(k)=L(k)+NL(k)、ここでk=0,…,N/2-1
R(k)=R(k)+NR(k)、ここでk=0,…,N/2-1 (34)
3.2.3 デコードされた空間パラメータの使用
参考文献[6]に記載するパラメトリックステレオエンコーダの場合、ビットストリームにおいてIC/ICCおよびILDパラメータを符号化し、送信することが可能である。次いで、送信されたIC/ICCおよびILDパラメータは、セクション3.2.1で推定されたパラメータの代わりにステレオコンフォートノイズ注入器106によって使用される。通常、パラメトリックステレオエンコーダでは、パラメータIC/ICCおよびILDは、臨界帯域ごとに周波数領域で計算され、エンコードされる。
デコードされたIC/ICCおよびILDパラメータは、たとえば以下のように示すことができる。
ただし下付き文字PSはパラメトリックステレオを示し、BPSはパラメトリックステレオエンコーダによって使用される周波数帯域bの数を表す。また、パラメトリックステレオエンコーダの最大周波数は、以下のように、最後の周波数帯域の最後のインデックスとして表され得る。
kmax_PS=max(k(BPS-1)) (36)
同様に、関係(29)に示される混合係数γは、たとえば以下の関係(37)を使用して、デコードされたステレオパラメータIC/ICCおよびILDを用いて周波数帯域ごとに計算され得る。
ただし
は、関係(35)において定義される、第bの帯域におけるデコードされたチャネル間コヒーレンスパラメータであり、
は、式(35)において定義される、第bの帯域におけるデコードされたチャネル間レベル差パラメータである。
ステレオコンフォートノイズ注入器106は次いで、たとえば以下の関係(38)を使用して、混合プロセスを実施する。
ただし、γ(bk)は、第kの周波数ビンを含む第bkの周波数帯域の混合係数である。したがって、同じ周波数帯域に属する周波数ビンにおいて、コンフォートノイズ信号NL(k)およびNR(k)の生成時に、混合係数の単一の値が使用され、周波数帯域ごとのものである。コンフォートノイズ信号NL(k)およびNR(k)は、min(kmax_PS,N/2-1)によって表される、パラメトリックステレオエンコーダによってサポートされる最大周波数ビンまで生成されるにすぎない。
ステレオコンフォートノイズ注入器106は、たとえば関係(33)を再び使用して、デコードされたステレオ音信号の左136(L(k))および右137(R(k))チャネルに生成されたコンフォートノイズ信号NL(k)およびNR(k)を注入する。
3.2.4 DTXモード
IVASサウンドコーデックがDTXモードで動作するとき、セクション3.1に記載するバックグラウンドノイズ推定は実施されない。代わりに、バックグラウンドノイズのスペクトル包絡線についての情報は、無音挿入記述子(Silence Insertion Descriptor:SID)フレームからデコードされ、パワースペクトル表現に変換される。これは、コーデックによって使用されるSID/DTX方式に応じて様々な方法で行われ得る。たとえば、EVSコーデック(参考文献[1])からのTD-CNGまたはFD-CNG技術は、それらが両方ともバックグラウンドノイズ包絡線についての情報を含んでいるので使用される場合がある。
また、IC/ICCおよびILD空間パラメータは、SIDフレームの一部として送信されてもよい。その場合、デコードされた空間パラメータは、セクション3.2.3に記載するようにステレオコンフォートノイズ生成および注入において使用される。
3.2.5 ソフトVADパラメータ
注入されるステレオコンフォートノイズのレベルの急激な変化を防ぐために、ステレオコンフォートノイズ注入器106は、ノイズ注入にフェードインフェードアウト方策を適用する。その目的で、ソフトVADパラメータが使用される。これは、たとえば以下の関係(39)を使用して、バイナリVADフラグfVADの平滑化によって達成される。
ただし
はソフトVADパラメータを表し、fVADは平滑化されていないバイナリVADフラグを表し、[m]はフレームインデックスである。
関係(39)から、ソフトVADパラメータは、0から1の範囲に限定されることが理解され得る。ソフトVADパラメータは、VADフラグfVADが0から1に変わるとき、より速く上昇し、1から0に下がるとき、あまり速く上昇しない。したがって、フェードアウト期間は、フェードイン期間よりも長い。
図4の初期化手順400の間に、fCNI=0であるとき、ソフトVADパラメータは「0」に設定される。すなわち、
の初期値は0である。
3.2.6 グローバルゲイン制御
ステレオコンフォートノイズのレベルは、関係(32)において使用されるグローバルゲインgscaleを用いて大域的に制御される。ステレオコンフォートノイズ注入器106は、グローバルゲインgscaleを「0」に初期化し、たとえば以下の関係(41)を使用して以下のように、各フレームにおいてグローバルゲインgscaleを更新する。
ただし
は、式(39)において計算されたソフトVADパラメータである。初期化期間の間に、fCNI=0であるとき、グローバルゲインgscaleは「0」にリセットされる。したがって、グローバルゲインgscaleは、ソフトVADパラメータ
に厳密に従い、それによって注入されるステレオコンフォートノイズにフェードインフェードアウト効果を適用する。
4. ハードウェア構成要素の例示的な構成
図5は、ステレオコンフォートノイズ注入のためのデバイスを含む上記で説明したパラメトリックステレオデコーダを形成するハードウェア構成要素の例示的な構成の簡略ブロック図である。
ステレオコンフォートノイズ注入のためのデバイスを含むパラメトリックステレオデコーダは、モバイル端末の一部として、ポータブルメディアプレーヤの一部として、または何らかの同様のデバイスに、実装されてもよい。(図5に500として識別される)ステレオコンフォートノイズ注入のためのデバイスを含むパラメトリックステレオデコーダは、入力部502と、出力部504と、プロセッサ506と、メモリ508とを備える。
入力部502は、パラメトリックステレオエンコーダ(図示せず)からビットストリーム(図1)を受信するように構成される。出力部504は、左チャネル140および右チャネル141(図1)に供給するように構成される。入力部502および出力部504は、共通のモジュール、たとえば、シリアル入力/出力デバイスに実装されてもよい。
プロセッサ506は、入力部502、出力部504、およびメモリ508に動作可能に接続される。プロセッサ506は、添付の図に示すかつ/または本開示で説明するステレオコンフォートノイズ注入のためのデバイスおよび方法を含む、上記で説明したパラメトリックステレオデコーダおよびデコーディング方法の様々な要素および動作の機能をサポートするコード命令を実行するための1つまたは複数のプロセッサとして実現される。
メモリ508は、プロセッサ506によって実行可能なコード命令を記憶するための非一時的メモリ、詳細には、実行されるとプロセッサに、ステレオコンフォートノイズ注入のためのデバイスおよび方法を含む、パラメトリックステレオデコーダおよびデコーディング方法の要素および動作を実施させる非一時的命令を記憶するプロセッサ可読メモリを備えてもよい。メモリ508はまた、プロセッサ506によって実施される様々な機能からの中間処理データを記憶するためのランダムアクセスメモリまたはバッファを備えてもよい。
ステレオコンフォートノイズ注入のためのデバイスおよび方法を含む、パラメトリックステレオデコーダおよびデコーディング方法の説明は、例示的なものにすぎず、いかなる方法での限定も意図していないことが、当業者には理解されよう。本開示の恩恵を受ける当業者には、他の実施形態が容易に思い浮かぶであろう。さらに、ステレオコンフォートノイズ注入のためのデバイスおよび方法を含む、開示するパラメトリックステレオデコーダおよびデコーディング方法は、音、たとえばステレオ音をエンコードおよびデコードすることの既存のニーズおよび問題に対する有益な解決策を与えるようにカスタマイズされ得る。
明確にするために、ステレオコンフォートノイズ注入のためのデバイスおよび方法を含む、パラメトリックステレオデコーダおよびデコーディング方法の実装形態の定常的な特徴の全部が示され、説明されるとは限らない。ステレオコンフォートノイズ注入のためのデバイスおよび方法を含む、パラメトリックステレオデコーダおよびデコーディング方法のいかなるそのような実際の実装形態の開発においても、アプリケーション、システム、ネットワーク、およびビジネス関連の制約に従うことなど、開発者の特定の目標を達成するために、多数の実施時特有の決定が行われる必要があり得ること、ならびにこれらの特定の目標が、実装形態によっておよび開発者によって異なるものになることが、当然諒解されよう。さらに、開発努力は複雑で時間のかかるものであるが、それでもやはり本開示の恩恵を受ける音処理の分野の当業者には、職務の定常的な取り組みであるということが諒解されよう。
本開示によれば、本明細書で説明する要素、処理演算、および/またはデータ構造は、様々なタイプのオペレーティングシステム、コンピューティングプラットフォーム、ネットワークデバイス、コンピュータプログラム、および/または汎用機械を使用して実装されてもよい。加えて、ハードウェアデバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)などのあまり汎用ではない性質のデバイスもまた使用され得ることが、当業者には認識されよう。一連の演算およびサブ演算を含む方法が、プロセッサ、コンピュータ、または機械によって実装され、それらの演算またはサブ演算が、プロセッサ、コンピュータ、または機械によって可読な一連の非一時的コード命令として記憶され得る場合、それらは有形のかつ/または非一時的な媒体に記憶され得る。
本明細書で説明するステレオコンフォートノイズ注入のためのデバイスおよび方法を含む、パラメトリックステレオデコーダおよびデコーディング方法の要素および処理演算は、本明細書で説明する目的に好適なソフトウェア、ファームウェア、ハードウェア、またはソフトウェア、ファームウェア、もしくはハードウェアの任意の組合せを含み得る。
ステレオコンフォートノイズ注入のためのデバイスおよび方法を含む、パラメトリックステレオデコーダおよびデコーディング方法では、様々な処理演算およびサブ演算は、様々な順序で実施されてもよく、処理演算およびサブ演算のいくつかは、オプションであってもよい。
本開示を、その非限定的、例示的な実施形態として上記で説明したが、これらの実施形態は、本開示の趣旨および本質を逸脱することなく添付の特許請求の範囲内で自在に変更され得る。
5. 参考文献
本開示は、以下の参考文献に言及し、それらの全内容が、参照により本明細書に組み込まれる。
(参考文献)
[1] 3GPP TS 26.445, v.16.1.0, “Codec for Enhanced Voice Services (EVS); Detailed Algorithmic Description”, July 2020.
[2] E. Schuijers, W. Oomen, B. den Brinker, and J. Breebaart, “Advances in parametric coding for high-quality audio,” in Proc. 114th AES Convention, Amsterdam, The Netherlands, Mar. 2003, Preprint 5852.
[3] F. Baumgarte, C. Faller, “Binaural cue coding - Part I: Psychoacoustic fundamentals and design principles,” IEEE Trans. Speech Audio Processing, vol. 11, pp. 509-519, Nov. 2003.
[4] 3GPP SA4 contribution S4-170749, “New WID on EVS Codec Extension for Immersive Voice and Audio Services”, SA4 meeting #94, June 26-30, 2017, http://www.3gpp.org/ftp/tsg_sa/WG4_CODEC/TSGS4_94/Docs/S4-170749.zip
[5] R. Hagen and E. Ekudden, “An 8 kbit/s ACELP coder with improved background noise performance,” 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No.99CH36258), Phoenix, AZ, USA, 1999, pp. 25-28 vol.1, doi: 10.1109/ICASSP.1999.758053.
[6] J. Breebaart, S. van de Par, A. Kohlrausch, “Parametric Coding of Stereo Audio.” EURASIP Journal of Advanced Signal Processing 2005, 561917 (2005). https://doi.org/10.1155/ASP.2005.1305
100 パラメトリックステレオデコーダ
101 デマルチプレクサ
102 コアデコーダ
103 バックグラウンドノイズ推定器
104 周波数変換計算器
105 ステレオアップミキサ
106 ステレオコンフォートノイズ注入器
107 逆周波数変換計算器
110 ステレオパラメータデコーダ
131 符号化されたモノダウンミックス信号
132 符号化されたステレオパラメータ
133 デコードされたモノダウンミスクス信号
135 周波数領域のモノダウンミックス信号
136 左チャネル
137 右チャネル
138 左チャネル
139 右チャネル
140 左チャネル
141 右チャネル
145 デコードされたステレオパラメータ
500 パラメトリックステレオデコーダ
502 入力部
504 出力部
506 プロセッサ
508 メモリ

Claims (73)

  1. デコードされたマルチチャネル音信号にマルチチャネルコンフォートノイズを注入するための、マルチチャネルサウンドデコーダにおいて実装されるデバイスであって、
    デコードされたモノダウンミックス信号におけるバックグラウンドノイズの推定器と、
    前記推定されたバックグラウンドノイズに応じて、前記デコードされたマルチチャネル音信号の複数のチャネルの各々に対してコンフォートノイズを計算し、前記デコードされたマルチチャネル音信号の前記それぞれのチャネルに前記計算されたコンフォートノイズを注入するためのマルチチャネルコンフォートノイズの注入器と
    を備える、デバイス。
  2. 前記デコーダが、パラメトリックステレオデコーダであり、前記デコードされたマルチチャネル音信号が、左チャネルおよび右チャネルを含むデコードされたステレオ音信号である、請求項1に記載のデバイス。
  3. 前記バックグラウンドノイズ推定器が、音声非アクティブの間に前記デコードされたモノダウンミックス信号を分析することによってバックグラウンドノイズ包絡線を推定する、請求項1または2に記載のデバイス。
  4. 前記バックグラウンドノイズ推定器が、音声非アクティブを示す値を有する発話区間検出(VAD)フラグに反応する、請求項3に記載のデバイス。
  5. 前記バックグラウンドノイズ推定器が、前記デコードされたモノダウンミックス信号のパワースペクトルを計算し、前記デコードされたモノダウンミックス信号の前記パワースペクトルを圧縮する、請求項1から4のいずれか一項に記載のデバイス。
  6. 前記バックグラウンドノイズ推定器が、前記デコードされたモノダウンミックス信号の周波数変換を計算し、前記デコードされたモノダウンミックス信号の前記周波数変換を使用して、前記デコードされたモノダウンミックス信号の前記パワースペクトルを計算する、請求項5に記載のデバイス。
  7. 前記デコードされたモノダウンミックス信号の前記周波数変換を計算するために、前記バックグラウンドノイズ推定器が、前記デコードされたモノダウンミックス信号を窓掛けし、前記窓掛けされた、デコードされたモノダウンミックス信号に前記周波数変換を適用する、請求項6に記載のデバイス。
  8. 前記バックグラウンドノイズ推定器が、前記デコードされたモノダウンミックス信号に正規化正弦ウィンドウを適用することによって、前記デコードされたモノダウンミックス信号を窓掛けする、請求項7に記載のデバイス。
  9. 前記バックグラウンドノイズ推定器が、前記デコードされたモノダウンミックス信号の前記パワースペクトルを正規化し、前記正規化されたパワースペクトルを圧縮する、請求項5から8のいずれか一項に記載のデバイス。
  10. 前記バックグラウンドノイズ推定器が、前記パワースペクトルの周波数ビンを周波数帯域へと凝縮することによって、前記デコードされたモノダウンミックス信号の前記パワースペクトルを圧縮する、請求項5から9のいずれか一項に記載のデバイス。
  11. 前記バックグラウンドノイズ推定器が、所与の周波数よりも高い周波数では前記パワースペクトルの周波数ビンを周波数帯域へと凝縮する、請求項10に記載のデバイス。
  12. 前記バックグラウンドノイズ推定器が、前記パワースペクトルの圧縮を実施しないが、前記所与の周波数を下回る周波数では周波数ビンをそれぞれの周波数帯域に変換する、請求項11に記載のデバイス。
  13. 前記所与の周波数よりも高い周波数では、前記バックグラウンドノイズ推定器が、各周波数帯域における前記パワースペクトルの周波数ビンのスペクトル平均化を用いて、前記パワースペクトルの周波数ビンを周波数帯域へと凝縮する、請求項11または12に記載のデバイス。
  14. 各周波数帯域において前記パワースペクトルの周波数ビンをスペクトル的に平均化するために、前記バックグラウンドノイズ推定器が、各周波数帯域において前記パワースペクトルの前記周波数ビンの分散を計算する、請求項13に記載のデバイス。
  15. 前記バックグラウンドノイズ推定器が、前記推定されたバックグラウンドノイズの分散の損失を補償するために、前記圧縮されたパワースペクトルにランダムガウスノイズを付加する、請求項5から14のいずれか一項に記載のデバイス。
  16. 前記バックグラウンドノイズ推定器が、前記ランダムガウスノイズの分散を計算し、ゼロ平均および計算されたランダムガウスノイズ分散を有するランダムガウスノイズを生成する、請求項15に記載のデバイス。
  17. 前記バックグラウンドノイズ推定器が、前記デコードされたモノダウンミックス信号の前記パワースペクトルを使用して、各周波数帯域における前記ランダムガウスノイズ分散を計算する、請求項15または16に記載のデバイス。
  18. 前記バックグラウンドノイズ推定器が、無限インパルス応答(IIR)フィルタを用いて前記圧縮されたパワースペクトルを平滑化する、請求項5から17のいずれか一項に記載のデバイス。
  19. 前記IIRフィルタが、各周波数帯域において異なる忘却係数を有し、前記忘却係数が、前記圧縮されたパワースペクトルの総エネルギーと前記平滑化された圧縮パワースペクトルの総エネルギーとの比に関係する重みである、請求項18に記載のデバイス。
  20. 前記圧縮パワースペクトルの平滑化が、前記デコードされたマルチチャネル音信号の非アクティブセグメントの間により強く、前記デコードされたマルチチャネル音信号のアクティブセグメントの間により弱くなるように、前記IIRフィルタが、現在のフレームにおける発話区間検出(VAD)フラグに反応する、請求項18または19に記載のデバイス。
  21. 前記VADフラグの所与の値および前記圧縮パワースペクトルの前記総エネルギーと前記平滑化された圧縮パワースペクトルの前記総エネルギーとの前記比の所与の値に対して、前記バックグラウンドノイズ推定器が、ある周波数を上回る周波数帯域で前記現在のフレームにおける前記平滑化された圧縮パワースペクトルを更新する、請求項20に記載のデバイス。
  22. 前記バックグラウンドノイズ推定器が、いくつかの連続する非アクティブフレームで前記平滑化された圧縮パワースペクトルを更新するために連続的なIIRフィルタを備える、請求項18から21のいずれか一項に記載のデバイス。
  23. 前記VADフラグの所与の値および前記圧縮パワースペクトルの前記総エネルギーと前記平滑化された圧縮パワースペクトルの前記総エネルギーとの前記比の所与の値に対して、前記バックグラウンドノイズ推定器が、所与の周波数を上回る周波数帯域で前記現在のフレームにおける前記平滑化された圧縮パワースペクトルを更新する、請求項18から22のいずれか一項に記載のデバイス。
  24. 前記バックグラウンドノイズ推定器が、初期化手順を実施し、前記初期化手順の間に非アクティブフレームで前記平滑化された圧縮パワースペクトルを更新するために連続的なIIRフィルタを備える、請求項18から23のいずれか一項に記載のデバイス。
  25. 前記バックグラウンドノイズ推定器が、前記連続的なIIRフィルタが前記平滑化された圧縮パワースペクトルをその間に更新する連続する非アクティブフレームのカウンタと、連続する非アクティブフレームの前記カウンタが所与の値に達するとき、前記初期化手順が完了されることを示すためのバイナリフラグとを備える、請求項24に記載のデバイス。
  26. 前記バックグラウンドノイズ推定器が、前記平滑化された圧縮パワースペクトルを拡大する、請求項18から25のいずれか一項に記載のデバイス。
  27. 前記バックグラウンドノイズ推定器が、所与の周波数まで、前記平滑化された圧縮パワースペクトルの拡大を実施しない、請求項26に記載のデバイス。
  28. 前記バックグラウンドノイズ推定器が、決定された周波数よりも高い周波数では、倍数的な増加を使用する線形補間を用いて前記平滑化された圧縮パワースペクトルを拡大する、請求項26または27に記載のデバイス。
  29. コンフォートノイズの前記注入器が、前記拡大されたパワースペクトルを使用してステレオコンフォートノイズのスペクトル包絡線を制御する、請求項26から28のいずれか一項に記載のデバイス。
  30. コンフォートノイズの前記注入器が、前記拡大されたパワースペクトルの2つの隣接する周波数ビンにおいて、前記2つの隣接する周波数ビンにおけるコンフォートノイズの最大レベルと最小レベルとの比が所与のしきい値を超える場合、コンフォートノイズのレベルを前記最小レベルに設定することによって周波数分解能の低減を実施する、請求項29に記載のデバイス。
  31. 前記最小レベルと最大レベルとの前記比が、一定のしきい値を超えない場合、コンフォートノイズの前記注入器が、コンフォートノイズのレベルを、前記拡大されたパワースペクトルの2つの隣接する周波数ビンにおけるコンフォートノイズの最小レベルと最大レベルの平均値に設定することによって、周波数分解能の低減を実施する、請求項29または30に記載のデバイス。
  32. コンフォートノイズの前記注入器が、スケーリングファクタを使用して、前記デコードされたマルチチャネル音信号のそれぞれのチャネルへの注入のためにコンフォートノイズの前記レベルをスケーリングする、請求項30または31に記載のデバイス。
  33. コンフォートノイズの前記注入器が、2で割った周波数ビンの数およびグローバルゲインを使用して、前記スケーリングファクタを計算する、請求項32に記載のデバイス。
  34. コンフォートノイズの前記注入器が、(a)0~1の範囲に限定されたソフトVADパラメータを生成するためにバイナリ発話区間検出(VAD)フラグを平滑化することと、(b)前記ソフトVADパラメータの関数として前記グローバルゲインを生成することとによって、前記グローバルゲインを計算する、請求項33に記載のデバイス。
  35. コンフォートノイズの前記注入器が、スケーリングファクタ、前記デコードされたマルチチャネル音信号の現在のフレームにおける空間パラメータ、およびランダム信号の関数として、前記デコードされたマルチチャネル音信号の各チャネルに対して前記コンフォートノイズを生成する、請求項33に記載のデバイス。
  36. コンフォートノイズの前記注入器が、ランダム信号、スケーリングファクタ、前記マルチチャネルコンフォートノイズのチャネルを作成するために前記ランダム信号を一緒に混合するための混合係数、ならびに前記デコードされたマルチチャネル音信号の現在のフレームにおけるチャネル間相関(IC)およびチャネル間レベル差(ILD)空間パラメータの関数として、前記デコードされたステレオ音信号の各チャネルに対して前記コンフォートノイズを生成する、請求項29から35のいずれか一項に記載のデバイス。
  37. デコードされたマルチチャネル音信号にマルチチャネルコンフォートノイズを注入するための、マルチチャネルサウンドデコーダにおいて実装されるデバイスであって、
    少なくとも1つのプロセッサと、
    前記プロセッサに結合されたメモリであって、実行されると前記プロセッサに、
    デコードされたモノダウンミックス信号におけるバックグラウンドノイズの推定器と、
    前記推定されたバックグラウンドノイズに応じて、前記デコードされたマルチチャネル音信号の複数のチャネルの各々に対してコンフォートノイズを計算し、前記デコードされたマルチチャネル音信号の前記それぞれのチャネルに前記計算されたコンフォートノイズを注入するためのマルチチャネルコンフォートノイズの注入器と
    を実装させる非一時的命令を記憶するメモリと
    を備えるデバイス。
  38. デコードされたマルチチャネル音信号にマルチチャネルコンフォートノイズを注入するための、マルチチャネルサウンドデコーダにおいて実装されるデバイスであって、
    少なくとも1つのプロセッサと、
    前記プロセッサに結合されたメモリであって、実行されると前記プロセッサに、
    デコードされたモノダウンミックス信号におけるバックグラウンドノイズを推定することと、
    前記推定されたバックグラウンドノイズに応じて、前記デコードされたマルチチャネル音信号の複数のチャネルの各々に対してコンフォートノイズを計算し、前記デコードされたマルチチャネル音信号の前記それぞれのチャネルに前記計算されたコンフォートノイズを注入することと
    を行わせる非一時的命令を記憶するメモリと
    を備えるデバイス。
  39. デコードされたマルチチャネル音信号にマルチチャネルコンフォートノイズを注入するための、マルチチャネルサウンドデコーダにおいて実装される方法であって、
    デコードされたモノダウンミックス信号におけるバックグラウンドノイズを推定するステップと、
    前記推定されたバックグラウンドノイズに応じて、前記デコードされたマルチチャネル音信号の複数のチャネルの各々に対してコンフォートノイズを計算し、前記デコードされたマルチチャネル音信号の前記それぞれのチャネルに前記計算されたコンフォートノイズを注入するステップと
    を含む、方法。
  40. 前記デコーダが、パラメトリックステレオデコーダであり、前記デコードされたマルチチャネル音信号が、左チャネルおよび右チャネルを含むデコードされたステレオ音信号である、請求項39に記載の方法。
  41. バックグラウンドノイズを推定するステップが、音声非アクティブの間に前記デコードされたモノダウンミックス信号を分析することによってバックグラウンドノイズ包絡線を推定するステップを含む、請求項39または40に記載の方法。
  42. バックグラウンドノイズを推定するステップが、音声非アクティブを示す値を有する発話区間検出(VAD)フラグに反応する、請求項41に記載の方法。
  43. バックグラウンドノイズを推定するステップが、前記デコードされたモノダウンミックス信号のパワースペクトルを計算し、前記デコードされたモノダウンミックス信号の前記パワースペクトルを圧縮するステップを含む、請求項39から42のいずれか一項に記載の方法。
  44. バックグラウンドノイズを推定するステップが、前記デコードされたモノダウンミックス信号の周波数変換を計算し、前記デコードされたモノダウンミックス信号の前記周波数変換を使用して、前記デコードされたモノダウンミックス信号の前記パワースペクトルを計算するステップを含む、請求項43に記載の方法。
  45. バックグラウンドノイズを推定するステップが、前記デコードされたモノダウンミックス信号の前記周波数変換を計算するために、前記デコードされたモノダウンミックス信号を窓掛けし、前記窓掛けされた、デコードされたモノダウンミックス信号に前記周波数変換を適用するステップを含む、請求項44に記載の方法。
  46. バックグラウンドノイズを推定するステップが、前記デコードされたモノダウンミックス信号を窓掛けするために、前記デコードされたモノダウンミックス信号に正規化正弦ウィンドウを適用するステップを含む、請求項45に記載の方法。
  47. バックグラウンドノイズを推定するステップが、前記デコードされたモノダウンミックス信号の前記パワースペクトルを正規化し、前記正規化されたパワースペクトルを圧縮するステップを含む、請求項43から46のいずれか一項に記載の方法。
  48. バックグラウンドノイズを推定するステップが、前記デコードされたモノダウンミックス信号の前記パワースペクトルを圧縮するために、前記パワースペクトルの周波数ビンを周波数帯域へと凝縮するステップを含む、請求項43から47のいずれか一項に記載の方法。
  49. バックグラウンドノイズを推定するステップが、所与の周波数よりも高い周波数では、前記パワースペクトルの周波数ビンを周波数帯域へと凝縮するステップを含む、請求項48に記載の方法。
  50. バックグラウンドノイズを推定するステップが、前記所与の周波数を下回る周波数では、前記パワースペクトルの圧縮を実施しないが、周波数ビンをそれぞれの周波数帯域に変換するステップを含む、請求項49に記載の方法。
  51. バックグラウンドノイズを推定するステップが、前記所与の周波数よりも高い周波数では、各周波数帯域における前記パワースペクトルの周波数ビンのスペクトル平均化を用いて、前記パワースペクトルの周波数ビンを周波数帯域へと凝縮するステップを含む、請求項49または50に記載の方法。
  52. バックグラウンドノイズを推定するステップが、各周波数帯域において前記パワースペクトルの周波数ビンをスペクトル的に平均化するために、各周波数帯域において前記パワースペクトルの前記周波数ビンの分散を計算するステップを含む、請求項51に記載の方法。
  53. バックグラウンドノイズを推定するステップが、前記推定されたバックグラウンドノイズの分散の損失を補償するために、前記圧縮されたパワースペクトルにランダムガウスノイズを付加するステップを含む、請求項43から52のいずれか一項に記載の方法。
  54. バックグラウンドノイズを推定するステップが、前記ランダムガウスノイズの分散を計算し、ゼロ平均および前記計算されたランダムガウスノイズ分散を有するランダムガウスノイズを生成するステップを含む、請求項53に記載の方法。
  55. バックグラウンドノイズを推定するステップが、前記デコードされたモノダウンミックス信号の前記パワースペクトルを使用して、各周波数帯域における前記ランダムガウスノイズ分散を計算するステップを含む、請求項53または54に記載の方法。
  56. バックグラウンドノイズを推定するステップが、無限インパルス応答(IIR)フィルタリングを用いて前記圧縮されたパワースペクトルを平滑化するステップを含む、請求項43から55のいずれか一項に記載の方法。
  57. 前記IIRフィルタリングが、各周波数帯域において異なる忘却係数を使用し、前記忘却係数が、前記圧縮されたパワースペクトルの総エネルギーと前記平滑化された圧縮パワースペクトルの総エネルギーとの比に関係する重みである、請求項56に記載の方法。
  58. 前記圧縮パワースペクトルの平滑化が、前記デコードされたマルチチャネル音信号の非アクティブセグメントの間により強く、前記デコードされたマルチチャネル音信号のアクティブセグメントの間により弱くなるように、前記IIRフィルタリングが、現在のフレームにおける発話区間検出(VAD)フラグに反応する、請求項56または57に記載の方法。
  59. 前記VADフラグの所与の値および前記圧縮パワースペクトルの前記総エネルギーと前記平滑化された圧縮パワースペクトルの前記総エネルギーとの前記比の所与の値に対して、バックグラウンドノイズを推定するステップが、ある周波数を上回る周波数帯域で前記現在のフレームにおける前記平滑化された圧縮パワースペクトルを更新するステップを含む、請求項58に記載の方法。
  60. バックグラウンドノイズを推定するステップが、いくつかの連続する非アクティブフレームで前記平滑化された圧縮パワースペクトルを更新するために連続的なIIRフィルタを使用するステップを含む、請求項56から59のいずれか一項に記載の方法。
  61. バックグラウンドノイズを推定するステップが、初期化手順を実施し、連続的なIIRフィルタリングを使用して前記初期化手順の間に非アクティブフレームで前記平滑化された圧縮パワースペクトルを更新するステップを含む、請求項56から60のいずれか一項に記載の方法。
  62. バックグラウンドノイズを推定するステップが、連続的なIIRフィルタが前記平滑化された圧縮パワースペクトルをその間に更新する連続する非アクティブフレームをカウントし、前記カウントされた連続する非アクティブフレームが所与の数に達するとき、前記初期化手順が完了されることを、バイナリフラグを用いて示すステップを含む、請求項61に記載の方法。
  63. バックグラウンドノイズを推定するステップが、前記平滑化された圧縮パワースペクトルを拡大するステップを含む、請求項56から62のいずれか一項に記載の方法。
  64. バックグラウンドノイズを推定するステップが、所与の周波数まで、前記平滑化された圧縮パワースペクトルの拡大を実施しないステップを含む、請求項63に記載の方法。
  65. バックグラウンドノイズを推定するステップが、決定された周波数よりも高い周波数では、倍数的な増加を使用する線形補間を用いて前記平滑化された圧縮パワースペクトルを拡大するステップを含む、請求項63または64に記載の方法。
  66. マルチチャネルコンフォートノイズを計算し、注入するステップが、前記拡大されたパワースペクトルを使用してステレオコンフォートノイズのスペクトル包絡線を制御するステップを含む、請求項63から65のいずれか一項に記載の方法。
  67. マルチチャネルコンフォートノイズを計算し、注入するステップが、前記拡大されたパワースペクトルの2つの隣接する周波数ビンにおいて、前記2つの隣接する周波数ビンにおけるコンフォートノイズの最大レベルと最小レベルとの比が所与のしきい値を超える場合、コンフォートノイズのレベルを前記最小レベルに設定することによって周波数分解能の低減を実施するステップを含む、請求項66に記載の方法。
  68. 前記最小レベルと最大レベルとの前記比が、一定のしきい値を超えない場合、マルチチャネルコンフォートノイズを計算し、注入するステップが、コンフォートノイズのレベルを、前記拡大されたパワースペクトルの2つの隣接する周波数ビンにおけるコンフォートノイズの最小レベルと最大レベルの平均値に設定することによって、周波数分解能の低減を実施するステップを含む、請求項66または67に記載の方法。
  69. マルチチャネルコンフォートノイズを計算し、注入するステップが、スケーリングファクタを使用して、前記デコードされたマルチチャネル音信号のそれぞれのチャネルへの注入のためにコンフォートノイズの前記レベルをスケーリングするステップを含む、請求項67または68に記載の方法。
  70. マルチチャネルコンフォートノイズを計算し、注入するステップが、2で割った周波数ビンの数およびグローバルゲインを使用して、前記スケーリングファクタを計算するステップを含む、請求項69に記載の方法。
  71. マルチチャネルコンフォートノイズを計算し、注入するステップが、(a)0~1の範囲に限定されたソフトVADパラメータを生成するためにバイナリ発話区間検出(VAD)フラグを平滑化することと、(b)前記ソフトVADパラメータの関数として前記グローバルゲインを生成することとによって、前記グローバルゲインを計算するステップを含む、請求項70に記載の方法。
  72. マルチチャネルコンフォートノイズを計算し、注入するステップが、スケーリングファクタ、前記デコードされたマルチチャネル音信号の現在のフレームにおける空間パラメータ、およびランダム信号の関数として、前記デコードされたマルチチャネル音信号の各チャネルに対して前記コンフォートノイズを生成するステップを含む、請求項70に記載の方法。
  73. マルチチャネルコンフォートノイズを計算し、注入するステップが、ランダム信号、スケーリングファクタ、前記マルチチャネルコンフォートノイズのチャネルを作成するために前記ランダム信号を一緒に混合するための混合係数、ならびに前記デコードされたマルチチャネル音信号の現在のフレームにおけるチャネル間相関(IC)およびチャネル間レベル差(ILD)空間パラメータの関数として、前記デコードされたマルチチャネル音信号の各チャネルに対して前記コンフォートノイズを生成するステップを含む、請求項39から72のいずれか一項に記載の方法。
JP2023566674A 2021-04-29 2022-03-09 デコードされた音信号へのマルチチャネルコンフォートノイズ注入のための方法およびデバイス Pending JP2024516669A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163181621P 2021-04-29 2021-04-29
US63/181,621 2021-04-29
PCT/CA2022/050342 WO2022226627A1 (en) 2021-04-29 2022-03-09 Method and device for multi-channel comfort noise injection in a decoded sound signal

Publications (1)

Publication Number Publication Date
JP2024516669A true JP2024516669A (ja) 2024-04-16

Family

ID=83846469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023566674A Pending JP2024516669A (ja) 2021-04-29 2022-03-09 デコードされた音信号へのマルチチャネルコンフォートノイズ注入のための方法およびデバイス

Country Status (7)

Country Link
US (1) US20240185865A1 (ja)
EP (1) EP4330963A1 (ja)
JP (1) JP2024516669A (ja)
KR (1) KR20240001154A (ja)
CN (1) CN117223054A (ja)
CA (1) CA3215225A1 (ja)
WO (1) WO2022226627A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY178710A (en) * 2012-12-21 2020-10-20 Fraunhofer Ges Forschung Comfort noise addition for modeling background noise at low bit-rates
CN104050969A (zh) * 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
ES2687617T3 (es) * 2014-02-14 2018-10-26 Telefonaktiebolaget Lm Ericsson (Publ) Generación de ruido de confort
EP3913626A1 (en) * 2018-04-05 2021-11-24 Telefonaktiebolaget LM Ericsson (publ) Support for generation of comfort noise
EP3815082B1 (en) * 2018-06-28 2023-08-02 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive comfort noise parameter determination

Also Published As

Publication number Publication date
US20240185865A1 (en) 2024-06-06
EP4330963A1 (en) 2024-03-06
KR20240001154A (ko) 2024-01-03
WO2022226627A1 (en) 2022-11-03
CN117223054A (zh) 2023-12-12
CA3215225A1 (en) 2022-11-03

Similar Documents

Publication Publication Date Title
US10573328B2 (en) Determining the inter-channel time difference of a multi-channel audio signal
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
KR102636396B1 (ko) 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템
TWI714046B (zh) 用於估計聲道間時間差的裝置、方法或計算機程式
US11037581B2 (en) Signal processing method and device adaptive to noise environment and terminal device employing same
AU2017310760A1 (en) Method for encoding multi-channel signal and encoder
JP6730391B2 (ja) オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム
TW202215417A (zh) 多聲道信號產生器、音頻編碼器及依賴混合噪音信號的相關方法
EP4179530B1 (en) Comfort noise generation for multi-mode spatial audio coding
US20240185865A1 (en) Method and device for multi-channel comfort noise injection in a decoded sound signal
US20230368803A1 (en) Method and device for audio band-width detection and audio band-width switching in an audio codec