JP2023540377A - 音コーデックにおける、非相関ステレオコンテンツの分類、クロストーク検出、およびステレオモード選択のための方法およびデバイス - Google Patents

音コーデックにおける、非相関ステレオコンテンツの分類、クロストーク検出、およびステレオモード選択のための方法およびデバイス Download PDF

Info

Publication number
JP2023540377A
JP2023540377A JP2023515652A JP2023515652A JP2023540377A JP 2023540377 A JP2023540377 A JP 2023540377A JP 2023515652 A JP2023515652 A JP 2023515652A JP 2023515652 A JP2023515652 A JP 2023515652A JP 2023540377 A JP2023540377 A JP 2023540377A
Authority
JP
Japan
Prior art keywords
stereo
sound signal
stereo mode
mode
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023515652A
Other languages
English (en)
Inventor
ウラジミール・マレノフスキー
トミー・ヴァイヤンクール
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2023540377A publication Critical patent/JP2023540377A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、ステレオ音信号における非相関ステレオコンテンツを分類するための方法およびデバイスが、抽出された特徴に応答して、ステレオ音信号における非相関ステレオコンテンツを表すスコアを計算するステップと、スコアに応答して、ステレオ音信号における非相関ステレオコンテンツおよび相関ステレオコンテンツの一方を指示する第1のクラスと、非相関ステレオコンテンツおよび相関ステレオコンテンツの他方を指示する第2のクラスとの間で切替するステップとを含む。左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答して、ステレオ音信号におけるクロストークを検出するための方法およびデバイスが、抽出された特徴に応答して、ステレオ音信号におけるクロストークを表すスコアを計算するステップと、ステレオ音信号におけるクロストークを検出するときにおける使用のための補助パラメータを計算するステップと、クロストークスコアおよび補助パラメータに応答して、ステレオ音信号におけるクロストークの存在を指示する第1のクラスと、ステレオ音信号におけるクロストークの不在を指示する第2のクラスとの間で切替するステップとを含む。左チャンネルと右チャンネルとを含むステレオ音信号をコード化するための第1のステレオモードおよび第2のステレオモードの一方を選択するための方法およびデバイスが、ステレオ音信号における非相関ステレオコンテンツの存在または不在を指示する第1の出力を生成するステップと、ステレオ音信号におけるクロストークの存在または不在を指示する第2の出力を生成するステップと、ステレオ音信号をコード化するためのステレオモードを選択するときにおける使用のための補助パラメータを計算するステップと、第1の出力、第2の出力、および補助パラメータに応答して、ステレオ音信号をコード化するためのステレオモードを選択するステップとを含む。

Description

本開示は、音コード化に関し、詳細には、限定されることはないが、例えば、低ビットレートおよび低遅延における複雑な音響の状況において良好な音質を生成することができる多チャンネル音コーデックなどにおける、非相関ステレオコンテンツの分類、クロストーク検出、およびステレオモード選択に関する。
本開示および添付の請求項において、
- 「音」という用語は、音声、音響、およびあらゆる他の音に関連させられ得る。
- 「ステレオ」という用語は、「ステレオフォニック」についての略語である。
- 「モノラル」という用語は、「モノフォニック」についての略語である。
歴史的に、会話用電話は、音を使用者の耳の一方だけに出力するために、1つだけの変換器を有するハンドセットで実施されてきた。ここ10年間、使用者は、主に音楽を聴くために、ときには音声を聞くために、自身の2つの耳で音を受信するためのヘッドフォンとの組み合わせで、自身の携帯用ハンドセットを使用し始めてきた。それでもなお、携帯用ハンドセットが会話音声を送信および受信するために使用されるとき、内容はなおもモノラルであるが、ヘッドフォンが使用されるときには使用者の2つの耳に提供される。
最新の3GPP音声コード化規格であり、全体の内容が参照により本明細書に組み込まれている参考文献[1]に記載されているようなEVS(Enhanced Voice Service)によって、携帯用ハンドセットを通じて送信および受信される音声および/または音響などのコード化された音が、相当に向上させられた。次の自然なステップは、受信機が、通信リンクの相手方において捕らえられる現実の生活の音響の状況にできるだけ近くなるように、ステレオ情報を送信することである。
例えば、全体の内容が参照により本明細書に組み込まれている参考文献[2]に記載されているような音響コーデックでは、ステレオ情報の送信が通常使用されている。
会話音声のコーデックについては、モノラル信号が標準的である。ステレオ音信号が送信されるとき、ステレオ音信号の左チャンネルと右チャンネルとの両方がモノラルコーデックを使用してコード化されるため、ビットレートがしばしば2倍にされる。これはほとんどのシナリオにおいて良好に機能するが、ビットレートを2倍にし、2つのチャンネルの間(ステレオ音信号の左チャンネルと右チャンネルとの間)の潜在的な重複性を利用できていないという欠点を提起する。さらに、全体のビットレートを合理的なレベルで保つために、左チャンネルおよび右チャンネルの各々について非常に低いビットレートが使用されることで、全体の音質に影響を与えている。ビットレートを低くするために、効率的なステレオコード化技術が開発および使用されてきた。非限定的な例として、低ビットレートで効率的に使用され得る2つのステレオコード化技術が、以下の段落において検討されている。
第1のステレオコード化技術はパラメトリックステレオと呼ばれている。パラメトリックステレオは、共通のモノラルコーデックを使用するモノラル信号に、立体音像を表す特定の大きさのステレオ側情報(ステレオパラメータに対応する)を加えて、2つの入力(左チャンネルおよび右チャンネル)を符号化する。2つの入力の左チャンネルおよび右チャンネルは、モノラル信号へとダウンミックスされ、次にステレオパラメータが計算される。これは、通常は、例えば離散フーリエ変換(DFT)領域においてなど、周波数領域(FD)において実施される。ステレオパラメータは、いわゆる両耳またはチャンネル間のキューに関連させられる。両耳のキュー(例えば、全体の内容が参照により本明細書に組み込まれている参考文献[3]を参照されたい)は、両耳間レベル差(ILD)、両耳間時間差(ITD)、および両耳間相関(IC)を含む。音信号特性、ステレオ状況構成などに依存して、一部または全部の両耳のキューはコード化され、復号器に送信される。両耳のキューがコード化され手送信されることについての情報は、通常はステレオ側情報と一部である信号情報として送られる。また、所与の両耳のキューは、可変数ビットが使用されることになる異なるコード化技術を使用して量子化され得る。そのため、量子化された両耳のキューに加えて、ステレオ側情報は、通常は中から高いビットレートにおいて、ダウンミックスから生じる量子化された残留信号を含み得る。残留信号は、算術符号器といったエントロピコード化技術を使用してコード化され得る。本開示の以下の部分においては、パラメトリックステレオは、パラメトリックステレオ符号化技術が通常は周波数領域で動作するため、「DFTステレオ」と称され、本開示はDFTを使用して非制限的な実施形態を説明する。
他のステレオコード化技術は、時間領域において動作する技術である。このステレオコード化技術は、2つの入力(左チャンネルおよび右チャンネル)を、いわゆる主チャンネルおよび副チャンネルへと混合する。例えば、全体の内容が参照により本明細書に組み込まれている参考文献[4]に記載されているような方法に従って、時間領域の混合は混合の割合に基づくことができ、混合の割合は、主チャンネルおよび副チャンネルの生成において、2つの入力(左チャンネルおよび右チャンネル)のそれぞれの寄与を決定する。混合の割合は、例えば、モノラル信号に対する2つの入力(左チャンネルおよび右チャンネル)の正規化された相関、または、2つの入力(左チャンネルおよび右チャンネル)の間の長期の相関の差といった、いくつかの基準から導かれる。主チャンネルが共通のモノラルコーデックによってコード化できる一方で、副チャンネルはより低いビットレートコーデックによってコード化できる。副チャンネルのコード化は、主チャンネルと副チャンネルとの間のコヒーレンスを利用してもよく、主チャンネルのいくつかのパラメータを再使用してもよい。左チャンネルと右チャンネルとがわずかな相関しか呈さない特定の音では、ステレオ入力信号の左チャンネルと右チャンネルとを、時間領域において、別々に、または最小のチャンネル間パラメータ化のいずれかで符号化することが、より優れている。符号器におけるこのような手法は、時間領域TDステレオの特別な場合であり、本開示を通じて「LRTDステレオ」と呼ばれる。
さらに、ここ何年かで、音響の発生、記録、描写、コード化、送信、および再生が、聞き手にとって向上した双方向で没入型の体験に向けて進んでいる。没入型の体験は、例えば、音がすべての方向から来る一方で、音の状況に深く従事または関与させられている状態として表すことができる。没入型音響(3D(三次元)音響とも呼ばれる)では、(聴)空間の音色、指向性、残響、透明性、および正確性などの幅広い音特性を考慮して、音像が聞き手の周りのすべての三次元において再生される。没入型音響は、スピーカに基づくシステム、一体化再生システム(サウンドバー)、またはヘッドフォンなど、特定の音再現または音再生のシステムのために生成される。そのため、音再生システムの双方向性は、例えば、音レベルを調整する能力、音の位置を変更する能力、または、再生のための異なる言語を選択する能力を含み得る。
没入型の体験を達成するために、3つの基本的な手法が存在する。
没入型の体験を達成するための第1の手法は、異なる方向から音を捕らえるために、複数の離間されたマイクを使用するチャンネルに基づいた音響手法であり、1つのマイクが特定のスピーカ配置における1つの音響チャンネルに対応する。次に、各々の記録されたチャンネルが、所与の場所におけるスピーカに供給される。チャンネルに基づく音響の手法の例は、例えば、ステレオ、5.1サラウンド、5.1+4などである。
没入型の体験を達成するための第2の手法は、次元の構成要素の組み合わせによって、局所的な空間に対する所望の音場を時間の関数として表す状況に基づく音響手法である。状況に基づく音響を表す音信号は、音響源の位置から独立しているが、音場はレンダラにおけるスピーカの選択された配置に変換される。状況に基づいた音響の例はアンビソニックスである。
没入型の体験を達成するための第3の手法は、音響状況を、個々の音響要素(例えば、歌手、ドラム、ギターなど)の位置などの情報を伴うそれら音響要素のセットとして表す対象に基づく音響手法であり、そのため、それら音響要素は、それらの意図されている場所における音再生システムによって提供される。これは、各々の対象が離散されたままであり、個別に操作させることができるため、対象に基づく音響手法に大きな柔軟性および双方向性を与える。
没入型の体験を達成するための上記の音響手法の各々が、良い点と悪い点とを提起する。したがって、複雑な音響システムでは、1つだけの音響手法の代わりに、没入型の音響状況を作り出すために、いくつかの音響手法が組み合わされることが一般的である。例として、数個の離散した音響対象を伴うアンビソニックスなど、状況に基づく音響またはチャンネルに基づく音響を、対象に基づく音響と組み合わせる音響システムがあり得る。
近年、3GPP(3rd Generation Partnership Project)(登録商標)が、EVSコーデック(全体の内容が参照により本明細書に組み込まれている参考文献[5]を参照されたい)に基づいて、IVAS(Immersive Voice and Audio Services)と呼ばれる没入型サービスのための3D(三次元)音コーデックを開発する作業を開始した。
DFTステレオモードは、シングルトークの発話をコード化するのに効率的である。2人以上の話者の場合、パラメトリックステレオ技術が状況の空間特性を完全に表すことは困難である。この問題は、2人の話し手が同時に会話している(クロストークのシナリオ)とき、およびステレオ入力信号の左チャンネルと右チャンネルでの信号が、弱く相関させられる、また完全に非相関とさせられるときに特に明らかとなる。この状況では、ステレオ入力信号の左チャンネルと右チャンネルとを、LRTDステレオモードを使用して、時間領域において、別々に、または最小のチャンネル間パラメータ化のいずれかで符号化することが、より優れている。ステレオ入力信号において捕らえられた状況が進展するにつれて、ステレオ状況の分類に基づいて、DFTステレオモードとLRTDステレオモードとの間で切替することが望ましい。
第1の態様によれば、本開示は、左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、左チャンネルおよび右チャンネルを含むステレオ音信号における非相関ステレオコンテンツを分類するための方法であって、抽出された特徴に応答して、ステレオ音信号における非相関ステレオコンテンツを表すスコアを計算するステップと、スコアに応答して、ステレオ音信号における非相関ステレオコンテンツおよび相関ステレオコンテンツの一方を指示する第1のクラスと、非相関ステレオコンテンツおよび相関ステレオコンテンツの他方を指示する第2のクラスとの間で切替するステップとを含む方法に関する。
第2の態様によれば、本開示は、左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、左チャンネルおよび右チャンネルを含むステレオ音信号における非相関ステレオコンテンツの分類装置であって、抽出された特徴に応答する、ステレオ音信号における非相関ステレオコンテンツを表すスコアの計算装置と、ステレオ音信号における非相関ステレオコンテンツおよび相関ステレオコンテンツの一方を指示する第1のクラスと、非相関ステレオコンテンツおよび相関ステレオコンテンツの他方を指示する第2のクラスとの間での切替のためのスコアに応答するクラス切替機構とを備える分類装置に関する。
本開示は、左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答して、左チャンネルおよび右チャンネルを含むステレオ音信号におけるクロストークを検出するための方法であって、抽出された特徴に応答して、ステレオ音信号におけるクロストークを表すスコアを計算するステップと、ステレオ音信号におけるクロストークを検出するときにおける使用のための補助パラメータを計算するステップと、クロストークスコアおよび補助パラメータに応答して、ステレオ音信号におけるクロストークの存在を指示する第1のクラスと、ステレオ音信号におけるクロストークの不在を指示する第2のクラスとの間で切替するステップとを含む方法にも関係している。
さらなる態様によれば、本開示は、左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、左チャンネルおよび右チャンネルを含むステレオ音信号におけるクロストークの検出装置であって、抽出された特徴に応答する、ステレオ音信号におけるクロストークを表すスコアの計算装置と、ステレオ音信号におけるクロストークを検出するときにおける使用のための補助パラメータの計算装置と、ステレオ音信号におけるクロストークの存在を指示する第1のクラスと、ステレオ音信号におけるクロストークの不在を指示する第2のクラスとの間での切替のための、クロストークスコアおよび補助パラメータに応答するクラス切替機構とを備える検出装置を提供する。
本開示は、左チャンネルと右チャンネルとを含むステレオ音信号をコード化するための第1のステレオモードおよび第2のステレオモードの一方を選択するための方法であって、ステレオ音信号における非相関ステレオコンテンツの存在または不在を指示する第1の出力を生成するステップと、ステレオ音信号におけるクロストークの存在または不在を指示する第2の出力を生成するステップと、ステレオ音信号をコード化するためのステレオモードを選択するときにおける使用のための補助パラメータを計算するステップと、第1の出力、第2の出力、および補助パラメータに応答して、ステレオ音信号をコード化するためのステレオモードを選択するステップとを含む方法にも関係している。
なおもさらなる態様によれば、本開示は、左チャンネルと右チャンネルとを含むステレオ音信号をコード化するための第1のステレオモードおよび第2のステレオモードの一方を選択するためのデバイスであって、ステレオ音信号における非相関ステレオコンテンツの存在または不在を指示する第1の出力を生成するための分類装置と、ステレオ音信号におけるクロストークの存在または不在を指示する第2の出力を生成するための検出装置と、ステレオ音信号をコード化するためのステレオモードを選択するときにおける使用のための補助パラメータを計算するための分析処理装置と、第1の出力、第2の出力、および補助パラメータに応答して、ステレオ音信号をコード化するためのステレオモードを選択するためのステレオモード選択装置とを備えるデバイスを提供する。
非相関ステレオコンテンツ分類装置、非相関ステレオコンテンツ分類方法、クロストーク検出装置、クロストーク検出方法、ステレオモード選択デバイス、およびステレオモード選択方法の前述および他の目的、利点、および特徴は、添付の図面を参照して例だけを用いて提供されている例示の実施形態の以下の非限定的な記載を読むことで、より明らかとなる。
ステレオ音信号をコード化するためのデバイスと、ステレオ音信号をコード化するための対応する方法とを同時に示す概略的なブロック図である。 ハイパーカーディオイドマイクの対によって捕らえられる2人の相対する話者によるクロストーク状況の平面的な光景を示す概略図である。 GCC-PHAT関数におけるピークの場所を示すグラフである。 実際の記録のために設定されたステレオ状況の上からの平面図である。 LRTDステレオモードにおける非相関ステレオコンテンツの分類においてLogRegモデルの出力に適用される正規化関数を示すグラフである。 ステレオ音信号をコード化するための図1のデバイスの一部を形成する非相関ステレオコンテンツの分類装置におけるステレオコンテンツクラス同士の間での切替の機構を示す状態機械図である。 互いについて位相の問題を作り出すことなく空間を網羅するような方法で離して配置されたカーディオイドマイクまたは全指向性マイクの対からABマイクが成る、クロストーク検出のためにシミュレーションされている条件のABマイク設定を伴う大会議室の概略的な平面図である。 VAD(音声活動検出)を使用するクロストークの例の自動的なラベル付けを示す図である。 LRTDステレオモードでのクロストーク検出におけるLogRegモデルの未加工の出力を増減するための関数を表すグラフである。 LRTDステレオモードにおいてステレオ音信号をコード化するための、図1のデバイスのクロストーク検出装置を形成する部分における、立ち上がりエッジを検出する機構を示すグラフである。 LRTDステレオモードにおけるクロストーク検出装置の出力の状態同士の間での切替の機構を示す論理図である。 DFTステレオモードにおけるクロストーク検出装置の出力の状態同士の間での切替の機構を示す論理図である。 LRTDステレオモードとDFTステレオモードとの間での選択の機構を示す概略的なブロック図である。 ステレオ音信号をコード化するための方法およびデバイスを実施するハードウェア構成要素の例の構成の単純化されたブロック図である。
本開示は、入力ステレオ音信号において、非相関ステレオコンテンツの分類(以後において、「UNCLR分類」)とクロストーク検出(以後において、「XTALK検出」)とを記載している。本開示は、例えば自動LRTD/DFTステレオモード選択といったステレオモード選択も記載している。
図1は、ステレオ音信号190をコード化するためのデバイス100と、ステレオ音信号190をコード化するための対応する方法150とを同時に示している概略的なブロック図である。
具体的には、図1は、UNCLR分類、XTALK検出、およびステレオモード選択が、ステレオ音信号をコード化する方法150およびデバイス100の中にどのように組み込まれているかを示している。
UNCLR分類とXTALK検出とは2つの独立した技術を形成している。しかしながら、それらは同じ統計モデルに基づいており、いくつかの特徴およびパラメータを共用する。また、UNCLR分類とXTALK検出との両方が、LRTDステレオモードおよびDFTステレオモードのために個別に設計および訓練される。本開示では、LRTDステレオモードは時間領域ステレオモードの非限定的な例として提供され、DFTステレオモードは周波数領域ステレオモードの非限定的な例として提供される。他の時間領域ステレオモードおよび周波数領域ステレオモードを実施することは、本開示の範囲内である。
UNCLR分類は、ステレオ音信号190の左チャンネルおよび右チャンネルから抽出された特徴を分析し、左チャンネルと右チャンネルとの間の弱い相関またはゼロの相関を検出する。他方で、XTALK検出は、ステレオ状況において同時に話す2人の話者の存在を検出する。例えば、UNCLR分類とXTALK検出との両方は、二進出力を提供する。これらの二進出力は、ステレオモード選択論理において一緒に組み合わされる。非限定的な通則として、ステレオモード選択は、UNCLR分類およびXTALK検出が捕獲デバイス(例えば、マイク)の両側に立つ2人の話者の存在を指示するとき、LRTDステレオモードを選択する。この状況は、通常は、ステレオ音信号190の左チャンネルと右チャンネルとの間に弱い相関をもたらす。LRTDステレオモードまたはDFTステレオモードの選択は、フレームごとに基づいて実施される(技術的によく知られているように、ステレオ音信号190は、所与のサンプリングレートでサンプリングされ、いくつかの「サブフレーム」へと分割される「フレーム」と呼ばれるこれらのサンプルのグループによって処理される)。また、ステレオモード選択論理は、LRTDステレオモードとDFTステレオモードとの間での頻繁な切替と、知覚的に重要である信号区分の中でのステレオモード切替とを回避するように設計される。
UNCLR分類、XTALK検出、およびステレオモード選択の非限定的な例示の実施形態は、本開示において、IVASコーデック(またはIVAS音コーデック)と呼ばれるIVASコード化フレームワークを参照して、例だけを用いて説明される。しかしながら、このような分類、検出、および選択を何らかの他の音コーデックで組み込むことは、本開示の範囲内である。
1. 特徴抽出
UNCLR分類は、全体の内容が参照により本明細書に組み込まれている、例えば参考文献[9]などに記載されているようなロジスティック回帰(LogReg)モデルに基づく。LogRegモデルは、LRTDステレオモードについて、およびDFTステレオモードについて、個別に訓練される。訓練は、ステレオ音信号コード化デバイス100(ステレオコーデック)から抽出される特徴の大きなデータベースを用いて行われる。同様に、XTALK検出は、LRTDステレオモードについて、およびDFTステレオモードについて、個別に訓練されるLogRegモデルに基づく。XTALK検出において使用される特徴は、UNCLR分類において使用される特徴と異なる。しかしながら、特定の特徴は両方の技術によって共用される。
UNCLR分類で使用される特徴と、XTALK検出で使用される特徴とは、以下の動作、すなわち、
- チャンネル間相関分析、
- TD前処理、および、
- DFTステレオパラメータ化
から抽出される。
ステレオ音信号をコード化するための方法150は、上記の特徴の抽出の動作(図示されていない)を含む。特徴抽出の動作を実施するために、ステレオ音信号をコード化するためのデバイス100は特徴抽出装置(図示されていない)を備える。
2. チャンネル間相関分析
特徴抽出の動作(図示されていない)は、LRTDステレオモードについてのチャンネル間相関分析の動作151と、DFTステレオモードについてのチャンネル間相関分析の動作152とを含む。動作151および152を実施するために、特徴抽出装置(図示されていない)は、チャンネル間相関の分析装置101、およびチャンネル間相関の分析装置102をそれぞれ備える。動作151および152と分析装置101および102とは、同様であり、同時に説明される。
分析装置101/102は、現在のステレオ音信号フレームの左チャンネルおよび右チャンネルを入力として受信する。左チャンネルおよび右チャンネルは最初に8kHzまでダウンサンプリングされる。例えば、ダウンサンプリングされた左チャンネルおよび右チャンネルは次のように示される。
XL(n),XR(n), n=0, .., N-1 (1)
ここで、nは、現フレームにおけるサンプル指数であり、N=160は現フレームの長さである(160サンプルの長さ)。ダウンサンプリングされた左チャンネルおよび右チャンネルは、チャンネル間相関関数を計算するために使用される。初めに、左チャンネルおよび右チャンネルの絶対エネルギーが、例えば次の関係を使用して計算される。
分析装置101/102は、タイムラグ<-40, 40>にわたって左チャンネルと右チャンネルとの間での点乗積からチャンネル間相関関数の分子を計算する。負のタイムラグについて、左チャンネルと右チャンネルとの間での点乗積は、例えば次の関係を使用して計算される。
正のタイムラグについて、点乗積は、例えば次の関係によって与えられる。
次に、分析装置101/102は、例えば次の関係を使用して、チャンネル間相関関数を計算する。
ここで、上付き文字[-1]は前フレームへの参照を示している。パッシブモノラル信号が、左チャンネルおよび右チャンネルに対して平均を取ることで計算される。
側信号が、非限定的な例として、次の関係を使用して、左チャンネルと右チャンネルとの間の差として計算される。
最後に、左チャンネルおよび右チャンネルのサンプル当たり乗積を次のように定めることも有用である。
XP(n)=XL(n)・XR(n), n=0, .., N-1 (8)
分析装置101/102は、例えば次の関係を使用してチャンネル間相関関数を平滑化するために、無限インパルス応答(IIR)フィルタ(図示されていない)を備える。
ここで、上付き文字[n]は現フレームを示し、上付き文字[n-1]は前フレームを示し、αICAは平滑化係数である。
平滑化係数αICAは、ステレオ音信号コード化デバイス100(ステレオコーデック)のチャンネル間相関分析(ICA)モジュール(参考文献[1])の中に適応して設定される。次に、チャンネル間相関関数は、予測されたピークの領域における場所において重み付けされる。ピークの見つけ出しおよび局所的なウィンドウ生成のための機構が、ICAモジュール内で実施され、本文書では記載されておらず、ICAモジュールについての追加の情報については参考文献[1]を参照されたい。ICA重み付けの後のチャンネル間相関関数を、k∈<-40, 40>としてRW(k)と示すこととする。
チャンネル間相関関数の最大の位置は、支配的な音が捕獲位置に来る方向の重要な指標であり、LRTDステレオモードにおけるUNCLR分類およびXTALK検出によって特徴として使用される。分析装置101/102は、例えば次の関係を使用して、LRTDステレオモードにおけるXTALK検出による特徴としても使用されるチャンネル間相関関数の最大を計算する。
この最大の位置は、非限定的な実施形態として、次の関係を使用する。
チャンネル間相関関数の最大Rmaxは、負であるとき、0に設定される。現フレームにおける最大値Rmaxと前フレームとの間の差は、例えば次のように計算される。
ここで、上付き文字[-1]は前フレームへの参照を示している。
チャンネル間相関関数の最大の位置は、どのチャンネルがICAモジュールにおいて「参照」チャンネル(REF)および「標的」チャンネル(TAR)になるかを決定する。位置kmax≧0である場合、左チャンネル(L)は参照チャンネル(REF)となり、右チャンネル(R)は標的チャンネル(TAR)となる。位置kmax<0である場合、右チャンネル(R)は参照チャンネル(REF)となり、左チャンネル(L)は標的チャンネル(TAR)となる。次に、標的チャンネル(TAR)は、参照チャンネル(REF)に対するその遅延を相殺するためにずらされる。標的チャンネル(TAR)をずらすために使用されるサンプルの数は、例えば、|kmax|に直接的に設定され得る。しかしながら、連続的フレームの間の位置kmaxにおける絶対変化から生じるアーチファクトを排除するために、標的チャンネル(TAR)をずらすために使用されるサンプルの数は、ICAモジュール内の適切なフィルタで平滑にされ得る。
標的チャンネル(TAR)をずらすために使用されるサンプルの数をkshiftとして示し、ここで、kshift>0である。参照チャンネル信号をXref(n)と示し、標的チャンネル信号をXtar(n)と示す。瞬時標的ゲインは、参照チャンネル(REF)と、ずらされた標的チャンネル(TAR)との間でのエネルギーの割合を反映している。瞬時標的ゲインは、例えば次の関係を使用して計算され得る。
ここで、Nはフレームの長さである。瞬時標的ゲインは、LRTDステレオモードにおけるUNCLR分類によって特徴として使用される。
2.1 チャンネル間特徴
分析装置101/102は、チャンネル間分析から直接的に、UNCLR分類およびXTALK検出において使用される第1の一連の特徴を導く。ゼロのタイムラグR(0)におけるチャンネル間相関関数の値が、LRTDステレオモードにおけるUNCLR分類およびXTALK検出によって、それ自体において特徴として使用される。C(0)の絶対値の対数を計算することで、LRTDステレオモードにおけるUNCLR分類およびXTALK検出によって使用される別の特徴が、次のように得られる。
側信号のエネルギーとモノラル信号のエネルギーとの割合も、LRTDステレオモードにおけるUNCLR分類およびXTALK検出によって特徴として使用される。この割合は、例えば次の関係を使用して計算される。
関係(15)のエネルギーの割合は、例えば次のように、時間に対して平滑にされる。
ここで、changは、ステレオ音信号コード化デバイス100(ステレオコーデック)のVAD(音声活動検出)モジュール(例えば、参考文献[1]を参照されたい)の一部として計算されるVADハングオーバーフレームのカウンタである。関係(16)の平滑化された割合は、LRTDステレオモードにおけるXTALK検出によって特徴として使用される。
分析装置101/102は、左チャンネルおよびモノラル信号から、および、右チャンネルとモノラル信号との間で、次の点乗積を導く。初めに、左チャンネルとモノラル信号との間の点乗積が、例えば次のように表される。
そして、右チャンネルとモノラル信号との間の点乗積が、例えば次のように表される。
両方の点乗積とも0の下界で正である。これらの2つの点乗積の最大および最小の差に基づく基準が、LRTDステレオモードにおけるUNCLR分類およびXTALK検出によって、特徴として使用される。これは、次の関係を使用して計算され得る。
dmmLR=max[CLM, CRM]-min[CLM, CRM] (19)
LRTDステレオモードにおけるUNCLR分類およびXTALK検出による独立した特徴として使用される同様の基準が、線形領域および対数領域の両方において、例えば次の関係を使用して計算される2つの点乗積の間の絶対差に直接的に基づく。
ΔLRM=CLM-CRM
dLRM=log10|CLM-CRM| (20)
LRTDステレオモードにおけるUNCLR分類およびXTALK検出によって使用される最後の特徴は、チャンネル間相関分析動作151/152の一部として計算され、チャンネル間相関関数の開方を反映する。これは次のように計算される。
ここで、上付き文字[-2]は、現フレームに先行する2つ前のフレームへの参照を示している。
3. 時間領域(TD)前処理
LRTDステレオモードでは、モノラルダウンミックスがなく、入力ステレオ音信号190の左チャンネルおよび右チャンネルの両方が、特徴を抽出するために、それぞれ時間領域前処理動作で分析され、つまり、ステレオ音信号190の左チャンネルを時間領域前処理するための動作153と、右チャンネルを時間領域前処理するための動作154とで分析される。動作153、154を実施するために、特徴抽出装置(図示されていない)は、図1に示されているように、それぞれの時間領域前処理装置103および104を備える。動作153および154と、対応する前処理装置103および104とは、同様であり、同時に説明される。
時間領域前処理動作153/154は、UNCLR分類およびXTALK検出を実施するための抽出された特徴として使用される特定のパラメータを生成するために、いくつかの下位動作を実施する。このような下位動作には、以下のもの、すなわち、
- スペクトル分析、
- 線形予測分析、
- 開ループピッチ推定、
- 音声活動検出(VAD)、
- 暗騒音推定、および、
- フレームエラー隠蔽(FEC)分類
があり得る。
時間領域前処理装置103/104は、レヴィンソンダービンの算法を使用して線形予測分析を実施する。レヴィンソンダービンの算法の出力は線形予測係数(LPC)のセットである。レヴィンソンダービンの算法は反復法であり、レヴィンソンダービンの算法における反復の総数がMとして示され得る。各々のi番目の反復において、i=1, .., Mであり、残余誤差エネルギー
が計算される。
本開示では、非限定的な例示の実施として、レヴィンソンダービンの算法がM=16の反復で行われることが仮定されている。入力ステレオ音信号190の左チャンネルと右チャンネルとの間での残余誤差エネルギーにおける差は、LRTDステレオモードにおけるXTALK検出のための特徴として使用される。残余誤差エネルギーにおける差は次のように計算され得る。
ここで、下付き文字LおよびRは、入力ステレオ音信号190の左チャンネルおよび右チャンネルをそれぞれ示すために加えられている。この非限定的な実施形態では、特徴(差dLPC13)は、最後の反復の代わりに14番目の反復からの残余エネルギーを使用して計算されるが、これは、この反復がUNCLR分類のための最も大きい特徴的なポテンシャルを有することが実験的に分かっているためである。レヴィンソンダービンの算法についてのさらなる情報、および残余誤差エネルギー計算についての詳細は、例えば参考文献[1]において見出すことができる。
レヴィンソンダービンの算法で推定されたLPC係数は、線スペクトル周波数LSF(i), i=0, .., M-1へと変換される。LSF値の合計は、入力ステレオ音信号190の包絡線の重力点の推定として供することができる。左チャンネルにおけるLSF値の合計と右チャンネルにおけるLSF値の合計との間の差は、2つのチャンネルの類似性についての情報を含む。その理由のため、この差は、LRTDステレオモードにおけるXTALK検出において特徴として使用される。左チャンネルにおけるLSF値の合計と右チャンネルにおけるLSF値の合計との間の差は、次の関係を使用して計算され得る。
先に言及したLPCからLSFへの変換についての追加の情報は、例えば参考文献[1]において見出すことができる。
時間領域前処理装置103/104は、開ループピッチ推定を実施し、左チャンネル(L)/右チャンネル(R)の開ループピッチの差が計算される自己相関関数を使用する。左チャンネル(L)/右チャンネル(R)の開ループピッチの差が、次の関係を使用して計算され得る。
ここで、T[k]は、現フレームのk番目の区分における開ループピッチ推定である。本開示では、非限定的な例示の例として、2つの区分が現フレームに位置付けられ、1つの区分が前フレームの第2の半分に位置付けられる、k=1、2、3と指数の付けられた3つの隣接する半分のフレーム(区分)において、開ループピッチ分析が実施されることが仮定されている。異なる数の区分を使用することに加えて、異なる区分の長さおよび重なりを使用することが可能である。開ループピッチ推定についての追加の情報は、例えば参考文献[1]において見出すことができる。
入力ステレオ音信号190の左チャンネルと右チャンネルとの間での最大自己相関値(上記の自己相関関数によって決定される)(発声)の差は、LRTDステレオモードにおけるXTALK検出による特徴としても使用される。左チャンネルの最大自己相関値と右チャンネルの最大自己相関値との間の差は、次の関係を使用して計算され得る。
ここで、ν[k]は、k番目の半分フレームにおける左(L)チャンネルおよび右(R)チャンネルの最大自己相関値を表している。
暗騒音推定は、音声活動検出(VAD)検出アルゴリズムの一部である(参考文献[1]参照)。明確には、暗騒音推定は、UNCLR分類およびXTALK検出によっていくつかが使用される特徴のセットに依拠するアクティブ/非アクティブ信号検出装置(図示されていない)を使用する。例えば、アクティブ/非アクティブ信号検出装置(図示されていない)は、左チャンネル(L)および右チャンネル(R)の非定常性パラメータfstaを、スペクトル安定性の尺度として生成する。入力ステレオ音信号190の左チャンネルと右チャンネルとの間での非定常性における差は、LRTDステレオモードにおけるXTALK検出によって特徴として使用される。左(L)チャンネルと右(R)チャンネルとの間での非定常性における差は、次の関係を使用して計算され得る。
dsta=|fsta,L-fsta,R| (26)
アクティブ/非アクティブ信号検出装置(図示されていない)は、相関マップパラメータCmapを含む調和分析に依拠する。相関マップは、入力ステレオ音信号190の音色安定性の尺度であり、UNCLR分類およびXTALK検出によって使用される。左(L)チャンネルの相関マップと右(R)チャンネルの相関マップとの間の差は、LRTDステレオモードにおけるXTALK検出による特徴として使用され、例えば次の関係を使用して計算される。
dcmap=|Cmap,L-Cmap,R| (27)
最後に、アクティブ/非アクティブ信号検出装置(図示されていない)は、各々のフレームにおけるスペクトル多様性および騒音特性の規則的な測定を行う。これらの2つのパラメータも、LRTDステレオモードにおけるUNCLR分類およびXTALK検出によって特徴として使用される。明確には、(a)左チャンネル(L)と右チャンネル(R)との間のスペクトル多様性における差が次のように計算され得る。
dsdiv=|log(Sdiv,L)-log(Sdiv,R)| (28)
ここで、Sdivは現フレームにおけるスペクトル多様性の尺度を表しており、(b)左チャンネル(L)と右チャンネル(R)との間の騒音特性における差が次のように計算され得る。
dnchar=|log(nchar,L)-log(nchar,R)| (29)
ここで、ncharは、現フレームにおける騒音特性の測定を表している。相関マップ、非定常性、スペクトル多様性、および騒音特性のパラメータの計算についての詳細のために、[1]が参照され得る。
ステレオ音信号コード化デバイス100の一部であるACELP(Algebraic Code-Excited Linear Prediction)コア符号器、参考文献[1]に記載されているような無声音を符号化するための特定の設定を備える。これらの設定の使用は、現フレームの内側の短い区分における急激なエネルギー増加の尺度を含め、複数の因子によって条件付けられる。ACELPコア符号器における無声音コード化のための設定は、現フレームの内側に急激なエネルギー増加の無いときに適用されるだけである。左チャンネルにおける急激なエネルギー増加の測定と右チャンネルにおける急激なエネルギー増加の測定とを比較することで、クロストーク区分の開始位置を突き止めることが可能である。急激なエネルギー増加は、3GPP EVSコーデック(参考文献[1])に記載されているようなEdパラメータと同様に計算され得る。左チャンネル(L)と右チャンネル(R)との急激なエネルギー増加における差は、次の関係を使用して計算され得る。
ddE=|log(Ed,L)-log(Ed,R)| (30)
ここで、下付き文字LおよびRは、入力ステレオ音信号190の左チャンネルおよび右チャンネルをそれぞれ示すために加えられている。
時間領域前処理装置103/104および前処理動作153/154は、FEC技術のための状態機械を含むFEC分類モジュールを使用する。各々のフレームにおけるFECクラスは、メリットの関数に基づく所定のクラスから選択される。左チャンネル(L)および右チャンネル(R)について現フレームで選択されたFECクラス同士の間の差は、LRTDステレオモードにおけるXTALK検出によって特徴として使用される。しかしながら、このような分類および検出の目的について、FECクラスは次のように制限され得る。
ここで、tclassは、現フレームにおける選択されたFECクラスである。したがって、FECクラスは有声音と無声音とだけに限定される。左チャンネル(L)におけるクラスと右チャンネル(R)におけるクラスとの間の差は、次のように計算され得る。
dclass=|tclass,L-tclass,R| (32)
FEC分類についての追加の詳細のために、[1]が参照され得る。
時間領域前処理装置103/104および前処理動作153/154は、音声/音楽分類と、対応する音声/音楽分類装置とを実施する。この音声/音楽分類は、パワースペクトル発散とパワースペクトル安定性とに従って、各々のフレームにおいて二進決定を行う。左チャンネル(L)と右チャンネル(R)との間でのパワースペクトル発散における差が、例えば次の関係を使用して計算される。
dPdiff=|Pdiff,L-Pdiff,R| (33)
ここで、Pdiffは、現フレームにおける左チャンネル(L)および右チャンネル(R)におけるパワースペクトル発散を表しており、左チャンネル(L)と右チャンネル(R)との間でのパワースペクトル安定性における差が、例えば次の関係を使用して計算される。
dPsta=|Psta,L-Psta,R| (34)
ここで、Pstaは、現フレームにおける左チャンネル(L)および右チャンネル(R)におけるパワースペクトル安定性を表している。
参考文献[1]は、音声/音楽分類の中で計算されるパワースペクトル発散およびパワースペクトル安定性についての詳細を記載している。
4. DFTステレオパラメータ
ステレオ音信号190をコード化するための方法150は、左チャンネル(L)および右チャンネル(R)の高速フーリエ変換(FFT)を計算する動作155を含む。動作155を実施するために、ステレオ音信号190をコード化するためのデバイス100はFFT変換計算装置105を備える。
特徴抽出の動作(図示されていない)は、DFTステレオパラメータを計算する動作156を含む。動作156を実施するために、特徴抽出装置(図示されていない)はDFTステレオパラメータの計算装置106を備える。
DFTステレオモードでは、変換計算装置105は、FFT変換を用いて入力ステレオ音信号190の左チャンネル(L)および右チャンネル(R)を周波数領域へと変換する。
左チャンネル(L)の複素スペクトルは次のように示される。
そして、右チャンネル(R)の複素スペクトルは次のように示される。
ここで、k=0, .., NFFT-1は周波数ビンの指数であり、NFFTはFFT変換の長さである。例えば、入力ステレオ音信号のサンプリングレートが32kHzであるとき、DFTステレオパラメータの計算装置106は40msのウィンドウに対する複素スペクトルを計算し、NFFT=1280のサンプルをもたらす。次に、複素相互チャンネルスペクトルが、非限定的な実施形態として、次の関係を使用して計算され得る。
星印の上付き文字は複素共役を指示する。複素相互チャンネルスペクトルは、次の関係を使用して、実数部と虚数部とに分解させることができる。
実数部と虚数部との分解を使用することで、複素相互チャンネルスペクトルの絶対的な大きさを次のように表すことが可能である。
次の関係を用いて周波数ビンに対する複素相互チャンネルスペクトルの絶対的な大きさを合計することで、DFTステレオパラメータの計算装置106は、複素相互チャンネルスペクトルの全体の絶対的な大きさを得る。
左チャンネル(L)のエネルギースペクトルと右チャンネル(R)のエネルギースペクトルとは、次のように表すことができる。
次の関係を使用して周波数ビンに対する左チャンネル(L)のエネルギースペクトルと右チャンネル(R)のエネルギースペクトルとを合計することで、左チャンネル(L)および右チャンネル(R)の全エネルギーを得ることができる。
DFTステレオモードにおけるUNCLR分類およびXTALK検出は、複素相互チャンネルスペクトルの全体の絶対的な大きさを、それらの特徴のうちの1つとして使用するが、先に定められたような直接的な形態においてではなく、例えば次の関係を使用して表されるように、エネルギーの正規化された形態で、対数領域において使用される。
DFTステレオパラメータの計算装置106が、例えば次の関係を使用して、モノラルダウンミックスエネルギーを計算することが可能である。
チャンネル間レベル差(ILD)は、主な音が入ってくる角度についての情報を含むため、DFTステレオモードにおけるUNCLR分類およびXTALK検出によって使用される特徴である。UNCLR分類およびXTALK検出の目的のために、チャンネル間レベル差(ILD)はゲイン係数の形態で表すことができる。DFTステレオパラメータの計算装置106は、例えば次の関係を使用して、チャンネル間レベル差(ILD)ゲインを計算する。
チャンネル間位相差(IPD)は、聞き手が入って来る音信号の方向を推測することができる情報を含む。DFTステレオパラメータの計算装置106は、例えば次の関係を使用して、チャンネル間位相差(IPD)を計算する。
ここで、次のとおりである。
前フレームに関するチャンネル間位相差(IPD)の微分値が、例えば次の関係を使用して計算される。
上付き文字nは現フレームを示すために使用されており、上付き文字n-1は前フレームを示すために使用されている。最後に、計算装置106が、IPDゲインを、位相の整列された(IPD=0)ダウンミックスエネルギー(関係(47)の分子)とモノラルダウンミックスエネルギーEMのエネルギーとの間の割合として計算することが可能である。
IPDゲインgIPD_linは区間<0, 1>に制限される。値が1.0の上限閾値を超える場合、前フレームからのIPDゲインの値はそのために代替される。DFTステレオモードにおけるUNCLR分類およびXTALK検出は、対数領域におけるIPDゲインを特徴として使用する。計算装置106は、例えば次の関係を使用して、対数領域におけるIPDゲインを決定する。
gIPD=log(1-gIPD_lin) (48)
チャンネル間位相差(IPD)は、DFTステレオモードにおけるUNCLR分類およびXTALK検出によって特徴として使用される角度の形態で表すこともでき、例えば次に示されているように計算される。
側チャンネルが、左チャンネル(L)と右チャンネル(R)との間の差として計算され得る。次の関係を使用して、モノラルダウンミックスエネルギーEMに対するこの差のエネルギー(EL-ER)の絶対値の割合を計算することで、側チャンネルのゲインを表すことが可能である。
ゲインgsideがより大きくなると、左チャンネル(L)のエネルギーと右チャンネル(R)のエネルギーとの差がより大きくなる。側チャンネルのゲインgsideは区間<0.01, 0.99>に制限される。この範囲の外側の値は制限される。
入力ステレオ音信号190の左チャンネル(L)と右チャンネル(R)との間の位相差は、例えば次の関係を使用して計算される予測ゲインからも分析され得る。
gpred_lin=(1-gside)EL+(1+gside)ER-2|XLR| (51)
ここで、予測ゲインgpred_linの値は、区間<0, ∞>に制限され、つまり、正の値に制限される。gpred_linの上記の式は、相互チャンネルスペクトル(XLR)エネルギーとモノラルダウンミックスエネルギーEM=EL+ER+2|XLR|との間の差を捕らえる。計算装置106は、DFTステレオモードにおけるUNCLR分類およびXTALK検出による特徴としての使用のために、例えば関係(52)を使用して、このgpred_linを対数領域へと変換する。
gpred=log(gpred_lin+1) (52)
計算装置106は、以後において記載されるチャンネル間時間差(ITD)と、チャンネル間位相差(IPD)とによって捕らえられない、左チャンネル(L)と右チャンネル(R)との間の差を決定するためのキューを形成するチャンネル間コヒーレンス(ICC)の平均エネルギーを計算するために、関係(39)のビン当たりのチャンネルエネルギーも使用する。初めに、計算装置106は、例えば次の関係を使用して、相互チャンネルスペクトルの全体エネルギーを計算する。
EX=Re(XLR)2+IM(XLR)2 (53)
チャンネル間コヒーレンス(ICC)の平均エネルギーを表すために、以下のパラメータを計算することは有用である。
次に、チャンネル間コヒーレンス(ICC)の平均エネルギーは、DFTステレオモードにおけるUNCLR分類およびXTALK検出によって特徴として使用され、次のように表すことができる。
内項が1.0未満である場合、平均エネルギーEcohの値は0に設定される。チャンネル間コヒーレンス(ICC)の他の可能な解釈は、次のように計算される側-モノラルエネルギー割合である。
最後に、計算装置106は、UNCLR分類およびXTALK検出に使用される最大チャンネル間振幅乗積と最小チャンネル間振幅乗積との割合rppを決定する。DFTステレオモードにおけるUNCLR分類およびXTALK検出による特徴として使用されるこの特徴は、例えば次の関係を使用して計算される。
ここで、チャンネル間振幅乗積が次のように定められる。
ステレオ信号再生で使用されるパラメータはチャンネル間時間差(ITD)である。DFTステレオモードでは、DFTステレオパラメータの計算装置106は、チャンネル間時間差(ITD)を、位相差を伴う一般化相互チャンネル相関関数(GCC-PHAT)から推定する。チャンネル間時間差(ITD)は到着の時間遅れ(TDOA)推定に対応する。GCC-PHAT関数は、反響信号におけるチャンネル間時間差(ITD)を推定するための堅牢な方法である。GCC-PHATは、例えば次の関係を使用して計算される。
ここで、IFFTは逆高速フーリエ変換を表している。
次に、チャンネル間時間差(ITD)は、例えば次の関係を使用して、GCC-PHAT関数から推定される。
ここで、dは-5msから+5msの範囲での時間遅延に対応するサンプルにおけるタイムラグである。dITDに対応するGCC-PHAT関数の最大値は、DFTステレオモードにおけるUNCLR分類およびXTALK検出によって特徴として使用され、次の関係を使用して取り出すことができる。
シングルトークのシナリオにおいて、通常は、チャンネル間時間差(ITD)に対応するGCC-PHAT関数における単一の支配的なピークがある。しかしながら、2人の話し手が捕獲マイクの両側に位置付けられている状態のクロストークの状況では、通常は、互いから離れて位置付けられた2つの支配的なピークがある。図2はこのような状況を示している。明確には、非限定的な図示の例によれば、図2は、2人の反対の話し手S1およびS2がハイパーカーディオイドマイクM1およびM2の対によって捕らえられているクロストーク状況の平面図であり、図3は、GCC-PHAT機能における2つの支配的なピークの場所を示すグラフである。
第1のピークGITDの振幅は関係(61)を使用して計算され、その位置dITDは関係(60)を使用して計算される。第2のピークの振幅は、第1のピークに対して逆方向にGCC-PHAT関数の第2の最大値を探すことで位置を突き止めることができる。より明確には、第2のピークを探す方向sITDは、は、第1のピークの位置dITDの符号によって決定される。
sITD=sgn(dITD) (62)
ここで、sgn(.)は符号関数である。
次に、DFTステレオパラメータの計算装置106は、例えば次の関係を使用して、方向sITD(第2の最高ピーク)におけるGCC-PHAT関数の第2の最大値を取り出すことができる。
非限定的な実施形態として、閾値thrxt=8は、GCC-PHAT関数の第2のピークが開始(dITD=0)から少なくとも8個のサンプルの距離において探されることを確保する。クロストーク(XTALK)の検出が検討されている限り、これは、状況におけるあらゆる潜在的な副次的な話し手が、少なくとも第1の「支配的な」話し手と中間点(d=0)との両方から離れた特定の最小距離に存在する必要があることを意味する。
GCC-PHAT関数の第2の最高ピークの位置は、最大(.)関数をarg最大(.)関数と置き換えることで、関係(63)を使用して計算される。GCC-PHAT関数の第2の最高ピークの位置はdITD2として示される。
GCC-PHAT関数の第1のピークの振幅と第2の最高ピークの振幅との間の関係は、DFTステレオモードにおけるXTALK検出によって特徴として使用され、次の割合を使用して評価され得る。
割合rGITD12は、高い識別能力を有するが、それを特徴として使用するために、XTALK検出は、DFTステレオモードにおける周波数変換の間に適用される限られた時間分解能から生じる偶発的な誤った警告を排除する。これは、例えば次の関係を使用して、現フレームにおける割合rGITD12の値を、前フレームからの同じ割合の値で乗算することで行うことができる。
rGITD12←rGITD12(n)・rGITD12(n-1) (65)
指数nは現フレームを示すために加えられており、指数n-1は前フレームを示すために加えられている。簡潔性のために、パラメータの名前rGITD12は、出力パラメータを識別するために再使用される。
第2の最高ピークの振幅は単独で、状況における副次的な話し手の強度の指標を構成する。割合rGITD12と同様に、値GITD2の偶発的な無作為の「急上昇」が、DFTステレオモードにおけるXTALK検出によって使用される他の特徴を得るために、例えば次の関係(66)を使用して低減される。
mITD2=GITD2(n)・GITD2(n-1) (66)
DFTステレオモードにおけるXTALK検出において使用される他の特徴は、例えば次の関係を使用して計算される、前フレームに対する現フレームにおいての第2の最高ピークの位置dITD2(n)の差である。
ΔITD2=|dITD2(n)-dITD2(n-1)| (67)
5. ダウンミックスおよび逆高速フーリエ変換(IFFT)
DFTステレオモードでは、ステレオ音信号をコード化するための方法150は、ステレオ音信号190の左チャンネル(L)と右チャンネル(R)とをダウンミックスする動作157と、ダウンミックスされた信号のIFFT変換を計算する動作158とを含む。動作157および158を実施するために、ステレオ音信号190をコード化するためのデバイス100はダウンミックス装置107とIFFT変換計算装置108を備える。
ダウンミックス装置107は、例えば、全体の内容が参照により本明細書に組み込まれている参考文献[6]に記載されているように、ステレオ音信号の左チャンネル(L)と右チャンネル(R)とをモノラルチャンネル(M)および側チャンネル(S)へとダウンミックスする。
次に、IFFT変換計算装置108は、TD前処理装置109において処理される時間領域モノラルチャンネル(M)を生成するために、ダウンミックス装置107からのダウンミックスされたモノラルチャンネル(M)のIFFT変換を計算する。計算装置108で使用されるIFFT変換は、計算装置105で使用されるFFT変換の逆である。
6. DFTステレオモードにおけるTD前処理
DFTステレオモードでは、特徴抽出の動作(図示されていない)は、UNCLR分類およびXTALK検出において使用される特徴を抽出するためのTD前処理動作159を含む。動作159を実施するために、特徴抽出装置(図示されていない)は、モノラルチャンネル(M)に応答するTD前処理装置109を備える。
6.1 音声活動検出
UNCLR分類およびXTALK検出は音声活動検出(VAD)アルゴリズムを使用する。LRTDステレオモードでは、VADアルゴリズムは左チャンネル(L)と右チャンネル(R)とで別々に行われる。DFTステレオモードでは、VADアルゴリズムはダウンミックスされたモノラルチャンネル(M)において行われる。VADアルゴリズムの出力は二進フラグfVADである。VADフラグfVADは、保守的でありすぎ、長いヒステリシスを有するため、UNCLR分類およびXTALK検出にとって適切でない。これは、例えば、激しい話し合いの終了において、または、発話の途中における短い休止の間、LRTDステレオモードとDFTステレオモードとの間での素早い切替を妨げる。また、VADフラグfVADは、入力ステレオ音信号190における小さい変化に対して敏感である。これは、クロストーク検出における誤った警告、および、ステレオモードの不正確な選択をもたらす。そのため、UNCLR分類およびXTALK検出は、相対フレームエネルギーの変化に基づく音声活動検出の代替の尺度を使用する。VADアルゴリズムについての詳細のために、[1]が参照される。
6.1.1 相対フレームエネルギー
UNCLR分類およびXTALK検出は、関係(2)を使用して得られた左チャンネル(L)の絶対エネルギーELおよび右チャンネル(R)の絶対エネルギーERを使用する。入力ステレオ音信号の最大平均エネルギーは、例えば次の関係を使用して、対数領域で計算できる。
ここで、指数nは、現フレームを示すために加えられており、N=160は現フレームの長さである(160サンプルの長さ)。対数領域における最大平均エネルギーの値Eave(n)は、区間<0; ∞>に限定される。
次に、入力ステレオ音信号の相対フレームエネルギーが、例えば次の関係を使用して、最大平均エネルギーEave(n)を区間<0; 0,9>に線形で写像することで計算され得る。
ここで、Eup(n)は相対フレームエネルギーErl(n)の上界を示しており、Edn(n)は相対フレームエネルギーErl(n)の下界を示しており、指数nは現フレームを示している。
相対フレームエネルギーErl(n)の境界は、TD前処理装置103、104、および109の騒音推定モジュールの一部である騒音更新カウンタaEn(n)に基づいて、各々のフレームにおいて更新される。このカウンタについての追加の情報のために、[1]が参照される。カウンタaEn(n)の目的は、現フレームにおける各々のチャンネルでの暗騒音レベルが更新され得ることを伝えることである。この状況は、カウンタaEn(n)の値がゼロであるときに起こる。非限定的な例として、各々のチャンネルにおけるカウンタaEn(n)は6に初期化され、0の下限閾値および6の上限閾値でフレームごとにインクリメントまたはデクリメントする。
LRTDステレオモードの場合、騒音推定は左チャンネル(L)および右チャンネル(R)において独立して実施される。2つの騒音更新カウンタを、左チャンネル(L)および右チャンネル(R)のそれぞれについてaEn,L(n)およびaEn,R(n)として示す。次に、2つのカウンタは、次の関係で単一の二進パラメータに組み合わされ得る。
DFTステレオモードの場合、騒音推定がダウンミックスされたモノラルチャンネル(M)において実施される。モノラルチャンネルにおける騒音更新カウンタをaEn,M(n)として示す。二進出力パラメータが、次の関係で計算される。
UNCLR分類およびXTALK検出は、相対フレームエネルギーErl(n)の下界Edn(n)または上界Eup(n)の更新を可能にするために、二進パラメータfEn(n)を使用する。パラメータfEn(n)がゼロに等しいとき、下界Edn(n)が更新される。パラメータfEn(n)が1に等しいとき、上界Eup(n)が更新される。
相対フレームエネルギーErl(n)の上界Eup(n)は、例えば次の関係を使用して、パラメータfEn(n)が1に等しいフレームにおいて更新される。
ここで、指数nは現フレームを表しており、指数n-1は前フレームを示すために表している。
関係(71)における第1の行および第2の行は、より遅い更新およびより速い更新をそれぞれ表している。したがって、関係(71)を使用することで、上界Eup(n)は、エネルギーが増加するとき、より素早く更新される。
相対フレームエネルギーErl(n)の下界Edn(n)は、例えば次の関係を使用して、パラメータfEn(n)が0に等しいフレームにおいて更新される。
Edn(n)=0.9Edn(n-1)+0.1Eave(n) (72)
ここで、下限閾値は30.0である。上界Eup(n)の値は、下界Edn(n)に近づきすぎた場合、例として、次に示されているように変更される。
Eup(n)=Edn(n)+20.0, if Eup(n)<Edn(n)+20.0 (73)
6.1.2 代替のVADフラグ推定
UNCLR分類およびXTALK検出が、代替のVADフラグを計算するための基礎として関係(71)において計算された相対フレームエネルギーErl(n)の変形を使用する。現フレームにおける代替のVADフラグをfxVAD(n)として示す。代替のVADフラグfxVAD(n)は、LRTDステレオモードの場合にはTD前処理装置103/104の騒音推定モジュールにおいて発生させられるVADフラグを、または、DFTステレオモードの場合にはTD前処理装置109において発生させられるVADフラグfVADを、相対フレームエネルギーErl(n)の変化を反映する補助二進パラメータfErl(n)と組み合わせることで計算される。
初めに、相対フレームエネルギーErl(n)が、例えば次の関係を使用して、10個の前フレームの区分にわたって平均化される。
ここで、pは平均の指数である。補助二進パラメータは、例えば以下の論理に従って設定される。
LRTDステレオモードでは、代替のVADフラグfxVAD(n)は、例えば次の関係を用いて、左チャンネル(L)におけるVADフラグfVAD,L(n)と、右チャンネル(R)におけるVADフラグfVAD,R(n)と、補助二進パラメータfErl(n)との論理結合を用いて計算される。
fxVAD(n)=(fVAD,L(n) OR fVAD,R(n)) AND fErl(n) (76)
DFTステレオモードでは、代替のVADフラグfxVAD(n)は、例えば次の関係を用いて、ダウンミックスされたモノラルチャンネル(M)におけるVADフラグfVAD,M(n)と、補助二進パラメータfErl(n)との論理結合を用いて計算される。
fxVAD(n)=fVAD,M(n) AND fErl(n) (77)
6.2 ステレオ無音フラグ
DFTステレオモードでは、低レベルのダウンミックスされたモノラルチャンネル(M)を反映する離散パラメータを計算することも都合が良い。ステレオ無音フラグと呼ばれるこのようなパラメータが、例えば、アクティブ信号の平均レベルを特定の所定の閾値と比較することで、計算できる。例として、TD前処理装置109のVADアルゴリズム内で計算される長期アクティブ音声レベル
が、ステレオ無音フラグを計算するための基礎として使用できる。
VADアルゴリズムについての詳細のために、[1]が参照される。
次に、ステレオ無音フラグは次の関係を使用して計算され得る。
ここで、EM(n)は、現フレームにおけるダウンミックスされたモノラルチャンネル(M)の絶対エネルギーである。ステレオ無音フラグfsil(n)は区間<0; ∞>に限定される。
7. 非相関ステレオコンテンツ(UNCLR)の分類
LRTDステレオモードおよびDFTステレオモードにおけるUNCLR分類は、ロジスティック回帰(LogReg)モデルに基づく(参考文献[9]参照)。LogRegモデルは、相関ステレオ信号サンプルおよび非相関ステレオ信号サンプルから成る大きなラベル付きデータベースにおいて、LRTDステレオモードおよびDFTステレオモードについて個別に訓練される。非相関ステレオ訓練サンプルが、無作為に選択されたモノラルサンプルを組み合わせることで人工的に作り出される。以下のステレオ状況が、モノラルサンプルのこのような人工的なミックスでシミュレーションされる。
- 左チャンネルにおける話者Aと、右チャンネルにおける話者B(または、その反対)。
- 左チャンネルにおける話者Aと、右チャンネルにおける音楽の音(または、その反対)。
- 左チャンネルにおける話者Aと、右チャンネルにおける騒音の音(または、その反対)。
- 左チャンネルまたは右チャンネルにおける話者Aと、両方のチャンネルにおける暗騒音。
- 左チャンネルまたは右チャンネルにおける話者Aと、両方のチャンネルにおける背景音楽。
非限定的な実施において、モノラルサンプルは、16kHzにおいてサンプリングされたAT&Tモノラルクリーン音声データベースから選択される。アクティブな区分だけが、例えば、参考文献[1]に記載されているような3GPP EVSコーデックのVADアルゴリズムといった、任意の都合の良いVADアルゴリズムを使用して、モノラルサンプルから抽出される。非相関コンテンツを伴うステレオ訓練データベースの全体のサイズはおおよそ240MBである。レベル調整は、モノラル信号がステレオ音信号を形成するために組み合わされる前、モノラル信号に適用されない。レベル調整は、この目的の後にのみ適用される。各々のステレオサンプルのレベルは、パッシブモノラルダウンミックスに基づいて、-26dBovに正規化される。したがって、チャンネル間レベル差は変化させられず、ステレオ状況において支配的な話者の位置を決定する主要な要因のままである。
相関ステレオ訓練サンプルは、ステレオ音信号の様々な実際の記録から得られる。相関ステレオコンテンツを伴う訓練データベースの全体のサイズはおおよそ220MBである。相関ステレオ訓練サンプルは、非限定的な実施において、実際の記録のためのステレオ状況の設定の上からの平面図を示す図4に示された以下の状況からのサンプルを含む。
- マイクM1により近い位置P1における話者S1と、マイクM6により近い位置P2における話者S2。
- マイクM3により近い位置P4における話者S1と、マイクM4により近い位置P3における話者S2。
- マイクM1により近い位置P6における話者S1と、マイクM2により近い位置P5における話者S2。
- M1-M2のステレオ記録において、位置P4における話者S1のみ。
- M3-M4のステレオ記録において、位置P4における話者S1のみ。
訓練データベースの全体のサイズを次のように示す。
NT=NUNC+NCORR (79)
ここで、NUNCは非相関ステレオ訓練サンプルのセットのサイズであり、NCORRは相関ステレオ訓練サンプルのセットのサイズである。ラベルは、例えば次の簡単なルールを使用して、手作業で割り当てられる。
ここで、ΩUNCは非相関訓練データベースの全体の特徴のセットであり、ΩCORRは相関訓練データベースの全体の特徴のセットである。この例示の非限定的な実施では、非アクティブフレーム(VAD=0)は訓練データベースから廃棄される。
非相関訓練データベースにおける各々のフレームは「1」とラベル付けされ、相関訓練データベースにおける各々のフレームは「0」とラベル付けされる。VAD=0である非アクティブフレームは、訓練過程の間に無視される。
7.1 LRTDステレオモードにおけるUNCLR分類
LRTDステレオモードでは、ステレオ音信号190をコード化するための方法150は、非相関ステレオコンテンツ(UNCLR)の分類の動作161を含む。動作161を実施するために、ステレオ音信号190をコード化するためのデバイス100はUNCLR分類装置111を備える。
LRTDステレオモードにおけるUNCLR分類の動作161はロジスティック回帰(LogReg)モデルに基づく。非相関ステレオ訓練データベースと相関ステレオ訓練データベースとの両方におけるステレオ音信号をコード化(ステレオコーデック)するためのデバイス100を動作させることで抽出される以下の特徴、すなわち、
- チャンネル間相互相関関数の最大の位置kmax(関係(11))、
- 瞬時標的ゲインgt(関係(13))、
- ゼロのタイムラグでのチャンネル間相関関数の絶対値の対数PLR(関係(14))、
- 側-モノラルエネルギー割合rSM(関係(15))、
- 左/右チャンネルとモノラル信号との間の点乗積の最大と最小との間の差dmmLR(関係(19))、
- 対数領域における、左チャンネル(L)とモノラル信号(M)との間の点乗積と、右チャンネル(R)とモノラル信号(M)との間の点乗積との間の絶対差dLRM(関係(20))、
- 相互チャンネル相関関数のゼロタイムラグ値R0(関係(5))、および、
- チャンネル間相関関数の開方RR(関係(21))
が、UNCLR分類動作161において使用される。
全体で、UNCLR分類装置111は数F=8の特徴を使用する。
訓練過程の前に、UNCLR分類装置111は、特徴のセットを正規化する下位動作(図示されていない)を、セットの平均を除去し、それを単位分散へと増減することで実施する正規化装置(図示されていない)を備える。正規化装置(図示されていない)は、その目的のために、例えば次の関係を使用する。
ここで、fi,rawはセットのi番目の特徴を示し、fiは正規化されたi番目の特徴を示し、
は、訓練データベースにわたるi番目の特徴の全体平均を示し、σfiは、訓練データベースにわたるi番目の特徴の全体変化である。
UNCLR分類装置111によって使用されるLogRegモデルは、実数値の特徴を入力ベクトルとして取り入れ、非相関ステレオコンテンツ(UNCLR)を指示する非相関クラス(クラス0)に属する入力の可能性についての予測を行う。その目的のために、UNCLR分類装置111は、入力ステレオ音信号190における非相関ステレオコンテンツを表すスコアを計算する下位動作(図示されていない)を実施するスコア計算装置(図示されていない)を備える。スコア計算装置(図示されていない)は、LogRegモデルの実数値の出力を、次の関係を使用して表すことができる抽出された特徴の線形回帰の形態で計算する。
yp=b0+bifi+...+bFfF (82)
ここで、biはLogRegモデルの計数を示し、fiは個々の特徴を示す、次に、実数値の出力ypは、例えば次のロジスティック関数を使用して確率へと変換される。
確率p(クラス=0)は0と1との間の実数の値を取る。直観的に、1により近い確率は、現フレームが大きくステレオ非相関とされること、つまり、非相関ステレオコンテンツを有することを意味する。
学習過程の目的は、訓練データに基づいて、係数bi,i=1,.., Fについて最良の値を見つけ出すことである。係数は、訓練データベースに基づいて、予測された出力p(クラス=0)と真の出力yとの間の差を最小にすることで、反復して見つけ出される。LRTDステレオモードにおけるUNCLR分類装置111は、例えば、全体の内容が参照により本明細書に組み込まれている参考文献[10]に記載されているような確率的勾配降下法(SGD)の反復方法を使用して訓練される。
確率的な出力p(クラス=0)を0.5といった固定された閾値と比較することで、二進分類を行うことが可能である。しかしながら、LRTDステレオモードにおけるUNCLR分類の目的のために、確率的な出力p(クラス=0)が使用されることはない。代わりに、LogRegモデルの未加工の出力ypが、次に示されているようにさらに処理される。
UNCLR分類装置111のスコア計算装置(図示されていない)は、例えば、図5に示されているような関数を使用して、LogRegモデルの未加工の出力ypを初めに正規化する。図5は、LRTDステレオモードにおけるUNCLR分類においてLogRegモデルの未加工の出力に適用される正規化関数を示すグラフである。
図5の正規化関数は、数学的に次のように記載できる。
7.1.1 相対フレームエネルギーに基づくLogReg出力重み付け
次に、UNCLR分類装置111のスコア計算装置(図示されていない)は、例えば次の関係を使用して、LogRegモデルの正規化された出力ypn(n)を相対フレームエネルギーで重み付けする。
scrUNCLR(n)=ypn(n)・Erl(n) (85)
ここで、Erl(n)は関係(69)によって記載される相対フレームエネルギーである。LogRegモデルの正規化されて重み付けされた出力scrUNCLR(n)は、前述の「スコア」と呼ばれ、それは入力ステレオ音信号190におけるステレオコンテンツを表すまたはそれと非相関である。
7.1.2 立ち上がりエッジ検出
スコアscrUNCLR(n)は、不完全な統計モデルから生じる偶発的な短期間の「ピーク」を含むため、UNCLR分類のためのUNCLR分類装置111によって直接的に使用できない。これらのピークは、一次IIRフィルタなど、単純な平均化フィルタによって濾過させることができる。残念ながら、このような平均化フィルタの適用は、通常は、入力ステレオ音信号190におけるステレオ相関コンテンツとステレオ非相関コンテンツとの間の移行を表す立ち上がりエッジを不鮮明にすることになる。立ち上がりエッジを保存するために、平滑化過程(平均化IIRフィルタの適用)は、立ち上がりエッジが入力ステレオ音信号190において検出されるとき、低下させられる、または停止さえさせられる。入力ステレオ音信号190における立ち上がりエッジの検出は、相対フレームエネルギーErl(n)の開方を分析することで行われる。
相対フレームエネルギーErl(n)の立ち上がりエッジは、例えば次の形態をそれぞれが有するP=20の同一の一次抵抗器-コンデンサ(RC)フィルタのカスケード接続で相対フレームエネルギーを濾過することで見つけ出される。
定数a0、a1、およびb1は、次の関係になるように選択される。
したがって、単一のパラメータτedgeが各々のRCフィルタの時間定数を制御するために使用される。実験的に、良好な結果がτedge=0.3で達成されることが分かっている。P=20のRCフィルタのカスケード接続による相対フレームエネルギーErl(n)の濾過は、次のように実施され得る。
ここで、上付き文字p=0, 1,..., P-1は、RCフィルタのカスケード接続におけるステージを示すために加えられている。RCフィルタのカスケード接続の出力は、最後のステージ、つまり、次の関係からの出力に等しい。
単一のより高次のRCフィルタの代わりに一次RCフィルタのカスケード接続を使用する理由は、計算の複雑さを低減するためである。複数の一次RCフィルタのカスケード接続は、比較的鋭いステップ関数を伴うローパスフィルタとして作用する。複数の一次RCフィルタのカスケード接続は、相対フレームエネルギーErl(n)において使用されるとき、開始およびずれなど、より遅いが重要な移行を保持しつつ、偶発的な短期間の急上昇を不鮮明にしようとする。相対フレームエネルギーErl(n)の立ち上がりエッジは、例えば次の関係を使用して、相対フレームエネルギーと、濾過された出力との間の差を計算することで、定量化され得る。
fedge(n)=0.95-0.05(Erl(n)-Ef(n)) (90)
項fedge(n)は区間<0,9; 0,95>に限定される。UNCLR分類装置111のスコア計算装置(図示されていない)は、例えば、正規化、重み付け、および平滑化されたスコア(LogRegモデルの出力)を生成するための次の関係を使用して、fedge(n)を忘却因子として使用するIIRフィルタで、LogRegモデルの正規化されて重み付けされた出力scrUNCLR(n)を平滑化する。
wscrUNCLR(n)=fedge(n)・wscrUNCLR(n-1)+(1-fedge(n))・scrUNCLR(n) (91)
7.2 DFTステレオモードにおけるUNCLR分類
DFTステレオモードでは、ステレオ音信号190をコード化するための方法150は、非相関ステレオコンテンツ(UNCLR)の分類の動作163を含む。動作163を実施するために、ステレオ音信号190をコード化するためのデバイス100はUNCLR分類装置113を備える。
DFTステレオモードにおけるUNCLR分類は、先に記載されているようなLRTDステレオモードにおけるUNCLR分類と同様に行われる。明確には、DFTステレオモードにおけるUNCLR分類はロジスティック回帰(LogReg)モデルにも基づく。簡潔性のために、LRTDステレオモードにおけるUNCLR分類からの特定のパラメータおよび関連付けられた数学記号を示す記号/名前は、DFTステレオモードについても使用される。下付き文字が、複数の部分からの同じパラメータを同時に参照するとき、不明確さを回避するために付け加えられる。
ステレオ非相関訓練データベースとステレオ相関訓練データベースとの両方におけるステレオ音信号をコード化(ステレオコーデック)するためのデバイス100を動作させることで抽出される以下の特徴、すなわち、
- ILDゲインgILD(関係43))、
- IPDゲインgIPD(関係48))、
- IPD回転角度φrot (関係49))、
- 予測ゲインgpred(関係52))、
- チャンネル間コヒーレンスの平均エネルギーEcoh(関係55))、
- 最大チャンネル間振幅乗積と最小チャンネル間振幅乗積との割合rPP(関係57))、
- 全体の相互チャンネルスペクトルの大きさfX(関係41))、および、
- GCC-PHAT関数の最大値GITD(関係61))
が、DFTステレオモードにおけるUNCLR分類のために、UNCLR分類装置113によって使用される。
全体で、UNCLR分類装置113は数F=8の特徴を使用する。
訓練過程の前に、UNCLR分類装置113は、特徴のセットを正規化する下位動作(図示されていない)を、セットの平均を除去し、それを単位分散へと増減することで実施する正規化装置(図示されていない)を備える。正規化装置(図示されていない)は、その目的のために、例えば次の関係を使用する。
ここで、fi,rawはセットのi番目の特徴を示し、
は、訓練データベース全体にわたるi番目の特徴の全体平均を示し、σfiは、訓練データベース全体にわたるi番目の特徴の全体変化である。
関係(92)で使用される全体平均
および全体変化σfiが、関係(81)で使用された同じパラメータと異なることは、留意されるべきである。
DFTステレオモードで使用されるLogRegモデルは、LRTDステレオモードで使用されるLogRegモデルと同様である。LogRegモデルの出力yPは、関係(82)によって記載され、現フレームが非相関ステレオコンテンツ(クラス=0)を有する確率は関係(83)によって与えられる。分類装置の訓練過程と、最適な決定閾値を見つけ出すための手順とは、本明細書において先に記載されている。ここでも、その目的のために、UNCLR分類装置113は、入力ステレオ音信号190における非相関ステレオコンテンツを表すスコアを計算する下位動作(図示されていない)を実施するスコア計算装置(図示されていない)を備える。
UNCLR分類装置113のスコア計算装置(図示されていない)は、LRTDステレオモードにおいて同様の、図5に示されているような関数に従うLogRegモデルの未加工の出力ypを初めに正規化する。正規化は、数学的に次のように記載できる。
7.2.1 相対フレームエネルギーに基づくLogReg出力重み付け
次に、UNCLR分類装置113のスコア計算装置(図示されていない)は、例えば次の関係を使用して、LogRegモデルの正規化された出力ypn(n)を相対フレームエネルギーErl(n)で重み付けする。
scrUNCLR(n)=ypn(n)・Erl(n) (94)
ここで、Erl(n)は関係(69)によって記載される相対フレームエネルギーである。
LogRegモデルの正規化されて重み付けされた出力は、「スコア」と呼ばれ、先に記載されているLRTDステレオモードにおけるのと同じ量を表す。DFTステレオモードでは、スコアscrUNCLR(n)は、代替のVADフラグfxVAD(n)(関係(77))が0に設定されるとき、0にリセットされる。これは次の関係によって表される。
scrUNCLR(n)=0、fxVAD(n)=0の場合 (95)
7.2.2 DFTステレオモードにおける立ち上がりエッジ検出
最後に、UNCLR分類装置113のスコア計算装置(図示されていない)は、LRTDステレオモードにおけるUNCLR分類において先に記載された立ち上がりエッジ検出機構を使用して、DFTステレオモードにおけるスコアscrUNCLR(n)をIIRフィルタで平滑化する。その目的のために、UNCLR分類装置113は次の関係を使用する。
wscrUNCLR(n)=fedge(n)・wscrUNCLR(n-1)+(1-fedge(n))・scrUNCLR(n) (96)
これは関係(91)と同じである。
7.3 二進UNCLR決定
UNCLR分類装置111/113の最終的な出力は二進状態である。cUNCLR(n)は、UNCLR分類装置111/113の二進状態を示す。二進状態cUNCLR(n)は、非相関ステレオコンテンツクラスを指示するための値「1」、または、相関ステレオコンテンツクラスを指示するための値「0」を有する。UNCLR分類装置111/113の出力における二進状態は可変である。二進状態は「0」に初期化される。UNCLR分類装置111/113の状態は、特定の条件が満たされるフレームにおいて、現在のクラスから他のクラスへと変化する。
ステレオコンテンツクラス同士の間での切替のためにUNCLR分類装置111/113で使用される機構は、状態機械の形態で図6に描写されている。
図6を参照すると、次のとおりである。
- (a)前フレームの二進状態cUNCLR(n-1)が「1」であり(601)、(b)現フレームの平滑化されたスコアwscrUNCLR(n)が「-0.07」より小さく(602)、(c)前フレームの変数cntsw(n-1)が「0」より大きい(603)場合、現フレームの二進状態cUNCLR(n)は「0」に切替される(604)。
- (a)前フレームの二進状態cUNCLR(n-1)が「1」であり(601)、(b)現フレームの平滑化されたスコアwscrUNCLR(n)が「-0.07」より小さくない(602)場合、現フレームにおける二進状態cUNCLR(n)の切替はない。
- (a)前フレームの二進状態cUNCLR(n-1)が「1」であり(601)、(b)現フレームの平滑化されたスコアwscrUNCLR(n)が「-0.07」より小さく(602)、(c)前フレームの変数cntsw(n-1)が「0」より大きくない(603)場合、現フレームにおける二進状態cUNCLR(n)の切替はない。
同じ手法で、図6を参照すると、次のとおりである。
- (a)前フレームの二進状態cUNCLR(n-1)が「0」であり(601)、(b)現フレームの平滑化されたスコアwscrUNCLR(n)が「0.1」より大きく(605)、(c)前フレームの変数cntsw(n-1)が「0」より大きい(606)場合、現フレームの二進状態cUNCLR(n)は「1」に切替される(607)。
- (a)前フレームの二進状態cUNCLR(n-1)が「0」であり(601)、(b)現フレームの平滑化されたスコアwscrUNCLR(n)が「0.1」より大きくない(605)場合、現フレームにおける二進状態cUNCLR(n)の切替はない。
- (a)前フレームの二進状態cUNCLR(n-1)が「0」であり(601)、(b)現フレームの平滑化されたスコアwscrUNCLR(n)が「0.1」より大きく(605)、(c)前フレームの変数cntsw(n-1)が「0」より大きくない(606)場合、現フレームにおける二進状態cUNCLR(n)の切替はない。
最後に、現フレームにおける変数cntsw(n)は更新され(608)、手順は次のフレームについて繰り返される(609)。
変数cntsw(n)は、LRTDステレオモードとDFTステレオモードとの間で切替をすることが可能であるUNCLR分類装置111/113のフレームのカウンタである。このカウンタは、ゼロに初期化され、例えば次の論理を使用して、各々のフレームにおいて更新される(608)。
カウンタcntsw(n)は100の上限を有する。変数ctypeは、ステレオ音信号をコード化するためのデバイス100における現フレームの種類を指示している。フレーム種類は、前処理装置103/104/109において明確に、ステレオ音信号をコード化するためのデバイス100(ステレオ音コーデック)の前処理動作において通常は決定される。現フレームの種類は、入力ステレオ音信号190の次の特徴、すなわち、
- ピッチ期間
- 発声
- スペクトル傾斜
- ゼロ交差率
- フレームエネルギー差(短期、長期)
に基づいて通常は選択される。
非限定的な例として、参考文献[1]に記載されているような3GPP EVSコーデックからのフレーム種類が、関係(97)のパラメータctypeとして、UNCLR分類装置111/113において使用され得る。3GPP EVSコーデックにおけるフレーム種類は、次のクラスのセットから選択される。
関係(97)におけるパラメータVAD0は、ハングオーバー追加のないVADフラグである。ハングオーバー追加のないVADフラグは、TD前処理装置103/104/109において明確に、ステレオ音信号をコード化するためのデバイス100(ステレオ音コーデック)の前処理動作においてしばしば計算される。非限定的な例として、参考文献[1]に記載されているような3GPP EVSコーデックからのハングオーバー追加のないVADフラグが、パラメータVAD0として、UNCLR分類装置111/113において使用され得る。
UNCLR分類装置111/113の出力二進状態cUNCLR(n)は、現フレームの種類が一般的、無声音、もしくは非アクティブである場合、または、ハングオーバー追加のないVADフラグが入力ステレオ音信号において非アクティブ(VAD0=0)を指示する場合、変更させることができる。このようなフレームは、安定した区分、または、品質に知覚的に影響の小さい区分のいずれかに位置付けられるため、LRTDステレオモードとDFTステレオモードとの間の切替に概して適している。目的は、アーチファクトを切替する危険性を最小にすることである。
8. クロストーク(XTALK)の検出
XTALK検出は、LRTDステレオモードについて、およびDFTステレオモードについて、個別に訓練されるLogRegモデルに基づく。両方の統計モデルが、実際のステレオ記録の大きなデータベースと、人工的に準備されたステレオサンプルとから集められた特徴で訓練される。訓練データベースにおいて、各々のフレームはシングルトークまたはクロストークのいずれかとラベル付けされる。ラベル付けは、実際のステレオ記録の場合に手動で、または、人工的に準備されたサンプルの場合に半自動でのいずれかで行われる。手動のラベル付けは、クロストーク特性を伴う短くコンパクトな区分を特定することで行われる。半自動のラベル付けは、モノラル信号からのVAD出力を使用して、それらVAD出力がステレオ信号へと混合する前に行われる。詳細は、本節8の終わりに提供されている。
本開示に記載されている実施の非限定的な例において、実際のステレオ記録は32kHzにおいてサンプリングされた。これらの実際のステレオ記録の全体の大きさは、おおよそ30分間に対応するおおよそ263MBである。人工的に準備されたステレオサンプルは、ITU-T G.191残響器具を使用して、モノラルでクリーンな音声データベースから無作為に選択された話者を混合することで作り出される。人工的に準備されたステレオサンプルは、図7に示されているようなABマイクの設定を伴う大会議室における条件をシミュレートすることで準備される。図7は、条件がXTALK検出のためにシミュレートされるABマイクの設定を伴う大会議室の概略的な平面図である。
反響性(LEAB)および無響性(LAAB)の2つの種類の部屋が検討されている。図7を参照すると、各々の種類の部屋について、第1の話者S1が位置P4、P5、またはP6において現れる可能性があり、第2の話者S2が位置P10、P11、およびP12において現れる可能性がある。各々の話者S1およびS2の位置は、訓練サンプルの準備の間に無作為に選択される。したがって、話者S1は、第1のシミュレーションされたマイクM1に常に近く、話者S2は、第2のシミュレーションされたマイクM2に常に近い。マイクM1およびM2は、図7の図示されている非限定的な実施において全指向性である。マイクM1およびM2の対は、シミュレーションされたABマイク設定を構成する。モノラルサンプルは、訓練データベースから無作為に選択され、32kHzにダウンサンプリングされ、さらなる処理の前に-26dBov(dB((overload)-クリッピングが起こる前にデバイスが取り扱うことができる最大と比較される音響信号の振幅)に正規化される。ITU-T G.191残響器具は、各々の話者/マイクの対について室内インパルス応答(RIR)の実際の測定のデータベースを含む。
次に、話者S1およびS2の無作為に選択されたモノラルサンプルは、所与の話者/マイクに対応する室内インパルス応答(RIR)で畳み込まれ、それによって実際のABマイクの捕獲をシミュレーションする。各々のマイクM1およびM2における両方の話者S1およびS2からの寄与が一緒に加えられる。4~4.5秒間の範囲での無作為に選択されたずれが、畳み込みの前に話者のサンプルのうちの1つに加えられる。これは、すべての訓練文において、短期間のクロストーク音声および他の期間のシングルトーク音声が続くいくらかの期間のシングルトーク音声が常にあることを確保する。RIR畳み込みおよび混合の後、サンプルは-26dBovに再び正規化され、この時間がパッシブモノラルダウンミックスに適用される。
ラベルが、例えば、参考文献[1]に記載されているような3GPP EVSコーデックのVADアルゴリズムといった、従来のVADアルゴリズムを使用して半自動で作り出される。VADアルゴリズムは、第1の話者(S1)ファイルおよび第2の話者(S2)ファイルに個別に適用される。次に、両方の二進VAD決定が、論理「および」を用いて組み合わせられる。これはラベルファイルをもたらす。組み合わされた出力が「1」に等しい区分は、クロストーク区分を決定する。これは図8に示されており、図8は、VADを使用してクロストークサンプルの自動ラベル付けを例示しているグラフを示している。図8では、第1の線は、話者S1からの音声サンプルを示しており、第2の線は、話者S1からの音声サンプルにおける二進VAD決定を示しており、第3の線は、話者S2からの音声サンプルを示しており、第4の線は、話者S2からの音声サンプルにおける二進VAD決定を示しており、第5の線は、クロストーク区分の場所を示している。
訓練セットはアンバランスにされている。クロストークフレームとシングルトークフレームとの比はおおよそ1対5であり、つまり、訓練データの約21%だけがクロストーククラスに属する。これは、全体の内容が参照により本明細書に組み込まれている参考文献[6]に記載されているようなクラスの重みを適用することで、LogReg訓練過程の間に相殺される。
訓練サンプルは連結され、ステレオ音信号をコード化するためのデバイス100(ステレオ音コーデック)への入力として使用される。特徴が、各々の20msのフレームにわたる符号化過程の間に、別々のファイルで個別に集められる。これは訓練特徴セットを構成する。訓練特徴セットにおけるフレームの全体の数を、例えば次のように示す。
NT=NXTALK+NNORMAL (98)
ここで、NXTALKはクロストークフレームの総数であり、NNORMALはシングルトークフレームの総数である。
また、対応する二進ラベルを、例えば次のように示す。
ここで、ΩXTALKはすべてのクロストークフレームの上位集合であり、ΩNORMALはすべてのシングルトークフレームの上位集合である。非アクティブフレーム(VAD=0)は訓練データベースから除去される。
8.1 LRTDステレオモードにおけるXTALK検出
LRTDステレオモードでは、ステレオ音信号をコード化するための方法150は、クロストーク(XTALK)を検出する動作160を含む。動作160を実施するために、ステレオ音信号をコード化するためのデバイス100はXTALK検出装置110を備える。
LRTDステレオモードにおいてクロストーク(XTALK)を検出する動作160は、先に記載されているLRTDステレオモードにおけるUNCLR分類と同様に行われる。XTALK検出装置110はロジスティック回帰(LogReg)モデルに基づく。簡潔性のために、UNCLR分類からのパラメータの名前および関連付けられた数学記号は、本節でも使用される。下付き文字が、異なる節からの同じパラメータの名前を参照するとき、不明瞭性を回避するために加えられる。
以下の特徴、すなわち、
- L/Rクラス差dclass(関係(32))、
- 最大自己相関のL/R差dv(関係(25))、
- LSFの合計のL/R差dLSF(関係(23))、
- 残余誤差エネルギーのL/R差dLPC13(関係(22))、
- 相関マップのL/R差dcmap(関係(27))、
- 騒音特性のL/R差dnchar(関係(29))、
- 非定常性のL/R差dsta(関係(26))、
- スペクトル多様性のL/R差dsdiv(関係(28))、
- ゼロのタイムラグでの前記チャンネル間相関関数の非正規化値PLR(関係(14))、
- 側-モノラルエネルギー割合rSM(関係(15))、
- 左チャンネルとモノラル信号との間および右チャンネルとモノラル信号との間の点乗積の最大と最小との間の差dmmLR(関係(19))、
- 相互チャンネル相関関数のゼロタイムラグ値R0(関係(5))、
- チャンネル間相互相関関数の開方RR(関係(21))、
- 最大チャンネル間相互相関関数の位置kmax(関係(11))、
- チャンネル間相関関数の最大Rmax(関係(10))、
- L/Mの点乗積とR/Mの点乗積との間の差ΔLRM(関係(20))、ならびに、
- 側信号のエネルギーとモノラル信号のエネルギーとの間の平滑化された割合
(関係(16))
がXTALK検出装置110によって使用される。
したがって、XTALK検出装置110は特徴の総数F=17を使用する。
訓練過程の前に、XTALK検出装置110は、17個の特徴fiのセットを正規化する下位動作(図示されていない)を、セットの平均を除去し、それを単位分散へと増減することで実施する正規化装置(図示されていない)を備える。正規化装置(図示されていない)は、例えば次の関係を使用する。
ここで、fi,rawはセットのi番目の特徴を示している。
は、訓練データベースにわたるi番目の特徴の全体の平均であり、σfiは訓練データベースにわたるi番目の特徴の全体の変化である。
ここで、関係(100)で使用されているパラメータ
およびσfiは、関係(81)において使用されている同じパラメータと異なる。
LogRegモデルの出力yPは、関係(82)によって記載され、現フレームがクロストーク区分クラス(クラス0)に属する確率p(クラス=0)は、関係(83)によって与えられる。訓練過程および最適な決定閾値を見つけ出す手順の詳細は、LRTDステレオモードにおけるUNCLR分類の記載において先に提供されている。前述されているように、その目的のために、XTALK検出装置110は、入力ステレオ音信号190における非相関ステレオコンテンツを表すスコアを計算する下位動作(図示されていない)を実施するスコア計算装置(図示されていない)を備える。
XTALK検出装置110のスコア計算装置(図示されていない)は、例えば、図9に示されているような関数でLogRegモデルの未加工の出力ypを正規化し、さらに処理される。図9は、LRTDステレオモードでのXTALK検出におけるLogRegモデルの未加工の出力を増減するための関数を表すグラフである。このような正規化は、数学的に次のように記載できる。
LogRegモデルの正規化された出力ypn(n)は、前フレームがDFTステレオモードで符号化され、現フレームがLRTDステレオモードで符号化される場合、0に設定される。このような手順は切替アーチファクトを防止する。
8.1.1 相対フレームエネルギーに基づくLogReg出力重み付け
XTALK検出装置110のスコア計算装置(図示されていない)は、相対フレームエネルギーErl(n)に基づいて、LogRegモデルの正規化された出力ypn(n)に重み付けする。LRTDステレオモードにおけるXTALK検出装置110において適用される重み付けスキームは、本明細書で先に記載されているように、LRTDステレオモードにおけるUNCLR分類装置111において適用される重み付けスキームと同様である。主な違いは、相対フレームエネルギーErl(n)が、関係(85)におけるように乗法因子として直接的に使用されないことである。代わりに、XTALK検出装置110のスコア計算装置(図示されていない)は、区間<0; 0.95>における相対フレームエネルギーErl(n)を反比例で線形写像する。この写像は、例えば次の関係を使用して行うことができる。
wrelE(n)=-2.375Erl(n)+2.1375 (102)
したがって、より大きい相対エネルギーを伴うフレームでは重みが0に近くなり、一方、より小さいエネルギーを伴うフレームでは重みが0.95に近くなる。次に、XTALK検出装置110のスコア計算装置(図示されていない)は、例えば次の関係を使用して、LogRegモデルの正規化された出力ypn(n)を濾過するために、重みwrelE(n)を使用する。
scrXTALK(n)=wrelEscrXTALK(n-1)+(1-wrelE)ypn(n) (103)
ここで、指数nは現フレームを表しており、指数n-1は前フレームを示す。
XTALK検出装置110からの正規化されて重み付けされた出力scrXTALK(n)は、入力ステレオ音信号190におけるクロストークを表す「XTALKスコア」と呼ばれる。
8.1.2 立ち上がりエッジ検出
LRTDステレオモードにおけるUNCLR分類と同様の様態で、XTALK検出装置110のスコア計算装置(図示されていない)は、LogRegモデルの正規化されて重み付けされた出力scrXTALK(n)を平滑化する。その理由は、そうでない場合に誤った警告またはエラーをもたらすことになる偶発的な短時間の「ピーク」および「下落」を不鮮明にすることである。平滑化はLogReg出力の立ち上がりエッジを保つように設計され、これは、それらの立ち上がりエッジが、入力ステレオ音信号190におけるクロストーク区分とシングルトーク区分との間の重要な移行を表し得るためである。LRTDステレオモードにおいてのXTALK検出装置110における立ち上がりエッジの検出のための機構は、LRTDステレオモードにおけるUNCLR分類に関して先に記載されている立ち上がりエッジの検出の機構と異なる。
XTALK検出装置110において、立ち上がりエッジ検出アルゴリズムは、前フレームからのLogReg出力値を分析し、それらを、異なる傾斜を伴うあらかじめ計算された「理想的な」立ち上がりエッジのセットと比較する。「理想的な」立ち上がりエッジは、フレーム指数nの線形関数として表されている。図10は、LRTDステレオモードにおいてのXTALK検出装置110における立ち上がりエッジを検出する機構を示すグラフである。図10を参照すると、x軸は、現フレーム0の前のフレームの指数nを含む。小さい灰色の矩形は、現フレームの前の6個のフレームの期間にわたってのXTALKスコアscrXTALK(n)の例示の出力である。図10から見て取れるように、現フレームの前の3個のフレームで始まるXTALKスコアscrXTALK(n)に立ち上がりエッジがある。点線は、異なる長さの区分における4個の「理想的な」立ち上がりエッジのセットを描写している。
各々の「理想的な」立ち上がりエッジについて、立ち上がりエッジ検出アルゴリズムは、点線とXTALKスコアscrXTALK(n)との間で平均平方誤差を計算する。立ち上がりエッジ検出アルゴリズムの出力は、試験された「理想的な」立ち上がりエッジ同士の間の最小平均平方誤差である。点線で表された線形関数は、それぞれscrminおよびscrmaxである最小値および最大値についての所定の閾値に基づいてあらかじめ計算されている。これは、図10において大きな明るい灰色の矩形によって示されている。各々の「理想的な」立ち上がりエッジの線形関数の傾斜は、最小閾値、最大閾値、および区分の長さに依存する。
立ち上がりエッジ検出は、次の基準を満たすフレームだけにおいて、XTALK検出装置110によって実施される。
ここで、K=4は、試験された立ち上がりエッジの最大長である。
立ち上がりエッジ検出アルゴリズムの出力値をε0_1と示す。「0_1」の下付き文字の使用は、立ち上がりエッジ検出の出力値が区間<0; 1>において限定されるという事実を強調している。関係(104)における基準を満たさないフレームについて、立ち上がりエッジ検出の出力値が、0に直接的に設定され、つまり次のようにされる。
ε0_1=0 (105)
試験された「理想的な」立ち上がりエッジを表す線形関数のセットは、次の関係で数学的に表すことができる。
ここで、指数lは、試験された立ち上がりエッジの長さを示し、指数n-kはフレーム指数を示す。各々の線形関数の傾斜は、3つのパラメータ、つまり、試験された立ち上がりエッジの長さl、最小閾値scrmin、および最大閾値scrmaxによって決定される。LRTDステレオモードにおけるXTALK検出装置110の目的のために、閾値がscrmax=1.0およびscrmin=-0.2に設定される。これらの閾値の値は実験的に見つけ出された。
試験された立ち上がりエッジの各々の長さについて、立ち上がりエッジ検出アルゴリズムは、例えば次の関係を使用して、線形関数t(関係(106))とXTALKスコアscrXTALKとの間の平均平方誤差を計算する。
ここで、ε0は、次の関係によって与えられる初期の誤差である。
ε0=|scrXTALK(n)-scrmax|2 (108)
最小平均平方誤差は、次の関係を使用して、XTALK検出装置110によって計算される。
最小平均平方誤差が小さくなるにつれて、検出された立ち上がりエッジはより強くなる。非限定的な実施において、最小平均平方誤差が0.3より大きい場合、立ち上がりエッジ検出の出力は、0に設定され、つまり、
ε0_1> if εmin > 0.3 (110)
であり、立ち上がりエッジ検出アルゴリズムは終了する。すべての他の場合において、最小平均平方誤差は、例えば次の関係を使用して、区間<0; 1>において線形に写像され得る。
ε0_1=1-2.5εmin (111)
上記の例において、立ち上がりエッジ検出の出力と最小平均平方誤差との間の関係は反比例である。
XTALK検出装置110は、例えば次の関係を使用して計算されるエッジ鮮鋭化パラメータを生み出すために、区間<0,5; 0,9>における立ち上がりエッジ検出の出力を正規化する。
fedge(n)=0.9-0.4ε0_1 (112)
0,5および0,9はそれぞれ下限および上限として使用されている。
最後に、XTALK検出装置110のスコア計算装置(図示されていない)は、fedge(n)が忘却因子の代わりに使用されているXTALK検出装置110のIIRフィルタを用いて、LogRegモデルscrXTALK(n)の正規化されて重み付けされた出力を平滑化する。このような平滑化は、例えば次の関係を使用する。
wscrXTALK(n)=fedge(n)・wscrXTALK(n-1)+(1-fedge(n))・scrXTALK(n) (113)
平滑化された出力wscrXTALK(n)(XTALKスコア)は、関係(77)において計算された代替のVADフラグがゼロであるフレームにおいて、0にリセットされる。つまり、次のようにされる。
wscrXTALK(n)=0, if fxVAD(n)=0 (114)
8.2 DFTステレオモードにおけるクロストークの検出
DFTステレオモードでは、ステレオ音信号190をコード化するための方法150は、クロストーク(XTALK)を検出する動作162を含む。動作162を実施するために、ステレオ音信号190をコード化するためのデバイス100はXTALK検出装置112を備える。
DFTステレオモードにおけるXTALK検出は、LRTDステレオモードにおけるXTALK検出と同様に行われる。ロジスティック回帰(LogReg)モデルは、入力特徴ベクトルの二進分類のために使用される。簡潔性のために、LRTDステレオモードにおけるXTALK検出からの特定のパラメータの名前および関連付けられた数学記号は、本節でも使用される。下付き文字が、2つの部分からの同じパラメータを同時に参照するとき、不明確さを回避するために付け加えられる。
以下の特徴、すなわち、
- ILDゲインgILD(関係43))、
- IPDゲインgIPD(関係48))、
- IPD回転角度φrot(関係49))、
- 予測ゲインgpred(関係52))、
- チャンネル間コヒーレンスの平均エネルギーEcoh(関係55))、
- 最大チャンネル間振幅乗積と最小チャンネル間振幅乗積との割合rPP(関係57))、
- 全体の相互チャンネルスペクトルの大きさfX(関係41))、
- GCC-PHAT関数の最大値GITD(関係61))、
- GCC-PHAT関数の第1の最高ピークの振幅と第2の最高ピークの振幅との間の関係rGITD12(関係64))、
- GCC-PHATの第2の最高ピークの振幅mITD2(関係66))、および、
- 前フレームにおける第2の最高ピークの位置に対する、現フレームにおける第2の最高ピークの位置の差ΔITD2(関係67))
が、シングルトーク訓練データベースとクロストーク訓練データベースとの両方においてDFTステレオモードを動作させることで、ステレオ音信号190をコード化するためのデバイス100から抽出される。
全体で、XTALK検出装置112は数F=11の特徴を使用する。
訓練過程の前に、XTALK検出装置112は、抽出された特徴のセットを正規化する下位動作(図示されていない)を、例えば次の関係を使用して、そのセットの全体の平均を除去し、それを単位分散へと増減することで実施する正規化装置(図示されていない)を備える。
ここで、fi,rawはセットのi番目の特徴を示し、fiは正規化されたi番目の特徴を示し、
は、訓練データベースにわたるi番目の特徴の全体平均を示し、σfiは、訓練データベースにわたるi番目の特徴の全体変化である。ここで、関係(115)で使用されているパラメータ
およびσfiは、関係(81)において使用されているものと異なる。
LogRegモデルの出力は、関係(82)によって完全に記載され、現フレームがクロストーク区分クラス(クラス0)に属する確率は、関係(83)によって与えられる。訓練過程および最適な決定閾値を見つけ出す手順の詳細は、LRTDステレオモードにおけるUNCLR分類についての節において先に提供されている。ここでも、その目的のために、XTALK検出装置112は、入力ステレオ音信号190におけるXTALK検出を表すスコアを計算する下位動作(図示されていない)を実施するスコア計算装置(図示されていない)を備える。
XTALK検出装置112のスコア計算装置(図示されていない)は、図5に示されているような関数を使用してLogRegモデルの未加工の出力ypを正規化し、さらに処理される。LogRegモデルの正規化された出力はypnと示される。DFTステレオモードでは、相対フレームエネルギーに基づく重み付けが使用されない。そのため、LogRegモデルの正規化されて重み付けされた出力、明確にはXTALKスコアscrXTALK(n)は、次の関係によって与えられる。
scrXTALK(n)=ypn (116)
XTALKスコアscrXTALK(n)は、代替のVADフラグfxVAD(n)が0に設定されるとき、0にリセットされる。これは、次の関係のように表すことができる。
scrXTALK(n)=0, if fxVAD(n)=0 (117)
8.2.1 立ち上がりエッジ検出
LRTDステレオモードにおけるXTALK検出の場合におけるように、XTALK検出装置112のスコア計算装置(図示されていない)は、短期間のピークを除去するためにXTALKスコアscrXTALK(n)を平滑化する。このような平滑化は、LRTDステレオモードにおけるXTALK検出装置110に関して記載されているような立ち上がりエッジ検出機構を使用するIIR濾過を用いて実施される。XTALKスコアscrXTALK(n)は、例えば次の関係を使用して、IIRフィルタで平滑化される。
wscrXTALK(n)=fedge(n)・wscrXTALK(n-1)+(1-fedge(n))・scrXTALK(n) (118)
ここで、fedge(n)は、関係(112)で計算されるエッジ鮮鋭化パラメータである。
8.3 二進XTALK決定
XTALK検出装置110/112の最終的な出力は二進である。cXTALK(n)は、クロストークを表す「1」およびシングルトーククラスを表す「0」で、XTALK検出装置110/112の出力を示す。出力cXTALK(n)は状態変数として見なすこともできる。出力cXTALK(n)は0に初期化される。状態変数は、特定の条件が満たされるフレームのみにおいて、現在のクラスから他のクラスへと変更される。クロストーククラス切替のための機構は、7.3節において先に詳細に記載されている非相関ステレオコンテンツにおけるクラス切替の機構と同様である。しかしながら、LRTDステレオモードとDFTステレオモードとの両方について差がある。これらの差は以後において詳述される。
LRTDステレオモードでは、XTALK検出装置110は、図11に示されているようなクロストーク切替機構を使用する。図11を参照すると、次のとおりである。
- 現フレームnにおけるUNCLR分類装置111の出力cUNCLR(n)が「1」に等しい場合(1101)、現フレームnにおけるXTALK検出装置110の出力cXTALK(n)の切替はない。
- (a)現フレームnにおけるUNCLR分類装置111の出力cUNCLR(n)が「0」に等しく(1101)、(b)前フレームn-1におけるXTALK検出装置110の出力cXTALK(n-1)が「1」に等しい(1102)場合、現フレームnにおけるXTALK検出装置110の出力cXTALK(n)の切替はない。
- (a)現フレームnにおけるUNCLR分類装置111の出力cUNCLR(n)が「0」に等しく(1101)、(b)前フレームn-1におけるXTALK検出装置110の出力cXTALK(n-1)が「0」に等しく(1102)、(c)現フレームnにおける平滑化されたXTALKスコアwscrXTALK(n)が0.03より大きくない(1104)場合、現フレームnにおけるXTALK検出装置110の出力cXTALK(n)の切替はない。
- (a)現フレームnにおけるUNCLR分類装置111の出力cUNCLR(n)が「0」に等しく(1101)、(b)前フレームn-1におけるXTALK検出装置110の出力cXTALK(n-1)が「0」に等しく(1102)、(c)現フレームnにおける平滑化されたXTALKスコアwscrXTALK(n)が0.03より大きく(1104)、(d)前フレームn-1におけるカウンタcntsw(n-1)が「0」より大きくない(1105)場合、現フレームnにおけるXTALK検出装置110の出力cXTALK(n)の切替はない。
- (a)現フレームnにおけるUNCLR分類装置111の出力cUNCLR(n)が「0」に等しく(1101)、(b)前フレームn-1におけるXTALK検出装置110の出力cXTALK(n-1)が「0」に等しく(1102)、(c)現フレームnにおける平滑化されたXTALKスコアwscrXTALK(n)が0.03より大きく(1104)、(d)前フレームn-1におけるカウンタcntsw(n-1)が「0」より大きい(1105)場合、現フレームnにおけるXTALK検出装置110の出力cXTALK(n)は「1」に切替される(1106)。
最後に、現フレームnにおけるカウンタcntsw(n)は更新され(1107)、手順は次のフレームについて繰り返される(1108)。
カウンタcntsw(n)は、UNCLR分類装置111およびXTALK検出装置110に共通であり、関係(97)において定められている。カウンタcntsw(n)の正の値は、状態変数cXTALK(n)(XTALK検出装置110の出力cXTALK(n))の切替が許可されることを指示している。図11において見て取れるように、切替論理は、現フレームにおけるUNCLR分類装置111の出力cUNCLR(n)(1101)を使用する。そのため、UNCLR分類装置111は、XTALK検出装置110がUNCLR分類装置111の出力を使用するため、XTALK検出装置110の前に動作させられることが仮定されている。また、図11の状態切替論理は、XTALK検出装置110の出力cXTALK(n)が「0」(シングルトーク)から「1」(クロストーク)への変更させることだけできるという意味において、一方向性である。反対方向、つまり、「1」(クロストーク)から「0」(シングルトーク)についての状態切替論理は、DFT/LRTDステレオモード切替論理の一部であり、これは本開示において後で説明される。
DFTステレオモードでは、XTALK検出装置112は、次の補助パラメータを計算する下位動作(図示されていない)を実施する補助パラメータ計算装置(図示されていない)を備える。明確には、クロストーク切替機構は、XTALK検出装置112の出力wscrXTALK(n)と、次の補助パラメータ、すなわち、
- 現フレームにおける音声活動検出(VAD)フラグ(fVAD)、
- GCC-PHAT関数の第1および第2の最高ピークの振幅GITD、mITD2(それぞれ関係(61)および(66))、
- GCC-PHAT関数の第1および第2の最高ピークの振幅に対応する位置(ITD値)dITD、dITD2(それぞれ関係(60)および(段落[0170](原文段落[00111])))、ならびに、
- DFTステレオ無音フラグfsil(関係(78))
とを使用する。
DFTステレオモードでは、XTALK検出装置112は、図12に示されているようなクロストーク切替機構を使用する。図12を参照すると、次のとおりである。
- dITD(n)が「0」に等しい場合(1201)、cXTALK(n)は「0」に切替される(1217)。
- (a)dITD(n)が「0」に等しくなく(1201)、(b)cXTALK(n-1)が「0」に等しくない(1202)場合で、
・ (c)cXTALK(n-1)が「1」に等しくない(1215)場合、cXTALK(n)の切替はない。
・ (c)cXTALK(n-1)が「1」に等しく(1215)、(d)wscrXTALK(n)が「0.0」より小さくない(1216)場合、cXTALK(n)の切替はない。
・ (c)cXTALK(n-1)が「1」に等しく(1215)、(d)wscrXTALK(n)が「0.0」より小さい(1216)場合、cXTALK(n)は「0」に切替される(1219)。
- (a)dITD(n)が「0」に等しくなく(1201)、(b)cXTALK(n-1)が「0」に等しく(1202)、(c)fVADが「1」に等しくない(1203)場合で、
・ (d)cXTALK(n-1)が「1」に等しくない(1215)場合、cXTALK(n)の切替はない。
・ (d)cXTALK(n-1)が「1」に等しく(1215)、(e)wscrXTALK(n)が「0.0」より小さくない(1216)場合、cXTALK(n)の切替はない。
・ (d)cXTALK(n-1)が「1」に等しく(1215)、(e)wscrXTALK(n)が「0.0」より小さい(1216)場合、cXTALK(n)は「0」に切替される(1219)。
- (a)dITD(n)が「0」に等しくなく(1201)、(b)cXTALK(n-1)が「0」に等しく(1202)、(c)fVADが「1」に等しく(1203)、(d)0.8GITD(n)がmITD2(n)より小さく(1204)、(e)0.8GITD(n-1)がmITD2(n-1)より小さく(1205)、(f)dITD2(n)-dITD2(n-1)が「4.0」より小さく(1206)、(g)GITD(n)が「0.15」より大きく(1207)、(h)GITD(n-1)が「0.15」より大きい(1208)場合、cXTALK(n)は「1」に切替される(1218)。
- (a)dITD(n)が「0」に等しくなく(1201)、(b)cXTALK(n-1)が「0」に等しく(1202)、(c)fVADが「1」に等しく(1203)、(d)試験1204~1208のいずれかが否である場合で、
・ (e)wscrXTALK(n)が「0.8」より大きい(1209)場合、cXTALK(n)は「1」に切替される(1218)。
- (a)dITD(n)が「0」に等しくなく(1201)、(b)cXTALK(n-1)が「0」に等しく(1202)、(c)fVADが「1」に等しく(1203)、(d)試験1204~1208のいずれかが否であり、(e)wscrXTALK(n)が「0.8」より大きくなく(1209)、(f)fsil(n)が「1」に等しくない(1210)場合で、
・ (g)cXTALK(n-1)が「1」に等しくない(1215)場合、cXTALK(n)の切替はない。
・ (g)cXTALK(n-1)が「1」に等しく(1215)、(h)wscrXTALK(n)が「0.0」より小さくない(1216)場合、cXTALK(n)の切替はない。
・ (g)cXTALK(n-1)が「1」に等しく(1215)、(h)wscrXTALK(n)が「0.0」より小さい(1216)場合、cXTALK(n)は「0」に切替される(1219)。
- (a)dITD(n)が「0」に等しくなく(1201)、(b)cXTALK(n-1)が「0」に等しく(1202)、(c)fVADが「1」に等しく(1203)、(d)試験1204~1208のいずれかが否であり、(e)wscrXTALK(n)が「0.8」より大きくなく(1209)、(f)fsil(n)が「1」に等しく(1210)、(g)dITD(n)が「8.0」より大きく(1211)、(h)dITD(n-1)が「-8.0」より小さい場合、cXTALK(n)は「1」に切替される(1218)。
- (a)dITD(n)が「0」に等しくなく(1201)、(b)cXTALK(n-1)が「0」に等しく(1202)、(c)fVADが「1」に等しく(1203)、(d)試験1204~1208のいずれかが否であり、(e)wscrXTALK(n)が「0.8」より大きくなく(1209)、(f)fsil(n)が「1」に等しく(1210)、(g)試験1211および1212のいずれかが否であり、(h)dITD(n-1)が「8.0」より大きく(1213)、(i)dITD(n)が「-8.0」より小さい(1214)場合、cXTALK(n)は「1」に切替される(1218)。
- (a)dITD(n)が「0」に等しくなく(1201)、(b)cXTALK(n-1)が「0」に等しく(1202)、(c)fVADが「1」に等しく(1203)、(d)試験1204~1208のいずれかが否であり、(e)wscrXTALK(n)が「0.8」より大きくなく(1209)、(f)fsil(n)が「1」に等しく(1210)、(g)試験1211および1212のいずれかが否であり、(h)試験1213および1214のいずれかが否である場合に、
・ (i)cXTALK(n-1)が「1」に等しくない(1215)場合、cXTALK(n)の切替はない。
・ (i)cXTALK(n-1)が「1」に等しく(1215)、(j)wscrXTALK(n)が「0.0」より小さくない(1216)場合、cXTALK(n)の切替はない。
・ (i)cXTALK(n-1)が「1」に等しく(1215)、(j)wscrXTALK(n)が「0.0」より小さい(1216)場合、cXTALK(n)は「0」に切替される(1219)。
最後に、現フレームnにおけるカウンタcntsw(n)が更新され(1220)、手順は次のフレームについて繰り返される(1221)。
変数cntsw(n)は、LRTDステレオモードとDFTステレオモードとの間で切替をすることが可能であるフレームのカウンタである。このカウンタcntsw(n)はUNCLR分類装置113およびXTALK検出装置112に共通である。カウンタcntsw(n)は、ゼロに初期化され、関係(97)に従って各々のフレームにおいて更新される。
9. DFT/LRTDステレオモード選択
ステレオ音信号190をコード化するための方法150は、LRTDステレオモードまたはDFTステレオモードを選択する動作164を含む。動作164を実施するために、ステレオ音信号190をコード化するためのデバイス100は、1フレーム遅延されて(191)、XTALK検出装置110からのXTALK決定と、UNCLR分類装置111からのUNCLR決定と、XTALK検出装置112からのXTALK決定と、UNCLR分類装置113からのUNCLR決定とを受信するLRTD/DFTステレオモード選択装置114を備える。
LRTD/DFTステレオモード選択装置114は、UNCLR分類装置111/113の二進出力cUNCLR(n)およびXTALK検出装置110/112の二進出力cXTALK(n)に基づいて、LRTDステレオモードまたはDFTステレオモードを選択する。LRTD/DFTステレオモード選択装置114はいくつかの補助パラメータも考慮する。これらのパラメータは、知覚的に敏感な区分におけるステレオモード切替を防止するために、または、UNCLR分類装置111/113とXTALK検出装置110/112との両方が正確な出力を提供しない区分における頻繁な切替を防止するために、主に使用される。
LRTDステレオモードまたはDFTステレオモードを選択する動作164は、入力ステレオ音信号190のダウンミックスおよび符号化の前に実施される。結果として、動作164は、図1における符号191に示されているように、前フレームからのUNCLR分類装置111/113およびXTALK検出装置110/112からの出力を使用する。LRTDステレオモードまたはDFTステレオモードを選択する動作164は、図13の概略的なブロック図においてさらに描写されている。
以下の記載において説明されるように、動作164において使用されるDFT/LRTDステレオモード選択機構は、次の下位動作、すなわち、
- 最初のDFT/LRTDステレオモード選択と、
- クロストークコンテンツを検出してのLRTDステレオモードからDFTステレオモードへの切替と
を含む。
9.1 最初のDFT/LRTDステレオモード選択
DFTステレオモードは、入力ステレオ音信号190の左チャンネル(L)と右チャンネル(R)との間の大きなチャンネル間相関でシングルトーク音声を符号化するための好ましいモードである。
LRTD/DFTステレオモード選択装置114は、処理された前フレームが「音声フレームであり得る」かどうかを決定することで、ステレオモードの最初の選択を開始する。これは、例えば、「音声」クラスと「音楽」クラスとの間の対数尤度の割合を調べることで行うことができる。対数尤度の割合は、「音楽」供給源によって発生させられる入力ステレオ音信号フレームの対数尤度と、「音声」供給源によって発生させられる入力ステレオ音信号フレームの対数尤度との間の絶対差として定められる。次の関係は対数尤度の割合を計算するために使用され得る。
dLSM(n)=LM(n)-LS(n) (119)
ここで、LS(n)は「音声」クラスの対数尤度であり、LM(n)は「音楽」クラスの対数尤度である。
例として、全体の内容が参照により本明細書に組み込まれている参考文献[7]に記載されているような3GPP EVSコーデックからのガウス混合モデル(GMM)が、「音声」クラスの対数尤度LS(n)と「音楽」クラスの対数尤度LM(n)とを推定するために使用され得る。音声/音楽の分類の他の方法は、対数尤度の割合(微分スコア)dLSM(n)を計算するために使用することもできる。
対数尤度の割合dLSM(n)は、例えば次の関係を使用して、異なる忘却因子を伴う2つのIIRフィルタで平滑化される。
ここで、それぞれ上付き文字(1)は第1のIIRフィルタを指示しており、上付き文字(2)は第2のIIRフィルタを指示している。
次に、平滑化された
および
は、所定の閾値と比較される。
次の組み合わされた条件が例えば満たされる場合、新規の二進フラグfSM(n)が1に設定される。
フラグfSM(n)=1は、前フレームが音声フレームであり得ることの指標である。1.0の閾値は実験的に見出されている。
次に最初のDFT/LRTDステレオモード選択機構が、前フレームn-1におけるUNCLR分類装置111/113の二進出力cUNCLR(n-1)またはXTALK検出装置110/112の二進出力cXTALK(n-1)が1に設定される場合、および、前フレームが音声フレームであり得る場合、新規の二進フラグfUX(n)を1に設定する。これは次の関係によって表される。
MSMODE(n)∈(LRTD, DFT)を、現フレームnにおける選択されたステレオモードを示す離散変数とする。ステレオモードは、前フレームn-1からの値で、各々のフレームにおいて初期化され、つまり、次のようになる。
MSMODE(n)=MSMODE(n-1) (123)
フラグfUX(n)が1に設定される場合、LRTDステレオモードは現フレームnにおける符号化のために選択される。これは、次の関係のように表すことができる。
MSMODE(n)←LRTD, if, fUX=1場合 (124)
フラグfUX(n)が現フレームnにおいて0に設定され、前フレームn-1におけるステレオモードがLRTDステレオモードである場合、以後において記載される、LRTD/DFTステレオモード選択装置114のLRTDエネルギー分析処理装置1301からの補助ステレオモード切替フラグfTDM(n-1)は、例えば次の関係を使用して、現フレームnにおいてステレオモードを選択するために分析される。
補助ステレオモード切替フラグfTDM(n)は、LRTDモードのみにおいてフレームごとに更新される。パラメータfTDM(n)の更新は以下の記載において説明されている。
図13に示されているように、LRTD/DFTステレオモード選択装置114は、本開示において後でより詳細に記載されている補助パラメータfTDM(n)、cLRTD(n)、cDFT(n)、およびmTD(n)を生成するためにLRTDエネルギー分析処理装置1301を備える。
フラグfUX(n)が現フレームnにおいて0に設定され、前フレームn-1におけるステレオモードがDFTステレオモードであった場合、ステレオモード切替は実施されず、DFTステレオモードは現フレームnでも選択される。
9.2 XTALK検出におけるLRTDステレオモードからDFTステレオモードへの切替
LRTDモードにおけるXTALK検出装置110は、先の記載において説明されている。図11から見て取れるように、XTALK検出装置110の二進出力cXTALK(n)は、クロストークコンテンツが現フレームにおいて検出されたときのみ1に設定され得る。結果として、先に記載されているような初期のステレオモード選択論理は、XTALK検出装置110がシングルトークコンテンツを指示するとき、DFTステレオモードを選択することができない。これは、クロストークステレオ音信号区分にシングルトークステレオ音信号区分が続くときの状況において、LRTDステレオモードの望ましくない延長をもたらす。そのため、追加の機構が、シングルトークコンテンツの検出においてLRTDステレオモードからDFTステレオモードへと戻すように切替をするために実施された。この機構は以下の記載において説明されている。
LRTD/DFTステレオモード選択装置114が前フレームn-1においてLRTDステレオモードを選択し、最初のステレオモード選択が現フレームnにおいてLRTDモードを選択した場合で、同時に、XTALK検出装置110の二進出力cXTALK(n-1)が1であった場合、ステレオモードはLRTDステレオモードからDFTステレオモードへと変更され得る。この変更は、例えば次の列記された条件が満たされるとき、許可される。
上記で定められた条件のセットは、clasパラメータとbrateパラメータへの参照を含む。brateパラメータは、ステレオ音信号をコード化するためのデバイス100(ステレオコーデック)によって使用される全ビットレートを含む高水準定数である。brateパラメータは、ステレオコーデックの初期化の間に設定され、符号化過程の間に変更されないままとされる。
clasパラメータは、フレームの種類についての情報を含む離散変数である。clasパラメータは、ステレオコーデックの信号前処理の一部として通常は推定される。非限定的な例として、参考文献[1]において記載されているような3GPP EVSコーデックのフレーム消去隠蔽(FEC)モジュールからのclasパラメータが、DFT/LRTDステレオモード選択機構で使用され得る。3GPP EVSコーデックのFECモジュールからのclasパラメータは、フレーム消去隠蔽および復号器回復戦略を考慮して選択される。clasパラメータは、次のあらかじめ定められたクラスのセットから選択される。
DFT/LRTDステレオモード選択機構をフレーム種類分類の他の手段で実施することは、本開示の範囲内である。
先に定められた条件(126)のセットにおいて、条件
は、ステレオ音信号をコード化するためのデバイス100がDFTステレオモードにおいて動作するとき、ダウンミックスされたモノラル(M)チャンネルの前処理の間に計算されたclasパラメータを参照する。
ステレオ音信号をコード化するためのデバイス100がLRTDステレオモードにある場合、条件は次の関係で置き換えられる。
ここで、指数「L」および「R」は、それぞれ、左(L)チャンネルおよび右(R)チャンネルの前処理モジュールにおいて計算されるclasパラメータを参照する。
パラメータcLRTD(n)およびcDFT(n)は、それぞれLRTDフレームおよびDFTフレームのカウンタである。これらのカウンタは、LRTDエネルギー分析処理装置1301の一部としてフレームごとに更新される。2つのカウンタcLRTD(n)およびcDFT(n)の更新は、次の節において詳細に記載されている。
9.3 LRTDエネルギー分析モジュールにおいて計算された補助パラメータ
ステレオ音信号をコード化するためのデバイス100がLRTDステレオモードで動作させられるとき、LRTD/DFTステレオモード選択装置114は、DFT/LRTDステレオモード選択機構の安定性を向上させるために、いくつかの補助パラメータを計算または更新する。
特定の特別な種類のフレームについて、LRTDステレオモードは、いわゆる「TD下位モード」において動作する。TD下位モードは、LRTDステレオモードからDFTステレオモードへの切替の前の短い移行期間の間に通常は適用される。LRTDステレオモードがTD下位モードで動作するかどうかは、二進下位モードフラグmTD(n)によって指示される。二進フラグmTD(n)は補助パラメータのうちの1つであり、次のように各々のフレームで初期化され得る。
mTD(n)=fTDM(n-1) (127)
ここで、fTDMは、本節において後で記載される、前述の補助切替フラグである。
二進下位モードフラグmTD(n)は、fUX(n)=1であるフレームにおいて0または1にリセットされる。mTD(n)をリセットするための条件は、例えば次のように定められる。
fUX(n)=0である場合、二進下位モードフラグmTD(n)は変更されない。
LRTDエネルギー分析処理装置1301は、上記の2つのカウンタcLRTD(n)およびcDFT(n)を備える。カウンタcLRTD(n)は補助パラメータのうちの1つであり、連続的なLRTDフレームの数を数える。このカウンタは、DFTステレオモードがステレオ音信号をコード化するためのデバイス100において選択されたすべてのフレームにおいて0に設定され、LRTDステレオモードが選択されたすべてのフレームにおいて1だけインクリメントされる。これは、次の関係のように表すことができる。
基本的に、カウンタcLRTD(n)は、最後のDFT->LRTDの切替点からのフレームの数を含む。カウンタcLRTD(n)は100の閾値によって制限される。カウンタcDFT(n)は連続的なDFTフレームの数を数える。カウンタcDFT(n)は、補助パラメータのうちの1つであり、LRTDステレオモードがステレオ音信号をコード化するためのデバイス100において選択されたすべてのフレームにおいて0に設定され、DFTステレオモードが選択されたすべてのフレームにおいて1だけインクリメントされる。これは、次の関係のように表すことができる。
基本的に、カウンタcDFT(n)は、最後のLRTD->DFTの切替点からのフレームの数を含む。カウンタcDFT(n)は100の閾値によって制限される。
LRTDエネルギー分析処理装置1301において計算された最後の補助パラメータは補助ステレオモード切替フラグfTDM(n)である。このパラメータは、次のようにされた二進フラグfUX(n)で、フレームごとに初期化される。
fTDM(n)=fUX(n) (131)
補助ステレオモード切替フラグfTDM(n)は、入力ステレオ音信号190の左(L)チャンネルと右(R)チャンネルとが位相の不一致(OOP: out-of-phase)であるとき、0に設定される。OOP検出のための例示の方法が、例えば全体の内容が参照により本明細書に組み込まれている参考文献[8]に見出され得る。OOPの状況が検出された場合、二進フラグs2mは現フレームにおいて1に設定され、そうでない場合はゼロに設定される。LRTDステレオモードにおける補助ステレオモード切替フラグfTDM(n)は、二進フラグs2mが1に設定されるとき、ゼロに設定される。これは関係(132)で表すことができる。
fTDM(n)←0, if s2m(n)=1 (132)
二進フラグs2m(n)がゼロに設定される場合、補助切替フラグfTDM(n)は、例えば次の条件のセットに基づいてゼロにリセットされ得る。
当然ながら、DFT/LRTDステレオモード切替機構は、OOP検出のための他の方法で実施することができる。
補助ステレオモード切替フラグfTDM(n)は、次の条件のセットに基づいて0にリセットすることもできる。
上記で定められているような条件の2つのセットにおいて、次の条件
clas(n-1)=UNVOICED_CLAS
は、ステレオ音信号をコード化するためのデバイス100がDFTステレオモードにおいて動作するとき、ダウンミックスされたモノラル(M)チャンネルの前処理の間に計算されたclasパラメータを参照する。
ステレオ音信号をコード化するためのデバイス100がLRTDステレオモードにある場合、条件は次の関係で置き換えられる。
clasL(n-1)=UNVOICED_CLASおよびclasR(n-1)=UNVOICED_CLAS
ここで、指数「L」および「R」は、それぞれ、左(L)チャンネルおよび右(R)チャンネルの前処理の間に計算されるclasパラメータを参照する。
10. コア符号器
ステレオ音信号をコード化するための方法150は、LRTDステレオモードにおいてステレオ音信号190の左チャンネル(L)をコア符号化する動作165と、LRTDステレオモードにおいてステレオ音信号190の右チャンネル(R)をコア符号化する動作166と、DFTステレオモードにおいてステレオ音信号190のダウンミックスされたモノラル(M)チャンネルをコア符号化する動作167とを含む。
動作165を実施するために、ステレオ音信号をコード化するためのデバイス100は、例えばモノラルコア符号器といったコア符号器115を備える。動作166を実施するために、デバイス100は、例えばモノラルコア符号器といったコア符号器116を備える。最後に、動作167を実施するために、ステレオ音信号をコード化するためのデバイス100は、ステレオ音信号190のダウンミックスされたモノラル(M)チャンネルをコード化するために、DFTステレオモードで動作することができるコア符号器117を備える。
適切なコア符号器115、116、および117を選択することは、当業者の知識の中にあると考えられる。したがって、これらの符号器は本開示においてさらに説明されない。
11. ハードウェア実施
図14は、ステレオ音信号をコード化するための上記のデバイス100および方法150を形成するハードウェア構成要素の例の構成の単純化されたブロック図である。
ステレオ音信号をコード化するためのデバイス100は、携帯端末の一部として、携帯型メディアプレイヤの一部として、または任意の同様のデバイスで、実施され得る。デバイス100(図14において符号1400として特定されている)は、入力部1402と、出力部1404と、処理装置1406と、記憶装置1408とを備える。
入力部1402は、図1の入力ステレオ音信号190を、デジタルまたはアナログの形態で受信するように構成されている。出力部1404は、出力されてコード化されたステレオ音信号を供給するように構成されている。入力部1402および出力部1404は、例えばシリアル入力/出力デバイスといった共通のモジュールで実施されてもよい。
処理装置1406は、入力部1402、出力部1404、および記憶装置1408に動作可能に接続される。処理装置1406は、図1に示されているようにステレオ音信号をコード化するためのデバイス100の様々な構成要素の機能の支援でコード命令を実行するための1つまたは複数の処理装置として実現される。
記憶装置1408は、処理装置1406によって実行可能なコード命令を保存するための非一時的記憶装置を備えてもよく、明確には、本開示で記載されているようなステレオ音信号をコード化するための方法150およびデバイス100の動作および構成要素を、実行されるときに処理装置に実施させる非一時的命令を備える/保存する処理装置が読み取り可能な記憶装置を備えてもよい。記憶装置1408は、処理装置1406によって実施される様々な機能からの中間処理データを保存するために、ランダムアクセスメモリまたはバッファも備えてもよい。
当業者は、ステレオ音信号をコード化するためのデバイス100および方法150が単なる例示であり、あらゆる形でも限定になるように意図されていないことを理解されよう。本開示の利点を有する他の実施形態が、当業者には容易に思い起こされる。さらに、ステレオ音信号をコード化するための開示されているデバイス100および方法150は、音を符号化および復号化することに存在する要求および問題に価値のある解決策を提供するために、カスタマイズされてもよい。
明確性のために、ステレオ音信号をコード化するためのデバイス100および方法150の実施のありふれた特徴の必ずしもすべてが、図示および記載されているわけではない。ステレオ音信号をコード化するためのデバイス100および方法150の任意のそのような実際の実施の開発において、用途、システム、ネットワーク、およびビジネスに関連した制約との適合性など、開発者の特定の目標を達成するために数々の実施特有の決定がなされる必要があり得ること、ならびに、これらの特定の目標が、実施ごとに、および開発者ごとに変化することは、当然ながら理解されるであろう。さらに、開発の試みは複雑で時間の掛かるものであり得るが、本開示の利益を有する音処理の分野における当業者にとって通常の工学的な取り組みであることは、理解されるであろう。
本開示によれば、本明細書に記載されている動作および/またはデータ構造を処理する構成要素/処理装置/モジュールは、様々な種類の動作システム、コンピュータプラットフォーム、ネットワークデバイス、コンピュータプログラム、および/または汎用機械を使用して実施できる。また、当業者は、ハードワイヤードデバイス、フィールドプログラマブルゲートアレイ(FPGA)、または特定用途向け集積回路(ASIC)など、より汎用的でない性質のデバイスも使用できることを認識するであろう。一連の動作および下位動作を含む方が、処理装置、コンピュータ、または機械によって実施され、それらの動作および下位動作が、処理装置、コンピュータ、または機械によって読み取り可能な一連の非一時的コード命令として保存され得る場合、有形および/または非一時的な媒体に保存され得る。
本明細書に記載されているようなステレオ音信号をコード化するためのデバイス100および方法150は、本明細書に記載されている目的に適したソフトウェア、ファームウェア、ハードウェア、または、ソフトウェア、ファームウェア、もしくはハードウェアの任意の組み合わせを使用することができる。
本明細書に記載されているようなステレオ音信号をコード化するためのデバイス100および方法150において、様々な動作および下位動作は様々な順番で実施でき、動作および下位動作のいくつかは任意選択であり得る。
本開示は、その非限定的な例示の実施形態を用いて先に記載されているが、これらの実施形態は、本開示の精神および性質から逸脱することなく、添付の請求項の範囲内で任意に変更させることができる。
12. 参考文献
本開示は、全体の内容が参照により本明細書に組み込まれている以下の参考文献に言及している。
[1] 3GPP TS 26.445, v.12.0.0, “Codec for Enhanced Voice Services (EVS); Detailed Algorithmic Description”, Sep 2014.
[2] M. Neuendorf, M. Multrus, N. Rettelbach, G. Fuchs, J. Robillard, J. Lecompte, S. Wilde, S. Bayer, S. Disch, C. Helmrich, R. Lefevbre, P. Gournay, et al., “The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for All Content Types and at All Bit Rates”, J. Audio Eng. Soc., vol. 61, no. 12, pp. 956-977, Dec. 2013.
[3] F. Baumgarte, C. Faller, "Binaural cue coding - Part I: Psychoacoustic fundamentals and design principles," IEEE Trans. Speech Audio Processing, vol. 11, pp. 509-519, Nov. 2003.
[4] Tommy Vaillancourt, “Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels,” US Patent 10,325,606 B2.
[5] 3GPP SA4 contribution S4-170749 “New WID on EVS Codec Extension for Immersive Voice and Audio Services”, SA4 meeting #94, June 26-30, 2017, http://www.3gpp.org/ftp/tsg_sa/WG4_CODEC/TSGS4_94/Docs/S4-170749.zip
[6] I. Mani, J. Zhang. “kNN approach to unbalanced data distributions: A case study involving information extraction,” In Proceedings of the Workshop on Learning from Imbalanced Data Sets, pp. 1-7, 2003.KNN
[7] V. Malenovsky, T. Vaillancourt, W. Zhe, K. Choo and V. Atti, "Two-stage speech/music classifier with decision smoothing and sharpening in the EVS codec," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015, pp. 5718-5722.
[8] Vaillancourt, T., “Method and system for time-domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition on the left and right channels,” United States Patent US 10,522,157.
[9] Maalouf, Maher. “Logistic regression in data analysis: An overview”, 2011 International Journal of Data Analysis Techniques and Strategies. 3. 281-299. 10.1504/IJDATS.2011.041335.
[10] Ruder, S., “An overview of gradient descent optimization algorithms”. 2016. ArXiv Preprint ArXiv:1609.04747.
100 ステレオ音信号コード化デバイス
101、102 分析装置
103、104 時間領域前処理装置
105 FFT変換計算装置
106 DFTステレオパラメータ計算装置
110、112 XTALK検出装置
111、113 UNCLR分類装置
114 LRTD/DFTステレオモード選択装置
150 ステレオ音信号コード化方法
151 LRTDステレオモードのチャンネル間相関分析の動作
152 DFTステレオモードのチャンネル間相関分析の動作
153 左チャンネルを時間領域前処理するための動作
154 右チャンネルを時間領域前処理するための動作
155 高速フーリエ変換(FFT)を計算する動作
156 DFTステレオパラメータを計算する動作
157 左チャンネルと右チャンネルとをダウンミックスする動作
158 IFFT変換を計算する動作
159 TD前処理動作
160、162 クロストーク(XTALK)を検出する動作
161、163 非相関ステレオコンテンツ(UNCLR)の分類の動作
164 RTDステレオモードまたはDFTステレオモードを選択する動作
165 左チャンネル(L)をコア符号化する動作
166 右チャンネル(L)をコア符号化する動作
167 モノラル(M)チャンネルをコア符号化する動作
190 ステレオ音信号
1301 LRTDエネルギー分析処理装置
1400 デバイス
1402 入力部
1404 出力部
1406 処理装置
1408 記憶装置
P1、P2、P3、P4、P5、P6、P7、P8、P9、P10、P11、P12 位置
S1、S2 話し手、話者
M1、M2、M3、M4、M5、M6 マイク

Claims (146)

  1. 左チャンネルと右チャンネルとを含むステレオ音信号をコード化するための第1のステレオモードおよび第2のステレオモードの一方を選択するためのデバイスであって、
    前記ステレオ音信号における非相関ステレオコンテンツの存在または不在を指示する第1の出力を生成するための分類装置と、
    前記ステレオ音信号におけるクロストークの存在または不在を指示する第2の出力を生成するための検出装置と、
    ステレオ音信号をコード化するための前記ステレオモードを選択するときにおける使用のための補助パラメータを計算するための分析処理装置と、
    前記第1の出力、前記第2の出力、および前記補助パラメータに応答して、ステレオ音信号をコード化するための前記ステレオモードを選択するためのステレオモード選択装置と
    を備えるデバイス。
  2. 前記第1のステレオモードは、前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオモードであり、前記第2のステレオモードは周波数領域ステレオモードである、請求項1に記載のステレオモード選択デバイス。
  3. 前記ステレオ音信号の現フレームにおいて、前記ステレオモード選択装置は、前記ステレオ音信号の前フレームからの前記第1の出力と、前記前フレームからの前記第2の出力とを使用する、請求項1または2に記載のステレオモード選択デバイス。
  4. 前記ステレオモード選択装置は、前記ステレオ音信号をコード化するための前記ステレオモードの最初の選択を、前記第1のステレオモードと前記第2のステレオモードとの間で実施する、請求項1から3のいずれか一項に記載のステレオモード選択デバイス。
  5. 前記ステレオモード選択装置は、前記ステレオ音信号をコード化するための前記ステレオモードの前記最初の選択を実施するために、前記前フレームが音声フレームであるかどうかを決定する、請求項4に記載のステレオモード選択デバイス。
  6. 前記ステレオモード選択装置は、前記ステレオ音信号をコード化するための前記ステレオモードの前記最初の選択において、前記ステレオ音信号の各々のフレームで、前記ステレオ音信号をコード化するための前記ステレオモードを、前記前フレームにおいて選択された前記ステレオモードに初期化する、請求項5に記載のステレオモード選択デバイス。
  7. 前記ステレオモード選択装置は、前記ステレオモードの前記最初の選択において、(a)前記前フレームが音声フレームとして決定され、(b)前記分類装置からの前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記検出装置からの前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、前記ステレオ音信号をコード化するための前記第1のステレオモードを選択する、請求項5または6に記載のステレオモード選択デバイス。
  8. 前記ステレオモード選択装置は、前記ステレオ音信号をコード化するための前記ステレオモードの前記最初の選択において、(i)前記条件(a)および(b)の少なくとも一方が満たされず、(ii)前記前フレームで選択された前記ステレオモードが前記第2のステレオモードである場合、前記ステレオ音信号をコード化するための前記第2のステレオモードを選択する、請求項7に記載のステレオモード選択デバイス。
  9. 前記ステレオモード選択装置は、前記ステレオモードの前記最初の選択において、(i)前記条件(a)および(b)の少なくとも一方が満たされず、(ii)前記前フレームで選択された前記ステレオモードが前記第1のステレオモードである場合、前記補助パラメータのうちの1つに関して前記ステレオ音信号をコード化するための前記ステレオモードを選択する、請求項7または8に記載のステレオモード選択デバイス。
  10. 前記1つの補助パラメータは補助ステレオモード切替フラグである、請求項9に記載のステレオモード選択デバイス。
  11. 前記ステレオモード選択装置は、前記ステレオモードの前記最初の選択に続いて、いくつかの所与の条件が満たされる場合に、前記ステレオ音信号をコード化するための前記第2のステレオモードを選択する、請求項4から7のいずれか一項に記載のステレオモード選択デバイス。
  12. 前記所与の条件が、以下の条件のうちの少なくとも1つ、すなわち、
    - 前記第1のステレオモードが前記ステレオ音信号の前記前フレームにおいて選択されること、
    - 前記第1のステレオモードが前記ステレオ音信号の前記現フレームにおいて最初に選択されること、
    - 前記現フレームにおける前記検出装置の前記第2の出力は、前記ステレオ音信号におけるクロストークの存在を指示すること、
    - (i)前記前フレームが音声フレームとして決定される、および、(ii)前記分類装置からの前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記検出装置からの前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示すること、
    - 前記前フレームにおいて、前記第1のステレオモードを使用するいくつかの連続フレームのカウンタが第1の値より大きいこと、
    - 前記前フレームにおいて、前記第2のステレオモードを使用するいくつかの連続フレームのカウンタが第2の値より大きいこと、
    - 前記前フレームにおいて、前記ステレオ音信号のクラスが、あらかじめ定められたクラスのセット内にあること、ならびに、
    - (i)前記ステレオ音信号をコード化するために使用される全ビットレートが第3の値以上である、または、(ii)前記検出装置からの前記ステレオ音信号におけるクロストークを表すスコアが、前記前フレームにおける第4の値より小さいこと
    のうちの少なくとも1つを含む、請求項11に記載のステレオモード選択デバイス。
  13. 前記分析処理装置は、前記第1のステレオモードから前記第2のステレオモードへと切替する前の短い移行にわたって適用される下位モードにおいて動作する前記第1のステレオモードを指示する補助下位モードフラグを、前記補助パラメータのうちの1つとして計算する、請求項1から12のいずれか一項に記載のステレオモード選択デバイス。
  14. 前記分析処理装置は、(a)前記前フレームが音声フレームとして決定され、(b)前記分類装置からの前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記検出装置からの前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、前記ステレオ音信号のフレームにおいて前記補助下位モードフラグをリセットする、請求項13に記載のステレオモード選択デバイス。
  15. 前記分析処理装置は、(1)前記分析処理装置によって補助パラメータとして計算される補助ステレオモード切替フラグが1に等しい場合、(2)前記前フレームの前記ステレオモードが前記第1のステレオモードでない場合、または、(3)前記第1のステレオモードを使用するフレームのカウンタが所与の値より小さい場合、前記ステレオ音信号のフレームにおいて前記補助下位モードフラグを1にリセットする、請求項14に記載のステレオモード選択デバイス。
  16. 前記分析処理装置は、前記条件(1)~(3)のいずれも満たされない場合、前記ステレオ音信号のフレームにおいて前記補助下位モードフラグを0にリセットする、請求項15に記載のステレオモード選択デバイス。
  17. 前記分析処理装置は、以下の条件のうちの少なくとも1つ、すなわち、(a)前記前フレームが音声フレームとして決定されること、および、(b)前記分類装置からの前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記検出装置からの前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示することの少なくとも1つが満たされる場合、前記ステレオ音信号のフレームにおいて前記補助下位モードフラグを変更しない、請求項13から16のいずれか一項に記載のステレオモード選択デバイス。
  18. 前記分析処理装置は、前記第1のステレオモードを使用するいくつかの連続的フレームのカウンタを前記補助パラメータのうちの1つとして含む、請求項1から17のいずれか一項に記載のステレオモード選択デバイス。
  19. 前記分析処理装置は、(a)前記前フレームが音声フレームとして決定され、(b)前記分類装置からの前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記検出装置からの前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、前記第1のステレオモードを使用するいくつかの連続的フレームの前記カウンタをインクリメントする、請求項18に記載のステレオモード選択デバイス。
  20. 前記分析処理装置は、前記第2のステレオモードが現フレームにおいて前記ステレオモード選択装置によって選択される場合、前記第1のステレオモードを使用するいくつかの連続的フレームの前記カウンタをゼロにリセットする、請求項18または19に記載のステレオモード選択デバイス。
  21. 前記第1のステレオモードを使用するいくつかの連続的フレームの前記カウンタは上限閾値に制限される、請求項18から20のいずれか一項に記載のステレオモード選択デバイス。
  22. 前記分析処理装置は、前記第2のステレオモードを使用するいくつかの連続的フレームのカウンタを前記補助パラメータのうちの1つとして含む、請求項1から21のいずれか一項に記載のステレオモード選択デバイス。
  23. 前記分析処理装置は、前記第2のステレオモードが現フレームにおいて選択される場合、前記第2のステレオモードを使用するいくつかの連続的フレームの前記カウンタをインクリメントする、請求項22に記載のステレオモード選択デバイス。
  24. 前記分析処理装置は、前記第1のステレオモードが現フレームにおいて前記ステレオモード選択装置によって選択される場合、前記第2のステレオモードを使用するいくつかの連続的フレームの前記カウンタをゼロにリセットする、請求項22または23に記載のステレオモード選択デバイス。
  25. 前記第2のステレオモードを使用するいくつかの連続的フレームの前記カウンタは上限閾値に制限される、請求項22から24のいずれか一項に記載のステレオモード選択デバイス。
  26. 前記分析処理装置は、補助ステレオモード切替フラグを前記補助パラメータのうちの1つとして生成する、請求項1から25のいずれか一項に記載のステレオモード選択デバイス。
  27. 前記分析処理装置は、現フレームにおいて、前記補助ステレオモード切替フラグを、(i)(a)前フレームが音声フレームとして決定され、(b)前記分類装置からの前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記検出装置からの前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、1に初期化し、(ii)前記条件(a)および(b)のうちの少なくとも1つが満たされないとき、0に初期化する、請求項26に記載のステレオモード選択デバイス。
  28. 前記分析処理装置は、前記ステレオ音信号の前記左チャンネルと前記右チャンネルとが位相の不一致であるとき、前記補助ステレオモード切替フラグを0に設定する、請求項26または27に記載のステレオモード選択デバイス。
  29. 前記分析処理装置は、前記補助ステレオモード切替フラグを前記補助パラメータのうちの1つとして生成する、請求項10または15に記載のステレオモード選択デバイス。
  30. 前記分析処理装置は、現フレームにおいて、前記補助ステレオモード切替フラグを、(i)(a)前記前フレームが音声フレームとして決定され、(b)前記分類装置からの前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記検出装置からの前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、1に初期化し、(ii)前記条件(a)および(b)のうちの少なくとも1つが満たされないとき、0に初期化する、請求項29に記載のステレオモード選択デバイス。
  31. 前記分析処理装置は、前記ステレオ音信号の前記左チャンネルと前記右チャンネルとが位相の不一致であるとき、前記補助ステレオモード切替フラグを0に設定する、請求項29または30に記載のステレオモード選択デバイス。
  32. 前記ステレオ音信号における非相関ステレオコンテンツの存在または不在を指示する第1の出力を生成するための前記分類装置は、請求項1から21のいずれか一項に定められるような非相関ステレオコンテンツの前記分類装置を備える、請求項1から31のいずれか一項に記載のステレオモード選択デバイス。
  33. 前記ステレオ音信号におけるクロストークの存在または不在を指示する第2の出力を生成するための前記検出装置と、は、請求項41から60のいずれか一項に定められるようなクロストークの前記検出装置を備える、請求項1から32のいずれか一項に記載のステレオモード選択デバイス。
  34. 左チャンネルと右チャンネルとを含むステレオ音信号をコード化するための第1のステレオモードおよび第2のステレオモードの一方を選択するためのデバイスであって、
    少なくとも1つの処理装置と、
    前記処理装置に連結される記憶装置であって、実行されるとき、前記処理装置に、
    前記ステレオ音信号における非相関ステレオコンテンツの存在または不在を指示する第1の出力を生成するための分類装置と、
    前記ステレオ音信号におけるクロストークの存在または不在を指示する第2の出力を生成するための検出装置と、
    ステレオ音信号をコード化するための前記ステレオモードを選択するときにおける使用のための補助パラメータを計算するための分析処理装置、ならびに、
    前記第1の出力、前記第2の出力、および前記補助パラメータに応答して、ステレオ音信号をコード化するための前記ステレオモードを選択するためのステレオモード選択装置と、
    を実施させる非一時的命令を含む記憶装置と
    を備えるデバイス。
  35. 左チャンネルと右チャンネルとを含むステレオ音信号をコード化するための第1のステレオモードおよび第2のステレオモードの一方を選択するためのデバイスであって、
    少なくとも1つの処理装置と、
    前記処理装置に連結される記憶装置であって、実行されるとき、前記処理装置に、
    前記ステレオ音信号における非相関ステレオコンテンツの存在または不在を指示する第1の出力を生成させることと、
    前記ステレオ音信号におけるクロストークの存在または不在を指示する第2の出力を生成させることと、
    ステレオ音信号をコード化するための前記ステレオモードを選択するときにおける使用のための補助パラメータを計算させることと、ならびに、
    前記第1の出力、前記第2の出力、および前記補助パラメータに応答して、ステレオ音信号をコード化するための前記ステレオモードを選択させることと、
    を実施させる非一時的命令を含む記憶装置と、
    を備えるデバイス。
  36. 左チャンネルと右チャンネルとを含むステレオ音信号をコード化するための第1のステレオモードおよび第2のステレオモードの一方を選択するための方法であって、
    前記ステレオ音信号における非相関ステレオコンテンツの存在または不在を指示する第1の出力を生成するステップと、
    前記ステレオ音信号におけるクロストークの存在または不在を指示する第2の出力を生成するステップと、
    ステレオ音信号をコード化するための前記ステレオモードを選択するときにおける使用のための補助パラメータを計算するステップと、
    前記第1の出力、前記第2の出力、および前記補助パラメータに応答して、ステレオ音信号をコード化するための前記ステレオモードを選択するステップと
    を含む方法。
  37. 前記第1のステレオモードは、前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオモードであり、前記第2のステレオモードは周波数領域ステレオモードである、請求項36に記載のステレオモード選択方法。
  38. 前記ステレオ音信号の現フレームにおいて、前記ステレオモードを選択する前記ステップは、前記ステレオ音信号の前フレームからの前記第1の出力と、前記前フレームからの前記第2の出力とを使用することを含む、請求項36または37に記載のステレオモード選択方法。
  39. 前記ステレオモードを選択する前記ステップは、前記ステレオ音信号をコード化するための前記ステレオモードの最初の選択を、前記第1のステレオモードと前記第2のステレオモードとの間で実施することを含む、請求項36から38のいずれか一項に記載のステレオモード選択方法。
  40. 前記ステレオモードを選択する前記ステップは、前記ステレオ音信号をコード化するための前記ステレオモードの前記最初の選択を実施するために、前記前フレームが音声フレームであるかどうかを決定することを含む、請求項39に記載のステレオモード選択方法。
  41. 前記ステレオモードを選択する前記ステップは、前記ステレオ音信号をコード化するための前記ステレオモードの前記最初の選択において、前記ステレオ音信号の各々のフレームで、前記ステレオ音信号をコード化するための前記ステレオモードを、前記前フレームにおいて選択された前記ステレオモードに初期化することを含む、請求項40に記載のステレオモード選択方法。
  42. 前記ステレオモードを選択する前記ステップは、前記ステレオモードの前記最初の選択において、(a)前記前フレームが音声フレームとして決定され、(b)前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、前記ステレオ音信号をコード化するための前記第1のステレオモードを選択することを含む、請求項40または41に記載のステレオモード選択方法。
  43. 前記ステレオモードを選択する前記ステップは、前記ステレオ音信号をコード化するための前記ステレオモードの前記最初の選択において、(i)前記条件(a)および(b)の少なくとも一方が満たされず、(ii)前記前フレームで選択された前記ステレオモードが前記第2のステレオモードである場合、前記ステレオ音信号をコード化するための前記第2のステレオモードを選択することを含む、請求項42に記載のステレオモード選択方法。
  44. 前記ステレオモードを選択する前記ステップは、前記ステレオモードの前記最初の選択において、(i)前記条件(a)および(b)の少なくとも一方が満たされず、(ii)前記前フレームで選択された前記ステレオモードが前記第1のステレオモードである場合、前記補助パラメータのうちの1つに関して前記ステレオ音信号をコード化するための前記ステレオモードを選択することを含む、請求項42または43に記載のステレオモード選択方法。
  45. 前記1つの補助パラメータは補助ステレオモード切替フラグである、請求項44に記載のステレオモード選択方法。
  46. 前記ステレオモードを選択する前記ステップは、前記ステレオモードの前記最初の選択に続いて、いくつかの所与の条件が満たされる場合に、前記ステレオ音信号をコード化するための前記第2のステレオモードを選択することを含む、請求項39から42のいずれか一項に記載のステレオモード選択方法。
  47. 前記所与の条件が、以下の条件のうちの少なくとも1つ、すなわち、
    - 前記第1のステレオモードが前記ステレオ音信号の前記前フレームにおいて選択されること、
    - 前記第1のステレオモードが前記ステレオ音信号の前記現フレームにおいて最初に選択されること、
    - 前記現フレームにおける前記第2の出力は、前記ステレオ音信号におけるクロストークの存在を指示すること、
    - (i)前記前フレームが音声フレームとして決定される、および、(ii)前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示すること、
    - 前記前フレームにおいて、前記第1のステレオモードを使用するいくつかの連続フレームのカウンタが第1の値より大きいこと、
    - 前記前フレームにおいて、前記第2のステレオモードを使用するいくつかの連続フレームのカウンタが第2の値より大きいこと、
    - 前記前フレームにおいて、前記ステレオ音信号のクラスが、あらかじめ定められたクラスのセット内にあること、ならびに、
    - (i)前記ステレオ音信号をコード化するために使用される全ビットレートが第3の値以上である、または、(ii)前記ステレオ音信号におけるクロストークを表すスコアが、前記前フレームにおける第4の値より小さいこと
    のうちの少なくとも1つを含む、請求項46に記載のステレオモード選択方法。
  48. 前記補助パラメータを計算する前記ステップは、前記第1のステレオモードから前記第2のステレオモードへと切替する前の短い移行にわたって適用される下位モードにおいて動作する前記第1のステレオモードを指示する補助下位モードフラグを、前記補助パラメータのうちの1つとして計算することを含む、請求項36から47のいずれか一項に記載のステレオモード選択方法。
  49. 前記補助パラメータを計算する前記ステップは、(a)前記前フレームが音声フレームとして決定され、(b)前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、前記ステレオ音信号のフレームにおいて前記補助下位モードフラグをリセットすることを含む、請求項48に記載のステレオモード選択方法。
  50. 前記補助パラメータを計算する前記ステップは、(1)補助パラメータとして計算される補助ステレオモード切替フラグが1に等しい場合、(2)前記前フレームの前記ステレオモードが前記第1のステレオモードでない場合、または、(3)前記第1のステレオモードを使用するフレームのカウンタが所与の値より小さい場合、前記ステレオ音信号のフレームにおいて前記補助下位モードフラグを1にリセットすることを含む、請求項49に記載のステレオモード選択方法。
  51. 前記補助パラメータを計算する前記ステップは、前記条件(1)~(3)のいずれも満たされない場合、前記ステレオ音信号のフレームにおいて前記補助下位モードフラグを0にリセットすることを含む、請求項50に記載のステレオモード選択方法。
  52. 前記補助パラメータを計算する前記ステップは、前記条件のうちの少なくとも1つ、すなわち、(a)前記前フレームが音声フレームとして決定されること、および、(b)前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示することの少なくとも1つが満たされる場合、前記ステレオ音信号のフレームにおいて前記補助下位モードフラグへの変更を行わないことを含む、請求項48から51のいずれか一項に記載のステレオモード選択方法。
  53. 前記補助パラメータを計算する前記ステップは、前記第1のステレオモードを使用するいくつかの連続的フレームのカウンタを前記補助パラメータのうちの1つとして計算することを含む、請求項36から52のいずれか一項に記載のステレオモード選択方法。
  54. 前記補助パラメータを計算する前記ステップは、(a)前記前フレームが音声フレームとして決定され、(b)前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、前記第1のステレオモードを使用するいくつかの連続的フレームの前記カウンタをインクリメントすることを含む、請求項53に記載のステレオモード選択方法。
  55. 前記補助パラメータを計算する前記ステップは、前記第2のステレオモードが現フレームにおいて選択される場合、前記第1のステレオモードを使用するいくつかの連続的フレームの前記カウンタをゼロにリセットすることを含む、請求項53または54に記載のステレオモード選択方法。
  56. 前記第1のステレオモードを使用するいくつかの連続的フレームの前記カウンタを上限閾値に制限するステップを含む、請求項53から55のいずれか一項に記載のステレオモード選択方法。
  57. 前記補助パラメータを計算する前記ステップは、前記第2のステレオモードを使用するいくつかの連続的フレームのカウンタを前記補助パラメータのうちの1つとして計算することを含む、請求項36から56のいずれか一項に記載のステレオモード選択方法。
  58. 前記補助パラメータを計算する前記ステップは、前記第2のステレオモードが現フレームにおいて選択される場合、前記第2のステレオモードを使用するいくつかの連続的フレームの前記カウンタをインクリメントすることを含む、請求項57に記載のステレオモード選択方法。
  59. 前記補助パラメータを計算する前記ステップは、前記第1のステレオモードが現フレームにおいて前記ステレオモード選択装置によって選択される場合、前記第2のステレオモードを使用するいくつかの連続的フレームの前記カウンタをゼロにリセットすることを含む、請求項57または58に記載のステレオモード選択方法。
  60. 前記第2のステレオモードを使用するいくつかの連続的フレームの前記カウンタを上限閾値に制限するステップを含む、請求項57から59のいずれか一項に記載のステレオモード選択方法。
  61. 前記補助パラメータを計算する前記ステップは、補助ステレオモード切替フラグを前記補助パラメータのうちの1つとして生成することを含む、請求項36から60のいずれか一項に記載のステレオモード選択方法。
  62. 前記補助パラメータを計算する前記ステップは、現フレームにおいて、前記補助ステレオモード切替フラグを、(i)(a)前フレームが音声フレームとして決定され、(b)前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、1に初期化し、(ii)前記条件(a)および(b)のうちの少なくとも1つが満たされないとき、0に初期化することを含む、請求項61に記載のステレオモード選択方法。
  63. 前記補助パラメータを計算する前記ステップは、前記ステレオ音信号の前記左チャンネルと前記右チャンネルとが位相の不一致であるとき、前記補助ステレオモード切替フラグを0に設定することを含む、請求項61または62に記載のステレオモード選択方法。
  64. 前記補助パラメータを計算する前記ステップは、前記補助ステレオモード切替フラグを前記補助パラメータのうちの1つとして生成することを含む、請求項45または50に記載のステレオモード選択方法。
  65. 前記補助パラメータを計算する前記ステップは、現フレームにおいて、前記補助ステレオモード切替フラグを、(i)(a)前記前フレームが音声フレームとして決定され、(b)前記第1の出力が、前記前フレームにおける非相関ステレオコンテンツの存在を指示する、または、前記第2の出力が、前記前フレームにおいての前記ステレオ音信号におけるクロストークの存在を指示する場合、1に初期化し、(ii)前記条件(a)および(b)のうちの少なくとも1つが満たされないとき、0に初期化することを含む、請求項64に記載のステレオモード選択方法。
  66. 前記補助パラメータを計算する前記ステップは、前記ステレオ音信号の前記左チャンネルと前記右チャンネルとが位相の不一致であるとき、前記補助ステレオモード切替フラグを0に設定することを含む、請求項64または65に記載のステレオモード選択方法。
  67. 前記ステレオ音信号における非相関ステレオコンテンツの存在または不在を指示する第1の出力を生成する前記ステップは、請求項22から40のいずれか一項に定められるような非相関ステレオコンテンツを分類するための前記方法を含む、請求項36から66のいずれか一項に記載のステレオモード選択方法。
  68. 前記ステレオ音信号におけるクロストークの存在または不在を指示する第2の出力を生成する前記ステップは、請求項61から78のいずれか一項に定められるようなクロストークを検出するための前記方法を含む、請求項36から66のいずれか一項に記載のステレオモード選択方法。
  69. 左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、前記左チャンネルおよび前記右チャンネルを含む前記ステレオ音信号におけるクロストークの検出装置であって、
    前記抽出された特徴に応答する、前記ステレオ音信号におけるクロストークを表すスコアの計算装置と、
    前記ステレオ音信号におけるクロストークを検出するときにおける使用のための補助パラメータの計算装置と、
    前記ステレオ音信号におけるクロストークの存在を指示する第1のクラスと、前記ステレオ音信号におけるクロストークの不在を指示する第2のクラスとの間での切替のための、前記クロストークスコアおよび前記補助パラメータに応答するクラス切替機構と
    を備える検出装置。
  70. クロストークの前記検出はロジスティック回帰モデルに基づく、請求項69に記載のクロストーク検出装置。
  71. 前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオモードにおいて、前記抽出された特徴は、以下の特徴のうちの少なくとも1つ、すなわち、
    - 前記左チャンネルにおけるFEC(フレーム消去隠蔽)クラスと前記右チャンネルにおけるFECクラスとの間の差、
    - 前記左チャンネルの最大自己相関値と前記右チャンネルの最大自己相関値との間の差、
    - 前記左チャンネルにおけるLSF(線スペクトル周波数)値の合計と前記右チャンネルにおけるLSF値の合計との間の差、
    - 前記左チャンネルと前記右チャンネルとの間での残余誤差エネルギーにおける差、
    - 前記左チャンネルの相関マップと前記右チャンネルの相関マップとの間の差、
    - 前記左チャンネルと前記右チャンネルとの間での騒音特性の差、
    - 前記左チャンネルと前記右チャンネルとの間での非定常性における差、
    - 前記左チャンネルと前記右チャンネルとの間でのスペクトル多様性における差、
    - ゼロのタイムラグでの前記左チャンネルと前記右チャンネルとのチャンネル間相関関数の非正規化値、
    - 前記左チャンネルと前記右チャンネルとの平均として計算されるモノラル信号のエネルギーと、前記左チャンネルと前記右チャンネルとの間の差を使用して計算される側信号のエネルギーとの間の割合、
    - (a)前記左チャンネルと前記モノラル信号との間の点乗積、および前記右チャンネルと前記モノラル信号との間の点乗積の最大と、(b)前記左チャンネルと前記モノラル信号との間の前記点乗積、および前記右チャンネルと前記モノラル信号との間の前記点乗積の最小との間の差、
    - ゼロのタイムラグでの前記左チャンネルと前記右チャンネルとのチャンネル間相関関数の値、
    - 前記チャンネル間相関関数の開方、
    - 前記チャンネル間相関関数の最大の位置、
    - 前記チャンネル間相関関数の最大値、
    - 前記左チャンネルと前記モノラル信号との間の前記点乗積と、前記右チャンネルと前記モノラル信号との間の前記点乗積との間の差、ならびに、
    - 前記側信号の前記エネルギーと前記モノラル信号の前記エネルギーとの間の平滑化された割合
    のうちの少なくとも1つを含む、請求項69または70に記載のクロストーク検出装置。
  72. 各々の抽出された特徴の正規化装置を備え、前記正規化装置は、前記抽出された特徴の平均を除去し、前記抽出された特徴を前記抽出された特徴の単位分散へと増減する、請求項69から71のいずれか一項に記載のクロストーク検出装置。
  73. 出力が前記抽出された特徴の線形結合として計算されるロジスティック回帰モデルを備える、請求項69から72のいずれか一項に記載のクロストーク検出装置。
  74. 前記スコア計算装置は前記ロジスティック回帰モデルの前記出力を正規化する、請求項73に記載のクロストーク検出装置。
  75. 前記スコア計算装置は、前記ステレオ音信号におけるクロストークを表す前記スコアを生成するために、現フレームの相対エネルギーを使用して、前記ロジスティック回帰モデルの前記出力に重み付けをする、請求項73または74に記載のクロストーク検出装置。
  76. 前記スコア計算装置は、前記ロジスティック回帰モデルの前記出力に重み付けする前に、前記現フレームの前記相対エネルギーを所与の区間に反比例で線形写像する、請求項75に記載のクロストーク検出装置。
  77. 前記スコア計算装置は、前記ステレオ音信号におけるクロストークを表す平滑化されたスコアを生成するために、前記現フレームにおける前記相対エネルギーの立ち上がりエッジを使用して、前記ロジスティック回帰モデルの前記重み付けされた出力を平滑化する、請求項75または76に記載のクロストーク検出装置。
  78. 周波数領域ステレオコード化モードにおいて、前記抽出された特徴は、以下の特徴のうちの少なくとも1つ、すなわち、
    - チャンネル間レベル差(ILD)ゲイン、
    - チャンネル間位相差(IPD)ゲイン、
    - IPD回転角度、
    - 前記左チャンネルと前記右チャンネルとの間の位相差を表す予測ゲイン、
    - チャンネル間コヒーレンスの平均エネルギー、
    - 最大チャンネル間振幅乗積と最小チャンネル間振幅乗積との割合、
    - 相互チャンネルスペクトルの全体の大きさ、
    - 位相差を伴う一般化相互チャンネル相関関数(GCC-PHAT)の最大値、
    - 前記GCC-PHAT関数の第1の最高ピークの振幅と第2の最高ピークの振幅との間の関係、
    - 前記GCC-PHAT関数の前記第2の最高ピークの振幅、および、
    - 前フレームにおける前記第2の最高ピークの位置に対する、現フレームにおける前記第2の最高ピークの位置の差
    のうちの少なくとも1つを含む、請求項69または70に記載のクロストーク検出装置。
  79. 各々の抽出された特徴の正規化装置を備え、前記正規化装置は、前記抽出された特徴の平均を除去し、前記抽出された特徴を前記抽出された特徴の単位分散へと増減する、請求項69、70、および78のいずれか一項に記載のクロストーク検出装置。
  80. 出力が前記抽出された特徴の線形結合として計算されるロジスティック回帰モデルを備える、請求項69、70、78、および79のいずれか一項に記載のクロストーク検出装置。
  81. 前記スコア計算装置は、前記ステレオ音信号におけるクロストークを表す平滑化されたスコアを生成するために、現フレームにおける相対エネルギーの立ち上がりエッジを使用して、前記ロジスティック回帰モデルの前記出力を平滑化する、請求項80に記載のクロストーク検出装置。
  82. 前記クラス切替機構は、前記第1のクラスを指示する第1の値と、前記第2のクラスを指示する第2の値とを有する二進状態出力を生成する、請求項69から81のいずれか一項に記載のクロストーク検出装置。
  83. 前記クラス切替機構は、前記クロストークスコアおよび前記補助パラメータを、前記第1のクラスと前記第2のクラスとの間での切替のための所与の値と比較する、請求項69から82のいずれか一項に記載のクロストーク検出装置。
  84. 前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオコード化モードにおいて、前記補助パラメータは、以下のパラメータのうちの少なくとも1つ、すなわち、
    - 前記ステレオ音信号の前記左チャンネルおよび前記右チャンネルにおける非相関ステレオコンテンツの分類装置の出力、
    - 前フレームにおける前記クラス切替機構の出力であって、前記第1のクラスおよび前記第2のクラスの一方であるクラス切替機構出力、ならびに、
    - 前記ステレオモード同士の間での切替が可能であるフレームのカウンタ
    のうちの少なくとも1つを含む、請求項69から83のいずれか一項に記載のクロストーク検出装置。
  85. 周波数領域ステレオコード化モードにおいて、前記補助パラメータは、以下のパラメータのうちの少なくとも1つ、すなわち、
    - 前フレームにおける前記クラス切替機構の出力であって、前記第1のクラスおよび前記第2のクラスの一方である前記クラス切替機構出力、
    - 現フレームにおける音声活動検出(VAD)フラグ、
    - 前記左チャンネルおよび前記右チャンネルの複素相互チャンネルスペクトルの位相差を伴う一般化相互チャンネル相関関数(GCC-PHAT)の第1の最高ピークおよび第2の最高ピークの振幅、
    - GCC-PHAT関数の前記第1の最高ピークおよび前記第2の最高ピークに対応するチャンネル間時間差(ITD)位置、ならびに、
    - ステレオ信号無音フラグ
    のうちの少なくとも1つを含む、請求項69から84のいずれか一項に記載のクロストーク検出装置。
  86. 前記ステレオモードは時間領域ステレオモードと周波数領域ステレオモードとを含む、請求項84に記載のクロストーク検出装置。
  87. 左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、前記左チャンネルおよび前記右チャンネルを含む前記ステレオ音信号におけるクロストークの検出装置であって、
    少なくとも1つの処理装置と、
    前記処理装置に連結される記憶装置であって、実行されるとき、前記処理装置に、
    前記抽出された特徴に応答する、前記ステレオ音信号におけるクロストークを表すスコアの計算装置、
    前記ステレオ音信号におけるクロストークを検出するときにおける使用のための補助パラメータの計算装置、ならびに、
    前記ステレオ音信号におけるクロストークの存在を指示する第1のクラスと、前記ステレオ音信号におけるクロストークの不在を指示する第2のクラスとの間での切替のための、前記クロストークスコアおよび前記補助パラメータに応答するクラス切替機構
    を実施させる非一時的命令を含む記憶装置と
    を備える検出装置。
  88. 左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、前記左チャンネルおよび前記右チャンネルを含む前記ステレオ音信号におけるクロストークの検出装置であって、
    少なくとも1つの処理装置と、
    前記処理装置に連結される記憶装置であって、実行されるとき、前記処理装置に、
    前記抽出された特徴に応答して、前記ステレオ音信号におけるクロストークを表すスコアを計算させる、
    前記ステレオ音信号におけるクロストークを検出するときにおける使用のための補助パラメータを計算させる、ならびに、
    前記クロストークスコアおよび前記補助パラメータに応答して、前記ステレオ音信号におけるクロストークの存在を指示する第1のクラスと、前記ステレオ音信号におけるクロストークの不在を指示する第2のクラスとの間で切替させる
    非一時的命令を含む記憶装置と
    を備える検出装置。
  89. 左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答して、前記左チャンネルおよび前記右チャンネルを含む前記ステレオ音信号におけるクロストークを検出するための方法であって、
    前記抽出された特徴に応答して、前記ステレオ音信号におけるクロストークを表すスコアを計算するステップと、
    前記ステレオ音信号におけるクロストークを検出するときにおける使用のための補助パラメータを計算するステップと、
    前記クロストークスコアおよび前記補助パラメータに応答して、前記ステレオ音信号におけるクロストークの存在を指示する第1のクラスと、前記ステレオ音信号におけるクロストークの不在を指示する第2のクラスとの間で切替するステップと
    を含む方法。
  90. クロストークの前記検出はロジスティック回帰モデルに基づく、請求項89に記載のクロストーク検出方法。
  91. 前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオモードにおいて、前記抽出された特徴は、以下の特徴のうちの少なくとも1つ、すなわち、
    - 前記左チャンネルにおけるFEC(フレーム消去隠蔽)クラスと前記右チャンネルにおけるFECクラスとの間の差、
    - 前記左チャンネルの最大自己相関値と前記右チャンネルの最大自己相関値との間の差、
    - 前記左チャンネルにおけるLSF(線スペクトル周波数)値の合計と前記右チャンネルにおけるLSF値の合計との間の差、
    - 前記左チャンネルと前記右チャンネルとの間での残余誤差エネルギーにおける差、
    - 前記左チャンネルの相関マップと前記右チャンネルの相関マップとの間の差、
    - 前記左チャンネルと前記右チャンネルとの間での騒音特性の差、
    - 前記左チャンネルと前記右チャンネルとの間での非定常性における差、
    - 前記左チャンネルと前記右チャンネルとの間でのスペクトル多様性における差、
    - ゼロのタイムラグでの前記左チャンネルと前記右チャンネルとのチャンネル間相関関数の非正規化値、
    - 前記左チャンネルと前記右チャンネルとの平均として計算されるモノラル信号のエネルギーと、前記左チャンネルと前記右チャンネルとの間の差を使用して計算される側信 - のエネルギーとの間の割合、
    - (a)前記左チャンネルと前記モノラル信号との間の点乗積、および前記右チャンネルと前記モノラル信号との間の点乗積の最大と、(b)前記左チャンネルと前記モノラル信号との間の前記点乗積、および前記右チャンネルと前記モノラル信号との間の前記点乗積の最小との間の差、
    - ゼロのタイムラグでの前記左チャンネルと前記右チャンネルとのチャンネル間相関関数の値、
    - 前記チャンネル間相関関数の開方、
    - 前記チャンネル間相関関数の最大の位置、
    - 前記チャンネル間相関関数の最大値、
    - 前記左チャンネルと前記モノラル信号との間の前記点乗積と、前記右チャンネルと前記モノラル信号との間の前記点乗積との間の差、ならびに、
    - 前記側信号の前記エネルギーと前記モノラル信号の前記エネルギーとの間の平滑化された割合
    のうちの少なくとも1つを含む、請求項89または90に記載のクロストーク検出方法。
  92. 各々の抽出された特徴を正規化するステップであって、前記抽出された特徴の平均を除去し、前記抽出された特徴を前記抽出された特徴の単位分散へと増減することを含むステップを含む、請求項89から91のいずれか一項に記載のクロストーク検出方法。
  93. 出力が前記抽出された特徴の線形結合として計算されるロジスティック回帰モデルを使用するステップを含む、請求項89から92のいずれか一項に記載のクロストーク検出方法。
  94. クロストークを表す前記スコアを計算する前記ステップは、前記ロジスティック回帰モデルの前記出力を正規化することを含む、請求項93に記載のクロストーク検出方法。
  95. クロストークを表す前記スコアを計算する前記ステップは、前記ステレオ音信号におけるクロストークを表す前記スコアを生成するために、現フレームの相対エネルギーを使用して、前記ロジスティック回帰モデルの前記出力に重み付けをすることを含む、請求項93または94に記載のクロストーク検出方法。
  96. クロストークを表す前記スコアを計算する前記ステップは、前記ロジスティック回帰モデルの前記出力に重み付けする前に、前記現フレームの前記相対エネルギーを所与の区間に反比例で線形写像することを含む、請求項95に記載のクロストーク検出方法。
  97. クロストークを表す前記スコアを計算する前記ステップは、前記ステレオ音信号におけるクロストークを表す平滑化されたスコアを生成するために、前記現フレームにおける前記相対エネルギーの立ち上がりエッジを使用して、前記ロジスティック回帰モデルの前記重み付けされた出力を平滑化することを含む、請求項95または96に記載のクロストーク検出方法。
  98. 周波数領域ステレオコード化モードにおいて、前記抽出された特徴は、以下の特徴のうちの少なくとも1つ、すなわち、
    - チャンネル間レベル差(ILD)ゲイン、
    - チャンネル間位相差(IPD)ゲイン、
    - IPD回転角度、
    - 前記左チャンネルと前記右チャンネルとの間の位相差を表す予測ゲイン、
    - チャンネル間コヒーレンスの平均エネルギー、
    - 最大チャンネル間振幅乗積と最小チャンネル間振幅乗積との割合、
    - 相互チャンネルスペクトルの全体の大きさ、
    - 位相差を伴う一般化相互チャンネル相関関数(GCC-PHAT)の最大値、
    - 前記GCC-PHAT関数の第1の最高ピークの振幅と第2の最高ピークの振幅との間の関係、
    - 前記GCC-PHAT関数の前記第2の最高ピークの振幅、および、
    - 前フレームにおける前記第2の最高ピークの位置に対する、現フレームにおける前記第2の最高ピークの位置の差
    のうちの少なくとも1つを含む、請求項89または90に記載のクロストーク検出方法。
  99. 各々の抽出された特徴を正規化するステップであって、前記抽出された特徴の平均を除去し、前記抽出された特徴を前記抽出された特徴の単位分散へと増減することを含むステップを含む、請求項89、90、および98のいずれか一項に記載のクロストーク検出方法。
  100. 出力が前記抽出された特徴の線形結合として計算されるロジスティック回帰モデルを使用するステップを含む、請求項89、90、98、および99のいずれか一項に記載のクロストーク検出方法。
  101. クロストークを表す前記スコアを計算する前記ステップは、前記ステレオ音信号におけるクロストークを表す平滑化されたスコアを生成するために、現フレームにおける相対エネルギーの立ち上がりエッジを使用して、前記ロジスティック回帰モデルの前記出力を平滑化することを含む、請求項100に記載のクロストーク検出方法。
  102. 前記第1のクラスと前記第2のクラスとの間で切替する前記ステップは、前記第1のクラスを指示する第1の値と、前記第2のクラスを指示する第2の値とを有する二進状態出力を生成することを含む、請求項89から101のいずれか一項に記載のクロストーク検出方法。
  103. 前記第1のクラスと前記第2のクラスとの間で切替する前記ステップは、前記クロストークスコアおよび前記補助パラメータを、前記第1のクラスと前記第2のクラスとの間での切替のための所与の値と比較することを含む、請求項89から102のいずれか一項に記載のクロストーク検出方法。
  104. 前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオコード化モードにおいて、前記補助パラメータは、以下のパラメータのうちの少なくとも1つ、すなわち、
    - 前記ステレオ音信号の前記左チャンネルおよび前記右チャンネルにおける非相関ステレオコンテンツの分類装置の出力、
    - 前記第1のクラスと前記第2のクラスとの間での前記切替の出力であって、前記第1のクラスおよび前記第2のクラスの一方である前記クラス切替出力、ならびに、
    - 前記ステレオモード同士の間での切替が可能であるフレームのカウンタ
    のうちの少なくとも1つを含む、請求項89から103のいずれか一項に記載のクロストーク検出方法。
  105. 周波数領域ステレオコード化モードにおいて、前記補助パラメータは、以下のパラメータのうちの少なくとも1つ、すなわち、
    - 前フレームにおける前記第1のクラスと前記第2のクラスとの間での前記切替の出力であって、前記第1のクラスおよび前記第2のクラスの一方である前記クラス切替出力、
    - 現フレームにおける音声活動検出(VAD)フラグ、
    - 左チャンネルおよび右チャンネルの複素相互チャンネルスペクトルの位相差を伴う一般化相互チャンネル相関関数(GCC-PHAT)の第1の最高ピークおよび第2の最高ピークの振幅、
    - 前記GCC-PHAT関数の前記第1の最高ピークおよび前記第2の最高ピークに対応するチャンネル間時間差(ITD)位置、ならびに、
    - ステレオ信号無音フラグ
    のうちの少なくとも1つを含む、請求項89から104のいずれか一項に記載のクロストーク検出方法。
  106. 前記ステレオモードは時間領域ステレオモードと周波数領域ステレオモードとを含む、請求項104に記載のクロストーク検出方法。
  107. 左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、前記左チャンネルおよび前記右チャンネルを含む前記ステレオ音信号における非相関ステレオコンテンツの分類装置であって、
    前記抽出された特徴に応答する、前記ステレオ音信号における非相関ステレオコンテンツを表すスコアの計算装置と、
    前記ステレオ音信号における非相関ステレオコンテンツおよび相関ステレオコンテンツの一方を指示する第1のクラスと、前記非相関ステレオコンテンツおよび前記相関ステレオコンテンツの他方を指示する第2のクラスとの間での切替のための前記スコアに応答するクラス切替機構と
    を備える分類装置。
  108. 非相関ステレオコンテンツの分類はロジスティック回帰モデルに基づく、請求項107に記載の非相関ステレオコンテンツ分類装置。
  109. 前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオモードにおいて、前記抽出された特徴は、以下の特徴のうちの少なくとも1つ、すなわち、
    - 前記左チャンネルおよび前記右チャンネルのチャンネル間相互相関関数の最大の位置、
    - 瞬時標的ゲイン、
    - ゼロのタイムラグでの前記チャンネル間相関関数の絶対値の対数、
    - 前記左チャンネルと前記右チャンネルとの間の差に対応する側信号と、前記左チャンネルおよび前記右チャンネルの平均に対応するモノラル信号との間の側-モノラルエネルギー割合、
    - (a)前記左チャンネルと前記モノラル信号との間の点乗積、および前記右チャンネルと前記モノラル信号との間の点乗積の最大と、(b)前記左チャンネルと前記モノラル信号との間の前記点乗積、および前記右チャンネルと前記モノラル信号との間の前記点乗積の最小との間の差、
    - 対数領域における、前記左チャンネルと前記モノラル信号との間の前記点乗積と、前記右チャンネルと前記モノラル信号との間の前記点乗積との間の絶対差、
    - 前記相互チャンネル相関関数のゼロタイムラグ値、ならびに、
    - 前記チャンネル間相関関数の開方
    のうちの少なくとも1つを含む、請求項107または108に記載の非相関ステレオコンテンツ分類装置。
  110. 各々の抽出された特徴の正規化装置を備え、前記正規化装置は、前記抽出された特徴の平均を除去し、前記抽出された特徴を前記抽出された特徴の単位分散へと増減する、請求項107から109のいずれか一項に記載の非相関ステレオコンテンツ分類装置。
  111. 出力が前記抽出された特徴の線形結合として計算されるロジスティック回帰モデルを備える、請求項107から110のいずれか一項に記載の非相関ステレオコンテンツ分類装置。
  112. 前記スコア計算装置は、非相関ステレオコンテンツを表す前記スコアを生成するために、現フレームの相対エネルギーを使用して、前記ロジスティック回帰モデルの前記出力に重み付けをする、請求項111に記載の非相関ステレオコンテンツ分類装置。
  113. 前記スコア計算装置は、非相関ステレオコンテンツを表す平滑化されたスコアを生成するために、前記現フレームにおける前記相対エネルギーの立ち上がりエッジを使用して、前記ロジスティック回帰モデルの前記重み付けされた出力を平滑化する、請求項112に記載の非相関ステレオコンテンツ分類装置。
  114. 周波数領域ステレオコード化モードにおいて、前記抽出された特徴は、以下の特徴のうちの少なくとも1つ、すなわち、
    - チャンネル間レベル差(ILD)ゲイン、
    - チャンネル間位相差(IPD)ゲイン、
    - 角度の形態で前記チャンネル間位相差(IPD)を表すIPD回転角度、
    - 予測ゲイン、
    - 前記チャンネル間レベル差(ILD)および前記チャンネル間位相差(IPD)によって捕らえられない前記左チャンネルと前記右チャンネルとの間の差を表すチャンネル間コヒーレンスの平均エネルギー、
    - 最大チャンネル間振幅乗積と最小チャンネル間振幅乗積との割合、
    - 相互チャンネルスペクトルの大きさ、ならびに、
    - 位相差を伴う一般化相互チャンネル相関関数(GCC-PHAT)の最大値
    のうちの少なくとも1つを含む、請求項107または108に記載の非相関ステレオコンテンツ分類装置。
  115. 各々の抽出された特徴の正規化装置を備え、前記正規化装置は、前記抽出された特徴の平均を除去し、前記抽出された特徴を前記抽出された特徴の単位分散へと増減する、請求項114に記載の非相関ステレオコンテンツ分類装置。
  116. 出力が前記抽出された特徴の線形結合として計算されるロジスティック回帰モデルを備える、請求項107、108、114,および115のいずれか一項に記載の非相関ステレオコンテンツ分類装置。
  117. 前記スコア計算装置は、非相関ステレオコンテンツを表す前記スコアを生成するために、現フレームの相対エネルギーを使用して、前記ロジスティック回帰モデルの前記出力に重み付けをする、請求項116に記載の非相関ステレオコンテンツ分類装置。
  118. 前記スコア計算装置は、非相関ステレオコンテンツを表す平滑化されたスコアを生成するために、前記現フレームにおける前記相対エネルギーの立ち上がりエッジを使用して、前記ロジスティック回帰モデルの前記重み付けされた出力を平滑化する、請求項117に記載の非相関ステレオコンテンツ分類装置。
  119. 前記クラス切替機構は、前記ステレオ音信号における非相関ステレオコンテンツおよび相関ステレオコンテンツの一方を指示する第1の値と、前記非相関ステレオコンテンツおよび前記相関ステレオコンテンツの他方を指示する第2の値とを有する二進状態出力を生成する、請求項107から118のいずれか一項に記載の非相関ステレオコンテンツ分類装置。
  120. 前記クラス切替機構は、前記スコアを、前記第1のクラスと前記第2のクラスとの間での切替のための所与の値と比較する、請求項107から119のいずれか一項に記載の非相関ステレオコンテンツ分類装置。
  121. 第1のステレオモードと第2のステレオモードとの間の切替が可能であるフレームのカウンタを含む、請求項107から120のいずれか一項に記載の非相関ステレオコンテンツ分類装置。
  122. 前記第1のステレオモードは、前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオモードであり、前記第2のステレオモードは周波数領域ステレオモードである、請求項121に記載の非相関ステレオコンテンツ分類装置。
  123. 前記クラス切替機構は、前記第1のクラスと前記第2のクラスとの間での切替のために、前記スコアと前記カウンタとの両方に応答する、請求項121または122に記載の非相関ステレオコンテンツ分類装置。
  124. 前記スコアは現フレームからであり、前記カウンタは前フレームからである、請求項123に記載の非相関ステレオコンテンツ分類装置。
  125. 前記クラス切替機構は、前記スコアと前記カウンタとの両方を、前記第1のクラスと前記第2のクラスとの間での切替のための所与の値と比較する、請求項123または124に記載の非相関ステレオコンテンツ分類装置。
  126. 左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、前記左チャンネルおよび前記右チャンネルを含む前記ステレオ音信号における非相関ステレオコンテンツの分類装置であって、
    少なくとも1つの処理装置と、
    前記処理装置に連結される記憶装置であって、実行されるとき、前記処理装置に、
    前記抽出された特徴に応答する、前記ステレオ音信号における非相関ステレオコンテンツを表すスコアの計算装置、ならびに、
    前記ステレオ音信号における非相関ステレオコンテンツおよび相関ステレオコンテンツの一方を指示する第1のクラスと、前記非相関ステレオコンテンツおよび前記相関ステレオコンテンツの他方を指示する第2のクラスとの間での切替のための前記スコアに応答するクラス切替機構
    を実施させる非一時的命令を含む記憶装置と
    備える分類装置。
  127. 左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、前記左チャンネルおよび前記右チャンネルを含む前記ステレオ音信号における非相関ステレオコンテンツの分類装置であって、
    少なくとも1つの処理装置と、
    前記処理装置に連結される記憶装置であって、実行されるとき、前記処理装置に、
    前記抽出された特徴に応答して、前記ステレオ音信号における非相関ステレオコンテンツを表すスコアを計算させ、
    前記スコアに応答して、前記ステレオ音信号における非相関ステレオコンテンツおよび相関ステレオコンテンツの一方を指示する第1のクラスと、前記非相関ステレオコンテンツおよび前記相関ステレオコンテンツの他方を指示する第2のクラスとの間で切替させる
    非一時的命令を含む記憶装置と
    備える分類装置。
  128. 左チャンネルおよび右チャンネルを含むステレオ音信号から抽出される特徴に応答する、前記左チャンネルおよび前記右チャンネルを含む前記ステレオ音信号における非相関ステレオコンテンツを分類するための方法であって、
    前記抽出された特徴に応答して、前記ステレオ音信号における非相関ステレオコンテンツを表すスコアを計算するステップと、
    前記スコアに応答して、前記ステレオ音信号における非相関ステレオコンテンツおよび相関ステレオコンテンツの一方を指示する第1のクラスと、前記非相関ステレオコンテンツおよび前記相関ステレオコンテンツの他方を指示する第2のクラスとの間で切替するステップと
    を含む方法。
  129. 前記非相関ステレオコンテンツの分類はロジスティック回帰モデルに基づく、請求項128に記載の非相関ステレオコンテンツを分類するための方法。
  130. 前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオモードにおいて、前記抽出された特徴は、以下の特徴のうちの少なくとも1つ、すなわち、
    - 前記左チャンネルおよび前記右チャンネルのチャンネル間相互相関関数の最大の位置、
    - 瞬時標的ゲイン、
    - ゼロのタイムラグでの前記チャンネル間相関関数の絶対値の対数、
    - 前記左チャンネルと前記右チャンネルとの間の差に対応する側信号と、前記左チャンネルおよび前記右チャンネルの平均に対応するモノラル信号との間の側-モノラルエネルギー割合、
    - (a)前記左チャンネルと前記モノラル信号との間の点乗積、および前記右チャンネルと前記モノラル信号との間の点乗積の最大と、(b)前記左チャンネルと前記モノラル信号との間の前記点乗積、および前記右チャンネルと前記モノラル信号との間の前記点乗積の最小との間の差、
    - 対数領域における、前記左チャンネルと前記モノラル信号との間の前記点乗積と、前記右チャンネルと前記モノラル信号との間の前記点乗積との間の絶対差、
    - 前記相互チャンネル相関関数のゼロタイムラグ値、ならびに、
    - 前記チャンネル間相関関数の開方
    のうちの少なくとも1つを含む、請求項128または129に記載の非相関ステレオコンテンツを分類するための方法。
  131. 各々の抽出された特徴を正規化するステップであって、前記抽出された特徴の平均を除去し、前記抽出された特徴を前記抽出された特徴の単位分散へと増減することを含むステップを含む、請求項128から130のいずれか一項に記載の非相関ステレオコンテンツを分類するための方法。
  132. 出力が前記抽出された特徴の線形結合として計算されるロジスティック回帰モデルを使用するステップを含む、請求項128から131のいずれか一項に記載の非相関ステレオコンテンツを分類するための方法。
  133. 非相関ステレオコンテンツを表す前記スコアを計算する前記ステップは、非相関ステレオコンテンツを表す前記スコアを生成するために、現フレームの相対エネルギーを使用して、前記ロジスティック回帰モデルの前記出力に重み付けをすることを含む、請求項132に記載の非相関ステレオコンテンツを分類するための方法。
  134. 非相関ステレオコンテンツを表す前記スコアを計算する前記ステップは、非相関ステレオコンテンツを表す平滑化されたスコアを生成するために、前記現フレームにおける前記相対エネルギーの立ち上がりエッジを使用して、前記ロジスティック回帰モデルの前記重み付けされた出力を平滑化することを含む、請求項133に記載の非相関ステレオコンテンツを分類するための方法。
  135. 周波数領域ステレオコード化モードにおいて、前記抽出された特徴は、以下の特徴のうちの少なくとも1つ、すなわち、
    - チャンネル間レベル差(ILD)ゲイン、
    - チャンネル間位相差(IPD)ゲイン、
    - 角度の形態で前記チャンネル間位相差(IPD)を表すIPD回転角度、
    - 予測ゲイン、
    - 前記チャンネル間レベル差(ILD)および前記チャンネル間位相差(IPD)によって捕らえられない前記左チャンネルと前記右チャンネルとの間の差を表すチャンネル間コヒーレンスの平均エネルギー、
    - 最大チャンネル間振幅乗積と最小チャンネル間振幅乗積との割合、
    - 相互チャンネルスペクトルの大きさ、ならびに、
    - 位相差を伴う一般化相互チャンネル相関関数(GCC-PHAT)の最大値
    のうちの少なくとも1つを含む、請求項128または129に記載の非相関ステレオコンテンツを分類するための方法。
  136. 各々の抽出された特徴を正規化するステップであって、前記抽出された特徴の平均を除去し、前記抽出された特徴を前記抽出された特徴の単位分散へと増減することを含むステップを含む、請求項135に記載の非相関ステレオコンテンツを分類するための方法。
  137. 出力が前記抽出された特徴の線形結合として計算されるロジスティック回帰モデルを使用するステップを含む、請求項128、129、135、および136のいずれか一項に記載の非相関ステレオコンテンツを分類するための方法。
  138. 非相関ステレオコンテンツを表す前記スコアを計算する前記ステップは、非相関ステレオコンテンツを表す前記スコアを生成するために、現フレームの相対エネルギーを使用して、前記ロジスティック回帰モデルの前記出力に重み付けをすることを含む、請求項137に記載の非相関ステレオコンテンツを分類するための方法。
  139. 非相関ステレオコンテンツを表す前記スコアを計算する前記ステップは、非相関ステレオコンテンツを表す平滑化されたスコアを生成するために、前記現フレームにおける前記相対エネルギーの立ち上がりエッジを使用して、前記ロジスティック回帰モデルの前記重み付けされた出力を平滑化することを含む、請求項138に記載の非相関ステレオコンテンツを分類するための方法。
  140. 前記第1のクラスと前記第2のクラスとの間で切替する前記ステップは、前記ステレオ音信号における非相関ステレオコンテンツおよび相関ステレオコンテンツの一方を指示する第1の値と、前記非相関ステレオコンテンツおよび前記相関ステレオコンテンツの他方を指示する第2の値とを有する二進状態出力を生成することを含む、請求項128から139のいずれか一項に記載の非相関ステレオコンテンツを分類するための方法。
  141. 前記第1のクラスと前記第2のクラスとの間で切替する前記ステップは、前記スコアを所与の値と比較することを含む、請求項128から140のいずれか一項に記載の非相関ステレオコンテンツを分類するための方法。
  142. 第1のステレオモードと第2のステレオモードとの間の切替が可能であるフレームのカウンタを含む、請求項128から141のいずれか一項に記載の非相関ステレオコンテンツを分類するための方法。
  143. 前記第1のステレオモードは、前記左チャンネルと前記右チャンネルとが別々にコード化される時間領域ステレオモードであり、前記第2のステレオモードは周波数領域ステレオモードである、請求項142に記載の非相関ステレオコンテンツを分類するための方法。
  144. 前記第1のクラスと前記第2のクラスとの間で切替する前記ステップは、前記スコアと前記カウンタとの両方に応答する、請求項142または143に記載の非相関ステレオコンテンツを分類するための方法。
  145. 前記スコアは現フレームからであり、前記カウンタは前フレームからである、請求項144に記載の非相関ステレオコンテンツを分類するための方法。
  146. 前記第1のクラスと前記第2のクラスとの間で切替する前記ステップは、前記スコアおよび前記カウンタとの両方を、前記第1のクラスと前記第2のクラスとの間での切替のための所与の値と比較することを含む、請求項144または145に記載の非相関ステレオコンテンツを分類するための方法。
JP2023515652A 2020-09-09 2021-09-08 音コーデックにおける、非相関ステレオコンテンツの分類、クロストーク検出、およびステレオモード選択のための方法およびデバイス Pending JP2023540377A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063075984P 2020-09-09 2020-09-09
US63/075,984 2020-09-09
PCT/CA2021/051238 WO2022051846A1 (en) 2020-09-09 2021-09-08 Method and device for classification of uncorrelated stereo content, cross-talk detection, and stereo mode selection in a sound codec

Publications (1)

Publication Number Publication Date
JP2023540377A true JP2023540377A (ja) 2023-09-22

Family

ID=80629696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023515652A Pending JP2023540377A (ja) 2020-09-09 2021-09-08 音コーデックにおける、非相関ステレオコンテンツの分類、クロストーク検出、およびステレオモード選択のための方法およびデバイス

Country Status (9)

Country Link
US (1) US20240021208A1 (ja)
EP (1) EP4211683A1 (ja)
JP (1) JP2023540377A (ja)
KR (1) KR20230066056A (ja)
CN (1) CN116438811A (ja)
BR (1) BR112023003311A2 (ja)
CA (1) CA3192085A1 (ja)
MX (1) MX2023002825A (ja)
WO (1) WO2022051846A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR9609799A (pt) * 1995-04-10 1999-03-23 Corporate Computer System Inc Sistema para compressão e descompressão de sinais de áudio para transmissão digital
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
JP2008513845A (ja) * 2004-09-23 2008-05-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声データを処理するシステム及び方法、プログラム要素並びにコンピュータ読み取り可能媒体
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
CN107636757B (zh) * 2015-05-20 2021-04-09 瑞典爱立信有限公司 多声道音频信号的编码

Also Published As

Publication number Publication date
MX2023002825A (es) 2023-05-30
KR20230066056A (ko) 2023-05-12
WO2022051846A1 (en) 2022-03-17
CN116438811A (zh) 2023-07-14
CA3192085A1 (en) 2022-03-17
US20240021208A1 (en) 2024-01-18
EP4211683A1 (en) 2023-07-19
BR112023003311A2 (pt) 2023-03-21

Similar Documents

Publication Publication Date Title
Tan et al. Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios
US8532999B2 (en) Apparatus and method for generating a multi-channel synthesizer control signal, multi-channel synthesizer, method of generating an output signal from an input signal and machine-readable storage medium
US11594231B2 (en) Apparatus, method or computer program for estimating an inter-channel time difference
EP3035330A1 (en) Determining the inter-channel time difference of a multi-channel audio signal
EP3757993A1 (en) Pre-processing for automatic speech recognition
EP3762923A1 (en) Audio coding
US11463833B2 (en) Method and apparatus for voice or sound activity detection for spatial audio
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
JP2023540377A (ja) 音コーデックにおける、非相関ステレオコンテンツの分類、クロストーク検出、およびステレオモード選択のための方法およびデバイス
Uhle et al. Speech enhancement of movie sound
Lewis et al. Cochannel speaker count labelling based on the use of cepstral and pitch prediction derived features
Langjahr et al. Objective quality assessment of target speaker separation performance in multisource reverberant environment
RU2648632C2 (ru) Классификатор многоканального звукового сигнала
US20230215448A1 (en) Method and device for speech/music classification and core encoder selection in a sound codec
Cooper Speech detection using gammatone features and one-class support vector machine
Kammi et al. A Bayesian approach for single channel speech separation
Zhang Modulation domain processing and speech phase spectrum in speech enhancement
Mahmoodzadeh et al. A hybrid coherent-incoherent method of modulation filtering for single channel speech separation
CN118020101A (zh) 与阵列几何形状无关的多通道个性化语音增强
Kammi et al. An efficient VQ-based method for monaural speech separation
Kim et al. Adaptation mode control with residual noise estimation for beamformer-based multi-channel speech enhancement
Sadjadi Robust front-end processing for speech applications under acoustic mismatch conditions
WO2018073486A1 (en) Low-delay audio coding
Abu-El-Quran Feature extraction for audio classification
Ma Identification and Elimination of Crosstalk in Audio Recordings