JP6487569B2 - チャネル間時間差パラメータを決定するための方法および装置 - Google Patents

チャネル間時間差パラメータを決定するための方法および装置 Download PDF

Info

Publication number
JP6487569B2
JP6487569B2 JP2017547541A JP2017547541A JP6487569B2 JP 6487569 B2 JP6487569 B2 JP 6487569B2 JP 2017547541 A JP2017547541 A JP 2017547541A JP 2017547541 A JP2017547541 A JP 2017547541A JP 6487569 B2 JP6487569 B2 JP 6487569B2
Authority
JP
Japan
Prior art keywords
domain signal
time domain
channel
value
audio channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017547541A
Other languages
English (en)
Other versions
JP2018511824A (ja
Inventor
▲興▼涛 ▲張▼
▲興▼涛 ▲張▼
磊 苗
磊 苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2018511824A publication Critical patent/JP2018511824A/ja
Application granted granted Critical
Publication of JP6487569B2 publication Critical patent/JP6487569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

この出願は、参照によりその全体がここに組み入れられる、2015年3月9日付で中国特許庁に出願された、「チャネル間時間差パラメータを決定するための方法および装置」という発明の名称の中国特許出願第201510101315.X号の優先権を主張する。
本発明は、オーディオ処理の分野、より具体的には、チャネル間時間差パラメータを決定するための方法および装置に関する。
高品質オーディオへの人々の絶えず増大する要件とともに生活の質の向上が生じている。モノラルオーディオと比較して、ステレオオーディオは、方向感覚と音源分布感覚を提供し、情報の明確さおよび理解度を向上させることができ、したがって、人々に非常に好まれている。
現在、ステレオオーディオ信号を送信するための既知の技術がある。符号化器が、ステレオ信号を、モノラルオーディオ信号と、チャネル間時間差(ITD、Inter-Channel Time Difference)のようなパラメータに変換し、モノラルオーディオ信号とパラメータを別々に符号化し、符号化されたモノラルオーディオ信号および符号化されたパラメータを復号化器に送信する。復号化器はさらに、モノラルオーディオ信号を取得した後で、ITDのようなパラメータに従ってステレオ信号を復元する。したがって、ステレオ信号の低ビット高品質送信を実現することができる。
前述の技術では、符号化器は、モノラルオーディオの時間領域信号のサンプリングレートに基づいて、そのサンプリングレートにおけるITDパラメータの限界値Tmaxを決定することができ、したがって、周波数領域信号に基づいて、範囲[−Tmax,Tmax]内でサブバンドごとに探索および計算を行って、ITDパラメータを取得し得る。
しかし、前述の比較的大きい探索範囲は、先行技術で周波数領域のITDパラメータを決定するプロセスにおける大きな計算量を引き起こす。その結果、符号化器の性能要件が増大し、処理効率が影響される。
したがって、ITDパラメータの正確さを保証しつつ、ITDパラメータを探索し、計算するプロセスにおける計算量を低減できるように、技術が提供されることが期待されている。
本発明の実施形態は、ステレオ符号化プロセスにおいてチャネル間時間差パラメータを探索し、計算するプロセスの計算量を低減させるために、チャネル間時間差パラメータを決定するための方法および装置を提供する。
第1の態様によれば、チャネル間時間差パラメータを決定するための方法が提供され、この方法は、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するステップであって、基準パラメータは、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号を取得する順序に対応しており、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号は同じ期間に対応している、ステップと、基準パラメータおよび限界値Tmaxに従って探索範囲を決定するステップであって、限界値Tmaxは、第1の音声チャネル上の時間領域信号のサンプリングレートに従って決定され、探索範囲は[−Tmax,0]の範囲内であり、または探索範囲は[0,Tmax]の範囲内である、ステップと、第1の音声チャネル上の周波数領域信号および第2の音声チャネル上の周波数領域信号に基づいて探索範囲内で探索処理を行って、第1の音声チャネルおよび第2の音声チャネルに対応する第1のチャネル間時間差ITDパラメータを決定するステップと、を含む。
第1の態様を参照して、第1の態様の第1の実装において、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するステップは、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対して相互相関処理を行って、第1の相互相関処理値および第2の相互相関処理値を決定するステップであって、第1の相互相関処理値は、第2の音声チャネル上の時間領域信号に対する第1の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値であり、第2の相互相関処理値は、第1の音声チャネル上の時間領域信号に対する第2の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値である、ステップと、第1の相互相関処理値と第2の相互相関処理値の間の値関係に従って基準パラメータを決定するステップと、を含む。
第1の態様および第1の態様の前述の実装を参照して、第1の態様の第2の実装において、基準パラメータは、第1の相互相関処理値と第2の相互相関処理値の大きい方に対応するインデックス値、または該インデックス値の反数である。
第1の態様および第1の態様の前述の実装を参照して、第1の態様の第3の実装において、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するステップは、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対してピーク検出処理を行って、第1のインデックス値および第2のインデックス値を決定するステップであって、第1のインデックス値は、事前設定範囲内の第1の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値であり、第2のインデックス値は、事前設定範囲内の第2の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値である、ステップと、第1のインデックス値と第2のインデックス値の間の値関係に従って基準パラメータを決定するステップと、を含む。
第1の態様および第1の態様の前述の実装を参照して、第1の態様の第4の実装において、この方法は、第2のITDパラメータに基づいて第1のITDパラメータに対して平滑化処理を行うステップであって、第1のITDパラメータは第1の期間におけるITDパラメータであり、第2のITDパラメータは、第2の期間におけるITDパラメータの平滑化値であり、第2の期間は第1の期間より前にある、ステップ、をさらに含む。
第2の態様によれば、チャネル間時間差パラメータを決定するための装置が提供され、この装置は、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するように構成された決定ユニットであって、基準パラメータは、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号を取得する順序に対応しており、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号は同じ期間に対応しており、決定ユニットは、基準パラメータおよび限界値Tmaxに従って探索範囲を決定するように構成されており、限界値Tmaxは、第1の音声チャネル上の時間領域信号のサンプリングレートに従って決定され、探索範囲は[−Tmax,0]の範囲内であり、または探索範囲は[0,Tmax]の範囲内である、決定ユニットと、第1の音声チャネル上の周波数領域信号および第2の音声チャネル上の周波数領域信号に基づいて探索範囲内で探索処理を行って、第1の音声チャネルおよび第2の音声チャネルに対応する第1のチャネル間時間差ITDパラメータを決定するように構成された、処理ユニットと、を含む。
第2の態様を参照して、第2の態様の第1の実装において、決定ユニットは、具体的には、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対して相互相関処理を行って、第1の相互相関処理値および第2の相互相関処理値を決定し、第1の相互相関処理値と第2の相互相関処理値の間の値関係に従って基準パラメータを決定するように構成され、第1の相互相関処理値は、第2の音声チャネル上の時間領域信号に対する第1の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値であり、第2の相互相関処理値は、第1の音声チャネル上の時間領域信号に対する第2の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値である。
第2の態様および第2の態様の前述の実装を参照して、第2の態様の第2の実装において、決定ユニットは、具体的には、第1の相互相関処理値と第2の相互相関処理値の大きい方に対応するインデックス値、または該インデックス値の反数を基準パラメータとして決定するように構成される。
第2の態様および第2の態様の前述の実装を参照して、第2の態様の第3の実装において、決定ユニットは、具体的には、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対してピーク検出処理を行って、第1のインデックス値および第2のインデックス値を決定し、第1のインデックス値と第2のインデックス値の間の値関係に従って基準パラメータを決定するように構成され、第1のインデックス値は、事前設定範囲内の第1の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値であり、第2のインデックス値は、事前設定範囲内の第2の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値である。
第2の態様および第2の態様の前述の実装を参照して、第2の態様の第4の実装において、処理ユニットは、第2のITDパラメータに基づいて第1のITDパラメータに対して平滑化処理を行うようにさらに構成され、第1のITDパラメータは第1の期間におけるITDパラメータであり、第2のITDパラメータは、第2の期間におけるITDパラメータの平滑化値であり、第2の期間は第1の期間より前にある。
本発明の実施形態におけるチャネル間時間差パラメータを決定するための方法および装置によれば、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号を取得する順序に対応する基準パラメータが時間領域において決定され、基準パラメータに基づいて探索範囲を決定することができ、第1の音声チャネル上の周波数領域信号および第2の音声チャネル上の周波数領域信号に対する探索処理が、周波数領域において探索範囲内で行われて、第1の音声チャネルおよび第2の音声チャネルに対応するチャネル間時間差ITDパラメータを決定する。本発明の実施形態では、基準パラメータに従って決定される探索範囲は、[−Tmax,0]または[0,Tmax]の範囲内であり、先行技術の探索範囲[−Tmax,Tmax]より小さく、それによって、チャネル間時間差ITDパラメータの探索量および計算量を低減させることができ、符号化器の性能要件が低減され、符号化器の処理効率が改善される。
本発明の実施形態における技術的解決策をより明確に説明するために、以下は、本発明の実施形態を説明するのに必要な添付図面を簡単に説明する。明らかに、以下の説明における添付図面は単に本発明のいくつかの実施形態を示し、この技術分野の当業者は、これら添付図面から創作的努力なしで他の図面をさらに導き出し得る。
本発明の一実施形態によるチャネル間時間差パラメータを決定するための方法の概略フローチャートである。 本発明の一実施形態による探索範囲を決定するプロセスの概略図である。 本発明の別の実施形態による探索範囲を決定するプロセスの概略図である。 本発明のさらに別の実施形態による探索範囲を決定するプロセスの概略図である。 本発明の一実施形態によるチャネル間時間差パラメータを決定するための装置の概略ブロック図である。 本発明の一実施形態によるチャネル間時間差パラメータを決定するためのデバイスの概略構成図である。
以下は、本発明の実施形態における添付図面を参照して、本発明の実施形態における技術的解決策を明確に説明する。明らかに、説明される実施形態は本発明の実施形態の全部ではなく単にいくつかである。本発明の実施形態に基づいて創作的努力なしでこの技術分野の当業者によって得られる他のすべての実施形態は、本発明の保護範囲内にあるものである。
図1は、本発明の一実施形態によるチャネル間時間差パラメータを決定するための方法100の概略フローチャートである。方法100は、オーディオ信号を送信するための符号化器デバイス(または送信端デバイスとも呼ばれ得る)によって実行され得る。図1に示されたように、方法100は以下のステップを含む。
S110.第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定し、基準パラメータは、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号を取得する順序に対応しており、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号は同じ期間に対応している。
S120.基準パラメータおよび限界値Tmaxに従って探索範囲を決定し、限界値Tmaxは、第1の音声チャネル上の時間領域信号のサンプリングレートに従って決定され、探索範囲は[−Tmax,0]の範囲内であり、または探索範囲は[0,Tmax]の範囲内である。
S130.第1の音声チャネル上の周波数領域信号および第2の音声チャネル上の周波数領域信号に基づいて探索範囲内で探索処理を行って、第1の音声チャネルおよび第2の音声チャネルに対応する第1のチャネル間時間差ITDパラメータを決定する。
本発明のこの実施形態におけるチャネル間時間差パラメータを決定するための方法100は、少なくとも2つの音声チャネルを有するオーディオシステムに適用され得る。オーディオシステムでは、少なくとも2つの音声チャネル(すなわち、第1の音声チャネルおよび第2の音声チャネルを含む)からのモノラル信号がステレオ信号に合成される。例えば、オーディオ左チャネル(すなわち、第1の音声チャネルの一例)からのモノラル信号と、オーディオ右チャネル(すなわち、第2の音声チャネルの一例)からのモノラル信号がステレオ信号に合成される。
ステレオ信号を送信するための方法の一例として、パラメトリックステレオ(PS)技術が用いられ得る。この技術では、符号化器が、ステレオ信号を、空間知覚特徴に従ってモノラル信号と空間知覚パラメータに変換し、モノラル信号と空間知覚パラメータを別々に符号化する。モノラルオーディオを取得した後で、復号化器がさらに、空間知覚パラメータに従ってステレオ信号を復元する。この技術では、ステレオ信号の低ビット高品質送信が実現されることが可能である。チャネル間時間差ITD(ITD、Inter-Channel Time Difference)パラメータは、音源の水平位置を示す空間知覚パラメータであり、空間知覚パラメータの重要な部分である。本発明のこの実施形態は、主に、ITDパラメータを決定するプロセスに関する。加えて、本発明のこの実施形態では、ITDパラメータに従ってステレオ信号およびモノラル信号を符号化し、復号化するプロセスは、先行技術におけるそれと同様である。繰り返しを避けるため、その詳細な説明はここでは省略される。
オーディオシステムに含まれる前述の音声チャネルの数は、単に説明のための一例であり、本発明はそれに限定されないことが理解されるべきである。例えば、オーディオシステムは3つ以上の音声チャネルを有することが可能であり、いずれか2つの音声チャネルからのモノラル信号はステレオ信号に合成されることが可能である。理解の容易さのために、以下の説明のための例では、方法100は、2つの音声チャネル(すなわち、オーディオ左チャネルおよびオーディオ右チャネル)を有するオーディオシステムに適用される。加えて、区別の容易さのために、説明のために、オーディオ左チャネルは第1の音声チャネルとして使用され、オーディオ右チャネルは第2の音声チャネルとして使用される。
具体的には、S110で、符号化器デバイスは、例えば、オーディオ左チャネルに対応するマイクロフォンなどのオーディオ入力デバイスを使用することによって、オーディオ左チャネルに対応するオーディオ信号を取得し、事前設定サンプリングレートα(すなわち、第1の音声チャネル上の時間領域信号のサンプリングレートの一例)に従ってオーディオ信号に対してサンプリング処理を行って、オーディオ左チャネル上の時間領域信号(すなわち、第1の音声チャネル上の時間領域信号の一例であり、理解と区別の容易さのために、以下では時間領域信号#Lと表される)を生成し得る。加えて、本発明のこの実施形態では、時間領域信号#Lを取得するプロセスは、先行技術におけるそれと同様であり得る。繰り返しを避けるため、その詳細な説明はここでは省略される。
本発明の本実施形態では、第1の音声チャネル上の時間領域信号のサンプリングレートは、第2の音声チャネル上の時間領域信号のサンプリングレートと同じである。したがって、同様に、符号化器デバイスは、例えば、オーディオ右チャネルに対応するマイクロフォンなどのオーディオ入力デバイスを使用することによって、オーディオ右チャネルに対応するオーディオ信号を取得し、サンプリングレートαに従ってオーディオ信号に対してサンプリング処理を行って、オーディオ右チャネル上の時間領域信号(すなわち、第2の音声チャネル上の時間領域信号の一例であり、理解と区別の容易さのために、以下では時間領域信号#Rと表される)を生成し得る。
本発明のこの実施形態では、時間領域信号#Lおよび時間領域信号#Rは、同じ期間に対応する時間領域信号(または言い換えると、同じ期間に取得された時間領域信号)であることが留意されるべきである。例えば、時間領域信号#Lおよび時間領域信号#Rは、同じフレーム(すなわち、20ms)に対応する時間領域信号であり得る。この場合、フレーム内の信号に対応するITDパラメータは、時間領域信号#Lおよび時間領域信号#Rに基づいて決定されることが可能である。
別の例では、時間領域信号#Lおよび時間領域信号#Rは、同じフレーム内の同じサブフレーム(すなわち、10ms、5msなど)に対応する時間領域信号であり得る。この場合、フレーム内の信号に対応する複数のITDパラメータは、時間領域信号#Lおよび時間領域信号#Rに基づいて取得されることが可能である。例えば、時間領域信号#Lおよび時間領域信号#Rに対応するサブフレームが10msである場合、フレーム(すなわち、20ms)内の信号を使用することによって2つのITDパラメータが取得されることが可能である。別の例では、時間領域信号#Lおよび時間領域信号#Rに対応するサブフレームが5msである場合、フレーム(すなわち、20ms)内の信号を使用することによって4つのITDパラメータが取得されることが可能である。
時間領域信号#Lおよび時間領域信号#Rに対応する期間の前述の長さは、単に説明のための例であり、本発明はそれに限定されないことが理解されるべきである。期間の長さは、要件に応じてランダムに変更され得る。
次いで、符号化器デバイスは、時間領域信号#Lおよび時間領域信号#Rに従って基準パラメータを決定し得る。基準パラメータは、時間領域信号#Lおよび時間領域信号#Rを取得する順序(例えば、時間領域信号#Lおよび時間領域信号#Rをオーディオ入力デバイスに入力する順序)に対応していることが可能である。続いて、対応関係は、基準パラメータを決定するプロセスを参照して詳細に説明される。
本発明のこの実施形態では、基準パラメータは、時間領域信号#Lおよび時間領域信号#Rに対して相互相関処理を行うことによって(すなわち、方式1で)決定されることが可能であり、または基準パラメータは、時間領域信号#Lおよび時間領域信号#Rの最大振幅値を探索することによって(すなわち、方式2で)決定されることが可能である。以下は、方式1と方式2を別々に詳細に説明する。
方式1:
任意選択で、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するステップは、
第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対して相互相関処理を行って、第1の相互相関処理値および第2の相互相関処理値を決定するステップであって、第1の相互相関処理値は、第2の音声チャネル上の時間領域信号に対する第1の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値であり、第2の相互相関処理値は、第1の音声チャネル上の時間領域信号に対する第2の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値である、ステップと、
第1の相互相関処理値と第2の相互相関処理値の間の値関係に従って基準パラメータを決定するステップと、
を含む。
具体的には、本発明のこの実施形態では、符号化器デバイスは、以下の式1に従って、時間領域信号#Rに対する時間領域信号#Lの相互相関関数cn(i)、すなわち、
Figure 0006487569
を決定し得る。
Tmaxは、ITDパラメータの限界値(または言い換えると、時間領域信号#Lと時間領域信号#Rの間の取得時間差の最大値)を表し、サンプリングレートαに従って決定され得る。加えて、Tmaxを決定するための方法は、先行技術におけるそれと同様であり得る。繰り返しを避けるため、その詳細な説明はここでは省略される。xR(j)はj番目のサンプリング点における時間領域信号#Rの信号値を表し、xL(j+i)は(j+i)番目のサンプリング点における時間領域信号#Lの信号値を表し、Lengthは、時間領域信号#Rに含まれるサンプリング点の総数、または言い換えると、時間領域信号#Rの長さを表す。例えば、長さは、フレームの長さ(すなわち、20ms)、またはサブフレームの長さ(すなわち、10ms、5msなど)であり得る。
加えて、符号化器デバイスは、相互相関関数cn(i)の最大値
Figure 0006487569
を決定し得る。
同様に、符号化器デバイスは、下記の式2に従って、時間領域信号#Lに対する時間領域信号#Rの相互相関関数cp(i)、すなわち、
Figure 0006487569
を決定し得る。
加えて、符号化器デバイスは、相互相関関数cp(i)の最大値
Figure 0006487569
を決定し得る。
本発明のこの実施形態では、符号化器デバイスは、以下の方式1Aまたは方式1Bにおいて、
Figure 0006487569
Figure 0006487569
の間の関係に従って、基準パラメータの値を決定し得る。
方式1A:
図2に示されたように、
Figure 0006487569
である場合、符号化器デバイスは、時間領域信号#Lは時間領域信号#Rより前に取得される、すなわち、オーディオ左チャネルおよびオーディオ右チャネルのITDパラメータは正の数であると判定し得る。この場合、基準パラメータTは1に設定され得る。
したがって、S120の決定プロセスで、符号化器デバイスは、基準パラメータは0より大きいと判定し、さらに、探索範囲は[0,Tmax]であると決定し得る。すなわち、時間領域信号#Lが時間領域信号#Rより前に取得されるとき、ITDパラメータは正の数であり、探索範囲は[0,Tmax](すなわち、[0,Tmax]の範囲内である探索範囲の一例)である。
あるいは、
Figure 0006487569
である場合、符号化器デバイスは、時間領域信号#Lは時間領域信号#Rより後で取得される、すなわち、オーディオ左チャネルおよびオーディオ右チャネルのITDパラメータは負の数であると判定し得る。この場合、基準パラメータTは0に設定され得る。
したがって、S120の決定プロセスで、符号化器デバイスは、基準パラメータは0より大きくないと判定し、さらに、探索範囲は[−Tmax,0]であると決定し得る。すなわち、時間領域信号#Lが時間領域信号#Rより後で取得されるとき、ITDパラメータは負の数であり、探索範囲は[−Tmax,0](すなわち、[−Tmax,0]の範囲内である探索範囲の一例)である。
方式1B:
任意選択で、基準パラメータは、第1の相互相関処理値と第2の相互相関処理値の大きい方に対応するインデックス値、またはそのインデックス値の反数である。
具体的には、図3に示されたように、
Figure 0006487569
である場合、符号化器デバイスは、時間領域信号#Lは時間領域信号#Rより前に取得される、すなわち、オーディオ左チャネルおよびオーディオ右チャネルのITDパラメータは正の数であると判定し得る。この場合、基準パラメータTは、
Figure 0006487569
に対応するインデックス値に設定され得る。
したがって、続く決定プロセスでは、符号化器デバイスは、基準パラメータTは0より大きいと判定した後で、基準パラメータTがTmax/2以上であるかどうかさらに判定し、判定結果に従って探索範囲を決定し得る。例えば、T≧Tmax/2であるとき、探索範囲は[Tmax/2,Tmax](すなわち、[0,Tmax]の範囲内である探索範囲の一例)である。T<Tmax/2であるとき、探索範囲は[0,Tmax/2](すなわち、[0,Tmax]の範囲内である探索範囲の別の例)である。
あるいは、
Figure 0006487569
である場合、符号化器デバイスは、時間領域信号#Lは時間領域信号#Rより後で取得される、すなわち、オーディオ左チャネルおよびオーディオ右チャネルのITDパラメータは負の数であると判定し得る。この場合、基準パラメータTは、
Figure 0006487569
に対応するインデックス値の反数に設定され得る。
したがって、S120の決定プロセスでは、符号化器デバイスは、基準パラメータTは0以下であると判定した後で、基準パラメータTが−Tmax/2以下であるかどうかさらに判定し、判定結果に従って探索範囲を決定し得る。例えば、T≦−Tmax/2であるとき、探索範囲は[−Tmax、−Tmax/2](すなわち、[−Tmax,0]の範囲内である探索範囲の一例)である。T>−Tmax/2であるとき、探索範囲は[−Tmax/2,0](すなわち、[−Tmax,0]の範囲内である探索範囲の別の例)である。
方式2:
任意選択で、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するステップは、
第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対してピーク検出処理を行って、第1のインデックス値および第2のインデックス値を決定するステップであって、第1のインデックス値は、事前設定範囲内の第1の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値であり、第2のインデックス値は、事前設定範囲内の第2の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値である、ステップと、
第1のインデックス値と第2のインデックス値の間の値関係に従って基準パラメータを決定するステップと、
を含む。
具体的には、本発明のこの実施形態では、符号化器デバイスは、時間領域信号#Lの振幅値(L(j)と表す)の最大値max(L(j))、j∈[0,Length−1]を検出し、max(L(j))に対応するインデックス値pleftを記録し得る。Lengthは、時間領域信号#Lに含まれるサンプリング点の総数を表す。
加えて、符号化器デバイスは、時間領域信号#Rの振幅値(R(j)と表す)の最大値max(R(j))、j∈[0,Length−1]を検出し、max(R(j))に対応する指標値prightを記録し得る。Lengthは、時間領域信号#Rに含まれるサンプリング点の総数を表す。
次いで、符号化器デバイスは、pleftとprightの間の値関係を決定し得る。
図4に示されたようにpleft≧prightである場合、符号化器デバイスは、時間領域信号#Lは時間領域信号#Rより前に取得される、すなわち、オーディオ左チャネルおよびオーディオ右チャネルのITDパラメータは正の数であると判定し得る。この場合、基準パラメータTは1に設定され得る。
したがって、S120の決定プロセスで、符号化器デバイスは、基準パラメータは0より大きいと判定し、さらに、探索範囲は[0,Tmax]であると決定し得る。すなわち、時間領域信号#Lが時間領域信号#Rより前に取得されるとき、ITDパラメータは正の数であり、探索範囲は[0,Tmax](すなわち、[0,Tmax]の範囲内である探索範囲の一例)である。
あるいは、pleft<prightである場合、符号化器デバイスは、時間領域信号#Lは時間領域信号#Rより後で取得される、すなわち、オーディオ左チャネルおよびオーディオ右チャネルのITDパラメータは負の数であると判定し得る。この場合、基準パラメータTは0に設定され得る。
したがって、S120の決定プロセスで、符号化器デバイスは、基準パラメータは0より大きくないと判定し、さらに、探索範囲は[−Tmax,0]であると決定し得る。すなわち、時間領域信号#Lが時間領域信号#Rより後で取得されるとき、ITDパラメータは負の数であり、探索範囲は[−Tmax,0](すなわち、[−Tmax,0]の範囲内である探索範囲の一例)である。
S130で、符号化器デバイスは、時間領域信号#Lに対して時間周波数変換処理を行って、オーディオ左チャネル上の周波数領域信号(すなわち、第1の音声チャネル上の周波数領域信号の一例であり、理解と区別の容易さのために以下で周波数領域信号#Lと表す)を取得することが可能であり、時間領域信号#Rに対して時間周波数変換処理を行って、オーディオ右チャネル上の周波数領域信号(すなわち、第2の音声チャネル上の周波数領域信号の一例であり、理解と区別の容易さのために以下で周波数領域信号#Rと表す)を取得することが可能である。
例えば、本発明のこの実施形態では、時間周波数変換処理は、以下の式3、
Figure 0006487569
に基づく高速フーリエ変換(FFT、Fast Fourier Transformation)技術を使用することによって行われ得る。
X(k)は周波数領域信号を表し、FFT_LENGTHは時間周波数変換長を表し、x(n)は時間領域信号(すなわち、時間領域信号#Lまたは時間領域信号#R)を表し、Lengthは、時間領域信号に含まれるサンプリング点の総数を表す。
時間周波数変換処理の前述のプロセスは、単に説明のための一例であり、本発明はそれに限定されないことが理解されるべきである。時間周波数変換処理の方法およびプロセスは、先行技術におけるそれらと同様であり得る。例えば、修正離散コサイン変換(MDCT、Modified Discrete Cosine Transform)などの技術が使用され得る。
したがって、符号化器デバイスは、決定された探索範囲内の決定された周波数領域信号#Lおよび周波数領域信号#Rに対して探索処理を行って、オーディオ左チャネルおよびオーディオ右チャネルのITDパラメータを決定し得る。例えば、以下の探索処理プロセスが使用され得る。
まず、符号化器デバイスは、事前設定された帯域幅Aに従って、周波数領域信号のFFT_LENGTH周波数をNsubband個のサブバンド(例えば、1つのサブバンド)に分類し得る。k番目のサブバンドAkに含まれる周波数は、Ak−1≦b≦Ak−1を満たす。
前述の探索範囲内で、周波数領域信号#Lの相関関数mag(j)が、下記の式4
Figure 0006487569
に従って計算される。
XL(b)は、b番目の周波数上の周波数領域信号#Lの信号値を表し、XR(b)は、b番目の周波数上の周波数領域信号#Rの信号値を表し、FFT_LENGTHは、時間周波数変換長を表し、jの値範囲は決定された探索範囲である。理解と説明の容易さのために、探索範囲は[a,b]と表される。
k番目のサブバンドのITDパラメータ値は、
Figure 0006487569
すなわち、mag(j)の最大値に対応するインデックス値である。
したがって、オーディオ左チャネルおよびオーディオ右チャネルの(決定されたサブバンドの数に対応する)1つ以上のITDパラメータ値が取得され得る。
次いで、符号化器デバイスは、ITDパラメータ値に対して量子化処理などをさらに行い、処理されたITDパラメータ値と、オーディオ左チャネルおよびオーディオ右チャネル上の信号に対してダウンミキシングなどの処理が行われた後で取得されたモノラル信号を復号化器デバイス(または言い換えると、受信端デバイス)に送信し得る。
復号化器デバイスは、モノラルオーディオ信号およびITDパラメータ値に従ってステレオオーディオ信号を復元し得る。
任意選択で、この方法は、
第2のITDパラメータに基づいて第1のITDパラメータに対して平滑化処理を行うステップであって、第1のITDパラメータは第1の期間におけるITDパラメータであり、第2のITDパラメータは、第2の期間におけるITDパラメータの平滑化値であり、第2の期間は第1の期間より前にある、ステップ
をさらに含む。
具体的には、本発明のこの実施形態では、ITDパラメータ値に対して量子化処理を行う前に、符号化器デバイスは、決定されたITDパラメータ値に対して平滑化処理をさらに行い得る。限定ではなく一例として、符号化器デバイスは、以下の式5、
Tsm(k)=W1*Tsm [−1](k)+W2*T(k) 式5
に従って平滑化処理を行い得る。
Tsm(k)は、平滑化処理が行われた、k番目のフレームまたはk番目のサブフレームに対応するITDパラメータ値を表し、Tsm [−1]は、平滑化処理が行われた、(k−1)番目のフレームまたは(k−1)番目のサブフレームに対応するITDパラメータ値を表し、T(k)は、平滑化処理が行われていない、k番目のフレームまたはk番目のサブフレームに対応するITDパラメータ値を表し、w1およびw2は平滑化係数であり、w1およびw2は定数に設定されることが可能であり、またはw1およびw2は、w1+w2=1が満たされること条件として、Tsm [−1]とT(k)の間の差に従って設定されることが可能である。加えて、k=1であるとき、Tsm [−1]は、事前設定値であり得る。
本発明のこの実施形態におけるチャネル間時間差パラメータを決定するための方法では、平滑化処理は、符号化器デバイスによって行われることが可能であり、または復号化器デバイスによって行われることが可能であり、これは本発明において特に限定されないことが留意されるべきである。すなわち、符号化器デバイスは、平滑化処理を行わずに取得されたITDパラメータ値を復号化器デバイスに直接に送信することが可能であり、復号化器デバイスは、ITDパラメータ値に対して平滑化処理を行う。加えて、復号化器デバイスによって平滑化処理を行う方法およびプロセスは、前述の号化器デバイスによって平滑化処理を行う方法およびプロセスと同様であり得る。繰り返しを避けるため、その詳細な説明はここでは省略される。
本発明のこの実施形態におけるチャネル間時間差パラメータを決定するための方法によれば、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号を取得する順序に対応する基準パラメータが時間領域において決定され、基準パラメータに基づいて探索範囲が決定されることが可能であり、第1の音声チャネル上の周波数領域信号および第2の音声チャネル上の周波数領域信号に対する探索処理が、周波数領域において探索範囲内で行われて、第1の音声チャネルおよび第2の音声チャネルに対応するチャネル間時間差ITDパラメータを決定する。本発明のこの実施形態では、基準パラメータに従って決定される探索範囲は、[−Tmax,0]または[0,Tmax]の範囲内であり、先行技術の探索範囲[−Tmax,Tmax]より小さく、それによって、チャネル間時間差ITDパラメータの探索量および計算量が低減されることが可能であり、符号化器の性能要件が低減され、符号化器の処理効率が改善される。
本発明の実施形態によるチャネル間時間差パラメータを決定するための方法が、図1から図4を参照して上記で詳細に説明された。本発明の一実施形態によるチャネル間時間差パラメータを決定するための装置が、図5を参照して以下で詳細に説明される。
図5は、本発明の一実施形態によるチャネル間時間差パラメータを決定するための装置200の概略ブロック図である。図5に示されたように、装置200は、
第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するように構成された決定ユニット210であって、基準パラメータは、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号を取得する順序に対応しており、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号は同じ期間に対応しており、決定ユニット210は、基準パラメータおよび限界値Tmaxに従って探索範囲を決定するように構成されており、限界値Tmaxは、第1の音声チャネル上の時間領域信号のサンプリングレートに従って決定され、探索範囲は[−Tmax,0]の範囲内であり、または探索範囲は[0,Tmax]の範囲内である、決定ユニット210と、
第1の音声チャネル上の周波数領域信号および第2の音声チャネル上の周波数領域信号に基づいて探索範囲内で探索処理を行って、第1の音声チャネルおよび第2の音声チャネルに対応する第1のチャネル間時間差ITDパラメータを決定するように構成された、処理ユニット220と、
を含む。
任意選択で、決定ユニット210は、具体的には、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対して相互相関処理を行って、第1の相互相関処理値および第2の相互相関処理値を決定し、第1の相互相関処理値と第2の相互相関処理値の間の値関係に従って基準パラメータを決定するように構成される。第1の相互相関処理値は、第2の音声チャネル上の時間領域信号に対する第1の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値であり、第2の相互相関処理値は、第1の音声チャネル上の時間領域信号に対する第2の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値である。
任意選択で、決定ユニット210は、具体的には、第1の相互相関処理値と第2の相互相関処理値の大きい方に対応するインデックス値、またはそのインデックス値の反数を基準パラメータとして決定するように構成される。
任意選択で、決定ユニット210は、具体的には、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対してピーク検出処理を行って、第1のインデックス値および第2のインデックス値を決定し、第1のインデックス値と第2のインデックス値の間の値関係に従って基準パラメータを決定するように構成される。第1のインデックス値は、事前設定範囲内の第1の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値であり、第2のインデックス値は、事前設定範囲内の第2の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値である。
任意選択で、処理ユニット220は、第2のITDパラメータに基づいて第1のITDパラメータに対して平滑化処理を行うようにさらに構成される。第1のITDパラメータは第1の期間におけるITDパラメータであり、第2のITDパラメータは、第2の期間におけるITDパラメータの平滑化値であり、第2の期間は第1の期間より前にある。
本発明のこの実施形態によるチャネル間時間差パラメータを決定するための装置200は、本発明の実施形態のチャネル間時間差パラメータを決定するための方法100を行うように構成され、本発明の実施形態の方法における符号化器デバイスに対応し得る。加えて、チャネル間時間差パラメータを決定するための装置200内のユニットおよびモジュールと、前述の他の動作および/または機能は、別個に、図1の方法100における対応する手順を実現するように意図される。簡潔さのために、詳細はここでは説明されない。
本発明のこの実施形態におけるチャネル間時間差パラメータを決定するための装置によれば、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号を取得する順序に対応する基準パラメータが時間領域において決定され、基準パラメータに基づいて探索範囲が決定されることが可能であり、第1の音声チャネル上の周波数領域信号および第2の音声チャネル上の周波数領域信号に対する探索処理が、周波数領域において探索範囲内で行われて、第1の音声チャネルおよび第2の音声チャネルに対応するチャネル間時間差ITDパラメータを決定する。本発明のこの実施形態では、基準パラメータに従って決定される探索範囲は、[−Tmax,0]または[0,Tmax]の範囲内であり、先行技術の探索範囲[−Tmax,Tmax]より小さく、それによって、チャネル間時間差ITDパラメータの探索量および計算量が低減されることが可能であり、符号化器の性能要件が低減され、符号化器の処理効率が改善される。
本発明の実施形態によるチャネル間時間差パラメータを決定するための方法が、図1から図4を参照して上記で詳細に説明された。本発明の一実施形態によるチャネル間時間差パラメータを決定するためのデバイスが、図6を参照して以下で詳細に説明される。
図6は、本発明の一実施形態による、チャネル間時間差パラメータを決定するためのデバイス300の概略ブロック図である。図6に示されたように、デバイス300は、
バス310と、
バスに接続されたプロセッサ320と、
バスに接続されたメモリ330と
を含み得る。
プロセッサ320は、バス310を使用することによって、メモリ330に記憶されたプログラムを呼び出し、それによって、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定し、基準パラメータは、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号を取得する順序に対応しており、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号は同じ期間に対応しており、
プロセッサ320は、基準パラメータおよび限界値Tmaxに従って探索範囲を決定し、限界値Tmaxは、第1の音声チャネル上の時間領域信号のサンプリングレートに従って決定され、探索範囲は[−Tmax,0]の範囲内であり、または探索範囲は[0,Tmax]の範囲内であり、
プロセッサ320は、第1の音声チャネル上の周波数領域信号および第2の音声チャネル上の周波数領域信号に基づいて探索範囲内で探索処理を行って、第1の音声チャネルおよび第2の音声チャネルに対応する第1のチャネル間時間差ITDパラメータを決定する。
任意選択で、プロセッサ320は、具体的には、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対して相互相関処理を行って、第1の相互相関処理値および第2の相互相関処理値を決定するように構成され、第1の相互相関処理値は、第2の音声チャネル上の時間領域信号に対する第1の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値であり、第2の相互相関処理値は、第1の音声チャネル上の時間領域信号に対する第2の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値であり、
プロセッサ320は、第1の相互相関処理値と第2の相互相関処理値の間の値関係に従って基準パラメータを決定するように構成される。
任意選択で、基準パラメータは、第1の相互相関処理値と第2の相互相関処理値の大きい方に対応するインデックス値、またはそのインデックス値の反数である。
任意選択で、プロセッサ320は、具体的には、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に対してピーク検出処理を行って、第1のインデックス値および第2のインデックス値を決定するように構成され、第1のインデックス値は、事前設定範囲内の第1の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値であり、第2のインデックス値は、事前設定範囲内の第2の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値であり、
プロセッサ320は、第1のインデックス値と第2のインデックス値の間の値関係に従って基準パラメータを決定するように構成される。
任意選択で、プロセッサ320は、第2のITDパラメータに基づいて第1のITDパラメータに対して平滑化処理を行うようにさらに構成され、第1のITDパラメータは第1の期間におけるITDパラメータであり、第2のITDパラメータは、第2の期間におけるITDパラメータの平滑化値であり、第2の期間は第1の期間より前にある。
本発明のこの実施形態では、デバイス300の構成要素はバス310を使用することによって一緒に結合される。バス310は、データバスに加えて、電源バス、制御バス、および状態信号バスをさらに含む。しかし、説明の明確さのために、図では様々なバスがバス310と示されている。
プロセッサ320は、本発明の方法の実施形態で開示されたステップおよび論理ブロック図を実装し、または行い得る。プロセッサ320はマイクロプロセッサとすることが可能であり、またはプロセッサ320は任意の従来のプロセッサや復号化器などとすることが可能である。本発明の実施形態を参照して開示された方法のステップは、ハードウェアプロセッサによって直接に行われ、完了されることが可能であり、または復号化プロセッサにおいてハードウェアおよびソフトウェアモジュールの組み合わせを使用することによって行われ、完了されることが可能である。ソフトウェアモジュールは、ランダム・アクセス・メモリ、フラッシュメモリ、リード・オンリ・メモリ、プログラマブル・リード・オンリ・メモリ、電気的消去可能プログラマブル・メモリ、またはレジスタなどのこの技術分野における成熟した記憶媒体に配置され得る。記憶媒体はメモリ330に配置され、プロセッサは、メモリ330内の情報を読み取り、プロセッサのハードウェアと組み合わせて前述の方法のステップを完了する。
本発明のこの実施形態では、プロセッサ320は、中央処理ユニット(Central Processing Unit、略称「CPU」)であることが可能であり、またはプロセッサ320は別の汎用プロセッサ、ディジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、別のプログラマブル論理デバイス、別個のゲート、またはトランジスタ論理デバイス、別個のハードウェア構成要素などであることが可能であることが理解されるべきである。汎用プロセッサはマイクロプロセッサであることが可能であり、またはプロセッサは任意の従来のプロセッサなどであることが可能である。
メモリ330は、リード・オンリ・メモリおよびランダム・アクセス・メモリを含み、プロセッサ320のための命令およびデータを提供し得る。メモリ330の一部は、不揮発性ランダム・アクセス・メモリをさらに含み得る。例えば、メモリ330はデバイスの種類に関する情報をさらに記憶し得る。
一実装プロセスでは、前述の方法のステップは、プロセッサ320内のハードウェアの集積論理回路またはソフトウェアの形式の命令によって完了され得る。本発明の実施形態を参照して開示された方法のステップは、ハードウェアプロセッサによって直接に行われ、完了されることが可能であり、またはプロセッサにおいてハードウェアおよびソフトウェアモジュールの組み合わせを使用することによって行われ、完了されることが可能である。ソフトウェアモジュールは、ランダム・アクセス・メモリ、フラッシュメモリ、リード・オンリ・メモリ、プログラマブル・リード・オンリ・メモリ、電気的消去可能プログラマブル・メモリ、またはレジスタなどのこの技術分野における成熟した記憶媒体に配置され得る。
本発明のこの実施形態による、チャネル間時間差パラメータを決定するためのデバイス300は、本発明の実施形態のチャネル間時間差パラメータを決定するための方法100を行うように構成され、本発明の実施形態の方法における符号化器デバイスに対応し得る。加えて、チャネル間時間差パラメータを決定するためのデバイス300内のユニットおよびモジュールと、前述の他の動作および/または機能は、別個に、図1の方法100における対応する手順を実装するように意図される。簡潔さのために、詳細はここでは説明されない。
本発明のこの実施形態におけるチャネル間時間差パラメータを決定するためのデバイスによれば、第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号を取得する順序に対応する基準パラメータが時間領域において決定され、基準パラメータに基づいて探索範囲が決定されることが可能であり、第1の音声チャネル上の周波数領域信号および第2の音声チャネル上の周波数領域信号に対する探索処理が、周波数領域において探索範囲内で行われて、第1の音声チャネルおよび第2の音声チャネルに対応するチャネル間時間差ITDパラメータを決定する。本発明のこの実施形態では、基準パラメータに従って決定される探索範囲は、[−Tmax,0]または[0,Tmax]の範囲内であり、先行技術の探索範囲[−Tmax,Tmax]より小さく、それによって、チャネル間時間差ITDパラメータの探索量および計算量が低減されることが可能であり、符号化器の性能要件が低減され、符号化器の処理効率が改善される。
前述のプロセスの順序番号は本発明の実施形態における実行順序を意味しないことが理解されるべきである。プロセスの実行順序は、プロセスの機能および内部論理に従って決定されるべきであり、本発明の実施形態の実装プロセスに関するいかなる限定としても解釈されるべきではない。
この明細書で開示された実施形態において説明された例と組み合わせて、ユニットおよびアルゴリズムのステップは、電子ハードウェアによって、またはコンピュータソフトウェアと電子ハードウェアの組み合わせによって実装され得ることをこの技術分野の当業者は理解し得る。機能がハードウェアによって行われるか、またはソフトウェアによって行われるかは、技術的解決策の特定の用途および設計の制約条件に依存する。この技術分野の当業者は、異なる方法を使用して、特定の用途のために、説明された機能を実装し得るが、その実装は本発明の範囲を超えるとみなされるべきではない。
便利で簡潔な説明の目的のために、前述のシステム、装置、およびユニットの詳細な作動プロセスについて、前述の方法の実施形態における対応するプロセスを参照されたく、詳細はここで再度説明されないことは、この技術分野の当業者によって明確に理解され得る。
この出願で提供されるいくつかの実施形態において、開示されたシステム、装置、および方法は他の方式で実装され得ることが理解されるべきである。例えば、説明された装置の実施形態は単に一例である。例えば、ユニットの区分は単に論理的機能区分であり、実際の実装の間、他の区分であり得る。例えば、複数のユニットまたは構成要素が別のシステムに組み合わされ、または統合されることが可能であり、またはいくつかの特徴が無視され、または行われないことが可能である。加えて、表示され、または論述された相互の結合または直接の結合または通信接続は、いくつかのインターフェースを使用することによって実装され得る。装置間またはユニット間の間接の結合または通信接続は、電子的、機械的、または他の形式で実装され得る。
別々の部分として説明されたユニットは物理的に分離していてもそうでなくても、ユニットとして表示された部分は、物理的ユニットであってもそうでなくてもよく、一箇所に配置されてもよく、または複数のネットワークユニット上に分散されてもよい。ユニットのいくつかまたは全部が、実施形態の解決策の目的を達成するための実際の要件に従って選択され得る。
加えて、本発明の実施形態における機能ユニットが1つの処理ユニットに統合されてもよく、またはユニットの各々が物理的に独立に存在してもよく、または2つ以上のユニットが1つのユニットに統合される。
機能がソフトウェア機能ユニットの形式で実装され、独立した製品として販売または使用されるとき、その機能は、コンピュータ読み取り可能な記憶媒体に記憶され得る。そのような理解に基づき、本質的に本発明の技術的解決策、または先行技術に貢献する部分、または技術的解決策のいくつかは、ソフトウェア製品の形式で実装され得る。ソフトウェア製品は記憶媒体に記憶され、(パーソナルコンピュータ、サーバ、またはネットワークデバイスであり得る)コンピュータデバイスに、本発明の実施形態で説明された方法のステップの全部またはいくつかを行うよう命令するためのいくつかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、リムーバブル・ハード・ディスク、リード・オンリ・メモリ(ROM、Read-Only Memory)、ランダム・アクセス・メモリ(RAM、Random Access Memory)、磁気ディスク、または光ディスクなどの、プログラムコードを記憶することができる任意の媒体を含む。
前述の説明は、単に本発明の具体的な実装であり、本発明の保護範囲を限定するように意図されない。本発明で開示された技術範囲内でこの技術分野の当業者によって容易に理解されるいかなる変形も置換も、本発明の保護範囲内にあるものである。したがって、本発明の保護範囲は、請求項の保護範囲に従うべきである。
200 装置
210 決定ユニット
220 処理ユニット
300 デバイス
310 バス
320 プロセッサ
330 メモリ

Claims (10)

  1. チャネル間時間差パラメータを決定するための方法であって、
    第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するステップであって、前記基準パラメータは、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号を取得する順序に対応しており、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号は同じ期間に対応している、ステップと、
    前記基準パラメータおよび限界値Tmaxに従って探索範囲を決定するステップであって、前記限界値Tmaxは、前記第1の音声チャネル上の時間領域信号のサンプリングレートに従って決定され、前記探索範囲は[−Tmax,0]の範囲内であり、または前記探索範囲は[0,Tmax]の範囲内である、ステップと、
    前記第1の音声チャネル上の周波数領域信号および前記第2の音声チャネル上の周波数領域信号に基づいて前記探索範囲内で探索処理を行って、前記第1の音声チャネルおよび前記第2の音声チャネルに対応する第1のチャネル間時間差(ITD)パラメータを決定するステップと、
    を含み、
    第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定する前記ステップは、
    前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号に対して相互相関処理を行って、第1の相互相関処理値および第2の相互相関処理値を決定するステップであって、前記第1の相互相関処理値は、前記第2の音声チャネル上の時間領域信号に対する前記第1の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値であり、前記第2の相互相関処理値は、前記第1の音声チャネル上の時間領域信号に対する前記第2の音声チャネル上の時間領域信号の相互相関関数の、前記事前設定範囲内の最大関数値である、ステップと、
    前記第1の相互相関処理値と前記第2の相互相関処理値の間の値関係に従って前記基準パラメータを決定するステップと、
    を含む方法。
  2. 前記基準パラメータは、前記第1の相互相関処理値と前記第2の相互相関処理値の大きい方に対応するインデックス値、または前記インデックス値の反数である、請求項1に記載の方法。
  3. チャネル間時間差パラメータを決定するための方法であって、
    第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するステップであって、前記基準パラメータは、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号を取得する順序に対応しており、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号は同じ期間に対応している、ステップと、
    前記基準パラメータおよび限界値T max に従って探索範囲を決定するステップであって、前記限界値T max は、前記第1の音声チャネル上の時間領域信号のサンプリングレートに従って決定され、前記探索範囲は[−T max ,0]の範囲内であり、または前記探索範囲は[0,T max ]の範囲内である、ステップと、
    前記第1の音声チャネル上の周波数領域信号および前記第2の音声チャネル上の周波数領域信号に基づいて前記探索範囲内で探索処理を行って、前記第1の音声チャネルおよび前記第2の音声チャネルに対応する第1のチャネル間時間差(ITD)パラメータを決定するステップと、
    を含み、
    第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定する前記ステップは、
    前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号に対してピーク検出処理を行って、第1のインデックス値および第2のインデックス値を決定するステップであって、前記第1のインデックス値は、事前設定範囲内の前記第1の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値であり、前記第2のインデックス値は、前記事前設定範囲内の前記第2の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値である、ステップと、
    前記第1のインデックス値と前記第2のインデックス値の間の値関係に従って前記基準パラメータを決定するステップと、
    を含む方法。
  4. 第2のITDパラメータに基づいて前記第1のITDパラメータに対して平滑化処理を行うステップであって、前記第1のITDパラメータは第1の期間におけるITDパラメータであり、前記第2のITDパラメータは、第2の期間におけるITDパラメータの平滑化値であり、前記第2の期間は前記第1の期間より前にある、ステップ
    をさらに含む、請求項1から3のいずれか一項に記載の方法。
  5. チャネル間時間差パラメータを決定するための装置であって、
    第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するように構成された決定ユニットであって、前記基準パラメータは、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号を取得する順序に対応しており、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号は同じ期間に対応しており、前記決定ユニットは、前記基準パラメータおよび限界値Tmaxに従って探索範囲を決定するように構成され、前記限界値Tmaxは、前記第1の音声チャネル上の時間領域信号のサンプリングレートに従って決定され、前記探索範囲は[−Tmax,0]の範囲内であり、または前記探索範囲は[0,Tmax]の範囲内である、決定ユニットと、
    前記第1の音声チャネル上の周波数領域信号および前記第2の音声チャネル上の周波数領域信号に基づいて前記探索範囲内で探索処理を行って、前記第1の音声チャネルおよび前記第2の音声チャネルに対応する第1のチャネル間時間差(ITD)パラメータを決定するように構成された、処理ユニットと、
    を含み、
    前記決定ユニットは、具体的には、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号に対して相互相関処理を行って、第1の相互相関処理値および第2の相互相関処理値を決定し、前記第1の相互相関処理値と前記第2の相互相関処理値の間の値関係に従って前記基準パラメータを決定するように構成され、前記第1の相互相関処理値は、前記第2の音声チャネル上の時間領域信号に対する前記第1の音声チャネル上の時間領域信号の相互相関関数の、事前設定範囲内の最大関数値であり、前記第2の相互相関処理値は、前記第1の音声チャネル上の時間領域信号に対する前記第2の音声チャネル上の時間領域信号の相互相関関数の、前記事前設定範囲内の最大関数値である装置。
  6. 前記決定ユニットは、具体的には、前記第1の相互相関処理値と前記第2の相互相関処理値の大きい方に対応するインデックス値、または前記インデックス値の反数を前記基準パラメータとして決定するように構成される、請求項5に記載の装置。
  7. チャネル間時間差パラメータを決定するための装置であって、
    第1の音声チャネル上の時間領域信号および第2の音声チャネル上の時間領域信号に従って基準パラメータを決定するように構成された決定ユニットであって、前記基準パラメータは、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号を取得する順序に対応しており、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号は同じ期間に対応しており、前記決定ユニットは、前記基準パラメータおよび限界値T max に従って探索範囲を決定するように構成され、前記限界値T max は、前記第1の音声チャネル上の時間領域信号のサンプリングレートに従って決定され、前記探索範囲は[−T max ,0]の範囲内であり、または前記探索範囲は[0,T max ]の範囲内である、決定ユニットと、
    前記第1の音声チャネル上の周波数領域信号および前記第2の音声チャネル上の周波数領域信号に基づいて前記探索範囲内で探索処理を行って、前記第1の音声チャネルおよび前記第2の音声チャネルに対応する第1のチャネル間時間差(ITD)パラメータを決定するように構成された、処理ユニットと、
    を含み、
    前記決定ユニットは、具体的には、前記第1の音声チャネル上の時間領域信号および前記第2の音声チャネル上の時間領域信号に対してピーク検出処理を行って、第1のインデックス値および第2のインデックス値を決定し、前記第1のインデックス値と前記第2のインデックス値の間の値関係に従って前記基準パラメータを決定するように構成され、前記第1のインデックス値は、事前設定範囲内の前記第1の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値であり、前記第2のインデックス値は、前記事前設定範囲内の前記第2の音声チャネル上の時間領域信号の最大振幅値に対応するインデックス値である装置。
  8. 前記処理ユニットは、第2のITDパラメータに基づいて前記第1のITDパラメータに対して平滑化処理を行うようにさらに構成され、前記第1のITDパラメータは第1の期間におけるITDパラメータであり、前記第2のITDパラメータは、第2の期間におけるITDパラメータの平滑化値であり、前記第2の期間は前記第1の期間より前にある、請求項5から7のいずれか一項に記載の装置。
  9. 請求項1から4のいずれかに記載の方法をコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記憶媒体。
  10. 請求項1から4のいずれかに記載の方法をコンピュータに実行させるように構成されたコンピュータプログラム。
JP2017547541A 2015-03-09 2015-11-20 チャネル間時間差パラメータを決定するための方法および装置 Active JP6487569B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510101315.XA CN106033671B (zh) 2015-03-09 2015-03-09 确定声道间时间差参数的方法和装置
CN201510101315.X 2015-03-09
PCT/CN2015/095097 WO2016141732A1 (zh) 2015-03-09 2015-11-20 确定声道间时间差参数的方法和装置

Publications (2)

Publication Number Publication Date
JP2018511824A JP2018511824A (ja) 2018-04-26
JP6487569B2 true JP6487569B2 (ja) 2019-03-20

Family

ID=56879923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547541A Active JP6487569B2 (ja) 2015-03-09 2015-11-20 チャネル間時間差パラメータを決定するための方法および装置

Country Status (12)

Country Link
US (1) US10210873B2 (ja)
EP (1) EP3252756B1 (ja)
JP (1) JP6487569B2 (ja)
KR (1) KR20170120645A (ja)
CN (1) CN106033671B (ja)
AU (1) AU2015385490B2 (ja)
BR (1) BR112017018600A2 (ja)
CA (1) CA2977846A1 (ja)
MX (1) MX365619B (ja)
RU (1) RU2670843C9 (ja)
SG (1) SG11201706998QA (ja)
WO (1) WO2016141732A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215667B (zh) * 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
ES2909343T3 (es) * 2018-04-05 2022-05-06 Fraunhofer Ges Forschung Aparato, método o programa informático para estimar una diferencia de tiempo entre canales
KR102596885B1 (ko) 2018-08-24 2023-10-31 주식회사 엘지에너지솔루션 리튬 이차 전지용 양극 활물질, 이의 제조 방법, 및 이를 포함하는 리튬 이차 전지

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003107591A1 (en) * 2002-06-14 2003-12-24 Nokia Corporation Enhanced error concealment for spatial audio
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7966190B2 (en) * 2005-07-11 2011-06-21 Lg Electronics Inc. Apparatus and method for processing an audio signal using linear prediction
EP1953736A4 (en) * 2005-10-31 2009-08-05 Panasonic Corp STEREO CODING DEVICE AND METHOD FOR PREDICTING STEREO SIGNAL
TW200945098A (en) * 2008-02-26 2009-11-01 Koninkl Philips Electronics Nv Method of embedding data in stereo image
EP2345026A1 (en) * 2008-10-03 2011-07-20 Nokia Corporation Apparatus for binaural audio coding
US9008321B2 (en) * 2009-06-08 2015-04-14 Nokia Corporation Audio processing
CN101673549B (zh) * 2009-09-28 2011-12-14 武汉大学 一种移动音源空间音频参数预测编解码方法及系统
US8463414B2 (en) * 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
EP2612321B1 (en) 2010-09-28 2016-01-06 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
PL2671222T3 (pl) * 2011-02-02 2016-08-31 Ericsson Telefon Ab L M Określanie międzykanałowej różnicy czasu wielokanałowego sygnału audio
EP2671221B1 (en) * 2011-02-03 2017-02-01 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
CN102582688A (zh) 2012-02-16 2012-07-18 中联重科股份有限公司 车辆中回结构和工程车辆
CN104246873B (zh) * 2012-02-17 2017-02-01 华为技术有限公司 用于编码多声道音频信号的参数编码器
EP2834814B1 (en) * 2012-04-05 2016-03-02 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
JP6063555B2 (ja) * 2012-04-05 2017-01-18 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法
WO2014174344A1 (en) * 2013-04-26 2014-10-30 Nokia Corporation Audio signal encoder
CN104168241B (zh) * 2013-05-16 2017-10-17 华为技术有限公司 多输入输出正交频分复用通信系统及信号补偿方法
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置

Also Published As

Publication number Publication date
AU2015385490A1 (en) 2017-09-28
CN106033671A (zh) 2016-10-19
RU2670843C9 (ru) 2018-11-30
EP3252756A1 (en) 2017-12-06
US20170372710A1 (en) 2017-12-28
MX2017011460A (es) 2017-12-14
CA2977846A1 (en) 2016-09-15
US10210873B2 (en) 2019-02-19
CN106033671B (zh) 2020-11-06
KR20170120645A (ko) 2017-10-31
RU2670843C1 (ru) 2018-10-25
BR112017018600A2 (pt) 2018-04-17
JP2018511824A (ja) 2018-04-26
AU2015385490B2 (en) 2019-04-11
WO2016141732A1 (zh) 2016-09-15
EP3252756A4 (en) 2017-12-13
MX365619B (es) 2019-06-07
EP3252756B1 (en) 2019-08-14
SG11201706998QA (en) 2017-09-28

Similar Documents

Publication Publication Date Title
JP7443423B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
JP6487569B2 (ja) チャネル間時間差パラメータを決定するための方法および装置
WO2018188424A1 (zh) 多声道信号的编解码方法和编解码器
WO2017206416A1 (zh) 一种声道间相位差参数的提取方法及装置
US20170365265A1 (en) Method and Apparatus for Determining Inter-Channel Time Difference Parameter
CN107358960B (zh) 多声道信号的编码方法和编码器
WO2017193549A1 (zh) 多声道信号的编码方法和编码器

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190221

R150 Certificate of patent or registration of utility model

Ref document number: 6487569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250