JP2014518407A - 多チャンネル・オーディオ信号を処理する方法および装置 - Google Patents

多チャンネル・オーディオ信号を処理する方法および装置 Download PDF

Info

Publication number
JP2014518407A
JP2014518407A JP2014519373A JP2014519373A JP2014518407A JP 2014518407 A JP2014518407 A JP 2014518407A JP 2014519373 A JP2014519373 A JP 2014519373A JP 2014519373 A JP2014519373 A JP 2014519373A JP 2014518407 A JP2014518407 A JP 2014518407A
Authority
JP
Japan
Prior art keywords
audio
audio channel
time
channel signals
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014519373A
Other languages
English (en)
Other versions
JP5734517B2 (ja
Inventor
タレブ,アニセ
ヴィレッテ,デイヴィッド
パン,リユン
ラン,ユエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2014518407A publication Critical patent/JP2014518407A/ja
Application granted granted Critical
Publication of JP5734517B2 publication Critical patent/JP5734517B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

本発明は、複数のオーディオ・チャンネル信号(201_1、201_2、201_M)を担持する多チャンネル・オーディオ信号(201)を処理する方法に関する。本方法は、前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)を使って時間スケーリング位置(205)を決定する段階(101)と;前記時間スケーリング位置(205)に従って前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)の各オーディオ・チャンネル信号を時間スケーリングして(103)複数の時間スケーリングされたオーディオ・チャンネル信号(209_1、209_2、209_M)を得る段階とを含む。

Description

本発明は、多チャンネル・オーディオ信号を処理する方法および装置に関する。
時間スケーリング・アルゴリズムは、信号のローカル周波数内容を保持しつつオーディオ信号の継続時間を変え、結果として、もとの信号のピッチや音色に影響することなく記録されたオーディオ信号の知覚される再生レートを速くしたり遅くしたりする全体的な効果を与える。換言すれば、もとの信号の継続時間は増大または減少させられるが、もとの信号の知覚的に重要な特徴は不変のままである。発話の場合、時間スケーリングされた信号は、もとの話者がより速いまたはより遅いレートで話したかのように聞こえる。音楽の場合、時間スケーリングされた信号は、音楽家が異なるテンポで演奏したかのように聞こえる。時間スケーリング・アルゴリズムは、VoIPアプリケーションまたはオーディオ/ビデオ放送における適応的なジッタ・バッファ管理(JBM: jitter buffer management)、オーディオ/ビデオ・ポストプロダクション同期およびマルチトラック・オーディオ・レコーディングおよびミキシングのために使用されることができる。
IPを通じた音声(ボイス・オーバーIP)のアプリケーションでは、発話信号はまず発話エンコーダを使って圧縮される。相互運用性を維持するため、IPを通じた音声のシステムは通例、オープンな発話コーデックの上に構築される。そのようなシステムは、たとえばITU-Tまたは3GPPコーデックにおいて標準化されていることができ(いくつかの標準化された発話コーデックがVoIPのために使用される:G.711、G.722、G.729、G.723.1、AMR-WB)、あるいは独自フォーマットをもつことができる(Speex、Silk、CELT)。エンコードされた発話信号はパケット化され、IPパケットの形で送信される。
パケットはVoIPにおいてさまざまなネットワーク遅延に遭遇する。よって、パケットは不規則な間隔で到着する。そのようなジッタをなめらかにするため、受信されたパケットがしばらくの間バッファリングされてスケジューリングされた時間に逐次的に再生される、ジッタ・バッファ管理機構が通例、受信機において必要とされる。再生時間が各パケットについて調整されることができる場合、サウンド・カードにおける音声データの連続的な再生を保証するために、時間スケール修正が必要とされることがありうる。
遅延は一定の遅延ではないので、時間スケーリング・アルゴリズムが、所与の受信パケットの継続時間を引き伸ばすまたは圧縮するために使われる。ジッタ・バッファ管理機構を含む多チャンネルVoIPアプリケーションの場合、特に多チャンネル・オーディオ・コーデックがデュアル/マルチ・モノ・モードで動作するモノ・コーデックに基づいているとき、すなわち一つのモノ・エンコーダ/デコーダが各チャンネルについて使用されるとき、各チャンネルについての時間スケーリング・アルゴリズムの独立な適用を使うと、特に空間的音像の、品質劣化につながることがある。独立した時間スケーリングは、空間的手がかりが保存されることを保証しないからである。オーディオ/ビデオ放送およびポストプロダクション/アプリケーションでは、各チャンネルを別個に時間スケーリングすることは、ビデオとオーディオの間の同期を保持しうるが、空間的手がかりがもとと同じであることは保証できない。空間的知覚のための最も重要な空間的手がかりはチャンネル間のエネルギー差、チャンネル間の時間差もしくは位相差およびチャンネル間のコヒーレンスもしくは相関である。時間スケーリング・アルゴリズムが動作する際、オーディオ信号の伸張および圧縮動作、エネルギー遅延および時間スケーリングされたチャンネル間のコヒーレンスはもととは異なることがある。
空間的知覚を保存する、多チャンネル・オーディオ・アプリケーションにおけるジッタ・バッファ管理のための概念を提供することが本発明の目的である。
前記目的は、独立請求項の特徴によって達成される。さらなる実装形態は従属請求項、明細書の記述および図面から明白である。
本発明は、多チャンネル時間スケーリング処理の間に多チャンネル・オーディオ信号の空間的手がかりを保存することが空間的知覚を保存するという知見に基づく。空間的手がかりは、チャンネル間時間差(ITD)、チャンネル間レベル差(ILD)、チャンネル間コヒーレンス/チャンネル間相互相関(ICC)その他といった、多チャンネル信号の空間的情報である。
本発明を詳細に説明するため、以下の用語、略語および記法が使用される。
ITD: チャンネル間時間差(Inter-channel Time Difference)、
ILD: チャンネル間レベル差(Inter-channel Level Difference)、
ICC: チャンネル間コヒーレンス(Inter-Channel Coherence)、
IC: チャンネル間相互相関(Inter-channel Cross Correlation)、
相互AMDF: 相互平均絶対値差関数(Cross Average Magnitude Difference Function)、
WSOLA: 波形類似性に基づく同期された重複加算(Waveform-similarity-based Synchronized Overlap-Add)、
IP:インターネット・プロトコル(Internet Protocol)、
VoIP: インターネット・プロトコルを通じた音声(Voice over Internet Protocol)。
第一の側面によれば、本発明は、多チャンネル・オーディオ信号を処理する方法であって、前記多チャンネル・オーディオ信号は複数のオーディオ・チャンネル信号を担持し、当該方法は:前記複数のオーディオ・チャンネル信号を使って時間スケーリング位置を決定する段階と;前記時間スケーリング位置に従って前記複数のオーディオ・チャンネル信号の各オーディオ・チャンネル信号を時間スケーリングして複数の時間スケーリングされたオーディオ・チャンネル信号を得る段階とを含む、方法に関する。
前記時間スケーリング位置は、空間的情報を保持するために異なるオーディオ・チャンネル信号を同期させることを許容する。ジッタ・バッファ管理機構を含む多チャンネルVoIPアプリケーションの場合、多チャンネル・オーディオ・コーデックがデュアル/マルチ・モノ・モードで動作するモノ・コーデックに基づいているとき、すなわち一つのモノ・エンコーダ/デコーダが各チャンネルについて使用されるとき、各チャンネルについての時間スケーリング・アルゴリズムの独立な適用を使っても、品質劣化につながらない。各チャンネルについての時間スケーリングが時間スケーリング位置によって同期され、よって空間的手がかりが、よって空間的音像が保存されるからである。ユーザーは多チャンネル・オーディオ信号の著しいよりよい知覚をもつ。
オーディオ/ビデオ放送およびポストプロダクション・アプリケーションでは、共通の時間スケーリング位置を用いて別個に各チャンネルを時間スケーリングすることは、ビデオとオーディオの間の同期を保持し、空間的手がかりが変化しないことを保証する。
空間的知覚についての最も重要な空間的手がかりはチャンネル間のエネルギー差、チャンネル間の時間差もしくは位相差およびチャンネル間のコヒーレンスもしくは相関である。時間スケーリング位置を決定することによって、これらの手がかりは保存され、もとの手がかりと異ならなくなる。ユーザー知覚が改善される。
前記第一の側面に基づく方法の第一の可能な実装形態では、本方法は:前記複数のオーディオ・チャンネル信号から第一の組の空間的手がかりパラメータを抽出する段階であって、前記第一の組の空間的手がかりパラメータは、前記複数のオーディオ・チャンネル信号と前記複数のオーディオ・チャンネル信号の少なくとも一つから導出される基準オーディオ・チャンネル信号との間の差の差指標(difference measure)に関係する、段階と;前記複数の時間スケーリングされたオーディオ・チャンネル信号から第二の組の空間的手がかりパラメータを抽出する段階であって、前記第二の組の空間的手がかりパラメータは、前記第一の組の空間的手がかりパラメータが関係するのと同じ型の差指標に関係し、前記第二の組の空間的手がかりパラメータは、前記複数の時間スケーリングされたオーディオ・チャンネル信号と、前記複数の時間スケーリングされたオーディオ・チャンネル信号の少なくとも一つから導出される基準の時間スケーリングされたオーディオ・チャンネル信号との間の差に関係する、段階と;前記第二の組の空間的手がかりパラメータが、前記第一の組の空間的手がかりパラメータに関してある品質基準を満足するかどうかを判定する段階とを含む。
前記差指標は、式(5)、(1)、(8)および(6)によって定義され、図2に関して下記で説明する相互相関(cc: cross-correlation)、規格化された相互相関(cn: normalized cross-correlation)および相互平均絶対値差関数(ca)のうちの一つであってもよい。前記品質基準は、最適化基準であってもよく、前記第二の組の空間的手がかりパラメータと前記第一の組の空間的手がかりパラメータとの間の類似性に基づいていてもよい。前記基準信号は、たとえば、前記オーディオ・チャンネル信号のうちの一つまたは前記複数のオーディオ・チャンネル信号の一部または全部から導出されるダウンミックス信号であることができる。時間スケーリングされたオーディオ・チャンネル信号についても同様である。
前記第一の側面の前記第一の実装形態に基づく前記方法の第二の可能な実装形態では、前記第一の組の空間的手がかりパラメータのうちのある空間的手がかりパラメータの抽出は、前記複数のオーディオ・チャンネル信号のうちのあるオーディオ・チャンネル信号と前記基準オーディオ・チャンネル信号との相関を調べることを含み;前記第二の組の空間的手がかりパラメータのうちのある空間的手がかりパラメータの抽出は、前記複数の時間スケーリングされたオーディオ・チャンネル信号のうちのある時間スケーリングされたオーディオ・チャンネル信号と前記基準オーディオ・チャンネル信号との相関を調べることを含む。
前記基準オーディオ・チャンネル信号は、前記複数のオーディオ・チャンネル信号のうち、そのスペクトル成分、そのエネルギーおよびその発話音に関して他のオーディオ・チャンネル信号と同様の振る舞いを示すものであってもよい。前記基準オーディオ・チャンネル信号は、モノ・ダウンミックス信号であってもよく、該モノ・ダウンミックス信号は、Mチャンネル全部の平均として計算されてもよい。ダウンミックス信号を多チャンネル・オーディオ信号についての基準として使うことの利点は、無音信号(silent signal)を基準信号として使うことを避けるということである。実際、ダウンミックスは全チャンネルのエネルギーの平均を表し、よって無音である可能性が少なくなる。同様に、時間スケーリングされたオーディオ・チャンネル信号は、前記複数の時間スケーリングされたオーディオ・チャンネル信号のうち、そのスペクトル成分、そのエネルギーおよびその発話音に関して他の時間スケーリングされたオーディオ・チャンネル信号と同様の振る舞いを示すものであってもよい。前記基準の時間スケーリングされたオーディオ・チャンネル信号は、モノ・ダウンミックス信号であってもよく、該モノ・ダウンミックス信号は、M個の時間スケーリングされたチャンネル全部の平均であり、よって無音である可能性が少なくなる。
前記第一の側面の前記第一または第二の実装形態に基づく前記方法の第三の可能な実装形態では、本方法は、抽出された第二の組の空間的手がかりパラメータが前記品質基準を満足しない場合、以下の段階を含む:あるさらなる時間スケーリング位置に従って前記複数のオーディオ・チャンネル信号の各オーディオ・チャンネル信号を時間スケーリングして、さらなる複数の時間スケーリングされたオーディオ・チャンネル信号を得る段階であって、前記さらなる時間スケーリング位置は前記複数のオーディオ・チャンネル信号を使って決定される、段階と;前記さらなる複数の時間スケーリングされたオーディオ・チャンネル信号から第三の組の空間的手がかりパラメータを抽出する段階であって、前記第三の組の空間的手がかりパラメータは、前記第一の組の空間的手がかりパラメータが関係するのと同じ型の差指標に関係し、前記第三の組の空間的手がかりパラメータは、前記さらなる複数の時間スケーリングされたオーディオ・チャンネル信号と、前記さらなる複数の時間スケーリングされたオーディオ・チャンネル信号の少なくとも一つから導出されるさらなる基準の時間スケーリングされたオーディオ・チャンネル信号との間の差に関係する、段階と;前記第三の組の空間的手がかりパラメータが、前記第一の組の空間的手がかりパラメータに関して前記品質基準を満足するかどうかを判定する段階と;前記第三の組の空間的手がかりパラメータが前記品質基準を満足する場合、前記さらなる複数の時間スケーリングされたオーディオ・チャンネル信号を出力する段階。
前記品質基準は厳しいものであって、それにより高品質の前記組の空間的手がかりパラメータを与えてもよい。
前記第一の側面の前記実装形態のいずれか一つに基づく前記方法の第四の可能な実装形態では、それぞれの組の空間的手がかりパラメータは、該それぞれの組の空間的手がかりパラメータがある空間的手がかりパラメータ範囲内にある場合に、前記第一の組の空間的手がかりパラメータに関して前記品質基準を満足する。前記空間的手がかりパラメータ範囲によって、ユーザーは、本方法によって与えられるべき品質のレベルを制御しうる。それぞれの組の空間的手がかりパラメータがいずれも前記品質基準を満足していない場合には、前記範囲は逐次的に拡大されてもよい。一つの空間的手がかりパラメータだけでなく、組全体が前記パラメータ範囲内である必要がある。
前記第一の側面自身に基づくまたは前記第一の側面の前記実装形態のいずれか一つに基づく前記方法の第五の可能な実装形態では、それぞれの組の空間的手がかりパラメータは以下のパラメータの一つを含む:チャンネル間時間差(ITD)、チャンネル間レベル差(ILD)、チャンネル間コヒーレンス(ICC)およびチャンネル間相互相関(IC)。これらのパラメータについての定義は、ILDについては式(11)、ITDについては式(12)、ICおよびICCについては式(13)で与えられる。これについては図2との関連で後述する。
前記第一の側面自身に基づくまたは前記第一の側面の前記実装形態のいずれか一つに基づく前記方法の第六の可能な実装形態では、時間スケーリング位置を決定する段階は:前記複数のオーディオ・チャンネル信号のそれぞれについて、パラメータとして候補時間スケーリング位置をもつチャンネル相互相関関数を決定する段階と;候補時間スケーリング位置に依存して前記複数のチャンネル相互相関関数を累積することによって累積相互相関関数を決定する段階と;前記累積相互相関関数の最大の累積相互相関値に関連付けられている時間スケーリング位置を選択して前記時間スケーリング位置を得る段階とを含む。
前記品質基準を満足する時間スケーリング位置がみつからない場合、最大の相互相関(cc)、規格化された相互相関(cn)または相互平均絶対値差関数(ca)をもつ時間スケーリング位置が選ばれてもよい。少なくとも、どんな場合でもより劣った時間スケーリング位置はみつけることができる。二番目に大きい累積相互相関値に関連付けられているさらなる時間スケーリング位置が選択されてもよい。三番目、四番目などに大きい累積相互相関値に関連付けられているさらなる時間スケーリング位置が選択されてもよい。
前記第一の側面の第六の実装形態に基づく前記方法の第七の可能な実装形態では、それぞれの相互相関関数は、以下の相互相関関数の一つである:相互相関関数、規格化された相互相関関数および相互平均絶対値差関数(Cross-AMD F)これらの関数は図2に関して説明する式(2)、(3)および(4)によって与えられる。
前記第一の側面の第六または第七の実装形態に基づく前記方法の第八の可能な実装形態では、前記方法はさらに:前記複数のオーディオ・チャンネル信号の各オーディオ・チャンネル信号について、空間的手がかりパラメータから重み付け因子を決定する段階であって、前記空間的手がかりパラメータは前記オーディオ・チャンネル信号および前記複数のオーディオ・チャンネル信号のうちの少なくとも一つから導出される基準オーディオ・チャンネル信号に基づいて抽出され、前記空間的手がかりパラメータは特にチャンネル間レベル差である、段階と;そのオーディオ・チャンネル信号について決定された重み付け因子により各チャンネル相互相関関数に個々に重み付けする段階とを含む。
重み付け因子の決定は、図2に関して述べるように、式(7)においておよび代替的に式(9)において定義されるようなものである。
重み付け因子は、前記第一の組の空間的手がかりパラメータのうちのある空間的手がかりパラメータであることができる空間的手がかりパラメータから、あるいは少なくとも同じ型から決定されるが、別の型の空間的手がかりパラメータであることもできる。たとえば、前記第一の組はITDを空間的手がかりパラメータとして使うが、重み付け因子はILDに基づく。
前記第一の側面自身に基づくまたは前記第一の側面の前記実装形態のいずれかに基づく前記方法の第九の可能な実装形態では、本方法はさらに、前記複数のオーディオ・チャンネル信号の各オーディオ・チャンネル信号を時間スケーリングするのに先立って前記複数のオーディオ・チャンネル信号をバッファリングすることを含む。前記バッファはメモリ・セル、RAMまたは他の任意の物理的メモリであってもよい。前記バッファは、図5に関して後述するジッタ・バッファであることができる。
前記第一の側面自身に基づくまたは前記第一の側面の前記実装形態のいずれかに基づく前記方法の第十の可能な実装形態では、前記時間スケーリングは、同じオーディオ・チャンネル信号の諸オーディオ・チャンネル信号部分を重複させて加算することを含む。重複および加算は、波形類似性に基づく同期された重複加算(WSOLA)アルゴリズムの一部であることができる。
前記第一の側面自身に基づくまたは前記第一の側面の前記実装形態のいずれかに基づく前記方法の第十一の可能な実装形態では、前記多チャンネル・オーディオ信号は、複数のエンコードされたオーディオ・チャンネル信号を含み、前記方法は:前記複数のエンコードされたオーディオ・チャンネル信号をデコードして前記複数のオーディオ・チャンネル信号を得ることを含む。
デコーダが、発話信号であってもよい前記多チャンネル・オーディオ信号を圧縮解除するために使われる。前記デコーダは、IPを通じた音声システムとの相互運用性を維持するために、標準的なデコーダであってもよい。前記デコーダは、オープンな発話コーデック、たとえば標準化されたITU-Tまたは3GPPコーデックを利用してもよい。前記デコーダのコーデックは、G.711、G.722、G.729、G.723.1およびAMR-WBであるVoIPのための標準化されたフォーマットの一つまたはSpeex、SilkおよびCELTである独自フォーマットの一つを実装していてもよい。エンコードされた発話信号はパケット化され、IPパケットの形で送信される。これは、現場で使われている標準的なVoIPアプリケーションとの相互運用性を保証する。
前記第一の側面の第十一の実装形態に基づく前記方法の第十二の可能な実装形態では、前記方法はさらに:単一のオーディオ信号パケットを受領する段階と;受領された単一のオーディオ信号パケットから前記複数のエンコードされたオーディオ・チャンネルを抽出する段階とを含む。前記多チャンネル・オーディオ信号は単一のIPパケット内にパケット化されることができ、それにより各オーディオ・チャンネル信号によって同じジッタが経験される。これは、多チャンネル・オーディオ信号についてサービス品質(QoS: quality of service)を維持することを助ける。
前記第一の側面の第十一の実装形態に基づく前記方法の第十三の可能な実装形態では、前記方法はさらに:複数のオーディオ信号パケットを受領する段階であって、各オーディオ信号パケットは、前記複数の別個にエンコードされたオーディオ・チャンネルのあるエンコードされたオーディオ・チャンネルおよびそれぞれのエンコードされたオーディオ・チャンネルを示すチャンネル・インデックスを含む、段階と;前記受領された複数のオーディオ信号パケットから前記複数のエンコードされたオーディオ・チャンネルを抽出する段階と;受領されたチャンネル・インデックスに基づいて前記複数のエンコードされたオーディオ・チャンネルを整列させる段階とを含む。
前記チャンネル・インデックスによって、エンコードされた多チャンネル・オーディオ信号内のそれぞれのエンコードされたオーディオ・チャンネルの時間位置が受信機に提供されることができ、それにより、受信機内のジッタ・バッファ制御機構がそれぞれのチャンネルの厳密な位置を再構成しうる。諸オーディオ信号フレームがネットワークを通じて異なる仕方で送信され、それにより異なる遅延を経験する場合には、ジッタ・バッファ機構が異なる伝送経路の遅延について補償してもよい。そのようなジッタ・バッファ機構は、図5との関連で後述するジッタ・バッファ管理装置において実装される。
第二の側面によれば、本発明は、多チャンネル・オーディオ信号を処理するオーディオ信号処理装置であって、前記多チャンネル・オーディオ信号は複数のオーディオ・チャンネル信号を含み、当該オーディオ信号処理装置は:前記複数のオーディオ・チャンネル信号を使って時間スケーリング位置を決定するよう適応された決定器と;前記時間スケーリング位置に従って前記複数のオーディオ・チャンネル信号の各オーディオ・チャンネル信号を時間スケーリングして複数の時間スケーリングされたオーディオ・チャンネル信号を得るよう適応された時間スケーリング器とを有する、装置に関する。
前記時間スケーリング位置は、空間的情報を保存するために異なるオーディオ・チャンネル信号を同期させることを許容する。ジッタ・バッファ管理機構を含む多チャンネルVoIPアプリケーションの場合、多チャンネル・オーディオ・コーデックがデュアル/マルチ・モノ・モードで動作するモノ・コーデックに基づいているとき、すなわち一つのモノ・エンコーダ/デコーダが各チャンネルについて使用されるとき、各チャンネルについての時間スケーリング・アルゴリズムの独立な適用を使っても、品質劣化につながらない。各チャンネルについての時間スケーリングが時間スケーリング位置によって同期され、よって空間的手がかりが、よって空間的音像が保存されるからである。ユーザーは多チャンネル・オーディオ信号の著しいよりよい知覚をもつ。
オーディオ/ビデオ放送およびポストプロダクション・アプリケーションでは、共通の時間スケーリング位置を用いて別個に各チャンネルを時間スケーリングすることは、ビデオとオーディオの間の同期を保持し、空間的手がかりが変化しないことを保証する。空間的知覚についての最も重要な空間的手がかりはチャンネル間のエネルギー差、チャンネル間の時間差もしくは位相差およびチャンネル間のコヒーレンスもしくは相関である。時間スケーリング位置を決定することによって、これらの手がかりは保存され、もとの手がかりと異ならなくなる。ユーザー知覚が改善される。
前記第二の側面に基づくオーディオ信号処理装置の第一の可能な実装形態では、前記多チャンネル・オーディオ信号は、複数のエンコードされたオーディオ・チャンネル信号を含み、前記オーディオ信号処理装置は:前記複数のエンコードされたオーディオ・チャンネル信号をデコードして前記複数のオーディオ・チャンネル信号を得るよう適応されたデコーダを有する。
前記デコーダは、図5に関して後述するように、前記オーディオ信号処理装置の外部に実装されていてもよい。前記デコーダは、IPを通じた音声システムとの相互運用性を維持するために、標準的なデコーダであってもよい。前記デコーダは、オープンな発話コーデック、たとえば標準化されたITU-Tまたは3GPPコーデックを利用してもよい。前記デコーダのコーデックは、G.711、G.722、G.729、G.723.1およびAMR-WBであるVoIPのための標準化されたフォーマットの一つまたはSpeex、SilkおよびCELTである独自フォーマットの一つを実装していてもよい。エンコードされた発話信号はパケット化され、IPパケットの形で送信される。これは、現場で使われている標準的なVoIPアプリケーションとの相互運用性を保証する。
前記第二の側面自身に基づくまたは前記第二の側面の第一の実装形態に基づくオーディオ信号処理装置の第二の可能な実装形態では、本オーディオ信号処理装置は:前記複数のオーディオ・チャンネル信号から第一の組の空間的手がかりパラメータを抽出するよう適応された抽出器であって、前記第一の組の空間的手がかりパラメータは、前記複数のオーディオ・チャンネル信号と前記複数のオーディオ・チャンネル信号の少なくとも一つから導出される基準オーディオ・チャンネル信号との間の差の差指標(difference measure)に関係し、前記抽出器はさらに、前記複数の時間スケーリングされたオーディオ・チャンネル信号から第二の組の空間的手がかりパラメータを抽出するよう適応されており、前記第二の組の空間的手がかりパラメータは、前記第一の組の空間的手がかりパラメータが関係するのと同じ型の差指標に関係し、前記第二の組の空間的手がかりパラメータは、前記複数の時間スケーリングされたオーディオ・チャンネル信号と、前記複数の時間スケーリングされたオーディオ・チャンネル信号の少なくとも一つから導出される基準の時間スケーリングされたオーディオ・チャンネル信号との間の差に関係する、抽出器と;前記第二の組の空間的手がかりパラメータが、前記第一の組の空間的手がかりパラメータに関してある品質基準を満足するかどうかを判定する処理器とを有する。
前記差指標は、式(1)、(5)、(6)および(8)によって定義され、図2に関して下記で説明する相互相関(cc: cross-correlation)、規格化された相互相関(cn: normalized cross-correlation)および相互平均絶対値差関数(ca)のうちの一つであってもよい。前記品質基準は、最適化基準であってもよく、前記第二の組の空間的手がかりパラメータと前記第一の組の空間的手がかりパラメータとの間の類似性に基づいていてもよい。
前記基準オーディオ・チャンネル信号は、前記複数のオーディオ・チャンネル信号のうち、そのスペクトル成分、そのエネルギーおよびその発話音に関して他のオーディオ・チャンネル信号と同様の振る舞いを示すものであってもよい。前記基準オーディオ・チャンネル信号は、Mチャンネル全部の平均であるモノ・ダウンミックス信号であってもよい。ダウンミックス信号を多チャンネル・オーディオ信号についての基準として使うことの利点は、無音信号(silent signal)を基準信号として使うことを避けるということである。実際、ダウンミックスは全チャンネルのエネルギーの平均を表し、よって無音である可能性が少なくなる。同様に、時間スケーリングされたオーディオ・チャンネル信号は、前記複数の時間スケーリングされたオーディオ・チャンネル信号のうち、そのスペクトル成分、そのエネルギーおよびその発話音に関して他の時間スケーリングされたオーディオ・チャンネル信号と同様の振る舞いを示すものであってもよい。前記基準時間スケーリングされたオーディオ・チャンネル信号は、モノ・ダウンミックス信号であってもよく、該モノ・ダウンミックス信号は、M個の時間スケーリングされたチャンネル全部の平均であり、よって無音である可能性が少なくなる。
前記第二の側面自身に基づくまたは前記第二の側面の前記実装形態のいずれか一つに基づく前記オーディオ信号処理装置の第三の可能な実装形態では、前記決定器は、前記複数のオーディオ・チャンネル信号のそれぞれについて、諸候補時間スケーリング位置に依存してチャンネル相互相関関数を決定し、前記諸候補時間スケーリング位置に依存して前記複数のチャンネル相互相関関数を累積することによって累積相互相関関数を決定し;前記累積相互相関関数の最大の累積相互相関値に関連付けられている時間スケーリング位置を選択して前記時間スケーリング位置を得るよう適応されている。
前記品質基準を満足する時間スケーリング位置がみつからない場合、最大の相互相関(cc)、規格化された相互相関(cn)または相互平均絶対値差関数(ca)をもつ時間スケーリング位置が選ばれてもよい。少なくとも、どんな場合でもより劣った時間スケーリング位置はみつけることができる。
第三の側面によれば、本発明は、多チャンネル・オーディオ信号を処理するためのプログラム可能に構成されたオーディオ信号処理装置に関係し、前記多チャンネル・オーディオ信号は複数のオーディオ・チャンネル信号を含み、当該プログラム可能に構成されたオーディオ信号処理装置は、前記第一の側面自身に基づくまたは前記第一の側面の実装形態のいずれかに基づく方法を実行するためのコンピュータ・プログラムを実行するよう構成されているプロセッサを有する。
プログラム可能に構成されたオーディオ信号処理装置は、前記第三の側面の第一の可能な実装形態によれば、前記プロセッサ上で走るソフトウェアまたはファームウェアを含み、種々の環境において柔軟に使用されることができる。エラーが見出されるまたはよりよいアルゴリズムまたはアルゴリズムのよりよいパラメータが見出される場合、オーディオ信号処理装置のパフォーマンスを改善するために、ソフトウェアはプログラムし直されることができる、あるいはファームウェアは前記プロセッサ上にロードし直されることができる。プログラム可能に構成されたオーディオ信号処理装置は、現場で早期にインストールされ、問題があった場合にはプログラムし直され、あるいはロードし直され。それにより、市場投入までの時間を加速し、遠隔通信事業者の設置されている基盤を改善することができる。
本発明は、デジタル電子回路において、あるいはコンピュータ・ハードウェア、ファームウェア、ソフトウェアまたはそれらの組み合わせにおいて実装されることができる。
本発明のさらなる実施形態は、以下の図面に関して記述される。
ある実装形態に基づく、多チャンネル・オーディオ信号を処理する方法のブロック図である。 ある実装形態に基づく、オーディオ信号処理装置のブロック図である。 ある実装形態に基づく、オーディオ信号処理装置のブロック図である。 ある実装形態に基づく、多チャンネル・オーディオ信号を処理する方法のブロック図である。 ある実装形態に基づく、ジッタ・バッファ管理装置のブロック図である。 ある実装形態に基づく、オーディオ信号処理装置によって適用される制約された時間スケーリングを示す時間図である。
図1は、ある実装形態に基づく、複数のオーディオ・チャンネル信号を担持する多チャンネル・オーディオ信号を処理する方法のブロック図を示している。本方法は、前記複数のオーディオ・チャンネル信号を使って時間スケーリング位置を決定し(101)、前記時間スケーリング位置に従って前記複数のオーディオ・チャンネル信号の各オーディオ・チャンネル信号を時間スケーリングして(103)複数の時間スケーリングされたオーディオ・チャンネル信号を得ることを含む。
図2は、ある実装形態に基づく、複数M個のオーディオ・チャンネル信号201_1、201_2、……、201_Mを含む多チャンネル・オーディオ信号201を処理するオーディオ信号処理装置200のブロック図を示している。オーディオ信号処理装置200は、決定器203および時間スケーリング器207を有する。決定器203は、前記複数のオーディオ・チャンネル信号201_1、201_2、……、201_Mを使って時間スケーリング位置205を決定するよう構成されている。前記時間スケーリング器207は、前記時間スケーリング位置205に従って前記複数のオーディオ・チャンネル信号201_1、201_2、……、201_Mの各オーディオ・チャンネル信号を時間スケーリングして複数の時間スケーリングされたオーディオ・チャンネル信号209_1、209_2、……、209_Mを得るよう構成されている。これら複数の時間スケーリングされたオーディオ・チャンネル信号が時間スケーリングされた多チャンネル・オーディオ信号209をなす。決定器203は、前記複数M個のオーディオ・チャンネル信号201_1、201_2、……、201_Mを受領するためのM個の入力および前記時間スケーリング位置205を提供するための一つの出力を有する。時間スケーリング器207は、前記複数M個のオーディオ・チャンネル信号201_1、201_2、……、201_Mを受領するためのM個の入力および前記時間スケーリング位置205を受領するための一つの入力を有する。時間スケーリング器207は、時間スケーリングされた多チャンネル・オーディオ信号209をなす前記複数M個の時間スケーリングされたオーディオ・チャンネル信号209_1、209_2、……、209_Mを提供するためのM個の出力をもつ。
オーディオ信号処理装置200の第一の実装形態では、決定器203は、多チャンネル・オーディオ信号201から時間スケーリング位置δを計算することによって時間スケーリング位置205を決定するよう構成されている。
決定器203は、次式
Figure 2014518407
のようにして、相互相関cc(m,δ)、規格化された相関cn(m,δ)および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)を計算し、
Figure 2014518407
を最大化する、各チャンネル1…Mについての時間スケーリング位置δを決定する。
相互相関cc(m,δ)、規格化された相関cn(m,δ)および相互平均絶対値差関数(相互AMDF)ca(m,δ)は次式のようにして決定される類似性指標である。
Figure 2014518407
ここで、最良のセグメントmは、時間期間
Figure 2014518407
のまわりの許容差領域[−Δmaxmax]内にあり、選ばれた類似性指標を最大にする値
Figure 2014518407
を見出すことによって決定される。Nは相互相関関数の窓長、mはセグメント・インデックス、nはサンプル・インデックス、cc、cnおよびcaはそれぞれ相互相関、規格化された相互相関および相互AMDFの略である。Δは時間スケーリング位置候補を表す。
時間スケーリング器207は、M個のオーディオ・チャンネル信号201_1、201_2、……、201_Mのそれぞれを、決定器203によって決定された対応する時間スケーリング位置δ 205で時間スケーリングして、時間スケーリングされた多チャンネル・オーディオ信号209をなすM個の時間スケーリングされたオーディオ・チャンネル信号209_1、209_2、……、209_Mを得る。
オーディオ信号処理装置200の第二の実装形態では、多チャンネル・オーディオ信号201は、左および右のオーディオ・チャンネル信号201_1および201_2を含む2チャンネルのステレオ・オーディオ信号である。決定器203は、ステレオ・オーディオ信号201から相互相関関数を計算することによって時間スケーリング位置δ 205を決定するよう構成される。
決定器203は、次式
Figure 2014518407
のようにして、相互相関
Figure 2014518407
と、規格化された相互相関cn(m,δ)と、および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)とを計算する。ここで、lおよびrは左および右チャンネルの略であり、mはセグメント・インデックスである。
Figure 2014518407
を最大にする左および右チャンネルについての時間スケーリング位置
Figure 2014518407
を決定する。
相互相関cc(m,δ)、規格化された相関cn(m,δ)および相互平均絶対値差関数(相互AMDF)ca(m,δ)は第一の実装形態に関して上述したように決定される類似性指標である。
時間スケーリング器207は、左および右のオーディオ・チャンネル信号201_1および201_2を、決定器203によって決定された対応する時間スケーリング位置δ 205で時間スケーリングして、時間スケーリングされた2チャンネル・オーディオ信号209をなす左および右の時間スケーリングされたオーディオ・チャンネル信号209_1および209_2を得る。
オーディオ信号処理装置200の第三の実装形態では、決定器203は、多チャンネル・オーディオ信号201から時間スケーリング位置δ 205を決定するよう構成されている。
決定器203は、次式
Figure 2014518407
のようにして、相互相関cc(m,δ)、規格化された相互相関cn(m,δ)および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)を計算する。ここで、エネルギー重みwiは、式
Figure 2014518407
を使って多チャンネル・オーディオ信号から直接計算される。ここで、xi(n)は時間領域におけるM個のオーディオ・チャンネル信号201_1、201_2、……、201_Mである。Nはフレーム長、nはサンプル・インデックスである。
決定器203は、第一の実装形態に関して上述したように
Figure 2014518407
を最大にする各チャンネル1…Mについての時間スケーリング位置δを決定する。
時間スケーリング器207は、M個のオーディオ・チャンネル信号201_1、201_2、……、201_Mのそれぞれを、決定器203によって決定された対応する時間スケーリング位置δ 205で時間スケーリングして、時間スケーリングされた多チャンネル・オーディオ信号209をなすM個の時間スケーリングされたオーディオ・チャンネル信号209_1、209_2、……、209_Mを得る。
オーディオ信号処理装置200の第四の実装形態では、多チャンネル・オーディオ信号201は、左および右のオーディオ・チャンネル信号201_1および201_2を含む2チャンネルのステレオ・オーディオ信号である。決定器203は、ステレオ・オーディオ信号201から時間スケーリング位置δ 205を決定するよう構成される。
決定器203は、次式
Figure 2014518407
のようにして、相互相関cc(m,δ)、規格化された相互相関cn(m,δ)および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)を計算する。
左および右チャンネルの相互相関ccl(m,5)およびccr(m,5)、左および右チャンネルの規格化された相関cnl(m,5)およびcnr(m,5)および左および右チャンネルの相互平均絶対値差関数(相互AMDF)cal(m,5)およびcar(m,5)は第一の実装形態に関して上述したように決定される類似性指標である。ここでは計算は左および右チャンネルの信号値に基づく。エネルギー重みwlおよびwrは左チャンネルlおよび右チャンネルrに対応し、式(9)を使ってILD空間パラメータから計算される。
Figure 2014518407
これら二つのチャンネルの一方が基準信号を提供する基準チャンネルとして取られる。ILDは式(11)から次式のようにして計算される。
Figure 2014518407
ここで、kは周波数ビンのインデックス、bは周波数帯のインデックス、kbは帯域bの開始ビン、kb+1−1は帯域bの終点、Xrefは基準信号のスペクトル、([1,2]内のlについての)Xiは2チャンネル・ステレオ・オーディオ信号201の左および右チャンネルのスペクトルである。3/4およびXi*はそれぞれXrefおよびXiの共役である。基準信号Xrefのスペクトルは、そのチャンネルにおいて、基準信号として取られる。通常、帯域bの数が1であるフル帯域ILDが使われる。
決定器203は、cc(m,δ)、cn(m,δ)またはca(m,δ)を最大にする、左および右チャンネルについての時間スケーリング位置δを決定する。
時間スケーリング器207は、左および右のオーディオ・チャンネル信号201_1および201_2を、決定器203によって決定された対応する時間スケーリング位置δ 205で時間スケーリングして、時間スケーリングされた2チャンネル・オーディオ信号209をなす左および右の時間スケーリングされたオーディオ・チャンネル信号209_1および209_2を得る。
第五の実装形態では、決定器203は、多チャンネル・オーディオ信号201から空間的パラメータを抽出し、図2に関して述べた上記四つの実装形態の一つに従って相互相関cc(m,δ)、規格化された相互相関cn(m,δ)および相互平均絶対値差関数(相互AMDF)ca(m,δ)である諸類似性指標のうちの少なくとも一つを計算する。少なくとも一つの空間的手がかりを保存しない波形を消去するために、決定器203は、制約された時間スケーリング(波形類似性に基づく同期された重複加算、WSOLA)をすべてのチャンネルに適用し、計算された類似性指標、すなわち相互相関cc(m,δ)、規格化された相互相関cn(m,δ)および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)を修正する。
決定器203によって適用されるWSOLAの基本的発想は、関係するサンプル・インデックスn=τ(ρ)の対応する近傍におけるもとの波形x(p)との最大の局所的類似性を維持する合成波形y(n)を生成する理想的な時間スケーリング位置を決定するというものである。WSOLAアルゴリズムを示す図6から、もとの波形のインデックスpがp=τ-1(n)によって得られることが見て取れる。
規則的な間隔の合成時点Lk=k'Lおよび
Figure 2014518407
のような合成窓を選ぶことによって、合成の式は次のように書ける。
Figure 2014518407
kはここでは合成の時点のインデックスを表していることを注意しておく。左から右に進むと、圧縮動作について、図6からのセグメント(2)は入力から切り取られ、時点Lk-1=(k−1)・Lにおいて出力に加えられた最後のセグメントであったことが想定される。すなわち、セグメント(a)=セグメント(2)。するとWSOLAは、同期された仕方で(a)と重複加算されることになり、かつ時点
Figure 2014518407
のまわりで入力から切り取られることのできるセグメント(b)を見出す必要がある。(1')は自然な仕方で(2)=(a)に重複加算されてもとの入力発話の一部をなすので、WSOLAは、できるだけ(1')によく似ており入力波においてτ-1(k・L)のまわりで所定の許容差区間[−Δmaxmax]内に位置されるよう、(b)を選択することができる。この最良のセグメント(3)の位置は、(1')の基礎になるサンプル・シーケンスと入力発話との間の類似性指標(相互相関または相互AMDF(平均絶対値差関数)など)を最大にすることによって見出される。(b)を(a)と重複加算したのち、WSOLAは次の出力セグメントに進み、(2')が今度は先のステップにおける(1')と同じ役割を果たす。
最良のセグメントmは、τ-1(m'L)のまわりで許容差領域[−Δmaxmax]内にあり、選ばれた類似性指標を最大にする値
Figure 2014518407
を見出すことによって決定される。類似性指標は、式(2)(3)(4)で与えられるようなものである。
制約された時間スケーリング(WSOLA)をすべてのチャンネルに適用することによって、決定器203は抽出されたδを検証する。類似性値を計算するために使われる実装形態に基づく式(5)(1)(8)(6)から、決定器203は、最良のcc、cnまたはcaから最悪のcc、cnまたはcaの順にされていてもよいδについてのj個の候補のリストを計算する。第二のステップでは、ICCおよび/またはITDが合成された波形に対して計算され、ICCおよび/またはITDがもとのICCおよび/またはITDのまわりのある範囲内でなければ、候補δはリストから消去され、次のδ候補が試験される。ICCおよび/またはITD制約が満たされるなら、そのδが選択される。
チャンネル間時間差(ITD)、チャンネル間レベル差(ILD)およびチャンネル間コヒーレンス/チャンネル間相互相関(ICC)は、下記で述べるように、多チャンネル・オーディオ信号201から決定器203によって抽出される空間的情報である。
決定器203は、式(11)を使って多チャンネル・オーディオ信号201からILDを抽出する。
この情報に基づいて、決定器203はM−1個の空間的手がかりを計算する。さらに、決定器203は、各チャンネルlについて、チャンネル信号iと基準チャンネルとの間の遅延を表すチャンネル間時間差(ITD)を、次式に基づいて多チャンネル・オーディオ信号201から計算する。
Figure 2014518407
ICi(d)は
Figure 2014518407
のように定義された規格化された相互相関であり、xrefは基準信号を表し、xiはチャンネル信号lを表す。ICCiパラメータはICCi=ICi[d]として定義される。
時間スケーリング器207は、M個のオーディオ・チャンネル信号201_1、201_2、……、201_Mのそれぞれを、決定器203によって決定された対応する時間スケーリング位置δ 205で時間スケーリングして、時間スケーリングされた多チャンネル・オーディオ信号209をなすM個の時間スケーリングされたオーディオ・チャンネル信号209_1、209_2、……、209_Mを得る。
第四の実装形態の第一の変形および第五の実装形態の第一の変形において、Xrefは、全Mチャンネルの平均であるモノ・ダウンミックス信号のスペクトルである。M個の空間的手がかりが決定器203において計算される。ダウンミックス信号を多チャンネル・オーディオ信号についての基準として使うことの利点は、無音信号(silent signal)を基準信号として使うことを避けるということである。実際、ダウンミックスは全チャンネルのエネルギーの平均を表し、よって無音である可能性が少なくなる。
第六の実装形態では、決定器203は、第五の実装形態に従って、抽出されたδを検証する。しかしながら、制約された時間スケーリング(WSOLA)に関して制約条件を満たすδがない場合には、最大のcc、cnまたはcaをもつδが選ばれることになる。
時間スケーリング器207は、M個のオーディオ・チャンネル信号201_1、201_2、……、201_Mのそれぞれを、決定器203によって決定された対応する時間スケーリング位置δ 205で時間スケーリングして、時間スケーリングされた多チャンネル・オーディオ信号209をなすM個の時間スケーリングされたオーディオ・チャンネル信号209_1、209_2、……、209_Mを得る。
図3は、ある実装形態に基づく、複数のオーディオ・チャンネル信号301_1、301_2、……、301_Mを含む多チャンネル・オーディオ信号301を処理するオーディオ信号処理装置300のブロック図を示している。オーディオ信号処理装置300は、決定器303および時間スケーリング器307を有する。決定器303は、前記複数のオーディオ・チャンネル信号301_1、301_2、……、301_Mを使って時間スケーリング位置δ 305を決定するよう構成されている。前記時間スケーリング器307は、前記時間スケーリング位置δ 305に従って前記複数のオーディオ・チャンネル信号301_1、301_2、……、301_Mの各オーディオ・チャンネル信号を時間スケーリングして複数の時間スケーリングされたオーディオ・チャンネル信号309_1、309_2、……、309_Mを得るよう構成されている。これら複数の時間スケーリングされたオーディオ・チャンネル信号が時間スケーリングされた多チャンネル・オーディオ信号309をなす。決定器303は、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mを受領するためのM個の入力および前記時間スケーリング位置205を提供するための一つの出力を有する。時間スケーリング器307は、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mを受領するためのM個の入力および前記時間スケーリング位置305を受領するための一つの入力を有する。時間スケーリング器307は、時間スケーリングされた多チャンネル・オーディオ信号309をなす前記複数M個の時間スケーリングされたオーディオ・チャンネル信号309_1、309_2、……、309_Mを提供するためのM個の出力をもつ。
決定器303は、空間的パラメータを抽出するよう構成されているM個の抽出ユニット303_1、303_2、……、303_Mと、スケーリング位置δ 305を計算するよう構成されている一つの計算ユニット304とを有する。
オーディオ信号処理装置300の第一の実装形態では、M個の抽出ユニット303_1、303_2、……、303_Mのそれぞれは、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mのそれぞれについて空間的パラメータを抽出する。計算ユニット304は、図2に関して述べたオーディオ信号処理装置200の第一の実装形態に従って、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mについて、相互相関cc(m,δ)、規格化された相互相関cn(m,δ)および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)を計算する。
計算ユニット304は、図2に関して述べたオーディオ信号処理装置200の第一の実装形態に従って、最良のセグメントmを、時間区間τ-1(m・L)のまわりで許容差領域[−Δmaxmax]内にあり、選ばれた類似性指標を最大にする値δ=Δmを見出すことによって計算する。
オーディオ信号処理装置300の第二の実装形態では、多チャンネル・オーディオ信号301は、左および右のオーディオ・チャンネル信号301_1および301_2を含む2チャンネルのステレオ・オーディオ信号である。決定器303は、左および右のオーディオ・チャンネル信号301_1および301_2から空間的パラメータを抽出するよう構成されている二つの抽出ユニット303_1、303_2と、スケーリング位置δ 305を計算するよう構成されている一つの計算ユニット304とを有する。
左および右の抽出ユニット303_1および303_2のそれぞれはILDおよび/またはITDおよび/またはICCを抽出する。
計算ユニット304は、図2に関して述べたオーディオ信号処理装置200の第二の実装形態に従って、左および右のオーディオ・チャンネル信号201_1および201_2について、相互相関cc(m,δ)、規格化された相互相関cn(m,δ)および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)を計算する。
計算ユニット304は、図2に関して述べたオーディオ信号処理装置200の第二の実装形態に従って、最良のセグメントmを、時間区間τ-1(m・L)のまわりで許容差領域[−Δmaxmax]内にあり、選ばれた類似性指標を最大にする値δ=Δmを見出すことによって計算する。
オーディオ信号処理装置300の第三の実装形態では、M個の抽出ユニット303_1、303_2、……、303_Mのそれぞれは、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mのそれぞれについて空間的パラメータを抽出する。計算ユニット304は、図2に関して述べたオーディオ信号処理装置200の第三の実装形態に従って、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mについて、相互相関cc(m,δ)、規格化された相互相関cn(m,δ)および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)を計算する。
計算ユニット304は、前記第三の実装形態に関して述べたように、cc(m,δ)、cn(m,δ)またはcs(m,δ)を最大化する、各チャンネル1……Mについての時間スケーリング位置δを決定する。
オーディオ信号処理装置300の第四の実装形態では、多チャンネル・オーディオ信号301は、左および右のオーディオ・チャンネル信号301_1および301_2を含む2チャンネルのステレオ・オーディオ信号である。決定器303は、左および右のオーディオ・チャンネル信号301_1および301_2から空間的パラメータを抽出するよう構成されている二つの抽出ユニット303_1、303_2と、スケーリング位置δ 305を計算するよう構成されている一つの計算ユニット304とを有する。
計算ユニット304は、前記第四の実装形態に関して述べたように、cc(m,δ)、cn(m,δ)またはa(m,δ)最大にする、各チャンネルについての時間スケーリング位置δを決定する。
オーディオ信号処理装置300の第五の実装形態では、M個の抽出ユニット303_1、303_2、……、303_Mのそれぞれは、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mのそれぞれについて空間的パラメータを抽出する。計算ユニット304は、図2に関して述べたオーディオ信号処理装置200の第五の実装形態に従って、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mについて、相互相関cc(m,δ)、規格化された相互相関cn(m,δ)および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)を計算する。
計算ユニット304は、前記第五の実装形態に関して述べたように、cc(m,δ)、cn(m,δ)またはca(m,δ)を最大にする、各チャンネル1……Mについての時間スケーリング位置δを決定する。
オーディオ信号処理装置300の第六の実装形態では、M個の抽出ユニット303_1、303_2、……、303_Mのそれぞれは、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mのそれぞれについて空間的パラメータを抽出する。計算ユニット304は、図2に関して述べたオーディオ信号処理装置200の第六の実装形態に従って、前記複数M個のオーディオ・チャンネル信号301_1、301_2、……、301_Mについて、相互相関cc(m,δ)、規格化された相互相関cn(m,δ)および/または相互平均絶対値差関数(相互AMDF)ca(m,δ)を計算する。
計算ユニット304は、前記第六の実装形態に関して述べたように、cc(m,δ)、cn(m,δ)またはca(m,δ)を最大にする、各チャンネル1……Mについての時間スケーリング位置δを決定する。
図4は、ある実装形態に基づく、多チャンネル・オーディオ信号を処理する方法のブロック図を示している。本方法は、多チャンネルの情報をバッファリングし(401);空間的パラメータを抽出し(403);各チャンネルについて最適な時間スケーリング位置δを見出し(405);最適な時間スケーリング位置δに従って各チャンネルを時間スケーリングする(407)ことを含む。バッファリング401は、図2および図3に関して述べた多チャンネル・オーディオ信号201、301に関係する。バッファリングのために、メモリ・セルまたはRAMまたは他のハードウェア・ベースのバッファが使用される。抽出403は、図3に関して述べた空間的パラメータを抽出するよう構成されているM個の抽出ユニット303_1、303_2、……、303_Mに関係する。各チャンネルについての最適な時間スケーリング位置δを見出すこと405は、図3に関して述べたスケーリング位置δ 305を計算するよう構成された計算ユニット304に関する。時間スケーリング407は、図3に関して述べたスケーリング・ユニット307に関係する。方法ステップ401、403、405および407のそれぞれは、図3に関して述べたそれぞれのユニットの機能を実行するよう構成される。
図5は、ある実装形態に基づく、ジッタ・バッファ管理装置500のブロック図を示している。ジッタ・バッファ管理装置500は、ジッタ・バッファ530、デコーダ540、適応再生アルゴリズム・ユニット550およびオーディオ信号処理装置520を有する。ジッタ・バッファ530は、入力フレーム511を受領するデータ入力と、ジッタ制御信号551を受領する制御入力とを有する。ジッタ・バッファ530は、バッファリングされた入力フレームをデコーダ540に提供するデータ出力を有する。デコーダ540は、バッファリングされた入力フレームをジッタ・バッファ530から受領するデータ入力と、デコードされたフレームをオーディオ信号処理装置520に提供するデータ出力とを有する。オーディオ信号処理装置520は、デコーダ540からのデコードされたフレームを受領するデータ入力と、出力フレーム509を提供するデータ出力とを有する。オーディオ信号処理装置520は、適応再生アルゴリズム・ユニット550から期待されるフレーム長523を受領する制御入力と、適応再生アルゴリズム・ユニット550に新しいフレーム長521を提供する制御出力とを有する。適応再生アルゴリズム・ユニット550は、入力フレーム511を受領するデータ入力と、新しいフレーム長521をオーディオ信号処理装置520から受領する制御入力とを有する。適応再生アルゴリズム・ユニット550は、期待されるフレーム長523をオーディオ信号処理装置520に提供する第一の制御出力と、ジッタ制御信号551をジッタ・バッファ530に提供する第二の制御出力とを有する。
IPを通じた音声のアプリケーションでは、発話信号がまず発話エンコーダを使って圧縮される。相互運用性を維持するため、IPを通じた音声のシステムは通例、オープンな発話コーデックの上に構築される。そのようなシステムは、たとえばITU-Tまたは3GPPコーデックにおいて標準化されていることができ(いくつかの標準化された発話コーデックがVoIPについて使用される:G.711、G.722、G.729、G.723.1、AMR-WB)、あるいは独自フォーマット(Speex、Silk、CELT)であることができる。エンコードされた発話信号をデコードするために、デコーダは、標準化された発話コーデックG.711、G.722、G.729、G.723.1およびAMR-WBのうちの一つまたは独自の発話コーデックSpeex、Silk、CELTのうちの一つを適用するよう構成される。
エンコードされた発話信号は、パケット化され、IPパケットの形で送信される。パケットはVoIPにおいてさまざまなネットワーク遅延に遭遇する。よって、パケットは不規則な間隔で到着する。そのようなジッタをなめらかにするため、受信機において通例、ジッタ・バッファ管理機構が必要とされる。受領されたパケットがしばらくの間バッファリングされてスケジューリングされた時間に逐次的に再生されるのである。諸実装形態において、ジッタ・バッファ530は、受領されたパケット、すなわち入力フレーム511を、適応再生アルゴリズム・ユニット550から与えられるジッタ制御信号551に従ってバッファリングするよう構成される。
再生時間が各パケットについて調整されることができる場合、サウンド・カードにおける音声データの連続的な再生を保証するために、時間スケール修正が必要とされる。オーディオ信号処理装置520は、サウンド・カードにおける音声データの連続的な再生を保証するための時間スケール修正を提供するよう構成される。遅延は一定の遅延ではないので、オーディオ信号処理装置520は、所与の受信パケットの継続時間を引き伸ばすまたは圧縮するよう構成される。ある実装形態では、オーディオ信号処理装置520は、時間スケーリングのためにWSOLA技術を使うよう構成される。オーディオ信号処理装置200は、図2に関して述べたオーディオ信号処理装置200または図3に関して述べたオーディオ信号処理装置300に対応する。
ある実装形態では、ジッタ・バッファ管理装置500は、ステレオまたは多チャンネルのVoIP通信を管理するよう構成される。
ある実装形態では、デコーダ540は、特定の多チャンネル・オーディオ符号化方式、特にパラメトリックな空間的オーディオ符号化方式を適用する多チャンネル・コーデックを有する。
ある実装形態では、デコーダ540は、デュアル/マルチ・モノ・モードで動作するモノ・コーデックに基づく。すなわち一つのモノ・エンコーダ/デコーダが各チャンネルについて使用される。各チャンネルについて時間スケーリング・アルゴリズムの独立な適用を使うと、(特に空間的音像の)品質劣化につながることがある。独立した時間スケーリングは、空間的手がかりが保存されることを保証しないからである。したがって、図2に関して述べたオーディオ信号処理装置200または図3に関して述べたオーディオ信号処理装置300に対応するオーディオ信号処理装置520は、ジッタ・バッファ管理装置500が空間的音像に関してパフォーマンス劣化を示さないよう、空間的手がかりを保存するよう構成される。
オーディオ/ビデオ放送およびポストプロダクション・アプリケーションでは、源素材が記録されたのとは異なるレートでビデオを再生することが必要になることがある。その結果、付随するオーディオ信号のピッチが変化したバージョンが生じる。これは、24フレーム毎秒のフィルム・レートのコンテンツが25フレーム毎秒の再生レートをもつシステムへの転送のためにより速いレートで再生されるときのフレーム・レート変換の際に普通に起こる。オーディオ信号処理装置520によって実行される時間スケーリングは、もとの源素材のピッチを保存しつつ、ビデオとオーディオの間の同期を維持する。
時間スケーリング・アルゴリズムの独立した適用は、話者の位置の修正につながる。ジッタ・バッファ管理装置500は、ITD、ILDおよびICCその他である最も重要な空間的手がかりを保存する。それらの空間的手がかりは、時間スケーリング・アルゴリズムを制約するために使われる。よって、時間スケーリングが多チャンネル・オーディオ信号を伸張または圧縮するために使われるときでも、空間的音像は修正されない。
ジッタ・バッファ管理装置500は、多チャンネル時間スケーリング処理を通じて空間的手がかりを保存するよう構成される。ある実装形態では、オーディオ信号処理装置520は、複数のオーディオ・チャンネル信号を担持する多チャンネル・オーディオ信号を処理する方法を適用する。前記方法は:ITD(チャンネル間時間差)、ILD(チャンネル間レベル差)またはICC(チャンネル間コヒーレンス/チャンネル間相互相関)のような空間的情報を、時間スケーリングされていない多チャンネル信号から抽出し;制約された時間スケーリング・アルゴリズムを各チャンネルに適用して、空間的手がかりが保存されることを保証することを含む。
ある実装形態では、オーディオ信号処理装置520は、複数のオーディオ・チャンネル信号を担持する多チャンネル・オーディオ信号を処理する方法を適用する。前記方法は:前記空間的パラメータを前記多チャンネル信号から抽出し;制約された時間スケーリング(WSOLA)を全チャンネルに適用し;少なくとも一つの空間的手がかりを保存しない波形を消去するために、類似性指標、すなわち相互相関、規格化された相互相関または相互AMDFを修正することを含む。この実装形態のある変形では、類似性指標は、空間的手がかりの全部は保存しないような波形を消去するために修正される。
多チャンネルVoIPアプリケーションの場合、すべてのチャンネルからのデータが、送り側から受信側に送信されるとき、一つのパケットまたは種々のパケットにカプセル化される。ある実装形態に基づく受信機は、図5に描かれたようなジッタ/バッファ管理装置500を有する。全チャンネルが一つのパケットに入れられる場合、それらのチャンネルは同じジッタをもつ。全チャンネルが種々のパケットにパケット化される場合、それらのチャンネルは通例各チャンネルについて異なるジッタをもち、それらのパケットは異なる順序で到着する。ジッタを補償し、全チャンネルを整列させるために、最大遅延が設定される。パケットがくるのが遅すぎ、最大遅延を超える場合、データは失われたと考えられ、パケット損失隠蔽アルゴリズムが使われる。チャンネルが種々のパケットにおいて送信される特定の場合、デコーダ540が各チャンネルについて独立してパケットを並べ替えることができることを保証するために、フレーム・インデックスがチャンネル・インデックスと一緒に使用される。
オーディオ/ビデオ放送およびポストプロダクション・アプリケーションにおいて、各チャンネルの時間スケール位置が同じ場合、ITDは維持されることができる。各チャンネルのエネルギーが時間スケーリングの前および後で変更されない場合、ILDは保持されることができる。ある実装形態では、ジッタ・バッファ管理装置500は時間スケーリングの前および後で各チャンネルのエネルギーを変えない。
ある実装形態では、ジッタ・バッファ管理装置500は、多チャンネル・デコーダがいくつかのモノ・デコーダ、すなわちステレオの場合についてはデュアル・モノの動作に基づくアプリケーションにおいて、あるいは入力ステレオ信号に従ってデュアル・モノ・モデルとモノ/ステレオ・モデルとの間でジョイント・ステレオ(joint stereo)・コーデックが切り替わるアプリケーションにおいて使われる。ある実装形態では、ジッタ・バッファ管理装置500はオーディオ/ビデオ放送および/またはポストプロダクション・アプリケーションにおいて使用される。

Claims (17)

  1. 多チャンネル・オーディオ信号(201)を処理する方法であって、前記多チャンネル・オーディオ信号(201)は複数のオーディオ・チャンネル信号(201_1、201_2、201_M)を担持し、当該方法は:
    前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)を使って時間スケーリング位置(205)を決定する段階(101)と;
    前記時間スケーリング位置(205)に従って前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)の各オーディオ・チャンネル信号を時間スケーリングして(103)複数の時間スケーリングされたオーディオ・チャンネル信号(209_1、209_2、209_M)を得る段階とを含む、
    方法。
  2. 請求項1記載の方法であって:
    前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)から第一の組の空間的手がかりパラメータを抽出する段階であって、前記第一の組の空間的手がかりパラメータは、前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)と前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)の少なくとも一つから導出される基準オーディオ・チャンネル信号との間の差の差指標に関係する、段階と;
    前記複数の時間スケーリングされたオーディオ・チャンネル信号(201_1、201_2、201_M)から第二の組の空間的手がかりパラメータを抽出する段階であって、前記第二の組の空間的手がかりパラメータは、前記第一の組の空間的手がかりパラメータが関係するのと同じ型の差指標に関係し、前記第二の組の空間的手がかりパラメータは、前記複数の時間スケーリングされたオーディオ・チャンネル信号(209_1、209_2、209_M)と、前記複数の時間スケーリングされたオーディオ・チャンネル信号(209_1、209_2、209_M)の少なくとも一つから導出される基準時間スケーリングされたオーディオ・チャンネル信号との間の差に関係する、段階と;
    前記第二の組の空間的手がかりパラメータが、前記第一の組の空間的手がかりパラメータに関してある品質基準を満足するかどうかを判定する段階とを含む、
    方法。
  3. 請求項2記載の方法であって、前記第一の組の空間的手がかりパラメータのうちのある空間的手がかりパラメータの抽出は、前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)のうちのあるオーディオ・チャンネル信号と前記基準オーディオ・チャンネル信号との相関を調べることを含み;
    前記第二の組の空間的手がかりパラメータのうちのある空間的手がかりパラメータの抽出は、前記複数の時間スケーリングされたオーディオ・チャンネル信号(209_1、209_2、209_M)のうちのある時間スケーリングされたオーディオ・チャンネル信号と前記基準オーディオ・チャンネル信号との相関を調べることを含む、
    方法。
  4. 請求項2または3記載の方法であって、抽出された前記第二の組の空間的手がかりパラメータが前記品質基準を満足しない場合、以下の段階、すなわち:
    あるさらなる時間スケーリング位置に従って前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)の各オーディオ・チャンネル信号を時間スケーリングして、さらなる複数の時間スケーリングされたオーディオ・チャンネル信号を得る段階であって、前記さらなる時間スケーリング位置は前記複数のオーディオ・チャンネル信号を使って決定される、段階と;
    前記さらなる複数の時間スケーリングされたオーディオ・チャンネル信号から第三の組の空間的手がかりパラメータを抽出する段階であって、前記第三の組の空間的手がかりパラメータは、前記第一の組の空間的手がかりパラメータが関係するのと同じ型の差指標に関係し、前記第三の組の空間的手がかりパラメータは、前記さらなる複数の時間スケーリングされたオーディオ・チャンネル信号と、前記さらなる複数の時間スケーリングされたオーディオ・チャンネル信号の少なくとも一つから導出されるさらなる基準時間スケーリングされたオーディオ・チャンネル信号との間の差に関係する、段階と;
    前記第三の組の空間的手がかりパラメータが、前記第一の組の空間的手がかりパラメータに関して前記品質基準を満足するかどうかを判定する段階と;
    前記第三の組の空間的手がかりパラメータが前記品質基準を満足する場合、前記さらなる複数の時間スケーリングされたオーディオ・チャンネル信号を出力する段階とを含む、
    方法。
  5. 請求項2ないし4のうちいずれか一項記載の方法であって、それぞれの組の空間的手がかりパラメータは、該それぞれの組の空間的手がかりパラメータがある空間的手がかりパラメータ範囲内にある場合に、前記第一の組の空間的手がかりパラメータに関して前記品質基準を満足する、方法。
  6. 請求項1ないし5のうちいずれか一項記載の方法であって、それぞれの組の空間的手がかりパラメータは以下のパラメータ、すなわち:
    チャンネル間時間差(ITD)、
    チャンネル間レベル差(ILD)、
    チャンネル間コヒーレンス(ICC)および
    チャンネル間相互相関(IC)
    の一つである、方法。
  7. 請求項1ないし6のうちいずれか一項記載の方法であって、時間スケーリング位置(205)を決定する段階(101)は:
    前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)のそれぞれについて、パラメータとして候補時間スケーリング位置をもつチャンネル相互相関関数を決定する段階と;
    前記候補時間スケーリング位置に依存して前記複数のチャンネル相互相関関数を累積することによって累積相互相関関数を決定する段階と;
    前記累積相互相関関数の最大の累積相互相関値に関連付けられている時間スケーリング位置(205)を選択して前記時間スケーリング位置(205)を得る段階とを含む、
    方法。
  8. 請求項7記載の方法であって、それぞれの相互相関関数は、以下の相互相関関数、すなわち:
    相互相関関数、
    規格化された相互相関関数および
    相互平均絶対値差関数(Cross-AMD F)関数
    のうちの一つである、方法。
  9. 請求項7または8記載の方法であって、さらに:
    前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)の各オーディオ・チャンネル信号(201_i)について、空間的手がかりパラメータから重み付け因子を決定する段階であって、前記空間的手がかりパラメータは前記オーディオ・チャンネル信号(201_i)および前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)のうちの少なくとも一つから導出される基準オーディオ・チャンネル信号に基づいて抽出され、前記空間的手がかりパラメータは特にチャンネル間レベル差である、段階と;
    前記オーディオ・チャンネル信号(201_i)について決定された重み付け因子により各チャンネル相互相関関数に個々に重み付けする段階とを含む、
    方法。
  10. 請求項1ないし9のうちいずれか一項記載の方法であって、前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)の各オーディオ・チャンネル信号を時間スケーリングする(103)のに先立って前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)をバッファリングする段階を含む、方法。
  11. 請求項1ないし10のうちいずれか一項記載の方法であって、前記時間スケーリング(103)は、同じオーディオ・チャンネル信号の諸オーディオ・チャンネル信号部分を重複させて加算することを含む、方法。
  12. 請求項1ないし11のうちいずれか一項記載の方法であって、前記多チャンネル・オーディオ信号(201)は、複数のエンコードされたオーディオ・チャンネル信号を含み、当該方法は:
    前記複数のエンコードされたオーディオ・チャンネル信号をデコードして前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)を得ることを含む、
    方法。
  13. 多チャンネル・オーディオ信号(201)を処理するオーディオ信号処理装置(200)であって、前記多チャンネル・オーディオ信号(201)は複数のオーディオ・チャンネル信号(201_1、201_2、201_M)を含み、当該オーディオ信号処理装置(200)は:
    前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)を使って時間スケーリング位置(205)を決定するよう適応された決定器(203)と;
    前記時間スケーリング位置(205)に従って前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)の各オーディオ・チャンネル信号を時間スケーリングして複数の時間スケーリングされたオーディオ・チャンネル信号(209_1、209_2、209_M)を得るよう適応された時間スケーリング器(207)とを有する、
    オーディオ信号処理装置。
  14. 請求項13記載のオーディオ信号処理装置であって、前記多チャンネル・オーディオ信号(201、301)は、複数のエンコードされたオーディオ・チャンネル信号を含み、当該オーディオ信号処理装置(200、300)は:
    前記複数のエンコードされたオーディオ・チャンネル信号をデコードして前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M;301_1、301_2、301_M)を得るよう適応されたデコーダを有する、
    オーディオ信号処理装置。
  15. 請求項13または14記載のオーディオ信号処理装置であって、さらに:
    前記複数のオーディオ・チャンネル信号(301_1、301_2、301_M)から第一の組の空間的手がかりパラメータを抽出するよう適応された抽出器(303_1)であって、前記第一の組の空間的手がかりパラメータは、前記複数のオーディオ・チャンネル信号(301_1、301_2、301_M)と前記複数のオーディオ・チャンネル信号(301_1、301_2、301_M)の少なくとも一つから導出される基準オーディオ・チャンネル信号との間の差の差指標に関係し、
    前記抽出器(303_1)はさらに、前記複数の時間スケーリングされたオーディオ・チャンネル信号(309_1、309_2、309_M)から第二の組の空間的手がかりパラメータを抽出するよう適応されており、前記第二の組の空間的手がかりパラメータは、前記第一の組の空間的手がかりパラメータが関係するのと同じ型の差指標に関係し、前記第二の組の空間的手がかりパラメータは、前記複数の時間スケーリングされたオーディオ・チャンネル信号(309_1、309_2、309_M)と、前記複数の時間スケーリングされたオーディオ・チャンネル信号(309_1、309_2、309_M)の少なくとも一つから導出される基準時間スケーリングされたオーディオ・チャンネル信号との間の差に関係する、抽出器と;
    前記第二の組の空間的手がかりパラメータが、前記第一の組の空間的手がかりパラメータに関してある品質基準を満足するかどうかを判定する処理器とを有する、
    オーディオ信号処理装置。
  16. 請求項13ないし15のうちいずれか一項記載のオーディオ信号処理装置であって、前記決定器(203。303)は、
    前記複数のオーディオ・チャンネル信号(201_1、201_2、201_M)のそれぞれについて、諸候補時間スケーリング位置に依存してチャンネル相互相関関数を決定し、
    前記諸候補時間スケーリング位置に依存して前記複数のチャンネル相互相関関数を累積することによって累積相互相関関数を決定し;
    前記累積相互相関関数の最大の累積相互相関値に関連付けられている時間スケーリング位置(205、δ)を選択して前記時間スケーリング位置(205、δ)を得るよう適応されている、
    オーディオ信号処理装置。
  17. 多チャンネル・オーディオ信号(201)を処理するためのプログラム可能に構成されたオーディオ信号処理装置(200)であって、前記多チャンネル・オーディオ信号(201)は複数のオーディオ・チャンネル信号(201_1、201_2、201_M)を含み、当該プログラム可能に構成されたオーディオ信号処理装置(200)は、請求項1ないし12のうちいずれか一項記載の方法を実行するためのコンピュータ・プログラムを実行するよう構成されているプロセッサを有する、オーディオ信号処理装置。
JP2014519373A 2011-07-15 2011-07-15 多チャンネル・オーディオ信号を処理する方法および装置 Expired - Fee Related JP5734517B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/077198 WO2012167479A1 (en) 2011-07-15 2011-07-15 Method and apparatus for processing a multi-channel audio signal

Publications (2)

Publication Number Publication Date
JP2014518407A true JP2014518407A (ja) 2014-07-28
JP5734517B2 JP5734517B2 (ja) 2015-06-17

Family

ID=47295369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014519373A Expired - Fee Related JP5734517B2 (ja) 2011-07-15 2011-07-15 多チャンネル・オーディオ信号を処理する方法および装置

Country Status (5)

Country Link
US (1) US9406302B2 (ja)
EP (1) EP2710592B1 (ja)
JP (1) JP5734517B2 (ja)
CN (1) CN103155030B (ja)
WO (1) WO2012167479A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI470974B (zh) * 2013-01-10 2015-01-21 Univ Nat Taiwan 多媒體資料傳輸速率調節方法及網路電話語音資料傳輸速率調節方法
WO2014170530A1 (en) * 2013-04-15 2014-10-23 Nokia Corporation Multiple channel audio signal encoder mode determiner
US9712266B2 (en) * 2013-05-21 2017-07-18 Apple Inc. Synchronization of multi-channel audio communicated over bluetooth low energy
AU2014283320B2 (en) 2013-06-21 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
PT3011564T (pt) 2013-06-21 2018-05-08 Fraunhofer Ges Forschung Escalonador de tempo, descodificador de áudio, método e programa de computador utilizando um controlo de qualidade
CN104282309A (zh) 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理系统
EP3047585B1 (en) * 2013-09-19 2020-04-29 Binauric SE Adaptive jitter buffer
ES2768052T3 (es) 2016-01-22 2020-06-19 Fraunhofer Ges Forschung Aparatos y procedimientos para codificar o decodificar una señal de audio multicanal usando sincronización de control de trama
EP3246923A1 (en) 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
US10706859B2 (en) * 2017-06-02 2020-07-07 Apple Inc. Transport of audio between devices using a sparse stream
CN108600936B (zh) * 2018-04-19 2020-01-03 北京微播视界科技有限公司 多声道音频处理方法、装置、计算机可读存储介质和终端
CN110501674A (zh) * 2019-08-20 2019-11-26 长安大学 一种基于半监督学习的声信号非视距识别方法
CN110808054B (zh) * 2019-11-04 2022-05-06 思必驰科技股份有限公司 多路音频的压缩与解压缩方法及系统
CN111415675B (zh) * 2020-02-14 2023-09-12 北京声智科技有限公司 音频信号处理方法、装置、设备及存储介质
CN117714967A (zh) 2020-03-02 2024-03-15 奇跃公司 沉浸式音频平台
CN112750456A (zh) * 2020-09-11 2021-05-04 腾讯科技(深圳)有限公司 即时通信应用中的语音数据处理方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293230A (ja) * 2005-04-14 2006-10-26 Toshiba Corp 音響信号処理装置、音響信号処理プログラム及び音響信号処理方法
JP2008107413A (ja) * 2006-10-23 2008-05-08 Sony Corp オーディオ信号伸張圧縮装置及び方法
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050137729A1 (en) * 2003-12-18 2005-06-23 Atsuhiro Sakurai Time-scale modification stereo audio signals
ES2335221T3 (es) * 2004-01-28 2010-03-23 Koninklijke Philips Electronics N.V. Procedimiento y aparato para ajustar la escala de tiempo en una señal.
JP4146489B2 (ja) * 2004-05-26 2008-09-10 日本電信電話株式会社 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
US7957960B2 (en) * 2005-10-20 2011-06-07 Broadcom Corporation Audio time scale modification using decimation-based synchronized overlap-add algorithm
US8832540B2 (en) * 2006-02-07 2014-09-09 Nokia Corporation Controlling a time-scaling of an audio signal
US7647229B2 (en) * 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
CN102084418B (zh) * 2008-07-01 2013-03-06 诺基亚公司 用于调整多通道音频信号的空间线索信息的设备和方法
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293230A (ja) * 2005-04-14 2006-10-26 Toshiba Corp 音響信号処理装置、音響信号処理プログラム及び音響信号処理方法
JP2008107413A (ja) * 2006-10-23 2008-05-08 Sony Corp オーディオ信号伸張圧縮装置及び方法
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6014055585; 'An overlap-add technique based on waveform similarity (WSOLA) for high quality time-scale modificati' IEEE International Conference on Acoustics, Speech, and Signal Processing, 1993. ICASSP-93 vol.2, 19930427, p.554-557, IEEE *
JPN6014055585; Werner VERHELST and Marc ROELANDS: 'An overlap-add technique based on waveform similarity (WSOLA) for high quality time-scale modificati' IEEE International Conference on Acoustics, Speech, and Signal Processing, 1993. ICASSP-93 vol.2, 19930427, p.554-557, IEEE *

Also Published As

Publication number Publication date
CN103155030B (zh) 2015-07-08
CN103155030A (zh) 2013-06-12
JP5734517B2 (ja) 2015-06-17
EP2710592B1 (en) 2017-11-22
EP2710592A1 (en) 2014-03-26
US20140140516A1 (en) 2014-05-22
WO2012167479A1 (en) 2012-12-13
US9406302B2 (en) 2016-08-02
EP2710592A4 (en) 2014-04-16

Similar Documents

Publication Publication Date Title
JP5734517B2 (ja) 多チャンネル・オーディオ信号を処理する方法および装置
US20200321014A1 (en) Jitter Buffer Control, Audio Decoder, Method and Computer Program
EP1895511B1 (en) Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus
AU2006252972B2 (en) Robust decoder
AU2006228821B2 (en) Device and method for producing a data flow and for producing a multi-channel representation
US12020721B2 (en) Time scaler, audio decoder, method and a computer program using a quality control
TW201737244A (zh) 音訊信號解碼
KR20140005277A (ko) 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
JP6023823B2 (ja) 音声信号を混合する方法、装置及びコンピュータプログラム
JPWO2009081567A1 (ja) ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
US8996389B2 (en) Artifact reduction in time compression
WO2010125776A1 (ja) デジタル信号再生装置及びデジタル信号圧縮装置
WO2009047675A2 (en) Encoding and decoding of an audio signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150414

R150 Certificate of patent or registration of utility model

Ref document number: 5734517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees