JP2008529073A - 重み付けされたオーバーラップ加算方法 - Google Patents
重み付けされたオーバーラップ加算方法 Download PDFInfo
- Publication number
- JP2008529073A JP2008529073A JP2007552506A JP2007552506A JP2008529073A JP 2008529073 A JP2008529073 A JP 2008529073A JP 2007552506 A JP2007552506 A JP 2007552506A JP 2007552506 A JP2007552506 A JP 2007552506A JP 2008529073 A JP2008529073 A JP 2008529073A
- Authority
- JP
- Japan
- Prior art keywords
- samples
- signal
- concealment
- frame
- subsequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 157
- 230000004044 response Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 68
- 230000002123 temporal effect Effects 0.000 claims description 28
- 230000005236 sound signal Effects 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 19
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 239000000523 sample Substances 0.000 description 54
- 239000013598 vector Substances 0.000 description 31
- 230000002441 reversible effect Effects 0.000 description 29
- 239000000872 buffer Substances 0.000 description 25
- 238000009499 grossing Methods 0.000 description 23
- 238000001914 filtration Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000000116 mitigating effect Effects 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000003139 buffering effect Effects 0.000 description 4
- 230000006854 communication Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 208000003028 Stuttering Diseases 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 241001105470 Valenzuela Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/764—Media network packet handling at the destination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/18—Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Time-Division Multiplex Systems (AREA)
- Superconductors And Manufacturing Methods Therefor (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Dc Digital Transmission (AREA)
- Communication Control (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
- Noise Elimination (AREA)
Abstract
サンプルの第1及び第2のサブシーケンスに応答してサンプルの出力シーケンスを生成するための方法であって、本方法は、上記サンプルの出力シーケンスを生成するように、上記第1及び第2のサブシーケンスへ重み付けされたオーバーラップ加算手順を適用することと、上記サンプルの出力シーケンスとサンプルの少なくとも1つの目標シーケンスとの間のマッチングの測度に応答して、上記重み付けされたオーバーラップ加算手順に含まれる重み付け関数を最適化することを含む。
Description
本発明は、信号の処理に関する。より具体的には、本発明は、信号サブシーケンスの重み付けされたオーバーラップ加算において生じる信号アーチファクトを軽減する方法、デバイス及び装置に関する。アプリケーションには、雑音除去、エンハンスメント、コーディング、隠蔽及び合成等の信号操作が含まれる。一例として、音声及びオーディオの雑音除去、エンハンスメント、コーディング、隠蔽及び合成アプリケーションは、本発明によって改善される。本発明は、効果的には、通信システム及び無線通信システムにおける信号パケットの損失及び/又は遅延ジッタ及び/又はクロックスキューによる影響を緩和するためのシステムに関連して適用される。
今回のこの発明の動機付けは、通信システムにおけるそのアプリケーションにあり、具体的には、信号パケットの損失及び/又は遅延ジッタ及び/又はクロックスキューによる影響を緩和することにおけるそのアプリケーションに関連している。発明の要約、好ましい実施形態、図面及び請求の範囲を読めば当業者には明白となるであろうが、本発明は、一般に、信号のディジタル処理に重み付けされたオーバーラップ加算手順が適用される場合に効果的なアプリケーションを有する。
最新の電気通信は、信号のディジタル送信に基づく。例えば図1において、送信機200は、ソース(信号源)100から音声信号を収集する。このソースは、マイクロホンにより収集される少なくとも1人の人による発話及び他の音波源に起因するソースである場合もあれば、テキスト音声合成又は対話システム等の音声信号格納システム又は発生システムである場合もある。ソース信号がアナログであれば、これは、アナログ/ディジタル変換器を用いてディジタル表現に変換される。ディジタル表現は続いて符号化され、ディジタルチャンネル300に適するフォーマットに従ってパケット内に配置される。パケットは、ディジタルチャンネル上で送信される。ディジタルチャンネルは、典型的には複数の抽象化のレイヤを備える。
図1の抽象化のレイヤにおいて、ディジタルチャンネルはパケットのシーケンスを入力として受け取り、パケットのシーケンスを出力として送る。典型的には、チャンネル内の雑音、不完全性及び過負荷を原因として生じるチャンネルの劣化により、出力されるパケットのシーケンスは、典型的には幾つかのパケットの損失、及びその他のパケットの到着時間の遅延及び遅延ジッタによって汚染される。さらに、送信機と受信機との間のクロックの差はクロックスキューをもたらすことがある。受信機400の役割は、受信されるデータパケットを復号し、復号されたディジタル表現をパケットストリームから変換しかつこれをディジタル信号表現に復号し、さらに、これらの表現を信号シンク(信号シンク装置)500への出力に適するフォーマットで復号された音声信号に変換することである。この信号シンクは、復号された音声信号を例えば少なくとも1つのスピーカによって提示される少なくとも1人の人である場合もあれば、音声又はオーディオ格納システム又は音声又はオーディオ対話システム又は認識装置である場合もある。
シンクに提示され得る信号を正確に再生することは、受信機の役割である。シンクが直接又は間接的に複数の人間の聴取者を含む場合、受信機の目的は、人間の聴取者に提示されるときに、1つのソース又は複数のソースからの音響信号に関して人に知覚される印象及び情報を正確に再生する音声信号表現を取得することにある。損失、遅延、及び遅延ジッタによってチャンネルが受信されるパケットシーケンスを劣化させ、さらにクロックスキューが存在するためにパケットシーケンスが劣化する一般的なケースにおいて、受信機のこの役割を保証するためには、受信機サブシステムの一部として効率的な隠蔽が必要である。
一例として、この役割を果たすための受信機サブシステムの可能な1つの実装を図2に示す。この図が示すように、着信するパケットはジッタバッファ410に格納され、復号及び隠蔽ユニット420は受信され符号化された信号表現をここから取得し、かつこれらの符号化された信号表現を復号しかつ隠蔽することにより再生出力バッファ430における格納及びこれに続く再生出力に適する信号表現を得る。隠蔽をいつ開始するか、及び隠蔽される信号の長さ等の隠蔽の具体的なパラメータが何であるかに関する制御は、一例として、制御ユニット440によって実行されてもよい。ここで、制御ユニット440は、ジッタバッファ及び再生出力バッファの内容を監視しかつ復号及び隠蔽ユニット420の動作を制御する。
隠蔽はまたチャンネルサブシステムの一部として達成される場合もある。図3は、パケットがチャンネル310から、後の参照でリレーと呼ぶサブシステム320を介して、チャンネル330へ転送されるチャンネルサブシステムの一例を示す。実際のシステムでは、このリレー機能を、多様なタイプのルータ、プロキシサーバ、エッジサーバ、ネットワークアクセスコントローラ、無線ローカルエリアネットワークコントローラ、ボイスオーバーIPゲートウェイ、メディアゲートウェイ、無免許ネットワークコントローラ、無認可ネットワークコントローラ及び他の名称等のコンテキストに依存する様々な名称で呼ばれるユニットによって達成することができる。本明細書のコンテキストでは、これらは全てリレーシステムの例示である。
オーディオの隠蔽を行うことのできるリレーシステムの一例を図4に示す。本図に示すように、パケットは、入力バッファ310からパケット交換サブシステム320及び350を介して出力バッファ360へ転送される。制御ユニット370は、入力及び出力バッファを監視し、この監視の結果として、トランスコーディング及び隠蔽が必要であるか否かの決定を下す。必要であれば、スイッチは、トランスコーディング及び隠蔽ユニット330を介するようにパケットを方向づける。必要でなければ、スイッチは、最小プロトコルアクションサブシステム340を介するようにパケットを方向づける。ここで、最小プロトコルアクションサブシステム340は、パケットが適用されているプロトコルに従うように、パケットヘッダに対して最小限の動作を行う。これは、パケットのシーケンス番号及びタイムスタンプを変更するステップを含んでもよい。
上述の説明によって例示される、但しこれに限定されないシステムを使用するオーディオ信号の送信に際しては、音声信号を表現し又は部分的に表現する信号における損失、遅延、遅延ジッタ及び/又はクロックスキューを隠蔽する必要がある。
発振器モデルにおいて具体化されることのあるピッチ繰り返し方法は、発声された音声におけるピッチ周期の推定値、又は発声された音声信号の対応する基本周波数の推定に基づく。ピッチ周期が与えられると、隠蔽フレームは、最終ピッチ周期の読み出しを繰り返することによって取得される。隠蔽フレームの最初と終わり、及びピッチ周期の各繰り返し間における不連続は、ウィンドウ化されたオーバーラップ加算手順を使用して平滑化されてもよい。例えば、ピッチ繰り返し方法に関する特許文献1及び非特許文献1を参照されたい。複数の先行技術システムは、ピッチ繰り返しに基づく隠蔽を、線形予測コーディング原理に基づくデコーダと統合する。これらのシステムでは、ピッチの繰り返しは、典型的には、線形予測動作ドメインにおいて長期予測又は適応コードブックループからの読み出しによって達成される。線形予測動作ドメインにおけるピッチ繰り返しに基づく隠蔽については、例えば、特許文献2、非特許文献2及び非特許文献3を参照されたい。上述の方法は、損失又は増大する遅延、すなわち正の遅延ジッタ、及び例えばクロックスキューに起因する入力又はジッタバッファのアンダーフロー又はアンダーフローに近い状況の隠蔽に適用される。低減する遅延、負の遅延ジッタ又は入力又はジッタバッファのオーバーフロー又はオーバーフローに近い状況を隠蔽するためには、短縮された隠蔽信号の生成が必要とされる。ピッチに基づく方法は、ピッチ周期とより早いピッチ周期との間のオーバーラップ加算手順によってこれを達成する。この方法の一例として、特許文献1を参照されたい。
これも同じく、線形予測デコーダ内に存在するファシリティを活用しながら達成することができる。一例として、特許文献2は、再生信号におけるピッチの周期性を保証するために、適応コードブックの状態に依存して、特定のコードブック寄与ベクトルを単に再生信号から廃棄する方法を開示している。ピッチ繰り返し方法に関連する1つの目的は、隠蔽フレームから次のフレームへの継ぎ目のない信号の連続性にある。特許文献1は、この目的を達成する方法を開示している。特許文献1に開示されている発明によれば、この目的は、長さが時変性かつおそらくは信号依存性である隠蔽フレームによって達成される。この解法は、遅延ジッタ及びクロックスキューの隠蔽に関連して継ぎ目のない信号の連続性を効率的に保証することができる反面、図4に描かれているタイプのシステムに関して欠陥を有する。すなわち、このタイプの隠蔽に従うと、好ましくは最小プロトコルアクション340を介してリレーされる既に符号化されたフレームへ継ぎ目なしに接続する予め設定された固定長さのフレームへの隠蔽の符号化を保証することができない。
従って、重要な目的は、正規の信号フレームの長さに等しい予め設定された長さを有する隠蔽フレームを取得することにある。予め設定された長さによる隠蔽の一方法は、予め設定されたフレーム長を超えるサンプル間の滑らかなオーバーラップ加算と、隠蔽フレームに続くフレームからのサンプルの追尾する部分集合を有する隠蔽フレームの数との乗算を達成することである。この方法は最新技術から周知であり、例えば、非特許文献2において使用されている。原則的には、この方法は1つのフレームが別のフレームに連結され、これらの2つのフレームがオリジナルのオーディオ信号における非連続フレームに関連している場合にも適用することが可能である。従って、当業者であれば、第1のフレームの続きとして隠蔽フレームを取得することによりこれを達成し、この隠蔽フレームを第2のフレームと共にオーバーラップ加算手順に入れることができ、これにより、第1のフレームの最後のサンプルと第2のフレームの最初のサンプルとの境界において起こる不連続性が部分的に低減される。
これらの方法に対する上述の解決方法には、問題がある。それは、このオーバーラップ加算手順に入る2つ以上の信号の実際の波形に依存して、最終的に得られるオーディオ信号に知覚可能な不連続性が残るためである。この不連続性は、人間の聴取者により信号内の「バンプ」又は「フェード」として観察される。
少なくとも1つの隠蔽フレームが包含される第1の方法においては、これらの隠蔽フレームのリサンプリングが文献に提案されている。このような方法の1つに関しては、例えば、非特許文献4を参照されたい。この方法は、目的が2つの既存フレームの連結であって隠蔽フレームとの連結でないときには解決方法を提供せず、さらには隠蔽フレームと後続フレームとの連結のための解決方法を提示せず、依然として問題を含んでいる。これは、人間の聴取者によって知覚される不連続性を軽減するために必要なリサンプリングが、代わりに、人間の聴取者によりうっとうしいアーチファクトとしても知覚される顕著な周波数歪み、すなわち周波数シフトをもたらす場合があるためである。
開示している本方法又はその実施形態は、既知の解決方法における上述の制約、及び既知の解決方法及び信号のディジタル処理のための他のシステムによる関連問題に対する解決方法における明示されていない他の欠陥を効果的に緩和する。本発明によれば、これらの目的は、添付の請求の範囲に規定されている特徴を有する、全てが本発明の異なる態様である方法、プログラム記憶デバイス及び装置によって達成される。
開示している本方法は、サブシーケンス間で重み付けされたオーバーラップ加算を使用して信号サブシーケンスの滑らかな連結を実行する技術を提供する。典型的には、但し必然ではなく、これらのサブシーケンスは類似しているが、類似性の適切な測度又は歪み測度に従って同一ではない。具体的には、所定の信号非依存重みウィンドウ関数を使用する既知のオーバーラップ加算方法と比較すると、開示している本方法は、上記最新技術から知られるものよりアーチファクトの知覚性が遙かに少ない、固有の低類似性を有する信号フレームを連結する技術を提供する。これにより、開示している本方法は最新技術システムにおける制約を緩和し、結果的に、知覚品質を直接向上させる。
本開示においては、次のような定義を使用する。「サンプル」という用語は、ディジタル化されたオーディオ信号を起源とするサンプル、又は上記ディジタル化された信号から導出される信号を起源とするサンプル、もしくはこのような信号の係数又はパラメータ表現を起源とするサンプルとして理解され、これらの係数又はパラメータはスカラ値又はベクトル値である。「フレーム」という用語は、サンプルに関する上述の定義を使用して、連続するサンプルを含む集合であると理解される。「サブシーケンス」は、サンプルに関する上述の定義を使用して、少なくとも1つの連続するサンプルを含む集合であると理解される。例えばオーバーラップ加算を使用するケースでは、2つの連続するサブシーケンスはオーバーラップする複数のサンプルを含んでもよい。フレームの選択に依存して、サブシーケンスは、2つの連続するフレーム間に及んでもよい。
第1の態様において、本発明は、サンプルの第1及び第2のサブシーケンスに応答してサンプルの出力シーケンスを生成するための方法を提供し、
−上記第1及び第2のサブシーケンスに重み付けされたオーバーラップ加算手順を適用して、上記サンプルの出力シーケンスを生成することと、
−上記サンプルの出力シーケンスとサンプルの少なくとも1つの目標シーケンスとの間のマッチングの測度に応答して、上記重み付けされたオーバーラップ加算手順に含まれる重み付け関数を最適化することを含む。
−上記第1及び第2のサブシーケンスに重み付けされたオーバーラップ加算手順を適用して、上記サンプルの出力シーケンスを生成することと、
−上記サンプルの出力シーケンスとサンプルの少なくとも1つの目標シーケンスとの間のマッチングの測度に応答して、上記重み付けされたオーバーラップ加算手順に含まれる重み付け関数を最適化することを含む。
上記重み付け関数は、サンプルの2つ又は3つの目標シーケンスに応答して最適化されてもよい。
好ましくは、上記最適化は、上記重み付けされたオーバーラップ加算手順に含まれる2つ又は3つ等の、少なくとも1つの重み付け関数を調整する。
上記重み付けされたオーバーラップ加算手順に含まれる上記少なくとも1つの重み付け関数はパラメータの集合によって表現されてもよい。上記パラメータの集合は、少なくとも1つの重み付け関数の時間的な形状の複数の基本的なウィンドウ形状の線形結合への分解に基づいてもよい。上記パラメータの集合は、少なくとも1つの重み付け関数の時間的な形状の2つ又は3つの基本的なウィンドウ形状の線形結合への分解に基づいてもよい。上記パラメータの集合の生成は、少なくとも1つの多段遅延線を、上記サンプルの第1及び第2のサブシーケンスの少なくとも一方へ適用することを含んでもよい。上記パラメータの集合の生成は、2つの多段遅延線を上記サンプルの第1及び第2のサブシーケンスへ適用することを含んでもよい。上記パラメータの集合の生成は3つの多段遅延線を適用することを含んでもよい。
上記重み付けされたオーバーラップ加算手順に含まれる重み付け関数は、上記サンプルの出力シーケンスと上記サンプルの少なくとも1つの目標シーケンスとの間の距離の測度に応答して修正されてもよい。上記距離の測度は二乗誤差の重み付き総和等の二乗誤差の総和等の総和に基づいてもよい。上記距離の測度は重み付き最小二乗手順等の最小二乗手順に従って最小化されてもよい。
上記第1及び第2のサブシーケンスのサンプルはディジタル化されたオーディオサンプルを表してもよい。
上記サンプルの第1及び第2のサブシーケンスの一方は隠蔽サンプルのシーケンスであってもよい。
従って、本発明は、重み付けされたオーバーラップ加算手順を適用して2つ以上の信号サブシーケンスを連結する方法を提供する。オーバーラップ加算における重み付け関数は、オーバーラップ加算手順の出力と少なくとも1つの目標サブシーケンスとの間の歪み測度に応答して最適化される。目標サブシーケンスは、オーバーラップ加算手順の所望される、又は部分的に所望される出力の近似値を構成する。効果的には、歪み測度はこれらの目標に重み付けする。本発明における重み付け関数は、フラットな、又はフラットでない時間及び/又は周波数応答を有する一般関数である。本発明の単純な実施形態は、オーバーラップ加算手順からの出力と目標信号との間の類似性を最適化するように、予め定義された窓形状を有する最適化されたスカラ重み付けを構成する。さらに高度な実施形態は、効果的には、より多くの目標信号及び重み付け関数のさらに効果的なパラメータ化を導入する。このような効果的なパラメータ化は、2つ以上の重み付け関数へスカラ重みを印加することを含み、少なくとも1つの重み付け関数を基本的なウィンドウ形状の線形結合に分解することを含み、かつ/又は少なくとも1つの重み付け関数にタッピングされた遅延線を含む。効果的には、二乗誤差の総和又は重み付きの二乗誤差の総和の測度はこの最適化において最小化され、かつ効果的には、この最小化に最小二乗又は重み付き最小二乗法が適用される。
第2の態様において、本発明は、上記第1の態様による方法を実行するように適合化されたコンピュータによる実行が可能なプログラムコードを提供する。このようなプログラムコードは、マシン依存又はマシン独立な形式で、かつマシンコード又はより高位のプログラミング言語等の任意のプログラミング言語で書かれてもよい。
第3の態様において、本発明は、上記第1の態様による方法を実行するための汎用マイクロプロセッサ等のマイクロプロセッサに対する命令シーケンスを備えるプログラム記憶デバイスを提供する。上記記憶デバイスは、ディスク、メモリカード又はメモリスティック、ハードディスクほか等の任意タイプのデータ格納手段であってもよい。
第4の態様において、本発明は、ディジタル化されたオーディオ信号を受信するための例えばデバイス又は機器である装置を提供し、本装置は、
−受信されるディジタルオーディオ信号を表現するサンプルを記憶するためのメモリ手段と、
−上記第1の態様による方法を実行するためのプロセッサ手段とを含む。
−受信されるディジタルオーディオ信号を表現するサンプルを記憶するためのメモリ手段と、
−上記第1の態様による方法を実行するためのプロセッサ手段とを含む。
好ましい実施形態に関して後述するもの等の適切な手段による本発明を実行することは、信号処理システムが、類似する但し同一ではないサブシーケンスを効率的に連結することを可能にし、最新技術による重み付けされたオーバーラップ加算から知られるアーチファクトを軽減する。これにより、本発明はとりわけ、過酷なクロックスキュー、チャンネル損失及び/又は遅延ジッタを伴う状況においてオーディオの高品質双方向通信を可能にする。
次に、添付の図面を参照して、本発明をさらに詳しく説明する。
本発明は、様々な修正及び代替形式をとることが可能であるが、図面には、例示として特定の実施形態を示している。以下、これらの特定の実施形態について詳細に説明する。しかしながら、本発明は開示されているこれらの特定の形式に限定されるべきものでない点を理解すべきである。本発明はむしろ、添付の請求の範囲により定義される本発明の精神及び範囲内にある全ての修正、同等物及び代替物を包含するものである。
以下、隠蔽フレームの生成に組み合わせて本発明を説明する。しかしながら、請求の範囲から理解されるように、本発明による連結方法は、これよりも遙かに広範なアプリケーションを有する。
本発明による方法は、図2に示すもの等の受信機の復号及び隠蔽ユニット420において起動され、又は、図4に示すもの等のトランスコーディング及び隠蔽ユニット330において、又は、そのアクションが適切である通信システムにおける他の任意のロケーションにおいて起動される。これらのロケーションでは、幾つかのバッファされた信号のフレームが利用可能であり、幾つかの隠蔽フレームが必要とされる。利用可能な信号フレーム及び必要とされる隠蔽フレームは、例えば音声信号であるオーディオ信号の時間領域サンプルより成る場合もあれば、上記サンプルから導出される、線形予測動作サンプル等のサンプルより成る場合も、オーディオ信号から導出される、音声信号フレームを完全又は部分的に表現する他の係数より成る場合もある。このような係数の例としては、周波数領域係数、正弦波モデル係数、線形予測コーディング係数、波形補間係数及びオーディオ信号サンプルを完全又は部分的に表現する他の係数集合がある。
図5は、本発明の好ましい一実施形態を示す。図5によれば、利用可能な信号フレーム595はフレームバッファ600に格納される。信号フレーム595は、受信されて復号又はトランスコーディングされたフレーム又は、隠蔽フレームを生成するための本方法又は他の方法によるこれより前の演算からの隠蔽フレーム又は、上述のタイプの信号フレームの組み合わせであってもよい。フレームバッファ内の信号は、インデックス(索引)パターン発生器660によって解析される。インデックスパターン発生器は、信号ピッチ596及び発声597の推定値を効果的に利用することができる。全体的なシステム設計に依存するが、これらの推定値は、符号化、復号又はトランスコーディングプロセス等の他のプロセスからの入力として利用可能であってもよく、又は他の方法により、好ましくは信号解析のための最新技術による方法を使用して計算される。さらに、インデックスパターン発生器は、入力として、生成する隠蔽信号フレームの数598と、フレームバッファにおける隠蔽フレームで置換される少なくとも1つの特定の信号フレームの始まりと終わりを指すポインタ599とを採用する。一例として、これらのバッファがフレームバッファの終わりを指していれば、これは、少なくとも1つの隠蔽フレームが上記フレームバッファに格納されている信号に引き続くように作られるべきであることを意味する。別の例として、これらのポインタがフレームバッファ内の連続するフレームの空でない部分集合を指していれば、これは、少なくとも1つの隠蔽フレームがフレームシーケンス内の音声信号を表現する、又は部分的に表現するフレームに取って代わるように作られるべきであることを意味する。
さらにこれを例示するために、フレームバッファ600が信号フレームA、B、C、D、Eを含み、隠蔽フレームの数598は2であるものとする。すると、置換されるフレームを指すポインタ599がフレームバッファの終わりを指していれば、これは、2つの隠蔽信号フレームが順に信号フレームEに引き続くように作られるべきであることを意味する。逆に、ポインタ599が信号フレームB、C、Dを指していれば、これらの2つの隠蔽フレームは信号フレームB、C、Dに取って代わるように、かつ順に信号フレームAに引き続き、かつ順にその後に信号フレームEが続くように作られるべきである。
隠蔽フレームの数598及び隠蔽フレームが最終的に取って代わるべきフレームの部分集合、すなわちポインタ599を決定する方法に関しては、好ましくは、最新技術による方法が使用されるべきである。従って、データ596、597、598及び599及び信号フレーム595は、本発明による方法、デバイス及び装置への入力を構成する。
所定の全体的なシステム設計においては、隠蔽ユニットの実行中、信号フレームの長さ又は大きさは、効果的には定数として維持される。隠蔽ユニットがリレーシステムに統合されるときには、他の方法の中でもこれは典型的なケースである。ここで、リレーシステムにおいて、隠蔽の結果は、予め設定された長さの時間間隔内の音声信号を表現するパケット内に入れられるべきであり、この予め設定される長さは他の場所で決定される。一例として、この予め設定される長さは、ボイスオーバーIPシステムにおける呼のセットアップの間のプロトコル交渉中に決定されてもよく、かつ例えばネットワーク輻輳制御機構に応答して上記会話中に変更されてもよい。後に明らかとなるように、本発明の幾つかの実施形態は、予め設定された信号フレームの長さで効果的に動作するというこの要件に適合する。しかしながら、このような技術革新はこれらのシステム要件に限定されず、この技術革新による他の実施形態は、非整数個のフレーム数の隠蔽及び時変長さを有する隠蔽フレームを用いても機能することができ、これらの長さは、おそらくは他の要素との組み合わせであるフレームバッファ内の特定のコンテンツの関数であってもよい。
本発明の実施形態は、フレームバッファからの信号605に作用する平滑化及び等化演算610を効果的に利用することができる。この平滑化及び等化は、少なくとも1つの隠蔽フレームより時間的に早いフレームが上記少なくとも1つの隠蔽フレームで置換される少なくとも1つの信号フレーム又はその直前のフレームとの増加された類似性を有する信号615を生成する。又は、上記少なくとも1つの隠蔽フレームが既存のフレームを有するシーケンスに置換なしに挿入されれば、類似性は、上記少なくとも1つの隠蔽フレームの意図された位置の直前の少なくとも1つのフレームに対する類似性となる。後の参照用に、これらの双方のケースを単に類似性と呼んでおく。類似性は、人間の聴取者が解釈するときの類似性である。平滑化及び等化は、類似性が増大されている信号を取得するが、同時に信号615の自然な発声展開を保つ。平滑化及び等化610により効果的に実行される類似性増加演算の例は、エネルギー包絡線、ピッチ輪郭、音声グレード、音声カットオフ、スペクトル包絡線及び他の知覚的に重要なパラメータ等のパラメータにおける平滑さ及び類似性の増大を含む。
これらのパラメータのそれぞれに関して、平滑化されかつ等化されるべきフレームにおけるパラメータ展開の急激な遷移はろ波して除かれ、これらのフレームにおける平均的なパラメータレベルは、先に定義した類似の意味合いにおいてより類似したものになるように滑らかに修正される。効果的には、類似性は、依然として自然な発声の信号展開が保たれる程度にのみ導入される。インデックスパターン発生器660の制御下で、平滑化及び等化は、そうでなければ次の索引付け及び補間演算620において生じることのある遷移及び不連続を効果的に緩和することができる。さらに、ピッチ輪郭の平滑化及び等化は、インデックスパターン発生器660により、そうでなければ最終的には後に位相フィルタ650により隠蔽フレーム内に導入される歪みを最小化するようにして効果的に制御されてもよい。平滑化及び等化演算は、フレームバッファ600内の時間の逆方向でさらに発見される信号フレーム(又は導出されるそのパラメータ)との信号又はパラメータの置換、混合、補間及び/又はマージを効果的に利用することができる。平滑化及び等化演算610は、本発明の一般的範囲を逸脱することなくシステムから除外されてもよい。この場合は、信号615が信号605と同一視されることになり、インデックスパターン発生器660の信号入力656及び制御出力665はシステム設計から省略されてもよい。
索引付け及び補間演算620は、入力として、おそらくは平滑化されかつ等化されている信号615及びインデックスパターン666を取り込む。さらに、本発明の幾つかの効果的な実施形態では、上記索引付け及び補間演算はマッチング品質インジケータ667を入力として取り込む。マッチング品質インジケータは、時刻当たりのスカラ値であってもよく、時間及び周波数双方の関数であってもよい。マッチング品質インジケータの目的は、本明細書本文において後に明らかとなるであろう。インデックスパターン666は、索引付け及び補間機能の演算をパラメータ化する。
図5Aは、インデックスパターンが、少なくとも1つの隠蔽フレームの合成において、バッファされたサンプルBS1、BS2、BS3、BS4内のサブシーケンスを漸次時間の逆方向で索引付けし得る方法の一例を示す。図示された例では、隠蔽フレームCF1、CF2、CF3内の連続するサブシーケンスCS1、CS2、CS3、CS、CS5、CS6、CS7は、フレームBF1、BF2内のサンプルのバッファされたサブシーケンスBS1、BS2、BS3及びBS4に基づく。図から分かるように、隠蔽サブシーケンスCS1−CS7は、CS1がBS4に基づく等々を意味する関数的表記法CS1(BS4)、CS2(BS3)、CS3(BS2)により表示されるように、漸次時間の逆方向ででかつ次には漸次時間方向でインクリメントされるロケーションポインタに伴ってバッファされたサブシーケンスBS1−BS4から索引付けされる。従って、図5Aは、隠蔽フレーム内の連続するサブシーケンスが、連続するバッファされたサブシーケンスに基づいて、但し時間方向で並べ替えされて互いに続き合うことのできる方法を示す一例として作用する。図から分かるように、最初の4つの隠蔽サブシーケンスCS1(BS4)、CS2(BS3)、CS3(BS2)及びCS4(BS1)は、バッファされたサンプルの終わりの4つのサブシーケンスBS1、BS2、BS3、BS4を連続する順序で、但し逆の時間順序で、よってバッファされた最後のサブシーケンスBS1を始点として基礎とするように選択される。逆の時間順序の最初の4つのサブシーケンスの後は、全て時間順序の連続するバッファされたサブシーケンス、すなわちそれぞれBS2、BS3及びBS4に基づく3つのサブシーケンスCS5、CS6、CS7が続く。この好ましいインデックスパターンは、インデックスパターン発生器660の結果であり、このブロックへの入力656、596、597、598及び599に伴って大幅に変わることがある。図5Bは、図5Aにおける表記法に従ってバッファされたサブシーケンスBS1−BS4の時間的な並べ替えに基づいて、隠蔽サブシーケンスCS1−CS11が如何にして生成されうるかを例示する別の例を表す。図から分かるように、時間的に遅い隠蔽サブシーケンスは漸次、時間の逆方向でバッファされたサブシーケンスに基づく。例えば、最初の2つの連続する隠蔽サブシーケンスCS1及びCS2は、最後の2つのバッファされたサブシーケンスBS3、BS4を逆の時間順序で基礎とする一方で、時間的に遅い隠蔽サブシーケンス、例えばCS10はBS1を、すなわち、CS1及びCS2の計算に使用されるものより時間の逆方向でさらにバッファされたサブシーケンスに基づく。従って、図5Bは、連続する隠蔽サブシーケンスが、索引付けが漸次時間の逆方向で展開するような方法で時間的に前後して索引付けされるバッファされたサブシーケンスに基づくことを示すものである。
本発明の効果的な実施形態では、この時間の逆方向での段階的展開は、本明細書の意図に沿って称するステップバックのシーケンス、及び本明細書の意図に沿って称する読み取り長さのシーケンスとして形式化される。このフォーマットのインデックスパターンの単純な実施形態では、信号サンプル又は信号サンプルを表現するパラメータ又は係数を指すポインタは第1のステップバックに等しい量だけ後方へ(時間の逆方向で)移動され、この後、隠蔽フレームに一定量のサンプル又は上記サンプルを表現するパラメータ又は係数が挿入される。上記量は、第1の読み取り長さに等しい。この後、ポインタは第2のステップバックに等しい量だけ後退され、第2の読み取り長さに等しいサンプル量又は上記サンプル量を表現するパラメータ又は係数が読出され、等々と続く。
図5Cは、索引付けされたサンプルの第1の計数データを並べ替えした本プロセスの一例を示す。この第1の計数データは、信号時間軸上に記入されるのに対し、図5Cの隠蔽時間軸上に記入される計数データは、オリジナルのサンプルのその隠蔽フレームへの配置に伴う並べ替えに対応する。この図示されている例の場合、第1、第2及び第3のステップバックはそれぞれ任意に5、6、5として選択され、第1、第2及び第3の読み取り長さは、同様にそれぞれ任意に3、4、3として選択されている。本例では、時間インデックス集合{6,7,8}、{3,4,5,6}及び{2,3,4}を有するサブシーケンスはそれぞれ、時間の逆方向で漸次展開するサブシーケンスである。この場合、ステップバック及び読み取り長さのシーケンスは、純粋に例示を目的として選定されている。例として16kHzでサンプリングされた音声残留サンプルの場合、ステップバックの典型値は40から240までの範囲であるがこの範囲に限定されず、読み取り長さの典型値は5から1000サンプルまでの範囲であるがこの範囲に限定されない。このフォーマットによるより高度な実施形態では、前向きのシーケンス(例えば、オリジナルの時間方向で又は時間の逆方向で索引付けされたサブシーケンス)から時間の逆方向でさらに1ステップ遡る別の前向きのシーケンスへの遷移は、漸次シフトする補間によって漸次行われる。
図6は、1つのステップバック及び対応する読み取り長さ及びマッチング品質インジケータに応答する索引付け及び補間関数の単純な実施形態の演算を示す。ここでは、単なる例示を目的として、信号フレームは時間領域オーディオサンプルから成る。漸次シフトする補間は、本明細書で使用している「サンプル」という用語の一般的定義に基づいて、すなわち、時間領域オーディオサンプルを表現するスカラ値又はベクトル値の係数又はパラメータを包含して、同様に、よって直接的に適用される。本図において、700は信号615のセグメントを示す。ポインタ705は、索引付け及び補間出力信号625において最後に生成されたサンプルのサンプル時刻に続くサンプル時刻である。時間間隔750は、読み取り長さに等しい長さを有する。時間間隔770も同じく、読み取り長さに等しい長さを有する。時間間隔760は、ステップバックに等しい長さを有する。700における時刻705から始まる信号サンプル及び時間的に前方向の読み取り長さは、ウィンドウ関数720によって1つずつ乗算される。同じく、700における1サンプル分のステップバック後でロケーション706より前のロケーションを始点とする信号サンプル及びそこから先の読み取り長さのサンプルも、ウィンドウ関数710によって1つずつ乗算される。ウィンドウ710との乗算及びウィンドウ720との乗算から結果的に得られるサンプルは1つずつ加算され730、結果的に、索引付け及び補間演算からの出力625の新しいサンプルバッチを構成する740が得られる。この演算の完了時に、ポインタ705はロケーション706へ移動する。
本発明の単純な実施形態では、ウィンドウ関数710及び720は読み取り長さ750の単関数である。このような単関数の1つは、ウィンドウ710及びウィンドウ720をそれぞれ、読み取り長さの2倍の長さであるハニングウィンドウの第1及び第2の半分として選定する。この場合は、広範囲の関数を選ぶこともできるが、このような関数は本発明のコンテキストにおいて意味のあるものでなければならないという観点から、これらは、750で示されるセグメント内のサンプルと770で示されるサンプルとの間に、750で示されるセグメントに対する高い重みから770で示されるセグメントに対する高い重みへと漸次、但し必ずしも単調にではなく移動するようにして重みつき補間を達成しなければならない。
本発明の他の実施形態では、ウィンドウ関数710及び720はマッチング品質インジケータの関数である。このような関数の単純な一例では、時間間隔750及び770で示される信号700のセグメント上の正規化された相関性のしきい値に依存して、補間演算は振幅又は電力の何れかで合計が1になるように選択される。このような関数の別の例は、合計して振幅又は電力を1にするという制約を回避する代わりに、ウィンドウ重みをマッチング測度のみの関数として最適化する。この方法をさらに改良したものは、正規化された相関性の実際の値を求め、これに応答して、例えば古典的な線形的推定方法を使用して補間演算を最適化する。好ましい方法の例については後に述べるが、これらの例においては、正規化された相関性のしきい値又は実際の値は、マッチング品質インジケータ667により送られる効果的な情報の例となる。後に示す好ましい実施形態によれば、補間演算は、異なる周波数において異なる重みを実装させられてもよい。この場合、マッチング品質インジケータ667は、マッチングの測度を周波数の関数として効果的に送ることができる。効果的な実施形態では、周波数の関数としてのこの重みは、多段遅延線として、又はマッチング基準を最大化するように最適化され得る他のパラメトリックなフィルタ形式として実装される。
図6には、信号615(及び、ひいては信号セグメント700)が音声信号の、又は上記音声信号から導出される時間領域信号の時間領域サンプルを表現するサンプルを含む場合の索引付け及び補間の演算が示されている。上述したように、フレーム595における、かつひいては信号605及び615におけるサンプルは、効果的には、各サンプルがベクトル(ベクトル値サンプル)であるようなものであってもよい。このようなベクトルは、音声信号を表現し、又は部分的に表現する係数又はパラメータを含む。このような係数の例は、線スペクトルの周波数、周波数領域係数、又は振幅、周波数及び位相の集合等の正弦信号モデルを定義する係数である。この本発明の好ましい実施形態に関する詳細な説明に基づけば、ベクトル値サンプルへ効果的に適用される補間演算の設計は、このようなベクトル値サンプルの個々の特有のケースに関する一般文献を読めば他の詳細事項も記述されていることから、当業者にとって実行可能である。
本発明を理解する上で、索引付け及び補間演算がステップバックより小さい読み取り長さで繰り返し実行されると、結果的に信号625におけるサンプルは、信号615において徐々に進められ、逆方向で進められる信号サンプルの代表物となると気づくことは効果的である。よって、ステップバック及び/又は読み取り長さが、ステップバックより読み取り長さの方が長くなるように変更されると、このプロセスは逆転し、これで信号625におけるサンプルは、信号615において徐々に進められかつ時間方向で進められる信号サンプルの代表物となる。ステップバックのシーケンス及び読み取り長さのシーケンスの効果的な選択により、豊富で自然な変形を有する長い隠蔽信号を、フレームバッファ600内の最後に受信された信号フレームからの時間的に先行するサンプルを必要とすることなく、又は、フレームバッファ600内の最後に受信されたフレームにおける最後のサンプルより早期に位置づけられ得る、予め設定された別の時刻に先行するサンプルをも必要とすることなく取得することができる。その結果、低遅延再生又は出力バッファスケジューリングを有するシステムにおける遅延スパイクの隠蔽が本発明によって可能になる。この明細書の定式化においては、本発明の単純な実施形態における一要素として考えることが有益である可能性のある信号の単純で厳密な時間の逆方向での展開は、1つのサンプルの読み取り長さと、2つのサンプルのステップバックと、値0を有する単一サンプルで構成されるウィンドウ720と、値1.0を有する単一サンプルで構成されるウィンドウ710との繰り返し使用によって実現される。
インデックスパターン発生器660の主たる目的は、索引付け及び補間演算620のアクションを制御することにある。一連の好ましい実施形態では、この制御は、ステップバックのシーケンス及び読み取り長さのシーケンスから成ってもよい索引付けパターン666に形式化される。この制御は、マッチング品質表示のシーケンスでさらに拡大されてもよく、マッチング品質表示のそれぞれは、例えば周波数の関数であってもよい。インデックスパターン発生器から出力されてもよく、かつその使用は本明細書において後に明らかとなる追加の機能は、繰り返し数668である。繰り返し数は、少なくとも1つの隠蔽フレームの組立てにおいて時間の逆方向での展開が開始される回数を意味する。インデックスパターン発生器はこれらのシーケンスを、平滑化及び等化演算610から出力される平滑化及び等化信号656、ピッチ推定596、発声推定597、発生すべき隠蔽フレームの数598及び置換されるフレームを指すポインタ599を含んでもよい情報に基づいて取得する。インデックスパターン発生器の一実施形態では、上記発生器は、発声インジケータに依存して異なるモードに入る。以下、このようなモードを例示する。
線形予測動作ドメインに効果的に使用される一例として、発声インジケータが、信号は無声音声であること、又は信号内にアクティブな音声は存在しない、すなわち信号は背景雑音から成ることをロバストに指示すれば、インデックスパターン発生器は、信号サンプルの時間的展開の単純な逆転が開始されるモードに入ることができる。上述したように、これは、例えば、ステップバック値が2であるシーケンス及び読み取り長さ値が1であるシーケンスを提出することによって達成されてもよい(この説明は、索引付け及び補間演算はそれ自体がこれらの値を同定しかつ上述したように適切なウィンドウ関数を適用する、という設計選択肢に基づく)。ケースによっては、このシーケンスは、少なくとも1つの隠蔽フレームに必要な新しいサンプルの数の半分に関して信号の逆の時間的展開が実装されるまで続いてもよく、その後、ステップバックシーケンス内の値は0に変わってもよく、これにより、信号の前方への時間的展開が開始され、ポインタ706が第1のステップバックアプリケーションにおいて効果的にポインタ705の出発点に戻るまで続く。しかしながら、この単純な手順は、高品質の隠蔽フレームにとって必ずしも十分ではない。インデックスパターン発生器の重要な役割は、適切な停止基準の監視である。上述の例では、逆の時間的展開がポインタ706を、人間の聴取者が解釈するところの音声が始点とは著しく異なる信号内の位置へ戻してもよい。時間的展開は、これが発生する前に逆転されるべきである。
本発明の好ましい実施形態は、一連の測度に基づく停止基準セットに適用することができる。以下、これらの測度及び停止基準の幾つかを例示する。ポインタ706における信号が有声化されていることを、発声が示していれば、無声を始点とする上述の例では、時間的展開方向は効果的には逆転されてもよく、同様に、ポインタ706の周囲の領域における信号エネルギーが(絶対又は相対しきい値による決定に準じて)ポインタ705の出発点における信号エネルギーとは異なっていれば、時間的展開方向は効果的には逆転されてもよい。第3の例として、ポインタ705の出発点の周囲の領域とポインタ706の現在位置とのスペクトルの差はしきい値を超えてもよく、時間的展開方向は逆転されるべきである。
第2のモード例は、信号が無声である、又はアクティブな音声を含まない、とロバストに決定され得ない場合に喚起される可能性がある。このモードでは、ピッチ推定596はインデックスパターンを決定するための根拠となる。これを実行する1つの手順は、ポインタ705から時間的に1ピッチサイクル先の信号と、ステップバック上ポインタ705より早期であるポイントから1ピッチサイクル先の信号との間に最大限に正規化された相関性を与えるために、各ステップバックが探索されるというものである。ステップバック値の探索は、効果的には、ある領域に制限されてもよい。この領域は、効果的には、先行して発見されたステップバックのプラスマイナス10パーセントに、又はそのようなステップバックが発見されていなければピッチラグに設定されてもよい。ステップバックが決定されると、読み取り長さの値によって、時間的な信号展開が時間の逆方向で、又は時間方向で展開すべきか否か、及びこの展開の実行速度が決定される。低速展開は、ステップバックの同定値に近い読み取り長さを選ぶことによって達成される。高速展開は、それぞれ後方及び前方展開の場合のステップバックより遙かに小さい、又は遙かに大きい読み取り長さを選択することによって達成される。インデックスパターン発生器の目的は、人間の聴取者によって解釈される音声品質を最適化するように読み取り長さを選択することにある。ステップバックに近すぎる読み取り長さを選択すると、十分に周期的でない信号等の信号によっては、結果的に、ストリング音等の知覚的にうっとうしいアーチファクトが発生することがある。ステップバックから離れすぎた読み取り長さの選択は、フレームバッファ内のより大きい時間間隔が、最終的には少なくとも1つの隠蔽フレームの時間的展開の間に掃引されること、又は、時間的展開の方向が、少なくとも1つの隠蔽フレームにとって十分な量のサンプルが生成されるまで、より頻繁に逆転されなければならないことを含意する。
第1のケースは、十分に定常的でない(又は、十分に平滑かつ等化されていない)信号等の信号によっては、最終的に、ある程度少なくとも1つの隠蔽フレームの音声における吃音との類似性を有する、ある種の知覚的にうっとうしいアーチファクトを発生させることがある。第2のケースでは、ストリング音のようなアーチファクトが発生することがある。本発明の効果的な実施形態による1つの特徴は、読み取り長さがステップバックと正規化された相関性との関数として決定され得ることにある。ここで、上記関数は、最適なステップバックの探索において最適化される。この関数が音声信号に作用しかつ信号フレームが16kHzでサンプリングされた20ミリ秒の線形予測動作信号を含むとき、本発明の実施形態におけるこの関数の1つの単純な但し効果的な選択肢は、一例として、次の関数によって与えられる。
[数1]
ReadLength=[(0.2+NormalizedCorrelation/3)*StepBack]
ReadLength=[(0.2+NormalizedCorrelation/3)*StepBack]
ここで、角括弧[]は最も近い整数への丸めを指して使用され、記号ReadLength、NormalizedCorrelateion及びStepBackはそれぞれ、最適なステップバックのために取得される読み取り長さ及び正規化された相関性、及び対応するステップバックを表して使用される。上述の関数は、本発明の幾つかの実施形態における1つの効果的な選択肢を伝えるための単なる例として包含されている。読み取り長さの選択肢としては、この読み取り長さを達成する任意の関数関係を含み、何れも本発明の精神を逸脱することなく可能である。具体的には、読み取り長さを選択する効果的な方法は、中間の隠蔽フレーム625において吃音及びストリング音のようなアーチファクトが同時に最小値に到達するように、制御665を使用して平滑化及び等化演算610をパラメータ化することを含む。これは、インデックスパターン発生器660が入力として平滑化及び等化演算から出力615ではなく中間信号656を採用する理由を説明するものであり、信号656は制御665に制御された最終的信号615の潜在的なバージョンを表現し、インデックスパターン発生器がイタレーションにより最適化タスクへ取り組むことを可能にする。先の無声及び非アクティブな音声モードの場合と同様に、このモードでも停止基準は不可欠である。先のモードにおいて提案した停止基準の例は全て、このモードにも当てはまる。さらに、このモードでは、ピッチ及び正規化された相関性に関する測定からの停止基準は、効果的には本発明の実施形態の一部であってもよい。
図7は、停止基準を組み合わせるための効果的な決定論理を例示するものである。図7における引用符号は、下記を示す。
800:信号が高相関タイプであるか、低相関タイプであるか、どちらでもないかを識別する。初期エネルギーレベルを決定する。
801:次のステップバック及び正規化された相関性、及び読み取り長さを決定する。
802:信号が低相関タイプに入ったか否かを決定する。
803:信号が高相関タイプに入ったか否かを決定する。
804:信号は高相関タイプであるか?
805:信号は低相関タイプであるか?
806:エネルギーは相対最小しきい値より少ないか、又は相対最大しきい値を超えているか?
807:正規化された相関性は高相関タイプのしきい値を下回っているか?
808:正規化された相関性は低相関タイプのしきい値を上回っているか?
809:十分なサンプルが生成されたか?
801:次のステップバック及び正規化された相関性、及び読み取り長さを決定する。
802:信号が低相関タイプに入ったか否かを決定する。
803:信号が高相関タイプに入ったか否かを決定する。
804:信号は高相関タイプであるか?
805:信号は低相関タイプであるか?
806:エネルギーは相対最小しきい値より少ないか、又は相対最大しきい値を超えているか?
807:正規化された相関性は高相関タイプのしきい値を下回っているか?
808:正規化された相関性は低相関タイプのしきい値を上回っているか?
809:十分なサンプルが生成されたか?
16kHzでサンプリングされた音声の線形予測動作ドメインにおける演算の場合、図7に挙げられているしきい値は、効果的には次のように選ばれてもよい。すなわち、高相関タイプは0.8より大きい正規化された相関性が発生したときに入力されてもよく、高相関タイプに留まるためのしきい値は正規化された相関性で0.5に設定されてもよく、低相関タイプは0.5より小さい正規化された相関性が発声したときに入力されてもよく、低相関タイプに留まるためのしきい値は正規化された相関性で0.8に設定されてもよく、最小相対エネルギーは0.3に設定されてもよく、かつ最大相対エネルギーは3.0に設定されてもよい。さらに、本発明のコンテキストにおいて、本発明の精神及び範囲を逸脱することなく他の論理及び他の停止基準が使用されてもよい。
停止基準の適用は、十分なサンプルが生成されるまで、又は停止基準が満たされるまで時間の逆方向でかつ次に再び時間方向で行う単一の展開では、隠蔽フレームに必要な数のサンプルをもたらすことが保証されないことを意味する。従って、時間の逆方向でかつ時間方向で行う別の展開がインデックスパターン発生器によって適用されてもよい。しかしながら、前後する展開が多すぎれば、信号によっては、ストリング音のようなアーチファクトが生成されることがある。従って、本発明の好ましい実施形態は、停止基準、読み取り長さの計算に適用される関数、平滑化及び等化制御665及び前後への展開数、すなわち繰り返し数668、及び置換フレームを指すポインタ599によりイネーブルされていればさらに、時間の逆方向での新たな各展開が開始される前に時間的に進行して展開するサンプルの数を同時に最適化することができる。この目的に沿って、平滑化及び等化演算もまた、効果的には、信号のピッチ輪郭を僅かに修正するように制御されてもよい。さらに、この同時の最適化は位相フィルタ650の演算を考慮することができ、かつ位相フィルタに導入される歪みを上述の他のパラメータと同時に最小化するインデックスパターンをもたらすようにピッチ輪郭を僅かに変更することができる。本発明の好ましい実施形態の説明に基づけば、当業者は、一般的な様々な最適化ツールがこのタスクに適用されることを理解することができる。これらのツールには、繰り返し最適化、マルコフ決定過程、ビタビ法等が含まれる。これらの何れも、本発明の範囲を逸脱することなくこのタスクへ適用可能である。
図8は、これらのパラメータの単純でしかも効率的な最適化を達成する繰り返し手順の一例をフローグラフによって示したものである。図8における引用符号は、下記を示す。
820:平滑化及び等化665の制御を開始する。
821:新たな平滑化信号656を取得する。
822:停止基準を起動する。
823:許可された繰り返し数を起動する。
824:ポインタ599により指示された利用可能なフレーム上に均等に分布される前後展開のシーケンスのインデックスパターン、又は利用可能なフレームの終わりが指示されていれば、前方への展開直後に続く時間の逆方向での展開のシーケンスのインデックスパターンを識別する。
825:隠蔽フレームの数598に対して十分な量のサンプルが生成されているか?
826:最大繰り返し数に到達しているか?
827:繰り返し許可数を増やす。
828:停止基準の最も緩いしきい値に到達しているか?
829:停止基準のしきい値を緩める。
830:平滑化及び等化の影響を増大させるように制御を変更する。
821:新たな平滑化信号656を取得する。
822:停止基準を起動する。
823:許可された繰り返し数を起動する。
824:ポインタ599により指示された利用可能なフレーム上に均等に分布される前後展開のシーケンスのインデックスパターン、又は利用可能なフレームの終わりが指示されていれば、前方への展開直後に続く時間の逆方向での展開のシーケンスのインデックスパターンを識別する。
825:隠蔽フレームの数598に対して十分な量のサンプルが生成されているか?
826:最大繰り返し数に到達しているか?
827:繰り返し許可数を増やす。
828:停止基準の最も緩いしきい値に到達しているか?
829:停止基準のしきい値を緩める。
830:平滑化及び等化の影響を増大させるように制御を変更する。
少なくとも1つの先行する時間的前後展開において十分な信号が合成されていなかった場合、1つの時間的前後展開及びこれに続く1つの時間的前後展開は、効果的には相違してもよいことに留意されたい。例として、ステップバック、読み取り長さ及び補間関数のシーケンス及び時間的前後展開後のエンドロケーションポインタは、そうでなければ類似のインデックスパターンの反復から生じる周期アーチファクトを最小化するように考案されるべきである。16kHzで発声される音声の残留域サンプルを例にとると、例えば約320個のサンプルを生成する1つの時間的前後展開は、好ましくは、信号内で早期の時間的前後展開よりさらに約100個分のサンプルを遡って終了してもよい。
ここまでに開示した実施形態は、先行技術方法から知られる人工的に発生されるストリング音の問題点を効率的に軽減すると同時に、急激な遅延ジッタスパイク及び急激に発生する反復性のパケット損失の効率的な隠蔽を可能にする。しかしながら、例えば何らかの無線システム、無線アドホックネットワーク、ベストエフォート型ネットワーク及び他の送信方法において遭遇するような不利なネットワーク条件においては、開示している本方法であっても、ケースによっては、隠蔽フレーム内に調音性の僅かな成分を導入することがある。従って、本発明の幾つかの実施形態では、微量雑音の混合演算630及びグレースフル減衰フィルタ640が効果的に適用されてもよい。雑音の混合及び減衰の一般的技術は、当業者には周知である。これには、雑音成分のパワーの周波数依存時間展開及び減衰関数の周波数依存時間展開の効果的な使用が含まれる。本発明のコンテキストにおける雑音の混合及び減衰の使用に特有の特徴は、雑音の混合及び減衰演算を適応的にパラメータ化するための索引付けパターン666、マッチング品質測度667及び/又は繰り返し数668の明示的使用にある。具体的には、インデックスパターンは隠蔽フレームにおいて不変の信号サンプルが置かれる場所、及び隠蔽フレームのサンプルが補間演算の結果である場所を指し示す。さらに、読み取り長さに対するステップバックの割合は、マッチング品質測度との組み合わせで、補間演算の結果として生じる知覚品質を示す。従って、効果的には、オリジナルサンプルに混合され得る雑音はほとんどないか、全くない。それ以上の雑音は、効果的には、補間プロセスの結果であるサンプルに混合されてもよく、効果的には、これらのサンプルに混合される雑音量は、効果的には周波数差別的なマッチング品質測度の関数であってもよい。さらに、ステップバックに対する読み取り長さの値は、発生し得る周期量も示し、雑音混合は、効果的には、隠蔽信号に混合する雑音量の決定に際してこの測度を包含してもよい。この同じ原理は減衰にも当てはまり、効果的にはグレースフルな減衰が使用されるが、オリジナルの信号を表現するサンプルにはより少ない減衰が導入されてもよく、補間演算の結果として生じるサンプルにはそれ以上の減衰が導入されてもよい。さらに、効果的には、これらのサンプルにおける減衰量は、効果的には周波数差別的なマッチング品質表示の関数であってもよい。この場合もやはり、ステップバックに対する読み取り長さの値は発生し得る周期量を示し、減衰演算は、効果的には減衰の設計においてこの測度を含んでもよい。
発明の背景の説明で挙げたように、本発明の実施形態サブセットの重要な目的は、通常の信号フレームの長さに等しい予め設定された長さの隠蔽フレームを達成することにある。システム上の観点からこれが望まれる場合、このための手段は、効果的には位相フィルタ650であってもよい。このブロックの計算上単純で近似的な、但し多くの場合十分である演算は、予め設定されたフレーム長を超えるサンプル間の滑らかなオーバーラップ加算と、隠蔽フレームに続くフレームからのサンプルの追尾する部分集合を有する隠蔽フレームの数との乗算を達成することである。単独で見ると、この方法は最新技術から周知であり、例えば、非特許文献1において使用されている。システムの観点から実際的には、この単純なオーバーラップ加算手順は、それがオーバーラップ加算領域における相関性を増大する場合はいつでも後続するフレーム数と−1との乗算によって向上されてもよい。しかしながら、例えば有声化信号フレーム間の遷移においては、効果的には、フレーム境界における不連続性の影響をさらに緩和するために他の方法が使用されてもよい。このような方法の1つに、隠蔽フレームのリサンプリングがある。独立した方法として見ると、これもやはり最新技術から周知である。例えば、非特許文献4を参照されたい。従って、当業者であれば、フレーム境界における不連続性の緩和を実行することができる。しかしながら、本明細書に開示している発明の好ましい実施形態では、効果的には、リサンプリングを最後の隠蔽フレームに続くフレームへと継続することができる。これにより、リサンプリング技術の結果である時間的変化、ひいては周波数シフトの勾配を、人間の聴取者が解釈する際には知覚できないものにすることができる。さらに本発明は、リサンプリングではなく、時変性の全通過フィルタ(time−varying all−pass filter)を使用してフレーム境界における不連続性を緩和することを開示する。その一実施形態は、下記のフィルタ方程式によって与えられる。
[数2]
H_L(z,t)=(alpha_1(t)+alpha_2(t)*z^(−L))/(alpha_2(t)+alpha_1(t)*z^(−L))
H_L(z,t)=(alpha_1(t)+alpha_2(t)*z^(−L))/(alpha_2(t)+alpha_1(t)*z^(−L))
以下、その関数について説明する。L個のサンプルの遅延から0個のサンプルの遅延までの掃引が、隠蔽フレームより前のフレーム及び隠蔽フレームの後のフレームにおいて、隠蔽フレームの全て又は一部におけるサンプルの全て又は一部を含んでもよい掃引間隔に渡って希望されるものとすると、掃引間隔の始まりでは、L個のサンプルの遅延を提供するようにalpha_1(t)はゼロに設定され、alpha_2(t)は1.0に設定される。t上の掃引が開始されるに伴って、alpha_1(t)は漸次0.5へと増大し、alpha_2(t)は漸次0.5へと低下していく。掃引間隔の終わりでalpha_1(t)がalpha_2(t)に等しくなると、フィルタH_L(z,t)は遅延ゼロを導入する。逆に、0個のサンプルの遅延からL個のサンプルの遅延までの掃引が、隠蔽フレームより前のフレーム及び隠蔽フレームの後のフレームにおいて、隠蔽フレームの全て又は一部におけるサンプルの全て又は一部を含んでもよい掃引間隔に渡って希望されれば、掃引間隔の始まりでは、0個のサンプルの遅延を提供するようにalpha_1(t)は0.5に設定され、alpha_2(t)は0.5に設定される。t上の掃引が開始されるに伴って、alpha_1(t)は漸次0へと低下し、alpha_2(t)は漸次1.0へと増大していく。掃引間隔の終わりでalpha_1(t)が0に、alpha_2(t)が1.0になると、フィルタH_L(z,t)はL個のサンプルの遅延を導入する。
上述のフィルタリングは計算が単純であるが、非線形の位相応答を有する。知覚上の理由から、この非線形位相は、その使用を比較的小さいLに限定する。効果的には、サンプリング速度が16kHzの音声に関して、L<10である。これより大きい初期値Lに関してフィルタリングを達成する1つの方法は、合計して所望される値Lになる複数のより小さい値Lのために幾つかのフィルタを起動するというものである。これらの幾つかのフィルタは、効果的には、異なる瞬間に起動され、そのalphaの領域の異なる時間間隔上を掃引することができる。次に、このフィルタの適用可能なLの範囲を増大する他の一方法を開示する。上述の方法と同じフィルタリング機能を提供する構造体は、信号をL個の多相に分割し、これらの多相のそれぞれにおいて下記のフィルタリングを実行する。
[数3]
H_1(z,t)=(alpha_1(t)+alpha_2(t)*z^(−1))/(alpha_2(t)+alpha_1(t)*z^(−1))
H_1(z,t)=(alpha_1(t)+alpha_2(t)*z^(−1))/(alpha_2(t)+alpha_1(t)*z^(−1))
本発明の場合、多相フィルタリングは、効果的には、アップサンプリングを使用して提供される。これを効果的に行う一方法は、各多相を係数Kでアップサンプリングし、アップサンプリングされた各多相においてフィルタリングH_1(z,t)をK回実行する。その後、係数Kによるダウンサンプリングにより、多相から位相修正された信号が再構成される。係数Kは、効果的には、K=2として選択されてもよい。アップサンプリング手順により、線形に近い位相応答が取得される。これにより、人間の聴取者により解釈される知覚品質は向上する。
複数のフレームに対する上述の位相調整は、隠蔽フレームが受信されるフレームシーケンス内に損失なしに挿入される場合に適用可能である。これはまた、後続フレームの再生遅延を低減するために信号シーケンスからフレームが取り出される場合にも適用可能である。さらにこれは、フレームが損失され、ゼロ又はそれ以上の隠蔽フレームがこの損失より前に、かつ後に受信されたフレーム間に挿入される場合にも適用することができる。これらの場合に、このフィルタの入力信号を取得して遅延Lを求める方法は、下記の通りである。
1)不連続ポイントより時間的に早いフレーム上で、本明細書に開示している方法又は他の任意の方法である隠蔽方法を継続又は開始する。
2)不連続より時間的に遅いフレーム上で、本明細書に開示している方法又は他の任意の方法である隠蔽方法により開始されたフレームに、L_test個の試験サンプルを時間サンプルの索引付けを逆転させて挿入する。
3)正規化された相関性等のマッチング測度を、1)からの少なくとも1つの隠蔽フレームと、ヘッディングであるL_test個の試験サンプルを含む2)からの少なくとも1つのフレームとの間に適用する。
4)マッチング測度を最大化するL_testをLとして選択する。
5)次に、重み付けされたオーバーラップ加算手順を使用して、2)からの少なくとも1つの隠蔽フレームと、3)からの少なくとも1つのフレームとを加算する。この重み付けされたオーバーラップ加算は、当業者に知られる方法で実行することができるが、好ましくは、本明細書で後に開示するように最適化されてもよい。
6)結果的に得られる少なくとも1つのフレームを、決定された値Lで開始される上述の位相フィッティングフィルタリングへの入力として使用する。Lがしきい値より大きい場合は、幾つかのフィルタを起動し、異なる瞬間及び時間間隔において係数を掃引する。この場合、個々のL値の合計が決定された値Lになる。
2)不連続より時間的に遅いフレーム上で、本明細書に開示している方法又は他の任意の方法である隠蔽方法により開始されたフレームに、L_test個の試験サンプルを時間サンプルの索引付けを逆転させて挿入する。
3)正規化された相関性等のマッチング測度を、1)からの少なくとも1つの隠蔽フレームと、ヘッディングであるL_test個の試験サンプルを含む2)からの少なくとも1つのフレームとの間に適用する。
4)マッチング測度を最大化するL_testをLとして選択する。
5)次に、重み付けされたオーバーラップ加算手順を使用して、2)からの少なくとも1つの隠蔽フレームと、3)からの少なくとも1つのフレームとを加算する。この重み付けされたオーバーラップ加算は、当業者に知られる方法で実行することができるが、好ましくは、本明細書で後に開示するように最適化されてもよい。
6)結果的に得られる少なくとも1つのフレームを、決定された値Lで開始される上述の位相フィッティングフィルタリングへの入力として使用する。Lがしきい値より大きい場合は、幾つかのフィルタを起動し、異なる瞬間及び時間間隔において係数を掃引する。この場合、個々のL値の合計が決定された値Lになる。
効果的には、8又は16kHzでサンプリングされた音声又は残留音声の場合、上述のしきい値は、5から50までの範囲の値であるように選択されてもよい。さらに効果的には、発声音声又は残留発声音声の場合、隠蔽サンプルのL_test個の試験及び後続フレームへのその継続は、フレームの第1のピッチ周期のサンプルを循環的にシフトすることによって達成される。これにより効果的には、好ましい循環シフトLを求めるために、フルピッチ周期を相関させる正規化なしの相関測度をマッチング測度として使用することができる。
図9は、このような方法の一実施形態を示したものである。本図において、位相調整は、信号フレーム900と後続フレームとの間に滑らかな遷移を生成する。これは、次のようにして達成される。すなわち、信号フレーム900及びその前のフレームから、隠蔽信号910が生成される。この隠蔽信号は、本明細書に開示している方法を使用して生成されてもよく、最新技術から周知の他の方法を使用して生成されてもよい。隠蔽信号はウィンドウ920で乗算され、別のウィンドウ930に加算925される。ここで、ウィンドウ930は、次のようにして生成される信号940で乗算される。すなわち、隠蔽信号940は、後続サンプル950及びおそらくは960から、本明細書に開示している方法等の隠蔽方法を効果的に適用することによって、又は最新技術から周知である他の方法を使用することによって発生され、後続サンプル950と連結される。隠蔽940内のサンプル数は、隠蔽910と940及び後続サンプル950の連結とのマッチングを最大化するように最適化される。
効果的には、正規化された相関性は、このマッチングの測度として使用されてもよい。さらに、計算上の複雑さを減らすために、発声音声又は残留発声音声に関してマッチングは1つのピッチ周期を含むように制限されてもよい。この場合、隠蔽サンプル940は、1ピッチ周期の循環シフトの第1の部分として取得されてもよく、よって1ピッチ周期の相関測度を正規化する必要はなくなる。これにより、正規化係数を計算するための計算は省かれる。この好ましい実施形態の詳細な説明において先に述べた索引付け及び補間演算に関しては、効果的には、同じくウィンドウがマッチング品質インジケータの関数及び/又は周波数の関数であって、効果的には、多段遅延線として実装されてもよい。フィルタ970の演算は、下記の通りである。オーバーラップ加算手順の結果として生じる最初のL個のサンプルは、その出力へ直接送られ、フィルタの初期状態をセットアップするために使用される。その後、フィルタ係数は先に述べた通りに初期設定され、フィルタによるサンプルL+1から先へのフィルタリングに伴って、これらの係数は漸次、上述したようにL個のサンプル分の遅延を漸次除去するように調整される。
上述の手順においてもやはり、先に述べたマッチング基準の最大化によってウィンドウ重みを最適化する方法が適用され、多段遅延線の形式又は他のパラメトリックフィルタ形式によるウィンドウ関数の周波数依存重み及び整合フィルタへの一般化も適用される。効果的な実施形態では、周波数依存フィルタ重みの時間的展開は、次の3つのオーバーラップ加算シーケンス、すなわち、第1のより早いフレームからの少なくとも1つの隠蔽フレームのフェードダウン、第2の時間的に逆のインデックス順に取得される後のフレームからの隠蔽フレームをマッチングするための、これらのフィルタされたバージョンのフィルタによるフェードアップ及びこれに続くその再度のフェードダウン、第3の時間的に後の少なくとも1つのフレームのフェードアップから成るシーケンスによって達成される。効果的な別の実施形態セットでは、周波数依存フィルタ重みの時間的展開は、次の4つのオーバーラップ加算シーケンス、すなわち、第1のより早いフレームからの少なくとも1つの隠蔽フレームのフェードダウン、第2の時間的に逆のインデックス順に取得される後のフレームからの隠蔽フレームをマッチングするための、これらのフィルタされたバージョンのフィルタによるフェードアップ及びこれに続くその再度のフェードダウン、第3のこれのマッチングをさらに向上させるための時間的に後のフィルタされたバージョンフレームのフェードアップ及びその再度のフェードダウン、及び最後に第4の時間的に後の少なくとも1つのフレームのフェードアップから成るシーケンスによって達成される。重み付けされたオーバーラップ加算法のさらに効果的な実施形態については、本明細書において後に開示する。
残留領域サンプルが音声信号を表現する情報の一部として使用される実施形態における平滑化及び等化演算610の場合、平滑化及び等化は、効果的には、くし形フィルタ又は周期性のノッチフィルタ等のピッチ適応型フィルタリングを使用して、この残留信号に適用されてもよい。さらに、効果的には、フィルタリングされていない残留のモデルとして雑音をプラスした長期相関フィルタを使用するウィーナ又はカルマンフィルタリングが適用されてもよい。ウィーナ又はカルマンフィルタを適用するこの方法では、モデル内の雑音の分散が平滑化及び等化の程度を調整するために適用される。この成分は、ウィーナ及びカルマンフィルタリング理論において伝統的に、望ましくない雑音成分の存在をモデリングするために適用されるものであり、これは幾分直感に反した使用である。これが本技術革新において適用される場合、その目的は、平滑化及び等化のレベルを設定することにある。本革新技術のコンテキストにおいては、ピッチ適応型くし形フィルタ又はノッチフィルタリング及びウィーナ又はカルマン型フィルタリングの代替として、効果的には、残留信号の平滑化及び等化に第3の方法が適用される。この第3の方法により、効果的には、例えば無声音声に適用されるようなサンプル振幅又は効果的には、例えば発声音声に適用されるようなサンプルの連続するベクトルの何れかがますます類似したものにされる。以下、これを達成することのできる手順について、発声音声のベクトル及び無声音声のサンプルのそれぞれに関連して概説する。
発声音声に関しては、音声又は残留の連続するサンプルが複数のベクトルにして収集され、ここで、各ベクトルは1ピッチ周期に等しくかつ幾つかのサンプルを有する。説明の便宜上、ここではこのベクトルをv(k)で表す。次に、本方法は、残差ベクトルr(k)を何らかの手段によって周囲ベクトルv(k−L1),v(k−L1+1),…,v(k−1)及びv(k+1),v(k+2),…,v(k+L2)において発見され得なかったv(k)の成分として取得する。説明の便宜上、周囲ベクトルにおいて発見される成分をa(k)で表す。残差ベクトルr(k)は、続いて何らかの線形的又は非線形的方法でその可聴性を低減するように操作され、同時に、この操作されたバージョンのr(k)に成分a(k)を挿入し直すことによって達成される最終的に再構成されたベクトルの自然さが保たれる。
これにより、平滑化されかつ等化された形の発声音声又は発声残留音声がもたらされる。以下、便宜的に行列−ベクトル表記を使用し、かつ例を単純にするためにa(k)を定義する線形結合及び最小二乗の概念を使用して、上述の原理の単純な一実施形態を示す。但しこれは、上述の平滑化及び等化の一般原理の単純かつ単一の実施形態の単なる一例である。
本例の目的に沿って、行列M(k)を次のように定義する。
[数4]
M(k)=[v(k−L1)v(k−L1+1)…v(k−1)v(k+1)v(k+2)…v(k+L2)]
M(k)=[v(k−L1)v(k−L1+1)…v(k−1)v(k+1)v(k+2)…v(k+L2)]
上述の式から、a(k)を、例えばM(k)が与えられたときのv(k)の最小二乗推定として計算することができる。
[数5]
a(k)=M(k)inv(trans(M(k))M(k))v(k)
a(k)=M(k)inv(trans(M(k))M(k))v(k)
ここで、inv()は行列反転又は擬似反転を表し、trans()は行列の転置を表す。よって、残差r(k)は、例えば以下の減算によって計算することができる。
[数6]
r(k)=v(k)−a(k)
r(k)=v(k)−a(k)
r(k)の操作の一例は、例えば、サンプルの最大絶対値を、前後の隠蔽手順の始点に最も近いr(k)の最大振幅に等しいレベルに、又はベクトル内の同じ位置にあるが、ベクトル内で前後の隠蔽手順の始点に最も近いサンプルの振幅に何らかの係数を乗じたものに制限するために、このベクトルのピークをクリッピングして除くというものである。操作された残差rm(k)は、続いてa(k)ベクトルと結合され、v(k)が等化された形で再構成される。ここではこれを、便宜的にve(k)で表す。一例として、この結合は、以下の単純な加算によって達成することができる。
[数7]
ve(k)=alpha*rm(k)+a(k)
ve(k)=alpha*rm(k)+a(k)
本例におけるパラメータalphaは1.0に設定されてもよく、効果的には、1.0未満となるように選択されてもよいが、その効果的な選択肢の1つは0.8である。
無声音声の場合、効果的には、別の平滑化及び等化方法が使用されてもよい。無声音声の平滑化及び等化の一例は、対数領域における残留信号の振幅との多項式フィッティングを計算する。一例として、二次多項式及びlog10領域が使用されてもよい。多項式フィッティングを対数領域から線形領域へ変換して戻した後、フィッティング曲線は、前後手順の始点に対応するポイントで1.0へ正規化される。続いて、フィッティング曲線は下方を、例えば0.5に制限され、その後、残留信号の振幅は、無声残留信号の振幅の変形を滑らかに等化するようにフィッティング曲線で分割されてもよい。
重み付けされたオーバーラップ加算手順に関しては、先に本明細書においてその幾つかの、但し全てではないアプリケーション、すなわち索引付け及び補間演算620及び位相調整フィルタリング970の入力信号の起動方法を開示している。これらの手順は、当業者に周知の方法で実行されてもよい。しかしながら、重み付けされたオーバーラップ加算手順の好ましい実施形態においては、効果的には、以下で開示する方法が使用されてもよい。
マッチング品質インジケータに応答して修正される重み付けされたオーバーラップ加算手順の単純な実施形態においては、第1のウィンドウが第1のサブシーケンスで乗算され、第2のウィンドウが第2のサブシーケンスで乗算され、これらの2つの積がオーバーラップ加算演算へ入力されるものと考える。ここで、例として、第1のウィンドウを単調減少関数等の先細りのウィンドウとし、第2のウィンドウを単調増加関数等の先広がりのウィンドウとする。第2に、例を単純にするために、第2のウィンドウを基本的なウィンドウ形状とスカラ乗数との積によってパラメータ化させる。ここで、targetを上記第1のサブシーケンスと定義し、w_targetを上記先細りのウィンドウで乗算されたサンプル毎の第1のサブシーケンスと定義し、w_regressorを先広がりのウィンドウの基本的なウィンドウ形状で乗算されたサンプル毎の第2のサブシーケンスと定義し、coefを上記スカラ乗数と定義する。これで、第2のウィンドウのスカラ乗数成分を、ターゲットとオーバーラップ加算演算の結果との間の二乗誤差の総和を最小化するようにして最適化することができる。便宜上、行列−ベクトル表記を使用すると、上記問題は、ターゲットと以下の式で示す量との二乗差合計の最小化として定式化することができる。
[数8]
w_target+w_regressor*coef
w_target+w_regressor*coef
これから、ベクトルT及びHを、以下のように定義する。
[数9]
T=target−w_target
T=target−w_target
[数10]
H=w_regressor
H=w_regressor
この最適化問題に対する解は、以下の式で与えられる。
[数11]
coef=inv(trans(H)*H*trans(H)*T
coef=inv(trans(H)*H*trans(H)*T
ここで、inv()はスカラ又は行列反転を表し、trans()は行列又はベクトルの転置を表し、*は行列乗算又はベクトル乗算である。次に、本明細書に開示している発明における中心要素として、この方法は、ウィンドウの実際の形状を最適化するように拡張されてもよい。これを達成する1つの方法は、下記の通りである。形状の集合を、希望されるウィンドウをその形状の集合に含まれる要素の線形結合として得るための集合と定義する。ここで、Hを、Hの各列が上記第2のサブシーケンスによりサンプル毎に乗算されたこの集合からの1つの形状であるように定義し、coefを、最適化されたウィンドウ関数におけるこれらの形状の未知の重みを含む列ベクトルとして定義する。これらの定義を使用して、問題及びその解を定式化した上述の方程式を、今度はより一般的なウィンドウ形状の解法のために適用する。当然ながら、第1及び第2のウィンドウの役割は上記課題において互換されてもよく、よって、ここでは最適化実行の対象は第1のウィンドウになる。
本発明のより高度な実施形態は、これらの双方のウィンドウ形状を同時に最適化する。これは、おそらくはウィンドウ形状の第1の集合と同等物でありかつ効果的には、ウィンドウ形状の第1の集合におけるウィンドウ形状のそれぞれにおけるサンプルの時間反転索引付けとして選択される、基本的なウィンドウ形状の第2の集合を定義することによって行われる。ここで、w_targetを各列が上記第1のサブシーケンスによりサンプル毎に乗算された上記ウィンドウ形状の第2の集合からの基本的なウィンドウ形状である行列と定義し、coefを、第1に、上記第1のウィンドウのための重みを含みかつ第2に、上記第2のウィンドウのための重みを含む列ベクトルとして定義する。これで、より一般的な問題は、ターゲットと以下の式で示す量との二乗差合計の最小化として定式化することができる。
[数12]
[w_target w_regressor]*coef
[w_target w_regressor]*coef
ここで、角括弧[]は部分行列又はベクトルから行列を形成するために使用される。次に、これから、ベクトルT及びHを以下のように定義する。
[数13]
T=target
T=target
[数14]
H=[w_target w_regressor]
H=[w_target w_regressor]
この最適化に対する解は以下の式で与えられる。
[数15]
coef=inv(trans(H)*H)*trans(H)*T
coef=inv(trans(H)*H)*trans(H)*T
さらに、本発明のさらに高度な実施形態は、瞬時のウィンドウ形状だけでなく、最適化された周波数依存重みを有するウィンドウも最適化する。本発明の一実施形態は多段遅延線の形式を適用するが、本発明全般は、如何なる場合もこの形式に限定されない。この一般化を達成する1つの方法は、上述のw_target及びw_regressorの定義において、各列をそれぞれがサンプル毎に基本的なウィンドウ形状による乗算を行う幾つかの列で置換するというものであり、上記基本的なウィンドウ形状は、これらの幾つかの列が置換する列、但しこの基本的なウィンドウ形状がその時間的な位置でサンプル毎に多段遅延線における特定位置に対応する関連の遅延されたサブシーケンスで乗算される場所である列に対応している。
効果的には、これらの方法における係数の最適化は、本明細書に開示している発明を逸脱することなく、係数の重み、制約又は逐次計算を考慮する。このような重みには、効果的には、低い絶対遅延値に対応する係数へより大きい重みを付ける傾向のある重みが含まれる。このような逐次計算は、効果的には、低い絶対遅延値の係数を、まずはこれらの係数のみを使用して二乗誤差の合計を最小化し、続いてこのプロセスを、増加する遅延値に関して、但しこのプロセスの早期のステップから残る誤差のみに関して反復するように計算してもよい。
一般に、本発明の実施形態は、幾つかのサブシーケンスを最適化の目標として採用する。一般的に言えば、最適化は、これらの目標のサブシーケンス及び重み付けされたオーバーラップ加算系からの出力の関数である歪み関数を最小化する。この最適化は、本発明を逸脱することなく、基本形状の選択及び遅延及びオーバーラップ加算全体における重みに様々な制約を付してもよい。形状の的確な選択に依存して、オーバーラップ加算の影響は、効果的には、時間的にオーバーラップ加算領域に続くサブシーケンスから漸次フェードアウトされる。
図10は、開示しているオーバーラップ加算方法の一実施形態を示す。本発明は、本図における正確な構造に限定されず、よって本図は単に本発明の一実施形態を例示するためのものである。図10において、1つのサブシーケンス1000は、別のサブシーケンス1010と共に時間及び周波数形状を最適化されたオーバーラップ加算で入力される。これらのサブシーケンスはそれぞれ、別の遅延線に入力される。本図において、zは1サンプル分の時間先行を示し、z−1は1サンプル分の時間遅延を示す。選択されている1、−1及び0という遅延は純粋に例示を目的とするものであり、本発明に関しては、多かれ少なかれ、他の遅延を効果的に使用することができる。遅延されたバージョンの各サブシーケンスは、次に、幾つかの基本的なウィンドウ形状によって乗算され、これらの結果はそれぞれ、最適化の過程で他の係数と同時に発見されるべき係数によって乗算される。これらの係数による乗算の後、結果として得られたサブシーケンスは加算され、時間及び周波数形状を最適化されたオーバーラップ加算から出力1020がもたらされる。係数の最適化1030は、図10における例ではサブシーケンス1040及び1050を入力として取り込み、1040及び1050及び出力1020の関数である歪み関数を最小化する。
請求の範囲において図面を示す引用符号は、単に明確さを目的として記述されたものである。諸図における例示的な実施形態を指すこれらの引用符号は、如何なる場合も請求の範囲を限定するものとして解釈されるべきではない。
Claims (20)
- サンプルの第1及び第2のサブシーケンスに応答してサンプルの出力シーケンスを生成するための方法であって、
−上記第1及び第2のサブシーケンスに重み付けされたオーバーラップ加算手順を適用して、上記サンプルの出力シーケンスを生成することと、
−上記サンプルの出力シーケンスとサンプルの少なくとも1つの目標シーケンスとの間のマッチングの測度に応答して、上記重み付けされたオーバーラップ加算手順に含まれる重み付け関数を最適化することを含む方法。 - 上記重み付け関数は、サンプルの2つ又は3つの目標シーケンスに応答して最適化される請求項1記載の方法。
- 上記最適化は、上記重み付けされたオーバーラップ加算手順に含まれる少なくとも1つの重み付け関数を調整することを含む請求項1又は2記載の方法。
- 上記最適化は、上記重み付けされたオーバーラップ加算手順に含まれる2つ又は3つの重み付け関数を調整することを含む請求項3記載の方法。
- 上記重み付けされたオーバーラップ加算手順に含まれる少なくとも1つの重み付け関数はパラメータの集合によって表現される先行する任意の請求項記載の方法。
- 上記パラメータの集合は、少なくとも1つの重み付け関数の時間的な形状の複数の基本的なウィンドウ形状の線形結合への分解に基づく請求項5記載の方法。
- 上記パラメータの集合は、少なくとも1つの重み付け関数の時間的な形状の2つ又は3つの基本的なウィンドウ形状の線形結合への分解に基づく請求項6記載の方法。
- 上記パラメータの集合の生成は、少なくとも1つの多段遅延線を、上記サンプルの第1及び第2のサブシーケンスの少なくとも一方へ適用することを含む請求項5乃至7のうちの任意の請求項記載の方法。
- 上記パラメータの集合の生成は、2つの多段遅延線を上記サンプルの第1及び第2のサブシーケンスへ適用することを含む請求項8記載の方法。
- 上記パラメータの集合の生成は3つの多段遅延線を適用することを含む請求項8又は9記載の方法。
- 上記重み付けされたオーバーラップ加算手順に含まれる重み付け関数は、上記サンプルの出力シーケンスと上記サンプルの少なくとも1つの目標シーケンスとの間の距離の測度に応答して修正される先行する任意の請求項記載の方法。
- 上記距離の測度は二乗誤差の総和に基づく請求項11記載の方法。
- 上記距離の測度は二乗誤差の重み付き総和に基づく請求項12記載の方法。
- 上記距離の測度は最小二乗手順に従って最小化される請求項11乃至13のうちの任意の請求項記載の方法。
- 上記距離の測度は重み付き最小二乗手順に従って最小化される請求項14記載の方法。
- 上記第1及び第2のサブシーケンスのサンプルはディジタル化されたオーディオサンプルを表す先行する任意の請求項記載の方法。
- 上記サンプルの第1及び第2のサブシーケンスの一方は隠蔽サンプルのシーケンスである先行する任意の請求項記載の方法。
- 先行する任意の請求項記載の方法を実行するように適合化されたコンピュータによる実行が可能なプログラムコード。
- 請求項1乃至17のうちの任意の請求項記載の方法を実行するための汎用マイクロプロセッサ等のマイクロプロセッサに対する命令シーケンスを備えるプログラム記憶デバイス。
- ディジタル化されたオーディオ信号を受信するための装置であって、
−受信されるディジタル化されたオーディオ信号を表現するサンプルを記憶するためのメモリ手段と、
−請求項1乃至17のうちの任意の請求項記載の方法を実行するためのプロセッサ手段とを含む装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DKPA200500146 | 2005-01-31 | ||
PCT/DK2006/000054 WO2006079349A1 (en) | 2005-01-31 | 2006-01-31 | Method for weighted overlap-add |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008529073A true JP2008529073A (ja) | 2008-07-31 |
Family
ID=59285473
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007552505A Active JP5420175B2 (ja) | 2005-01-31 | 2006-01-31 | 通信システムにおける隠蔽フレームの生成方法 |
JP2007552507A Active JP5202960B2 (ja) | 2005-01-31 | 2006-01-31 | 通信システムにおけるフレームの連結方法 |
JP2007552506A Pending JP2008529073A (ja) | 2005-01-31 | 2006-01-31 | 重み付けされたオーバーラップ加算方法 |
JP2013198241A Active JP5925742B2 (ja) | 2005-01-31 | 2013-09-25 | 通信システムにおける隠蔽フレームの生成方法 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007552505A Active JP5420175B2 (ja) | 2005-01-31 | 2006-01-31 | 通信システムにおける隠蔽フレームの生成方法 |
JP2007552507A Active JP5202960B2 (ja) | 2005-01-31 | 2006-01-31 | 通信システムにおけるフレームの連結方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013198241A Active JP5925742B2 (ja) | 2005-01-31 | 2013-09-25 | 通信システムにおける隠蔽フレームの生成方法 |
Country Status (15)
Country | Link |
---|---|
US (5) | US8068926B2 (ja) |
EP (3) | EP1849156B1 (ja) |
JP (4) | JP5420175B2 (ja) |
KR (3) | KR101203348B1 (ja) |
CN (3) | CN101120400B (ja) |
AU (3) | AU2006208529B2 (ja) |
BR (3) | BRPI0607247B1 (ja) |
CA (3) | CA2596338C (ja) |
ES (1) | ES2625952T3 (ja) |
HK (1) | HK1108760A1 (ja) |
IL (3) | IL184864A (ja) |
NO (3) | NO338702B1 (ja) |
RU (3) | RU2405217C2 (ja) |
WO (3) | WO2006079348A1 (ja) |
ZA (3) | ZA200706261B (ja) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2006208529B2 (en) | 2005-01-31 | 2010-10-28 | Microsoft Technology Licensing, Llc | Method for weighted overlap-add |
TWI285568B (en) * | 2005-02-02 | 2007-08-21 | Dowa Mining Co | Powder of silver particles and process |
WO2007086380A1 (ja) * | 2006-01-26 | 2007-08-02 | Pioneer Corporation | 高音質化装置及び方法、並びにコンピュータプログラム |
JP2007316254A (ja) * | 2006-05-24 | 2007-12-06 | Sony Corp | オーディオ信号補間方法及びオーディオ信号補間装置 |
US8417520B2 (en) | 2006-10-20 | 2013-04-09 | France Telecom | Attenuation of overvoicing, in particular for the generation of an excitation at a decoder when data is missing |
JP4504389B2 (ja) * | 2007-02-22 | 2010-07-14 | 富士通株式会社 | 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム |
US8280539B2 (en) * | 2007-04-06 | 2012-10-02 | The Echo Nest Corporation | Method and apparatus for automatically segueing between audio tracks |
CN100550712C (zh) * | 2007-11-05 | 2009-10-14 | 华为技术有限公司 | 一种信号处理方法和处理装置 |
CN101207665B (zh) * | 2007-11-05 | 2010-12-08 | 华为技术有限公司 | 一种衰减因子的获取方法 |
CN101437009B (zh) | 2007-11-15 | 2011-02-02 | 华为技术有限公司 | 丢包隐藏的方法及其系统 |
EP2293294B1 (en) | 2008-03-10 | 2019-07-24 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Device and method for manipulating an audio signal having a transient event |
FR2929466A1 (fr) * | 2008-03-28 | 2009-10-02 | France Telecom | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique |
EP2301015B1 (en) * | 2008-06-13 | 2019-09-04 | Nokia Technologies Oy | Method and apparatus for error concealment of encoded audio data |
US8620660B2 (en) * | 2010-10-29 | 2013-12-31 | The United States Of America, As Represented By The Secretary Of The Navy | Very low bit rate signal coder and decoder |
JP5664291B2 (ja) * | 2011-02-01 | 2015-02-04 | 沖電気工業株式会社 | 音声品質観測装置、方法及びプログラム |
WO2012110415A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
KR101551046B1 (ko) | 2011-02-14 | 2015-09-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 |
BR112013020587B1 (pt) | 2011-02-14 | 2021-03-09 | Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. | esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral |
PT2676267T (pt) | 2011-02-14 | 2017-09-26 | Fraunhofer Ges Forschung | Codificação e descodificação de posições de pulso de faixas de um sinal de áudio |
WO2012110478A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
EP2676270B1 (en) | 2011-02-14 | 2017-02-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coding a portion of an audio signal using a transient detection and a quality result |
ES2681429T3 (es) * | 2011-02-14 | 2018-09-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Generación de ruido en códecs de audio |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
EP2676265B1 (en) | 2011-02-14 | 2019-04-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using an aligned look-ahead portion |
JP5969513B2 (ja) | 2011-02-14 | 2016-08-17 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 不活性相の間のノイズ合成を用いるオーディオコーデック |
US9008170B2 (en) | 2011-05-10 | 2015-04-14 | Qualcomm Incorporated | Offset type and coefficients signaling method for sample adaptive offset |
FR2977439A1 (fr) * | 2011-06-28 | 2013-01-04 | France Telecom | Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard. |
US8935308B2 (en) * | 2012-01-20 | 2015-01-13 | Mitsubishi Electric Research Laboratories, Inc. | Method for recovering low-rank matrices and subspaces from data in high-dimensional matrices |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
IN2015DN02595A (ja) | 2012-11-15 | 2015-09-11 | Ntt Docomo Inc | |
CN103888630A (zh) * | 2012-12-20 | 2014-06-25 | 杜比实验室特许公司 | 用于控制声学回声消除的方法和音频处理装置 |
ES2626809T3 (es) * | 2013-01-29 | 2017-07-26 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepto para compensación de conmutación del modo de codificación |
KR101877906B1 (ko) | 2013-01-29 | 2018-07-12 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 노이즈 채움 개념 |
EP2954516A1 (en) | 2013-02-05 | 2015-12-16 | Telefonaktiebolaget LM Ericsson (PUBL) | Enhanced audio frame loss concealment |
EP3576087B1 (en) | 2013-02-05 | 2021-04-07 | Telefonaktiebolaget LM Ericsson (publ) | Audio frame loss concealment |
MX2021000353A (es) * | 2013-02-05 | 2023-02-24 | Ericsson Telefon Ab L M | Método y aparato para controlar ocultación de pérdida de trama de audio. |
FR3004876A1 (fr) * | 2013-04-18 | 2014-10-24 | France Telecom | Correction de perte de trame par injection de bruit pondere. |
US9406308B1 (en) | 2013-08-05 | 2016-08-02 | Google Inc. | Echo cancellation via frequency domain modulation |
US10728298B2 (en) * | 2013-09-12 | 2020-07-28 | Qualcomm Incorporated | Method for compressed sensing of streaming data and apparatus for performing the same |
FR3015754A1 (fr) * | 2013-12-20 | 2015-06-26 | Orange | Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame |
CN104751851B (zh) * | 2013-12-30 | 2018-04-27 | 联芯科技有限公司 | 一种基于前后向联合估计的丢帧差错隐藏方法及系统 |
EP3090574B1 (en) * | 2014-01-03 | 2019-06-26 | Samsung Electronics Co., Ltd. | Method and apparatus for improved ambisonic decoding |
KR101862356B1 (ko) * | 2014-01-03 | 2018-06-29 | 삼성전자주식회사 | 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치 |
WO2015134579A1 (en) | 2014-03-04 | 2015-09-11 | Interactive Intelligence Group, Inc. | System and method to correct for packet loss in asr systems |
EP2922054A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
NO2780522T3 (ja) * | 2014-05-15 | 2018-06-09 | ||
FR3023646A1 (fr) * | 2014-07-11 | 2016-01-15 | Orange | Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame |
GB2547877B (en) * | 2015-12-21 | 2019-08-14 | Graham Craven Peter | Lossless bandsplitting and bandjoining using allpass filters |
RU2712093C1 (ru) | 2016-03-07 | 2020-01-24 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, использующие характеристики декодированного представления надлежащим образом декодированного аудиокадра |
ES2874629T3 (es) * | 2016-03-07 | 2021-11-05 | Fraunhofer Ges Forschung | Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes |
US9679578B1 (en) | 2016-08-31 | 2017-06-13 | Sorenson Ip Holdings, Llc | Signal clipping compensation |
JP6652469B2 (ja) * | 2016-09-07 | 2020-02-26 | 日本電信電話株式会社 | 復号装置、復号方法及びプログラム |
US9934785B1 (en) | 2016-11-30 | 2018-04-03 | Spotify Ab | Identification of taste attributes from an audio signal |
CN108922551B (zh) * | 2017-05-16 | 2021-02-05 | 博通集成电路(上海)股份有限公司 | 用于补偿丢失帧的电路及方法 |
EP3984026A1 (en) * | 2019-06-13 | 2022-04-20 | Telefonaktiebolaget LM Ericsson (publ) | Time reversed audio subframe error concealment |
EP3901950A1 (en) * | 2020-04-21 | 2021-10-27 | Dolby International AB | Methods, apparatus and systems for low latency audio discontinuity fade out |
Family Cites Families (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2102254B (en) * | 1981-05-11 | 1985-08-07 | Kokusai Denshin Denwa Co Ltd | A speech analysis-synthesis system |
DE3462572D1 (en) * | 1983-04-20 | 1987-04-09 | Nippon Telegraph & Telephone | Interframe coding method and apparatus therefor |
FR2606239A1 (fr) * | 1986-10-30 | 1988-05-06 | Bull Sa | Procede et dispositif de transmission de donnees numeriques |
US5007094A (en) * | 1989-04-07 | 1991-04-09 | Gte Products Corporation | Multipulse excited pole-zero filtering approach for noise reduction |
US5371853A (en) | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
JP2779886B2 (ja) | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
US5434947A (en) * | 1993-02-23 | 1995-07-18 | Motorola | Method for generating a spectral noise weighting filter for use in a speech coder |
US5995539A (en) * | 1993-03-17 | 1999-11-30 | Miller; William J. | Method and apparatus for signal transmission and reception |
SE503547C2 (sv) | 1993-06-11 | 1996-07-01 | Ericsson Telefon Ab L M | Anordning och förfarande för döljande av förlorade ramar |
JP3520555B2 (ja) * | 1994-03-29 | 2004-04-19 | ヤマハ株式会社 | 音声符号化方法及び音声音源装置 |
US5602959A (en) | 1994-12-05 | 1997-02-11 | Motorola, Inc. | Method and apparatus for characterization and reconstruction of speech excitation waveforms |
TW294867B (ja) | 1994-12-23 | 1997-01-01 | Qualcomm Inc | |
US5699481A (en) | 1995-05-18 | 1997-12-16 | Rockwell International Corporation | Timing recovery scheme for packet speech in multiplexing environment of voice with data applications |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6028890A (en) * | 1996-06-04 | 2000-02-22 | International Business Machines Corporation | Baud-rate-independent ASVD transmission built around G.729 speech-coding standard |
JP3623056B2 (ja) * | 1996-09-10 | 2005-02-23 | ソニー株式会社 | 動画像圧縮装置 |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
JP3596841B2 (ja) | 1997-01-24 | 2004-12-02 | 株式会社ルネサステクノロジ | 受信データ伸長装置 |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
EP0907258B1 (en) | 1997-10-03 | 2007-01-03 | Matsushita Electric Industrial Co., Ltd. | Audio signal compression, speech signal compression and speech recognition |
FI980132A (fi) * | 1998-01-21 | 1999-07-22 | Nokia Mobile Phones Ltd | Adaptoituva jälkisuodatin |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
SE513520C2 (sv) * | 1998-05-14 | 2000-09-25 | Ericsson Telefon Ab L M | Förfarande och anordning för maskering av fördröjda paket |
US6292454B1 (en) | 1998-10-08 | 2001-09-18 | Sony Corporation | Apparatus and method for implementing a variable-speed audio data playback system |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6493664B1 (en) * | 1999-04-05 | 2002-12-10 | Hughes Electronics Corporation | Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system |
US6765931B1 (en) | 1999-04-13 | 2004-07-20 | Broadcom Corporation | Gateway with voice |
US7117156B1 (en) | 1999-04-19 | 2006-10-03 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
KR100630253B1 (ko) * | 1999-04-19 | 2006-10-02 | 에이티 앤드 티 코포레이션 | 패킷 손실 또는 프레임 삭제 은폐를 실행하는 방법 및 장치 |
US6324503B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions |
US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
US6665317B1 (en) * | 1999-10-29 | 2003-12-16 | Array Telecom Corporation | Method, system, and computer program product for managing jitter |
US6931370B1 (en) * | 1999-11-02 | 2005-08-16 | Digital Theater Systems, Inc. | System and method for providing interactive audio in a multi-channel audio environment |
JP2001142477A (ja) | 1999-11-12 | 2001-05-25 | Matsushita Electric Ind Co Ltd | 有声音形成装置とそれを用いた音声認識装置 |
FI116643B (fi) | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
SE517156C2 (sv) | 1999-12-28 | 2002-04-23 | Global Ip Sound Ab | System för överföring av ljud över paketförmedlade nät |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
AU2001290882A1 (en) * | 2000-09-15 | 2002-03-26 | Lernout And Hauspie Speech Products N.V. | Fast waveform synchronization for concatenation and time-scale modification of speech |
US6661842B1 (en) | 2000-09-22 | 2003-12-09 | General Dynamics Decision Systems, Inc. | Methods and apparatus for error-resilient video coding |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
US6968309B1 (en) * | 2000-10-31 | 2005-11-22 | Nokia Mobile Phones Ltd. | Method and system for speech frame error concealment in speech decoding |
EP1217613A1 (fr) | 2000-12-19 | 2002-06-26 | Koninklijke Philips Electronics N.V. | Reconstitution de trames manquantes ou mauvaises en téléphonie cellulaire |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
FR2820227B1 (fr) * | 2001-01-30 | 2003-04-18 | France Telecom | Procede et dispositif de reduction de bruit |
CN1311424C (zh) | 2001-03-06 | 2007-04-18 | 株式会社Ntt都科摩 | 音频数据内插、关联信息制作、内插信息发送装置和方法 |
DE60210766T2 (de) * | 2001-04-09 | 2007-02-08 | Koninklijke Philips Electronics N.V. | Adpcm sprachkodiersystem mit phasenfaltungs und -entfaltungsfiltern |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
JP4426186B2 (ja) | 2001-05-22 | 2010-03-03 | 富士通株式会社 | 音声信号処理装置 |
FI20011392A (fi) * | 2001-06-28 | 2002-12-29 | Nokia Corp | Mekanismi multicast-jakelua varten tietoliikennejärjestelmässä |
US7006511B2 (en) | 2001-07-17 | 2006-02-28 | Avaya Technology Corp. | Dynamic jitter buffering for voice-over-IP and other packet-based communication systems |
US7711563B2 (en) * | 2001-08-17 | 2010-05-04 | Broadcom Corporation | Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7590525B2 (en) * | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US6681842B2 (en) * | 2001-12-03 | 2004-01-27 | Agilent Technologies, Inc. | Cooling apparatus |
SE521600C2 (sv) | 2001-12-04 | 2003-11-18 | Global Ip Sound Ab | Lågbittaktskodek |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP4022427B2 (ja) | 2002-04-19 | 2007-12-19 | 独立行政法人科学技術振興機構 | エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置 |
US7496086B2 (en) * | 2002-04-30 | 2009-02-24 | Alcatel-Lucent Usa Inc. | Techniques for jitter buffer delay management |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP4089347B2 (ja) | 2002-08-21 | 2008-05-28 | 沖電気工業株式会社 | 音声復号装置 |
MXPA05005988A (es) * | 2002-12-04 | 2005-08-18 | Thomson Licensing Sa | Codificacion de desvanecimientos de video con el uso de una prediccion ponderada. |
GB2416467B (en) | 2003-05-14 | 2006-08-30 | Oki Electric Ind Co Ltd | Apparatus and method for concealing erased periodic signal data |
JP4233931B2 (ja) | 2003-06-17 | 2009-03-04 | 日本電信電話株式会社 | 音声・音響信号再生調整方法、装置、および音声・音響信号再生調整プログラム、そのプログラムを記録した記録媒体 |
US7356748B2 (en) * | 2003-12-19 | 2008-04-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Partial spectral loss concealment in transform codecs |
JP2005315973A (ja) | 2004-04-27 | 2005-11-10 | Seiko Epson Corp | 半導体集積回路 |
TWI273562B (en) * | 2004-09-01 | 2007-02-11 | Via Tech Inc | Decoding method and apparatus for MP3 decoder |
US7676362B2 (en) | 2004-12-31 | 2010-03-09 | Motorola, Inc. | Method and apparatus for enhancing loudness of a speech signal |
AU2006208529B2 (en) | 2005-01-31 | 2010-10-28 | Microsoft Technology Licensing, Llc | Method for weighted overlap-add |
US7359409B2 (en) * | 2005-02-02 | 2008-04-15 | Texas Instruments Incorporated | Packet loss concealment for voice over packet networks |
US9160382B2 (en) * | 2013-10-08 | 2015-10-13 | Blackberry Limited | Phase noise mitigation for wireless communications |
-
2006
- 2006-01-31 AU AU2006208529A patent/AU2006208529B2/en not_active Ceased
- 2006-01-31 WO PCT/DK2006/000053 patent/WO2006079348A1/en active Application Filing
- 2006-01-31 WO PCT/DK2006/000055 patent/WO2006079350A1/en active Application Filing
- 2006-01-31 JP JP2007552505A patent/JP5420175B2/ja active Active
- 2006-01-31 CA CA2596338A patent/CA2596338C/en active Active
- 2006-01-31 BR BRPI0607247-0A patent/BRPI0607247B1/pt not_active IP Right Cessation
- 2006-01-31 CA CA2596337A patent/CA2596337C/en active Active
- 2006-01-31 JP JP2007552507A patent/JP5202960B2/ja active Active
- 2006-01-31 KR KR1020077020043A patent/KR101203348B1/ko active IP Right Grant
- 2006-01-31 RU RU2007132729/09A patent/RU2405217C2/ru active
- 2006-01-31 JP JP2007552506A patent/JP2008529073A/ja active Pending
- 2006-01-31 CN CN2006800035714A patent/CN101120400B/zh not_active Expired - Fee Related
- 2006-01-31 US US11/883,427 patent/US8068926B2/en not_active Expired - Fee Related
- 2006-01-31 CA CA2596341A patent/CA2596341C/en active Active
- 2006-01-31 BR BRPI0607251A patent/BRPI0607251A2/pt not_active IP Right Cessation
- 2006-01-31 AU AU2006208530A patent/AU2006208530B2/en not_active Ceased
- 2006-01-31 WO PCT/DK2006/000054 patent/WO2006079349A1/en active Application Filing
- 2006-01-31 AU AU2006208528A patent/AU2006208528C1/en not_active Ceased
- 2006-01-31 BR BRPI0607246-1 patent/BRPI0607246B1/pt not_active IP Right Cessation
- 2006-01-31 CN CN2006800035697A patent/CN101120398B/zh not_active Expired - Fee Related
- 2006-01-31 US US11/883,440 patent/US9047860B2/en not_active Expired - Fee Related
- 2006-01-31 KR KR1020077020044A patent/KR101237546B1/ko active IP Right Grant
- 2006-01-31 US US11/883,430 patent/US8918196B2/en active Active
- 2006-01-31 KR KR1020077020042A patent/KR101203244B1/ko active IP Right Grant
- 2006-01-31 EP EP06704601A patent/EP1849156B1/en active Active
- 2006-01-31 CN CN200680003570XA patent/CN101120399B/zh not_active Expired - Fee Related
- 2006-01-31 RU RU2007132735/09A patent/RU2417457C2/ru active
- 2006-01-31 ES ES06704595.5T patent/ES2625952T3/es active Active
- 2006-01-31 EP EP06704598.9A patent/EP1846921B1/en active Active
- 2006-01-31 RU RU2007132728/09A patent/RU2407071C2/ru active
- 2006-01-31 EP EP06704595.5A patent/EP1846920B1/en active Active
-
2007
- 2007-07-26 IL IL184864A patent/IL184864A/en active IP Right Grant
- 2007-07-27 ZA ZA200706261A patent/ZA200706261B/xx unknown
- 2007-07-30 IL IL184927A patent/IL184927A/en active IP Right Grant
- 2007-07-30 ZA ZA200706307A patent/ZA200706307B/xx unknown
- 2007-07-31 IL IL184948A patent/IL184948A/en active IP Right Grant
- 2007-08-06 ZA ZA200706534A patent/ZA200706534B/en unknown
- 2007-08-27 NO NO20074349A patent/NO338702B1/no unknown
- 2007-08-27 NO NO20074348A patent/NO338798B1/no not_active IP Right Cessation
- 2007-08-29 NO NO20074418A patent/NO340871B1/no not_active IP Right Cessation
- 2007-12-19 HK HK07113877.4A patent/HK1108760A1/xx not_active IP Right Cessation
-
2011
- 2011-10-21 US US13/279,061 patent/US20120158163A1/en not_active Abandoned
-
2013
- 2013-09-25 JP JP2013198241A patent/JP5925742B2/ja active Active
-
2015
- 2015-04-01 US US14/676,661 patent/US9270722B2/en not_active Expired - Fee Related
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5202960B2 (ja) | 通信システムにおけるフレームの連結方法 |