JP5420175B2 - 通信システムにおける隠蔽フレームの生成方法 - Google Patents

通信システムにおける隠蔽フレームの生成方法 Download PDF

Info

Publication number
JP5420175B2
JP5420175B2 JP2007552505A JP2007552505A JP5420175B2 JP 5420175 B2 JP5420175 B2 JP 5420175B2 JP 2007552505 A JP2007552505 A JP 2007552505A JP 2007552505 A JP2007552505 A JP 2007552505A JP 5420175 B2 JP5420175 B2 JP 5420175B2
Authority
JP
Japan
Prior art keywords
concealment
samples
signal
frame
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007552505A
Other languages
English (en)
Other versions
JP2008529072A (ja
JP2008529072A5 (ja
Inventor
セレン・ヴァング・アナセン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Skype Ltd Ireland
Original Assignee
Skype Ltd Ireland
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=59285473&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP5420175(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Skype Ltd Ireland filed Critical Skype Ltd Ireland
Publication of JP2008529072A publication Critical patent/JP2008529072A/ja
Publication of JP2008529072A5 publication Critical patent/JP2008529072A5/ja
Application granted granted Critical
Publication of JP5420175B2 publication Critical patent/JP5420175B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Dc Digital Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Telephonic Communication Services (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Communication Control (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Superconductors And Manufacturing Methods Therefor (AREA)
  • Noise Elimination (AREA)

Description

本発明は、電気通信システムに関する。本発明は、特に、無線通信システム及びパケット交換ネットワーク上での信号送信品質を改善するために、信号パケットの損失及び/又は遅延ジッタ及び/又はクロックスキューを補償する方法、デバイス及び装置に関する。
最新の電気通信は、信号のディジタル送信に基づく。例えば図1において、送信機200は、ソース(信号源)100から音声信号を収集する。このソースは、マイクロホンにより収集される少なくとも1人の人による発話及び他の音波源に起因するソースである場合もあれば、テキスト音声合成又は対話システム等の音声信号格納システム又は発生システムである場合もある。ソース信号がアナログであれば、これは、アナログ/ディジタル変換器を用いてディジタル表現に変換される。ディジタル表現は続いて符号化され、ディジタルチャンネル300に適するフォーマットに従ってパケット内に配置される。パケットは、ディジタルチャンネル上で送信される。ディジタルチャンネルは、典型的には複数の抽象化のレイヤを備える。
図1の抽象化のレイヤにおいて、ディジタルチャンネルはパケットのシーケンスを入力として受け取り、パケットのシーケンスを出力として送る。典型的には、チャンネル内の雑音、不完全性及び過負荷を原因として生じるチャンネルの劣化により、出力されるパケットのシーケンスは、典型的には幾つかのパケットの損失、及びその他のパケットの到着時間の遅延及び遅延ジッタによって汚染される。さらに、送信機と受信機との間のクロックの差はクロックスキューをもたらすことがある。受信機400の役割は、受信されるデータパケットを復号し、復号されたディジタル表現をパケットストリームから変換しかつこれをディジタル信号表現に復号し、さらに、これらの表現を信号シンク(信号シンク装置)500への出力に適するフォーマットで復号された音声信号に変換することである。この信号シンクは、復号された音声信号を例えば少なくとも1つのスピーカによって提示される少なくとも1人の人である場合もあれば、音声又はオーディオ格納システム又は音声又はオーディオ対話システム又は認識装置である場合もある。
シンクに提示され得る信号を正確に再生することは、受信機の役割である。シンクが直接又は間接的に複数の人間の聴取者を含む場合、受信機の目的は、人間の聴取者に提示されるときに、1つのソース又は複数のソースからの音響信号に関して人に知覚される印象及び情報を正確に再生する音声信号表現を取得することにある。損失、遅延、及び遅延ジッタによってチャンネルが受信されるパケットシーケンスを劣化させ、さらにクロックスキューが存在するためにパケットシーケンスが劣化する一般的なケースにおいて、受信機のこの役割を保証するためには、受信機サブシステムの一部として効率的な隠蔽が必要である。
一例として、この役割を果たすための受信機サブシステムの可能な1つの実装を図2に示す。この図が示すように、着信するパケットはジッタバッファ410に格納され、復号及び隠蔽ユニット420は受信され符号化された信号表現をここから取得し、かつこれらの符号化された信号表現を復号しかつ隠蔽することにより再生出力バッファ430における格納及びこれに続く再生出力に適する信号表現を得る。隠蔽をいつ開始するか、及び隠蔽される信号の長さ等の隠蔽の具体的なパラメータが何であるかに関する制御は、一例として、制御ユニット440によって実行されてもよい。ここで、制御ユニット440は、ジッタバッファ及び再生出力バッファの内容を監視しかつ復号及び隠蔽ユニット420の動作を制御する。
隠蔽はまたチャンネルサブシステムの一部として達成される場合もある。図3は、パケットがチャンネル310から、後の参照でリレーと呼ぶサブシステム320を介して、チャンネル330へ転送されるチャンネルサブシステムの一例を示す。実際のシステムでは、このリレー機能を、多様なタイプのルータ、プロキシサーバ、エッジサーバ、ネットワークアクセスコントローラ、無線ローカルエリアネットワークコントローラ、ボイスオーバーIPゲートウェイ、メディアゲートウェイ、無免許ネットワークコントローラ、無認可ネットワークコントローラ及び他の名称等のコンテキストに依存する様々な名称で呼ばれるユニットによって達成することができる。本明細書のコンテキストでは、これらは全てリレーシステムの例示である。
オーディオの隠蔽を行うことのできるリレーシステムの一例を図4に示す。本図に示すように、パケットは、入力バッファ310からパケット交換サブシステム320及び350を介して出力バッファ360へ転送される。制御ユニット370は、入力及び出力バッファを監視し、この監視の結果として、トランスコーディング及び隠蔽が必要であるか否かの決定を下す。必要であれば、スイッチは、トランスコーディング及び隠蔽ユニット330を介するようにパケットを方向づける。必要でなければ、スイッチは、最小プロトコルアクションサブシステム340を介するようにパケットを方向づける。ここで、最小プロトコルアクションサブシステム340は、パケットが適用されているプロトコルに従うように、パケットヘッダに対して最小限の動作を行う。これは、パケットのシーケンス番号及びタイムスタンプを変更するステップを含んでもよい。
上述の説明によって例示される、但しこれに限定されないシステムを使用するオーディオ信号の送信に際しては、音声信号を表現する、又は部分的に表現する信号における損失、遅延、遅延ジッタ及び/又はクロックスキューを隠蔽する必要がある。この隠蔽タスクにアプローチする先行技術は、ピッチ繰り返し方法と時間スケール修正方法とに分類される。
発振器モデルにおいて具体化されることのあるピッチ繰り返し方法は、発声された音声におけるピッチ周期の推定値、又は発声された音声信号の対応する基本周波数の推定に基づく。ピッチ周期が与えられると、隠蔽フレームは、最終ピッチ周期の読み出しを繰り返することによって取得される。隠蔽フレームの最初と終わり、及びピッチ周期の各繰り返し間における不連続は、ウィンドウ化されたオーバーラップ加算手順を使用して平滑化されてもよい。例えば、ピッチ繰り返し方法に関する特許文献1及び非特許文献1を参照されたい。複数の先行技術システムは、ピッチ繰り返しに基づく隠蔽を、線形予測コーディング原理に基づくデコーダと統合する。これらのシステムでは、ピッチの繰り返しは、典型的には、線形予測動作ドメインにおいて長期予測又は適応コードブックループからの読み出しによって達成される。線形予測動作ドメインにおけるピッチ繰り返しに基づく隠蔽については、例えば、特許文献2、非特許文献2及び非特許文献3を参照されたい。上述の方法は、損失又は増大する遅延、すなわち正の遅延ジッタ、及び例えばクロックスキューに起因する入力又はジッタバッファのアンダーフロー又はアンダーフローに近い状況の隠蔽に適用される。低減する遅延、負の遅延ジッタ又は入力又はジッタバッファのオーバーフロー又はオーバーフローに近い状況を隠蔽するためには、短縮された隠蔽信号の生成が必要とされる。ピッチに基づく方法は、ピッチ周期とより早いピッチ周期との間のオーバーラップ加算手順によってこれを達成する。この方法の一例として、特許文献1を参照されたい。
国際公開特許第0148736号パンフレット。 米国特許第5699481号明細書。 国際電気通信連合勧告(Iternational Telecommunications Union recommendation)ITU−T G.711アペンディックス1。 国際電気通信連合勧告(Iternational Telecommunications Union recommendation)ITU−T G.729。 コメント3951に対するインターネットエンジニアリングタスクフォース要求書(International Engineering Task Force Request for Comments 3951)。 リナグ(Linag)、ファーバー(Farber)、ギオルド(Girod)、「IPネットワーク上の音声通信のための適応型再生スケジューリング及び損失の隠蔽(Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks)」、マルチメディアに関するIEEEプロシーディング(IEEE Transactions on Multimedia)、2003年12月、第5巻、第4号、p.532−p.543。 ロドブロ(Rφdbro)、ヤンセン(Jensen)、「パケットベースの電話方式におけるインテリジェントジッタバッファのための正弦関数の時間スケーリング(Time−scaling of Sinusoids for Intelligent Jitter Buffer in Packet Based Telephony)」、2002年、音声コーディングに関するワークショップのIEEEプロシーディング(IEEE Proceeding Workshop on Speech Coding)、p.71−p.73。 バレンズエラ(Valenzuela)、アニマル(Animalu)、「新しい音声−パケット再構成技術(A new voice−packet reconstruction technique)」、1989年、IEEE。
これも同じく、線形予測デコーダ内に存在するファシリティを活用しながら達成することができる。一例として、特許文献2は、再生信号におけるピッチの周期性を保証するために、適応コードブックの状態に依存して、特定のコードブック寄与ベクトルを単に再生信号から廃棄する方法を開示している。ピッチ繰り返し方法に関連する1つの目的は、隠蔽フレームから次のフレームへの継ぎ目のない信号の連続性にある。特許文献1は、この目的を達成する方法を開示している。特許文献1に開示されている発明によれば、この目的は、時変性かつおそらくは信号依存性である長さを有する隠蔽フレームによって達成される。この解法は、遅延ジッタ及びクロックスキューの隠蔽に関連して継ぎ目のない信号の連続性を効率的に保証することができる反面、図4に描かれているタイプのシステムに関して欠陥を有する。すなわち、このタイプの隠蔽に従うと、好ましくは最小プロトコルアクション340を介してリレーされる既に符号化されたフレームへ継ぎ目なしに接続する予め設定された固定長さのフレームへの隠蔽の符号化を保証することができない。
損失及び急激に増大する遅延を隠蔽するためのピッチの繰り返しに基づく方法において頻発する問題点は、ピッチサイクルの繰り返しが再生される信号音声を不自然にすることにある。より具体的には、このオーディオ信号は周期的になり過ぎる。最悪のケースでは、再生された音声信号においていわゆるストリング音(string sounds)が知覚される。先行技術には、この問題点を緩和する多くの方法が存在する。これらの方法には、推定されるピッチ周期の二倍又は三倍である繰り返し周期の使用が含まれる。一例として、非特許文献3は、推定されるピッチ周期が10ミリ秒未満であれば推定されるピッチ周期の二倍が使用される方法について記述している。別の例として、非特許文献1は、単一のピッチ周期を繰り返しするのではなく、2つのピッチサイクル及び後に3つのピッチサイクルを繰り返すためにピッチ周期の倍増及び後に三倍増が導入される方法を記述している。この方法の完全な説明に関しては、非特許文献1を参照されたい。さらに、ストリング音を軽減するために、典型的には、音声の発声レベルに依存するレベル及び隠蔽信号の段階的減衰を有するランダムな、又はランダム的な信号成分と、隠蔽信号との混合が導入される。時として、このランダム的な信号は、バッファされた信号に対する演算によって、又はデコーダ内で既に使用可能なランダムなコードブック等のファシリティを使用することによって導出される。このような特徴を使用する例に関しては、特許文献2、非特許文献2及び非特許文献3を参照されたい。また、導入されるアーチファクトを抑制するためには、段階的減衰も使用される。これは、基本的な隠蔽方法が与えられれば、近端の聴取者が解釈するところの最善の選択肢である可能性があるが、遠端の聴取者は、エコーが戻りかつこのエコーを適応型フィルタが打ち消す方法において、この減衰の効果を圧倒的にネガティブに解釈する可能性がある。これは、減衰が適応型エコーキャンセラの動作の持続性を低下させるためである。これにより、これの実際のエコー経路までの追跡品質は低下し、遠端の聴取者はより大きいエコーリターンを経験することがある。
例えば、非特許文献4に記述されているタイプの時間スケール修正方法は、マッチングされた平滑なオーバーラップ加算手順を介して機能する。この手順においては、信号セグメントはバッファされるがまだ再生されず、信号は平滑にウィンドウ化されてテンプレートセグメントとして識別され、続いて類似のセグメントを識別するために、平滑にウィンドウ化された他のセグメントが検索される。ここで類似性とは、例えば相関的測度であってもよい。平滑にウィンドウ化されたテンプレートセグメント及び平滑にウィンドウ化された類似セグメントは続いてオーバーラップされ、かつ加算されて時間スケールを修正された信号が生成される。再生の時間スケールが延長されると、類似セグメントの検索領域はサンプル時間においてテンプレートセグメントより前へ位置づけられる。逆に言えば、再生の時間スケールが圧縮されるとき、類似セグメントの検索領域はサンプル時間においてテンプレートセグメントの先へ位置づけられる。周知の時間スケール修正方法では、テンプレートの長さと類似セグメント及びこれらに適用されるウィンドウは時間スケール修正の実行前に予め定義され、これらの量は、この時間スケール修正が適用される特定の信号の特性に応じて適合化されない。先行技術による時間スケール修正を使用する、非特許文献4において観察されるように、スパイク遅延は、パケットネットワーク上のリアルタイム双方向音声通信において必要とされるような低遅延再生スケジューリングでは開始時間的な位置から効果的に軽減され得ない。
時間スケール修正方法及びピッチ繰り返し方法への類似点を有する他の方法が知られている。このコンテキストで言及すべき1つのタイプは、正弦波に基づく隠蔽方法である。例えば、非特許文献5を参照されたい。これらの方法により正弦波モデルドメインを介して達成される補間又はピッチの繰り返しの量に依存して、これらの方法は、先に言及したピッチ繰り返し方法及び時間スケール修正方法に関して識別される同じ制限を受ける。
開示している発明又はその実施形態は、既知の解決方法における先に同定した、例えば可聴アーチファクト(人工物)のような制約、及び上記既知の解決方法における他の明記されていない欠陥を緩和する。
既知のピッチ繰り返しに基づく方法と具体的に比較すると、開示している本方法は、音声信号を表現する隠蔽信号を発生する技術を提供する。ここで、この隠蔽信号は、ストリング音等の知覚上のうっとうしいアーチファクトが大幅に少ない。これにより、結果的にこれらのシステムの制約は緩和され、知覚される音声品質は直接的に向上される。またこれは、隠蔽信号における大幅に少ない減衰の導入と同時に達成される。これにより、ピッチの繰り返しに基づくシステムの第2の制約が緩和される。また、この第2の制約の緩和は、通信の近端側における隠蔽信号の知覚品質を直接向上させる。さらに、第2の制約の緩和は、遠端により知覚される音響エコーの影響を軽減するために近端に音響エコー及び適応型フィルタを有するシステムにおいて、通信の遠端側における知覚品質を向上させる。この第2の効果は、開示している本方法の隠蔽信号に起因して、これらの隠蔽信号がより少ない減衰を呈し、適応型エコーキャンセルフィルタの適応プロセスのためにより持続的な動作を供給することによって達成される。さらに、開示している技術の音響背景雑音に対するロバスト性は、既知のピッチ繰り返しに基づく方法のそれを凌ぐ。
さらに、既知の時間スケール修正方法と具体的に比較して、開示している本方法は、パケットネットワーク上のリアルタイムの双方向音声通信に必要とされるような低遅延再生又は出力バッファスケジューリングを有するシステムにおいてスパイク遅延の隠蔽を可能にする。これにより、既知の時間スケール修正における主たる制約が緩和される。
第1の態様では、本発明は、ディジタル化されたオーディオ信号の送信に関連して隠蔽サンプルのシーケンスを生成するための方法を提供し、バッファされた上記ディジタル化された表現のオーディオ信号のサンプルから、上記隠蔽サンプルのシーケンスをサンプルの時間順序で生成することを含み、上記隠蔽サンプルのシーケンス内のサンプルの少なくとも2つの連続するサブシーケンスは、バッファされたサンプルのサブシーケンスに基づいており、上記バッファされたサンプルのサブシーケンスは、並べ替えされた時間順序で連続する。
以下の定義は上記第1の態様に当てはまるものであり、かつ本開示を通じて使用される。「サンプル」という用語は、ディジタル化されたオーディオ信号を起源とするサンプル、又は上記ディジタル化されたオーディオ信号から導出される信号を起源とするサンプル、もしくはこのような信号の係数又はパラメータ表現を起源とするサンプルとして理解され、これらの係数又はパラメータはスカラ値又はベクトル値である。「フレーム」という用語は、サンプルに関する上述の定義を使用して、連続するサンプルを含む集合であると理解される。「サブシーケンス」は、サンプルに関する上述の定義を使用して、少なくとも1つの連続するサンプルを含む集合であると理解される。従って、ある特定のケースでは、サブシーケンスはサンプルに等しい。例えばオーバーラップ加算を使用するケースでは、2つの連続するサブシーケンスはオーバーラップする複数のサンプルを含んでもよい。フレームの選択に依存して、サブシーケンスは、2つの連続するフレーム間に及んでもよい。好ましい実施形態では、サブシーケンスは、1つのサブシーケンスが別のサブシーケンスの部分集合になり得ないように配置される。
好ましくは、上記隠蔽サンプルのシーケンス内のサンプルの少なくとも2つの連続するサブシーケンスは、バッファされたサンプルのサブシーケンスに基づいており、上記バッファされたサンプルのサブシーケンスは逆の時間順序で連続する。従って、好ましい実施形態では、隠蔽サンプルのシーケンスは、逆の時間順序で連続するバッファサンプルに基づく連続するサンプル等の連続するサブシーケンスを含む。例えば、隠蔽サンプルのシーケンスにおけるサンプルの2つ、3つ、4つ又はそれ以上の連続するサブシーケンスは、逆の時間順序で連続するバッファされたサンプルのサブシーケンス基づいてもよい。言い換えれば、発生される隠蔽シーケンスは、好ましくは、多かれ少なかれバッファされたサンプルの直接逆転再生に基づく部分を含む。ある好ましい実施形態では、隠蔽サンプルのシーケンスは、バッファされたサンプルの連続サンプル集合を逆の時間順序で含む。バッファされたサンプルに基づく隠蔽サンプルのシーケンスの少なくとも一部を、この並べ替え又は逆方向の並べ替え方法を使用して計算することにより、先行技術によるストリング音の影響を受けることのない、より自然な発音隠蔽シーケンスが提供され、他の幾つかのアーチファクトの除去又は低減も促進される。
説明している本方法は、例えばVoIPシステムである通信システムに関連して多くの優位点を有する。ここで、ディジタル音声信号がフレームで送信され、通信はフレーム損失及びジッタに曝されるので、可聴性が高くうっとうしい信号の急変を少なくとも部分的に低減するためのサンプルの隠蔽シーケンスを必要としている。
好ましい実施形態では、上記バッファされたサンプルのサブシーケンスの位置は、上記隠蔽サンプルの生成の間、サンプル時間において後方及び前方に漸次展開するポイントに置かれる。これは、この時間的展開を制御するインデックス(索引)パターン発生器によって実行されてもよい。バッファされたサンプルを解析することにより、このインデックスパターン発生器は、後方への時間的展開路の開始、停止及び速度を選択し、これはまた、前方への時間的展開の開始、停止及び速度及び自然な発音の隠蔽シーケンスを生成するために後方への時間的展開及び前方への時間的展開を順序づけるパターンをも制御する。
上記隠蔽サンプルのシーケンスは、上記バッファされたサンプルの時間順序で最後のサブシーケンスに基づくサブシーケンスから開始してもよい。
上記サブシーケンスの時間方向の並べ替えは、サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセスに基づくものであってもよい。好ましくは、サンプルを索引付けしかつ読み取る順次プロセスは、
a)幾つかのバッファされたサンプルを時間順序の逆方向でステッピングすることによりバッファサンプルを索引付けするステップと、これに続く、
b)幾つかのバッファされたサンプルを、ステップa)において索引付けされた上記バッファされたサンプルから開始して、時間順序の方向で読み取り、上記読み取られたサンプルを、上記隠蔽サンプルのシーケンスのサブシーケンスの計算に使用するステップとを含み、
上記時間方向で読み取られバッファされたサンプルの数は、上記時間の逆方向でステッピングされるバッファされたサンプルの数とは異なる。この数の相違により、不自然なストリング音に繋がる周期性が回避される。本方法はさらに、後の実施形態の詳細な説明において「バックステップ」及び「読み出し長さ」と称される。
時間方向で読出されるバッファサンプルの数は、時間の逆方向でステッピングされるバッファサンプルの数より多い場合もあれば、少ない場合もある。好ましくは、上記時間方向で読み取られバッファされたサンプルの数は、上記時間の逆方向でステッピングされるバッファサンプルの数より少ない。この選択は、バッファされたサンプル内で漸次時間の逆方向でさらに展開する方法を提供し、よって、後続のサンプルが漸次より古いバッファサンプルに基づいており、その後に前方展開が開始される隠蔽シーケンスを提供する。
上記隠蔽サンプルのシーケンスのサブシーケンスは、重み付けされたオーバーラップ加算手順を伴うことにより、上記バッファされたサンプルのサブシーケンスから計算されてもよい。上記重み付けされたオーバーラップ加算手順における重み付け関数は、さらに周波数の関数であってもよい。上記重み付けされたオーバーラップ加算手順は、マッチング品質インジケータに応答して修正されてもよい。このマッチング品質インジケータは、上記重み付けされたオーバーラップ加算手順で入力されるサンプルの2つ以上のサブシーケンスに関する測度である。
上記時間方向の並べ替えは、ロケーションポインタの後方及び前方展開によって部分的に記述されてもよい。好ましくは、上記ロケーションポインタの後方展開は、停止基準の使用によって制限される。上記後方展開のための停止基準、上記前方及び上記後方展開のペース(又はスピード)、及び開始される上記後方展開の数は、人間の聴取者により解釈されるときの音声品質を最適化するように同時に最適化されてもよい。
好ましくは、平滑化及び等化演算は、上記バッファされたサンプルに適用される。これは、サンプルがバッファされる前、バッファリングの間又はサンプルが隠蔽サンプルの計算に使用される直前の何れで行われてもよい。上記後方展開のための停止基準、上記前方及び上記後方展開のペース、開始される上記後方展開の数、及び上記平滑化及び等化演算は、人間の聴取者により解釈されるときの音声品質を最適化するように同時に最適化されてもよい。
上記ロケーションポインタの後方及び前方展開は、人間の聴取者により解釈されるときの音声品質を最適化するように同時に最適化されてもよい。
好ましくは、上記隠蔽サンプルのシーケンスと、サンプルの連続するフレームとの間の境界における不連続性を最小化するように位相フィルタリングが適用される。位相フィルタリングの導入は、隠蔽シーケンスを導入するときの周知の問題点である不連続性の低減を促進させる。このような位相フィルタリングが適用される場合、上記同時の最適化は、人間の聴取者により知覚されるときの音声品質を最適化するように、上記位相フィルタリングにより導入される信号歪も含んでいてもよい。
上記隠蔽サンプルのシーケンスに雑音の混合が導入されてもよい。特に、上記隠蔽サンプルのシーケンスに雑音の混合が導入されてもよく、上記雑音の混合は、サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセスに応答して修正される。このような場合、サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセス及びこれに対する応答は、マッチング品質表示の使用を含んでいてもよい。
上記隠蔽サンプルのシーケンスに減衰関数が適用されてもよい。特に、このような減衰関数は、サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセスに応答して修正されてもよい。サンプルを時間方向で読み取り索引付けしかつ時間の逆方向でステッピングする順次プロセス及びこれに対する応答は、マッチング品質表示の使用を含んでもよい。
好ましくは、上記隠蔽サンプルのシーケンスにおける最終的なサンプル数は予め設定され、例えば、隠蔽フレーム内のサンプル数は固定されてもよい。上記サンプル数は、好ましくは、ディジタルオーディオ信号の特徴と独立している。上記予め設定されるサンプル数は、20−500の範囲内等の5−1000の範囲内の予め設定された整数値であり、好ましくは、実際のサンプル周波数に依存する。
上記隠蔽サンプルのシーケンスは第1の隠蔽フレーム内に含まれていてもよい。上記方法はさらに、上記第1の隠蔽フレームに連続する少なくとも1つの第2の隠蔽フレームを生成することを含んでいてもよく、上記第2のフレームは第2の隠蔽サンプルのシーケンスを含む。上記第1及び第2の隠蔽フレームにおける隠蔽サンプルのシーケンスは好ましくは異なり、すなわち、両隠蔽フレームの連続するコピーは好ましくは回避される。異なる隠蔽シーケンスを含むフレームの使用は、より自然な発声隠蔽に繋がる。好ましくは、上記第1及び第2の隠蔽フレームは同数のサンプルを含む。
好ましくは、上記第2の隠蔽フレーム内のサンプルの少なくとも1つのサブシーケンスは、上記第1の隠蔽フレームに含まれるサンプルの任意のサブシーケンスより時間の逆方向でさらにバッファされたサンプルのサブシーケンスに少なくとも部分的に基づく。従って、後ろに来る隠蔽フレームは、好ましくは、より古いバッファサンプルに基づく。
第2の態様において、本発明は、上記第1の態様による方法を実行するように適合化されたコンピュータによる実行が可能なプログラムコードを提供する。このようなプログラムコードは、マシン依存又はマシン独立な形式で、かつマシンコード又はより高位のプログラミング言語等の任意のプログラミング言語で書かれてもよい。
第3の態様において、本発明は、上記第1の態様による方法を実行するための汎用マイクロプロセッサ等のマイクロプロセッサに対する命令シーケンスを備えるプログラム記憶デバイスを提供する。上記記憶デバイスは、ディスク、メモリカード又はメモリスティック、ハードディスクほか等の任意タイプのデータ格納手段であってもよい。
第4の態様において、本発明は、ディジタル化されたオーディオ信号を受信するための例えばデバイス又は機器である装置を提供し、本装置は、
−受信されるディジタルオーディオ信号を表現するサンプルを記憶するためのメモリ手段と、
−上記第1の態様による方法を実行するためのプロセッサ手段とを含む。
好ましい実施形態に関連して後に記述するもの等の適切な手段を有する本発明を実行することは、デコーダ及び隠蔽システム、及び/又はトランスコーダ及び隠蔽システムが、知覚的にうっとうしいアーチファクトを導入することなく、損失される又は遅延されるパケットのシーケンスを効率的に隠蔽することを可能にする。さらにこれは、音響背景雑音及び複数のスピーカに対するロバスト性を伴って、高速フェージングを導入することなく達成される。ロバスト性の向上は、本方法の一貫性が、時間的展開により、繰り返しに基づく方法よりも、厳密な信号周期性に対して依存性が低いことによって達成される。これにより、本発明は、音響背景雑音、音響エコー及び/又は過酷なクロックスキュー、チャンネル損失及び/又は遅延ジッタを有する状況において高品質な双方向音声通信を可能にする。
次に、添付の図面を参照して、本発明をさらに詳しく説明する。
本発明は、様々な修正及び代替形式をとることが可能であるが、図面には、例示として特定の実施形態を示している。以下、これらの特定の実施形態について詳細に説明する。しかしながら、本発明は開示されているこれらの特定の形式に限定されるべきものでない点を理解すべきである。本発明はむしろ、添付の請求の範囲により定義される本発明の精神及び範囲内にある全ての修正、同等物及び代替物を包含するものである。
本発明による方法は、図2に示すもの等の受信機の復号及び隠蔽ユニット420において起動され、又は、図4に示すもの等のトランスコーディング及び隠蔽ユニット330において、又は、そのアクションが適切である通信システムにおける他の任意のロケーションにおいて起動される。これらのロケーションでは、幾つかのバッファされた信号のフレームが利用可能であり、幾つかの隠蔽フレームが必要とされる。利用可能な信号フレーム及び必要とされる隠蔽フレームは、例えば音声信号であるオーディオ信号の時間領域サンプルより成る場合もあれば、上記サンプルから導出された線形予測動作サンプル等のサンプルより成る場合も、オーディオ信号から導出される、音声信号フレームを完全又は部分的に表現する他の係数より成る場合もある。このような係数の例としては、周波数領域係数、正弦波モデル係数、線形予測コーディング係数、波形補間係数及びオーディオ信号サンプルを完全又は部分的に表現する他の係数集合がある。
図5は、本発明の好ましい一実施形態を示す。図5によれば、利用可能な信号フレーム595はフレームバッファ600に格納される。信号フレーム595は、受信されて復号又はトランスコーディングされたフレーム又は、隠蔽フレームを生成するための本方法又は他の方法によるこれより前の演算からの隠蔽フレーム又は、上述のタイプの信号フレームの組み合わせであってもよい。フレームバッファ内の信号は、インデックスパターン発生器660によって解析される。インデックスパターン発生器は、信号ピッチ596及び発声597の推定値を効果的に利用することができる。全体的なシステム設計に依存するが、これらの推定値は、符号化、復号又はトランスコーディングプロセス等の他のプロセスからの入力として利用可能であってもよく、又は他の方法により、好ましくは信号解析のための最新技術による方法を使用して計算される。さらに、インデックスパターン発生器は、入力として、生成する隠蔽信号フレームの数598と、フレームバッファにおける隠蔽フレームで置換される少なくとも1つの特定の信号フレームの始まりと終わりを指すポインタ599とを採用する。一例として、これらのバッファがフレームバッファの終わりを指していれば、これは、少なくとも1つの隠蔽フレームが上記フレームバッファに格納されている信号に引き続くように作られるべきであることを意味する。別の例として、これらのポインタがフレームバッファ内の連続するフレームの空でない部分集合を指していれば、これは、少なくとも1つの隠蔽フレームがフレームシーケンス内の音声信号を表現する、又は部分的に表現するフレームに取って代わるように作られるべきであることを意味する。
さらにこれを例示するために、フレームバッファ600が信号フレームA、B、C、D、Eを含み、隠蔽フレームの数598は2であるものとする。すると、置換されるフレームを指すポインタ599がフレームバッファの終わりを指していれば、これは、2つの隠蔽信号フレームが順に信号フレームEに引き続くように作られるべきであることを意味する。逆に、ポインタ599が信号フレームB、C、Dを指していれば、これらの2つの隠蔽フレームは信号フレームB、C、Dに取って代わるように、かつ順に信号フレームAに引き続き、かつ順にその後に信号フレームEが続くように作られるべきである。
隠蔽フレームの数598及び隠蔽フレームが最終的に取って代わるべきフレームの部分集合、すなわちポインタ599を決定する方法に関しては、好ましくは、最新技術による方法が使用されるべきである。従って、データ596、597、598及び599及び信号フレーム595は、本発明による方法、デバイス及び装置への入力を構成する。
所定の全体的なシステム設計においては、隠蔽ユニットの実行中、信号フレームの長さ又は大きさは、効果的には定数として維持される。隠蔽ユニットがリレーシステムに統合されるときには、他の方法の中でもこれは典型的なケースである。ここで、リレーシステムにおいて、隠蔽の結果は、予め設定された長さの時間間隔内の音声信号を表現するパケット内に入れられるべきであり、この予め設定される長さは他の場所で決定される。一例として、この予め設定される長さは、ボイスオーバーIPシステムにおける呼のセットアップの間のプロトコル交渉中に決定されてもよく、かつ例えばネットワーク輻輳制御機構に応答して上記会話中に変更されてもよい。後に明らかとなるように、本発明の幾つかの実施形態は、予め設定された信号フレームの長さで効果的に動作するというこの要件に適合する。しかしながら、このような技術革新はこれらのシステム要件に限定されず、この技術革新による他の実施形態は、非整数個のフレーム数の隠蔽及び時変長さを有する隠蔽フレームを用いても機能することができ、これらの長さは、おそらくは他の要素との組み合わせであるフレームバッファ内の特定のコンテンツの関数であってもよい。
本発明の実施形態は、フレームバッファからの信号605に作用する平滑化及び等化演算610を効果的に利用することができる。この平滑化及び等化は、少なくとも1つの隠蔽フレームより時間的に早いフレームが上記少なくとも1つの隠蔽フレームで置換される少なくとも1つの信号フレーム又はその直前のフレームとの増加された類似性を有する信号615を生成する。又は、上記少なくとも1つの隠蔽フレームが既存のフレームを有するシーケンスに置換なしに挿入されれば、類似性は、上記少なくとも1つの隠蔽フレームの意図された位置の直前の少なくとも1つのフレームに対する類似性となる。後の参照用に、これらの双方のケースを単に類似性と呼んでおく。類似性は、人間の聴取者が解釈するときの類似性である。平滑化及び等化は、類似性が増大されている信号を取得するが、同時に信号615の自然な発声展開を保つ。平滑化及び等化610により効果的に実行される類似性増加演算の例は、エネルギー包絡線、ピッチ輪郭、音声グレード、音声カットオフ、スペクトル包絡線及び他の知覚的に重要なパラメータ等のパラメータにおける平滑さ及び類似性の増大を含む。
これらのパラメータのそれぞれに関して、平滑化されかつ等化されるべきフレームにおけるパラメータ展開の急激な遷移はろ波して除かれ、これらのフレームにおける平均的なパラメータレベルは、先に定義した類似の意味合いにおいてより類似したものになるように滑らかに修正される。効果的には、類似性は、依然として自然な発声の信号展開が保たれる程度にのみ導入される。インデックスパターン発生器660の制御下で、平滑化及び等化は、そうでなければ次の索引付け及び補間演算620において生じることのある遷移及び不連続を効果的に緩和することができる。さらに、ピッチ輪郭の平滑化及び等化は、インデックスパターン発生器660により、そうでなければ最終的には後に位相フィルタ650により隠蔽フレーム内に導入される歪みを最小化するようにして効果的に制御されてもよい。平滑化及び等化演算は、フレームバッファ600内の時間の逆方向でさらに発見される信号フレーム(又は導出されるそのパラメータ)との信号又はパラメータの置換、混合、補間及び/又はマージを効果的に利用することができる。平滑化及び等化演算610は、本発明の一般的範囲を逸脱することなくシステムから除外されてもよい。この場合は、信号615が信号605と同一視されることになり、インデックスパターン発生器660の信号入力656及び制御出力665はシステム設計から省略されてもよい。
索引付け及び補間演算620は、入力として、おそらくは平滑化されかつ等化されている信号615及びインデックスパターン666を取り込む。さらに、本発明の幾つかの効果的な実施形態では、上記索引付け及び補間演算はマッチング品質インジケータ667を入力として取り込む。マッチング品質インジケータは、時刻当たりのスカラ値であってもよく、時間及び周波数双方の関数であってもよい。マッチング品質インジケータの目的は、本明細書本文において後に明らかとなるであろう。インデックスパターン666は、索引付け及び補間機能の演算をパラメータ化する。
図5Aは、インデックスパターンが、少なくとも1つの隠蔽フレームの合成において、バッファされたサンプルBS1、BS2、BS3、BS4内のサブシーケンスを漸次時間の逆方向で索引付けし得る方法の一例を示す。図示された例では、隠蔽フレームCF1、CF2、CF3内の連続するサブシーケンスCS1、CS2、CS3、CS、CS5、CS6、CS7は、フレームBF1、BF2内のサンプルのバッファされたサブシーケンスBS1、BS2、BS3及びBS4に基づく。図から分かるように、隠蔽サブシーケンスCS1−CS7は、CS1がBS4に基づく等々を意味する関数的表記法CS1(BS4)、CS2(BS3)、CS3(BS2)により表示されるように、時間の逆方向で漸次かつ次には漸次時間方向でロケーションポインタに伴ってバッファされたサブシーケンスBS1−BS4から索引付けされる。従って、図5Aは、隠蔽フレーム内の連続するサブシーケンスが、連続するバッファされたサブシーケンスに基づいて、但し時間的に並べ替えされて互いに続き合うことのできる方法を示す一例として作用する。図から分かるように、最初の4つの隠蔽サブシーケンスCS1(BS4)、CS2(BS3)、CS3(BS2)及びCS4(BS1)は、バッファされたサンプルの終わりの4つのサブシーケンスBS1、BS2、BS3、BS4を連続する順序で、但し逆の時間順序で、よってバッファされた最後のサブシーケンスBS1を始点として基礎とするように選択される。逆の時間順序の最初の4つのサブシーケンスの後は、全て時間順序の連続するバッファされたサブシーケンス、すなわちそれぞれBS2、BS3及びBS4に基づく3つのサブシーケンスCS5、CS6、CS7が続く。この好ましいインデックスパターンは、インデックスパターン発生器660の結果であり、このブロックへの入力656、596、597、598及び599に伴って大幅に変わることがある。図5Bは、図5Aにおける表記法に従ってバッファされたサブシーケンスBS1−BS4の時間的な並べ替えに基づいて、隠蔽サブシーケンスCS1−CS11が如何にして生成されうるかを例示する別の例を表す。図から分かるように、時間的に遅い隠蔽サブシーケンスは漸次、時間の逆方向でさらにバッファされたサブシーケンスに基づく。例えば、最初の2つの連続する隠蔽サブシーケンスCS1及びCS2は、最後の2つのバッファされたサブシーケンスBS3、BS4を逆の時間順序で基礎とする一方で、時間的に遅い隠蔽サブシーケンス、例えばCS10はBS1を、すなわち、CS1及びCS2の計算に使用されるものより時間の逆方向でさらにバッファされたサブシーケンスに基づく。従って、図5Bは、連続する隠蔽サブシーケンスが、索引付けが漸次時間の逆方向で展開するような方法で時間的に前後して索引付けされるバッファされたサブシーケンスに基づくことを示すものである。
本発明の効果的な実施形態では、この時間の逆方向での段階的展開は、本明細書の意図に沿って称するステップバックのシーケンス、及び本明細書の意図に沿って称する読み取り長さのシーケンスとして形式化される。このフォーマットのインデックスパターンの単純な実施形態では、信号サンプル又は信号サンプルを表現するパラメータ又は係数を指すポインタは第1のステップバックに等しい量だけ後方へ移動され、この後、隠蔽フレームに一定量のサンプル又は上記サンプルを表現するパラメータ又は係数が挿入される。上記量は、第1の読み取り長さに等しい。この後、ポインタは第2のステップバックに等しい量だけ後退され、第2の読み取り長さに等しいサンプル量又は上記サンプル量を表現するパラメータ又は係数が読出され、等々と続く。
図5Cは、索引付けされたサンプルの第1の計数データを並べ替えした本プロセスの一例を示す。この第1の計数データは、信号時間軸上に記入されるのに対し、図5Cの隠蔽時間軸上に記入される計数データは、オリジナルのサンプルのその隠蔽フレームへの配置に伴う並べ替えに対応する。この図示されている例の場合、第1、第2及び第3のステップバックはそれぞれ任意に5、6、5として選択され、第1、第2及び第3の読み取り長さは、同様にそれぞれ任意に3、4、3として選択されている。本例では、時間インデックス集合{6,7,8}、{3,4,5,6}及び{2,3,4}を有するサブシーケンスはそれぞれ、時間の逆方向で漸次展開するサブシーケンスである。この場合、ステップバック及び読み取り長さのシーケンスは、純粋に例示を目的として選定されている。例として16kHzでサンプリングされた音声残留サンプルの場合、ステップバックの典型値は40から240までの範囲であるがこの範囲に限定されず、読み取り長さの典型値は5から1000サンプルまでの範囲であるがこの範囲に限定されない。このフォーマットによるより高度な実施形態では、前向きのシーケンス(例えば、オリジナルの時間方向又は時間の逆方向で索引付けされたサブシーケンス)から時間の逆方向でさらに1ステップ行う別の前向きのシーケンスへの遷移は、漸次シフトする補間によって漸次行われる。
図6は、1つのステップバック及び対応する読み取り長さ及びマッチング品質インジケータに応答する索引付け及び補間関数の単純な実施形態の演算を示す。ここでは、単なる例示を目的として、信号フレームは時間領域オーディオサンプルから成る。漸次シフトする補間は、本明細書で使用している「サンプル」という用語の一般的定義に基づいて、すなわち、時間領域オーディオサンプルを表現するスカラ値又はベクトル値の係数又はパラメータを包含して、同様に、よって直接的に適用される。本図において、700は信号615のセグメントを示す。ポインタ705は、索引付け及び補間出力信号625において最後に生成されたサンプルのサンプル時刻に続くサンプル時刻である。時間間隔750は、読み取り長さに等しい長さを有する。時間間隔770も同じく、読み取り長さに等しい長さを有する。時間間隔760は、ステップバックに等しい長さを有する。700における時刻705から始まる信号サンプル及び時間的に前方向の読み取り長さは、ウィンドウ関数720によって1つずつ乗算される。同じく、700における1サンプル分のステップバック後でロケーション706より前のロケーションを始点とする信号サンプル及びそこから先の読み取り長さのサンプルも、ウィンドウ関数710によって1つずつ乗算される。ウィンドウ710との乗算及びウィンドウ720との乗算から結果的に得られるサンプルは1つずつ加算され730、結果的に、索引付け及び補間演算からの出力625の新しいサンプルバッチを構成する740が得られる。この演算の完了時に、ポインタ705はロケーション706へ移動する。
本発明の単純な実施形態では、ウィンドウ関数710及び720は読み取り長さ750の単関数である。このような単関数の1つは、ウィンドウ710及びウィンドウ720をそれぞれ、読み取り長さの2倍の長さであるハニングウィンドウの第1及び第2の半分として選定する。この場合は、広範囲の関数を選ぶこともできるが、このような関数は本発明のコンテキストにおいて意味のあるものでなければならないという観点から、これらは、750で示されるセグメント内のサンプルと770で示されるサンプルとの間に、750で示されるセグメントに対する高い重みから770で示されるセグメントに対する高い重みへと漸次、但し必ずしも単調にではなく移動するようにして重みつき補間を達成しなければならない。
本発明の他の実施形態では、ウィンドウ関数710及び720はマッチング品質インジケータの関数である。このような関数の単純な一例では、時間間隔750及び770で示される信号700のセグメント上の正規化された相関性のしきい値に依存して、補間演算は振幅又は電力の何れかで合計が1になるように選択される。このような関数の別の例は、合計して振幅又は電力を1にするという制約を回避する代わりに、ウィンドウ重みをマッチング測度のみの関数として最適化する。この方法をさらに改良したものは、正規化された相関性の実際の値を求め、これに応答して、例えば古典的な線形的推定方法を使用して補間演算を最適化する。好ましい方法の例については後に述べるが、これらの例においては、正規化された相関性のしきい値又は実際の値は、マッチング品質インジケータ667により送られる効果的な情報の例となる。後に示す好ましい実施形態によれば、補間演算は、異なる周波数において異なる重みを実装させられてもよい。この場合、マッチング品質インジケータ667は、マッチングの測度を周波数の関数として効果的に送ることができる。効果的な実施形態では、周波数の関数としてのこの重みは、多段遅延線として、又はマッチング基準を最大化するように最適化され得る他のパラメトリックなフィルタ形式として実装される。
図6には、信号615(及び、ひいては信号セグメント700)が音声信号の、又は上記音声信号から導出される時間領域信号の時間領域サンプルを表現するサンプルを含む場合の索引付け及び補間の演算が示されている。上述したように、フレーム595における、かつひいては信号605及び615におけるサンプルは、効果的には、各サンプルがベクトル(ベクトル値サンプル)であるようなものであってもよい。このようなベクトルは、音声信号を表現する、又は部分的に表現する係数又はパラメータを含む。このような係数の例は、線スペクトルの周波数、周波数領域係数、又は振幅、周波数及び位相の集合等の正弦信号モデルを定義する係数である。この本発明の好ましい実施形態に関する詳細な説明に基づけば、ベクトル値サンプルへ効果的に適用される補間演算の設計は、このようなベクトル値サンプルの個々の特有のケースに関する一般文献を読めば他の詳細事項も記述されていることから、当業者にとって実行可能である。
本発明を理解する上で、索引付け及び補間演算がステップバックより小さい読み取り長さで繰り返し実行されると、結果的に信号625におけるサンプルは、信号615において徐々に進められかつ逆方向で進められる信号サンプルの代表物となると気づくことは効果的である。よって、ステップバック及び/又は読み取り長さが、ステップバックより読み取り長さの方が長くなるように変更されると、このプロセスは逆転し、これで信号625におけるサンプルは、信号615において徐々に進められかつ時間方向で進められる信号サンプルの代表物となる。ステップバックのシーケンス及び読み取り長さのシーケンスの効果的な選択により、豊富で自然な変形を有する長い隠蔽信号を、フレームバッファ600内の最後に受信された信号フレームからの時間的に先行するサンプルを必要とすることなく、又は、フレームバッファ600内の最後に受信されたフレームにおける最後のサンプルより早期に位置づけられ得る、予め設定された別の時刻に先行するサンプルをも必要とすることなく取得することができる。その結果、低遅延再生又は出力バッファスケジューリングを有するシステムにおける遅延スパイクの隠蔽が本発明によって可能になる。この明細書の定式化においては、本発明の単純な実施形態における一要素として考えることが有益である可能性のある信号の単純で厳密な時間の逆方向での展開は、1つのサンプルの読み取り長さと、2つのサンプルのステップバックと、値0を有する単一サンプルで構成されるウィンドウ720と、値1.0を有する単一サンプルで構成されるウィンドウ710との繰り返し使用によって実現される。
インデックスパターン発生器660の主たる目的は、索引付け及び補間演算620のアクションを制御することにある。一連の好ましい実施形態では、この制御は、ステップバックのシーケンス及び読み取り長さのシーケンスから成ってもよい索引付けパターン666に形式化される。この制御は、マッチング品質表示のシーケンスでさらに拡大されてもよく、マッチング品質表示のそれぞれは、例えば周波数の関数であってもよい。インデックスパターン発生器から出力されてもよく、かつその使用は本明細書において後に明らかとなる追加の機能は、繰り返し数668である。繰り返し数は、少なくとも1つの隠蔽フレームの組立てにおいて時間の逆方向での展開が開始される回数を意味する。インデックスパターン発生器はこれらのシーケンスを、平滑化及び等化演算610から出力される平滑化及び等化信号656、ピッチ推定596、発声推定597、発生すべき隠蔽フレームの数598及び置換されるフレームを指すポインタ599を含んでもよい情報に基づいて取得する。インデックスパターン発生器の一実施形態では、上記発生器は、発声インジケータに依存して異なるモードに入る。以下、このようなモードを例示する。
線形予測動作ドメインに効果的に使用される一例として、発声インジケータが、信号は無声音声であること、又は信号内にアクティブな音声は存在しない、すなわち信号は背景雑音から成ることをロバストに指示すれば、インデックスパターン発生器は、信号サンプルの時間的展開の単純な逆転が開始されるモードに入ることができる。上述したように、これは、例えば、ステップバック値が2であるシーケンス及び読み取り長さ値が1であるシーケンスを提出することによって達成されてもよい(この説明は、索引付け及び補間演算はそれ自体がこれらの値を同定しかつ上述したように適切なウィンドウ関数を適用する、という設計選択肢に基づく)。ケースによっては、このシーケンスは、少なくとも1つの隠蔽フレームに必要な新しいサンプルの数の半分に関して信号の逆の時間的展開が実装されるまで続いてもよく、その後、ステップバックシーケンス内の値は0に変わってもよく、これにより、信号の前方への時間的展開が開始され、ポインタ706が第1のステップバックアプリケーションにおいて効果的にポインタ705の出発点に戻るまで続く。しかしながら、この単純な手順は、高品質の隠蔽フレームにとって必ずしも十分ではない。インデックスパターン発生器の重要な役割は、適切な停止基準の監視である。上述の例では、逆の時間的展開がポインタ706を、人間の聴取者が解釈するところの音声が始点とは著しく異なる信号内の位置へ戻してもよい。時間的展開は、これが発生する前に逆転されるべきである。
本発明の好ましい実施形態は、一連の測度に基づく停止基準セットに適用することができる。以下、これらの測度及び停止基準の幾つかを例示する。ポインタ706における信号が有声化されていることを、発声が示していれば、無声を始点とする上述の例では、時間的展開方向は効果的には逆転されてもよく、同様に、ポインタ706の周囲の領域における信号エネルギーが(絶対又は相対しきい値による決定に準じて)ポインタ705の出発点における信号エネルギーとは異なっていれば、時間的展開方向は効果的には逆転されてもよい。第3の例として、ポインタ705の出発点の周囲の領域とポインタ706の現在位置とのスペクトルの差はしきい値を超えてもよく、時間的展開方向は逆転されるべきである。
第2のモード例は、信号が無声である、又はアクティブな音声を含まない、とロバストに決定され得ない場合に喚起される可能性がある。このモードでは、ピッチ推定596はインデックスパターンを決定するための根拠となる。これを実行する1つの手順は、ポインタ705から時間的に1ピッチサイクル先の信号と、ステップバック上ポインタ705より早期であるポイントから1ピッチサイクル先の信号との間に最大限に正規化された相関性を与えるために、各ステップバックが探索されるというものである。ステップバック値の探索は、効果的には、ある領域に制限されてもよい。この領域は、効果的には、先行して発見されたステップバックのプラスマイナス10パーセントに、又はそのようなステップバックが発見されていなければピッチラグに設定されてもよい。ステップバックが決定されると、読み取り長さの値によって、時間的な信号展開が時間の逆方向で、又は時間方向で展開すべきか否か、及びこの展開の実行速度が決定される。低速展開は、ステップバックの同定値に近い読み取り長さを選ぶことによって達成される。高速展開は、それぞれ後方及び前方展開の場合のステップバックより遙かに小さい、又は遙かに大きい読み取り長さを選択することによって達成される。インデックスパターン発生器の目的は、人間の聴取者によって解釈される音声品質を最適化するように読み取り長さを選択することにある。ステップバックに近すぎる読み取り長さを選択すると、十分に周期的でない信号等の信号によっては、結果的に、ストリング音等の知覚的にうっとうしいアーチファクトが発生することがある。ステップバックから離れすぎた読み取り長さの選択は、フレームバッファ内のより大きい時間間隔が、最終的には少なくとも1つの隠蔽フレームの時間的展開の間に掃引されること、又は、時間的展開の方向が、少なくとも1つの隠蔽フレームにとって十分な量のサンプルが生成されるまで、より頻繁に逆転されなければならないことを含意する。
第1のケースは、十分に定常的でない(又は、十分に平滑かつ等化されていない)信号等の信号によっては、最終的に、ある程度少なくとも1つの隠蔽フレームの音声における吃音との類似性を有する、ある種の知覚的にうっとうしいアーチファクトを発生させることがある。第2のケースでは、ストリング音のようなアーチファクトが発生することがある。本発明の効果的な実施形態による1つの特徴は、読み取り長さがステップバックと正規化された相関性との関数として決定され得ることにある。ここで、上記関数は、最適なステップバックの探索において最適化される。この関数が音声信号に作用しかつ信号フレームが16kHzでサンプリングされた20ミリ秒の線形予測動作信号を含むとき、本発明の実施形態におけるこの関数の1つの単純な但し効果的な選択肢は、一例として、次の関数によって与えられる。
[数1]
ReadLength=[(0.2+NormalizedCorrelation/3)*StepBack]
ここで、角括弧[]は最も近い整数への丸めを指して使用され、記号ReadLength、NormalizedCorrelateion及びStepBackはそれぞれ、最適なステップバックのために取得される読み取り長さ及び正規化された相関性、及び対応するステップバックを表して使用される。上述の関数は、本発明の幾つかの実施形態における1つの効果的な選択肢を伝えるための単なる例として包含されている。読み取り長さの選択肢としては、この読み取り長さを達成する任意の関数関係を含み、何れも本発明の精神を逸脱することなく可能である。具体的には、読み取り長さを選択する効果的な方法は、中間の隠蔽フレーム625において吃音及びストリング音のようなアーチファクトが同時に最小値に到達するように、制御665を使用して平滑化及び等化演算610をパラメータ化することを含む。これは、インデックスパターン発生器660が入力として平滑化及び等化演算から出力615ではなく中間信号656を採用する理由を説明するものであり、信号656は制御665に制御された最終的信号615の潜在的なバージョンを表現し、インデックスパターン発生器がイタレーションにより最適化タスクへ取り組むことを可能にする。先の無声及び非アクティブな音声モードの場合と同様に、このモードでも停止基準は不可欠である。先のモードにおいて提案した停止基準の例は全て、このモードにも当てはまる。さらに、このモードでは、ピッチ及び正規化された相関性に関する測定からの停止基準は、効果的には本発明の実施形態の一部であってもよい。
図7は、停止基準を組み合わせるための効果的な決定論理を例示するものである。図7における引用符号は、下記を示す。
800:信号が高相関タイプであるか、低相関タイプであるか、どちらでもないかを識別する。初期エネルギーレベルを決定する。
801:次のステップバック及び正規化された相関性、及び読み取り長さを決定する。
802:信号が低相関タイプに入ったか否かを決定する。
803:信号が高相関タイプに入ったか否かを決定する。
804:信号は高相関タイプであるか?
805:信号は低相関タイプであるか?
806:エネルギーは相対最小しきい値より少ないか、又は相対最大しきい値を超えているか?
807:正規化された相関性は高相関タイプのしきい値を下回っているか?
808:正規化された相関性は低相関タイプのしきい値を上回っているか?
809:十分なサンプルが生成されたか?
16kHzでサンプリングされた音声の線形予測動作ドメインにおける演算の場合、図7に挙げられているしきい値は、効果的には次のように選ばれてもよい。すなわち、高相関タイプは0.8より大きい正規化された相関性が発生したときに入力されてもよく、高相関タイプに留まるためのしきい値は正規化された相関性で0.5に設定されてもよく、低相関タイプは0.5より小さい正規化された相関性が発声したときに入力されてもよく、低相関タイプに留まるためのしきい値は正規化された相関性で0.8に設定されてもよく、最小相対エネルギーは0.3に設定されてもよく、かつ最大相対エネルギーは3.0に設定されてもよい。さらに、本発明のコンテキストにおいて、本発明の精神及び範囲を逸脱することなく他の論理及び他の停止基準が使用されてもよい。
停止基準の適用は、十分なサンプルが生成されるまで、又は停止基準が満たされるまで時間の逆方向でかつ次に再び時間方向で行う単一の展開では、隠蔽フレームに必要な数のサンプルをもたらすことが保証されないことを意味する。従って、時間の逆方向でかつ時間方向で行う別の展開がインデックスパターン発生器によって適用されてもよい。しかしながら、前後する展開が多すぎれば、信号によっては、ストリング音のようなアーチファクトが生成されることがある。従って、本発明の好ましい実施形態は、停止基準、読み取り長さの計算に適用される関数、平滑化及び等化制御665及び前後への展開数、すなわち繰り返し数668、及び置換フレームを指すポインタ599によりイネーブルされていればさらに、時間の逆方向で行う新たな各展開が開始される前に時間方向で展開するサンプルの数を同時に最適化することができる。この目的に沿って、平滑化及び等化演算もまた、効果的には、信号のピッチ輪郭を僅かに修正するように制御されてもよい。さらに、この同時の最適化は位相フィルタ650の演算を考慮することができ、かつ位相フィルタに導入される歪みを上述の他のパラメータと同時に最小化するインデックスパターンをもたらすようにピッチ輪郭を僅かに変更することができる。本発明の好ましい実施形態の説明に基づけば、当業者は、一般的な様々な最適化ツールがこのタスクに適用されることを理解することができる。これらのツールには、繰り返し最適化、マルコフ決定過程、ビタビ法等が含まれる。これらの何れも、本発明の範囲を逸脱することなくこのタスクへ適用可能である。
図8は、これらのパラメータの単純でしかも効率的な最適化を達成する繰り返し手順の一例をフローグラフによって示したものである。図8における引用符号は、下記を示す。
820:平滑化及び等化665の制御を開始する。
821:新たな平滑化信号656を取得する。
822:停止基準を起動する。
823:許可された繰り返し数を起動する。
824:ポインタ599により指示された利用可能なフレーム上に均等に分布される前後展開のシーケンスのインデックスパターン、又は利用可能なフレームの終わりが指示されていれば、時間方向での展開直後に続く時間の逆方向での展開のシーケンスのインデックスパターンを識別する。
825:隠蔽フレームの数598に対して十分な量のサンプルが生成されているか?
826:最大繰り返し数に到達しているか?
827:繰り返し許可数を増やす。
828:停止基準の最も緩いしきい値に到達しているか?
829:停止基準のしきい値を緩める。
830:平滑化及び等化の影響を増大させるように制御を変更する。
少なくとも1つの先行する時間的前後展開において十分な信号が合成されていなかった場合、1つの時間的前後展開及びこれに続く1つの時間的前後展開は、効果的には相違してもよいことに留意されたい。例として、ステップバック、読み取り長さ及び補間関数のシーケンス及び時間的前後展開後のエンドロケーションポインタは、そうでなければ類似のインデックスパターンの反復から生じる周期アーチファクトを最小化するように考案されるべきである。16kHzで発声される音声の残留域サンプルを例にとると、例えば約320個のサンプルを生成する1つの時間的前後展開は、好ましくは、信号内で早期の時間的前後展開よりさらに約100個分のサンプルを時間の逆方向で遡って終了してもよい。
ここまでに開示した実施形態は、先行技術方法から知られる人工的に発生されるストリング音の問題点を効率的に軽減すると同時に、急激な遅延ジッタスパイク及び急激に発生する反復性のパケット損失の効率的な隠蔽を可能にする。しかしながら、例えば何らかの無線システム、無線アドホックネットワーク、ベストエフォート型ネットワーク及び他の送信方法において遭遇するような不利なネットワーク条件においては、開示している本方法であっても、ケースによっては、隠蔽フレーム内に調音性の僅かな成分を導入することがある。従って、本発明の幾つかの実施形態では、微量雑音の混合演算630及びグレースフル減衰フィルタ640が効果的に適用されてもよい。雑音の混合及び減衰の一般的技術は、当業者には周知である。これには、雑音成分のパワーの周波数依存時間展開及び減衰関数の周波数依存時間展開の効果的な使用が含まれる。本発明のコンテキストにおける雑音の混合及び減衰の使用に特有の特徴は、雑音の混合及び減衰演算を適応的にパラメータ化するための索引付けパターン666、マッチング品質測度667及び/又は繰り返し数668の明示的使用にある。具体的には、インデックスパターンは隠蔽フレームにおいて不変の信号サンプルが置かれる場所、及び隠蔽フレームのサンプルが補間演算の結果である場所を指し示す。さらに、読み取り長さに対するステップバックの割合は、マッチング品質測度との組み合わせで、補間演算の結果として生じる知覚品質を示す。従って、効果的には、オリジナルサンプルに混合され得る雑音はほとんどないか、全くない。それ以上の雑音は、効果的には、補間プロセスの結果であるサンプルに混合されてもよく、効果的には、これらのサンプルに混合される雑音量は、効果的には周波数差別的なマッチング品質測度の関数であってもよい。さらに、ステップバックに対する読み取り長さの値は、発生し得る周期量も示し、雑音混合は、効果的には、隠蔽信号に混合する雑音量の決定に際してこの測度を包含してもよい。この同じ原理は減衰にも当てはまり、効果的にはグレースフルな減衰が使用されるが、オリジナルの信号を表現するサンプルにはより少ない減衰が導入されてもよく、補間演算の結果として生じるサンプルにはそれ以上の減衰が導入されてもよい。さらに、効果的には、これらのサンプルにおける減衰量は、効果的には周波数差別的なマッチング品質表示の関数であってもよい。この場合もやはり、ステップバックに対する読み取り長さの値は発生し得る周期量を示し、減衰演算は、効果的には減衰の設計においてこの測度を含んでもよい。
発明の背景の説明で挙げたように、本発明の実施形態サブセットの重要な目的は、通常の信号フレームの長さに等しい予め設定された長さの隠蔽フレームを達成することにある。システム上の観点からこれが望まれる場合、このための手段は、効果的には位相フィルタ650であってもよい。このブロックの計算上単純で近似的な、但し多くの場合十分である演算は、予め設定されたフレーム長を超えるサンプル間の滑らかなオーバーラップ加算と、隠蔽フレームに続くフレームからのサンプルの追尾する部分集合を有する隠蔽フレームの数との乗算を達成することである。単独で見ると、この方法は最新技術から周知であり、例えば、非特許文献1において使用されている。システムの観点から実際的には、この単純なオーバーラップ加算手順は、それがオーバーラップ加算領域における相関性を増大する場合はいつでも後続するフレーム数と−1との乗算によって向上されてもよい。しかしながら、例えば有声化信号フレーム間の遷移においては、効果的には、フレーム境界における不連続性の影響をさらに緩和するために他の方法が使用されてもよい。このような方法の1つに、隠蔽フレームのリサンプリングがある。独立した方法として見ると、これもやはり最新技術から周知である。例えば、非特許文献6を参照されたい。従って、当業者であれば、フレーム境界における不連続性の緩和を実行することができる。しかしながら、本明細書に開示している発明の好ましい実施形態では、効果的には、リサンプリングを最後の隠蔽フレームに続くフレームへと継続することができる。これにより、リサンプリング技術の結果である時間的変化、ひいては周波数シフトの勾配を、人間の聴取者が解釈する際には知覚できないものにすることができる。さらに本発明は、リサンプリングではなく、時変性の全通過フィルタ(time−varying all−pass filter)を使用してフレーム境界における不連続性を緩和することを開示する。その一実施形態は、下記のフィルタ方程式によって与えられる。
[数2]
H_L(z,t)=(alpha_1(t)+alpha_2(t)*z^(−L))/(alpha_2(t)+alpha_1(t)*z^(−L))
以下、その関数について説明する。L個のサンプルの遅延から0個のサンプルの遅延までの掃引が、隠蔽フレームより前のフレーム及び隠蔽フレームの後のフレームにおいて、隠蔽フレームの全て又は一部におけるサンプルの全て又は一部を含んでもよい掃引間隔に渡って希望されるものとすると、掃引間隔の始まりでは、L個のサンプルの遅延を提供するようにalpha_1(t)はゼロに設定され、alpha_2(t)は1.0に設定される。t上の掃引が開始されるに伴って、alpha_1(t)は漸次0.5へと増大し、alpha_2(t)は漸次0.5へと低下していく。掃引間隔の終わりでalpha_1(t)がalpha_2(t)に等しくなると、フィルタH_L(z,t)は遅延ゼロを導入する。逆に、0個のサンプルの遅延からL個のサンプルの遅延までの掃引が、隠蔽フレームより前のフレーム及び隠蔽フレームの後のフレームにおいて、隠蔽フレームの全て又は一部におけるサンプルの全て又は一部を含んでもよい掃引間隔に渡って希望されれば、掃引間隔の始まりでは、0個のサンプルの遅延を提供するようにalpha_1(t)は0.5に設定され、alpha_2(t)は0.5に設定される。t上の掃引が開始されるに伴って、alpha_1(t)は漸次0へと低下し、alpha_2(t)は漸次1.0へと増大していく。掃引間隔の終わりでalpha_1(t)が0に、alpha_2(t)が1.0になると、フィルタH_L(z,t)はL個のサンプルの遅延を導入する。
上述のフィルタリングは計算が単純であるが、非線形の位相応答を有する。知覚上の理由から、この非線形位相は、その使用を比較的小さいLに限定する。効果的には、サンプリング速度が16kHzの音声に関して、L<10である。これより大きい初期値Lに関してフィルタリングを達成する1つの方法は、合計して所望される値Lになる複数のより小さい値Lのために幾つかのフィルタを起動するというものである。これらの幾つかのフィルタは、効果的には、異なる瞬間に起動され、そのalphaの領域の異なる時間間隔上を掃引することができる。次に、このフィルタの適用可能なLの範囲を増大する他の一方法を開示する。上述の方法と同じフィルタリング機能を提供する構造体は、信号をL個のポリフェーズに分割し、これらのポリフェーズのそれぞれにおいて下記のフィルタリングを実行する。
[数3]
H_1(z,t)=(alpha_1(t)+alpha_2(t)*z^(−1))/(alpha_2(t)+alpha_1(t)*z^(−1))
本発明の場合、ポリフェーズフィルタリングは、効果的には、アップサンプリングを使用して提供される。これを効果的に行う一方法は、各ポリフェーズを係数Kでアップサンプリングし、アップサンプリングされた各ポリフェーズにおいてフィルタリングH_1(z,t)をK回実行する。その後、係数Kによるダウンサンプリングにより、ポリフェーズから位相修正された信号が再構成される。係数Kは、効果的には、K=2として選択されてもよい。アップサンプリング手順により、線形に近い位相応答が取得される。これにより、人間の聴取者により解釈される知覚品質は向上する。
複数のフレームに対する上述の位相調整は、隠蔽フレームが受信されるフレームシーケンス内に損失なしに挿入される場合に適用可能である。これはまた、後続フレームの再生遅延を低減するために信号シーケンスからフレームが取り出される場合にも適用可能である。さらにこれは、フレームが損失され、ゼロ又はそれ以上の隠蔽フレームがこの損失より前に、かつ後に受信されたフレーム間に挿入される場合にも適用することができる。これらの場合に、このフィルタの入力信号を取得して遅延Lを求める方法は、下記の通りである。
1)不連続ポイントより時間的に早いフレーム上で、本明細書に開示している方法又は他の任意の方法である隠蔽方法を継続又は開始する。
2)不連続より時間的に遅いフレーム上で、本明細書に開示している方法又は他の任意の方法である隠蔽方法により開始されたフレームに、L_test個の試験サンプルを時間サンプルの索引付けを逆転させて挿入する。
3)正規化された相関性等のマッチング測度を、1)からの少なくとも1つの隠蔽フレームと、ヘッディングであるL_test個の試験サンプルを含む2)からの少なくとも1つのフレームとの間に適用する。
4)マッチング測度を最大化するL_testをLとして選択する。
5)次に、重み付けされたオーバーラップ加算手順を使用して、2)からの少なくとも1つの隠蔽フレームと、3)からの少なくとも1つのフレームとを加算する。この重み付けされたオーバーラップ加算は、当業者に知られる方法で実行することができるが、好ましくは、本明細書で後に開示するように最適化されてもよい。
6)結果的に得られる少なくとも1つのフレームを、決定された値Lで開始される上述の位相フィッティングフィルタリングへの入力として使用する。Lがしきい値より大きい場合は、幾つかのフィルタを起動し、異なる瞬間及び時間間隔において係数を掃引する。この場合、個々のL値の合計が決定された値Lになる。
効果的には、8又は16kHzでサンプリングされた音声又は残留音声の場合、上述のしきい値は、5から50までの範囲の値であるように選択されてもよい。さらに効果的には、発声音声又は残留発声音声の場合、隠蔽サンプルのL_test個の試験及び後続フレームへのその継続は、フレームの第1のピッチ周期のサンプルを循環的にシフトすることによって達成される。これにより効果的には、好ましい循環シフトLを求めるために、フルピッチ周期を相関させる正規化なしの相関測度をマッチング測度として使用することができる。
図9は、このような方法の一実施形態を示したものである。本図において、位相調整は、信号フレーム900と後続フレームとの間に滑らかな遷移を生成する。これは、次のようにして達成される。すなわち、信号フレーム900及びその前のフレームから、隠蔽信号910が生成される。この隠蔽信号は、本明細書に開示している方法を使用して生成されてもよく、最新技術から周知の他の方法を使用して生成されてもよい。隠蔽信号はウィンドウ920で乗算され、別のウィンドウ930に加算925される。ここで、ウィンドウ930は、次のようにして生成される信号940で乗算される。すなわち、隠蔽信号940は、後続サンプル950及びおそらくは960から、本明細書に開示している方法等の隠蔽方法を効果的に適用することによって、又は最新技術から周知である他の方法を使用することによって発生され、後続サンプル950と連結される。隠蔽940内のサンプル数は、隠蔽910と940及び後続サンプル950の連結とのマッチングを最大化するように最適化される。
効果的には、正規化された相関性は、このマッチングの測度として使用されてもよい。さらに、計算上の複雑さを減らすために、発声音声又は残留発声音声に関してマッチングは1つのピッチ周期を含むように制限されてもよい。この場合、隠蔽サンプル940は、1ピッチ周期の循環シフトの第1の部分として取得されてもよく、よって1ピッチ周期の相関測度を正規化する必要はなくなる。これにより、正規化係数を計算するための計算は省かれる。この好ましい実施形態の詳細な説明において先に述べた索引付け及び補間演算に関しては、効果的には、同じくウィンドウがマッチング品質インジケータの関数及び/又は周波数の関数であって、効果的には、多段遅延線として実装されてもよい。フィルタ970の演算は、下記の通りである。オーバーラップ加算手順の結果として生じる最初のL個のサンプルは、その出力へ直接送られ、フィルタの初期状態をセットアップするために使用される。その後、フィルタ係数は先に述べた通りに初期設定され、フィルタによるサンプルL+1から先へのフィルタリングに伴って、これらの係数は漸次、上述したようにL個のサンプル分の遅延を漸次除去するように調整される。
上述の手順においてもやはり、先に述べたマッチング基準の最大化によってウィンドウ重みを最適化する方法が適用され、多段遅延線の形式又は他のパラメトリックフィルタ形式によるウィンドウ関数の周波数依存重み及び整合フィルタへの一般化も適用される。効果的な実施形態では、周波数依存フィルタ重みの時間的展開は、次の3つのオーバーラップ加算シーケンス、すなわち、第1のより早いフレームからの少なくとも1つの隠蔽フレームのフェードダウン、第2の時間的に逆のインデックス順に取得される後のフレームからの隠蔽フレームをマッチングするための、これらのフィルタされたバージョンのフィルタによるフェードアップ及びこれに続くその再度のフェードダウン、第3の時間的に後の少なくとも1つのフレームのフェードアップから成るシーケンスによって達成される。効果的な別の実施形態セットでは、周波数依存フィルタ重みの時間的展開は、次の4つのオーバーラップ加算シーケンス、すなわち、第1のより早いフレームからの少なくとも1つの隠蔽フレームのフェードダウン、第2の時間的に逆のインデックス順に取得される後のフレームからの隠蔽フレームをマッチングするための、これらのフィルタされたバージョンのフィルタによるフェードアップ及びこれに続くその再度のフェードダウン、第3のこれのマッチングをさらに向上させるための時間的に後のフィルタされたバージョンフレームのフェードアップ及びその再度のフェードダウン、及び最後に第4の時間的に後の少なくとも1つのフレームのフェードアップから成るシーケンスによって達成される。重み付けされたオーバーラップ加算法のさらに効果的な実施形態については、本明細書において後に開示する。
残留領域サンプルが音声信号を表現する情報の一部として使用される実施形態における平滑化及び等化演算610の場合、平滑化及び等化は、効果的には、くし形フィルタ又は周期性のノッチフィルタ等のピッチ適応型フィルタリングを使用して、この残留信号に適用されてもよい。さらに、効果的には、フィルタリングされていない残留のモデルとして雑音をプラスした長期相関フィルタを使用するウィーナ又はカルマンフィルタリングが適用されてもよい。ウィーナ又はカルマンフィルタを適用するこの方法では、モデル内の雑音の分散が平滑化及び等化の程度を調整するために適用される。この成分は、ウィーナ及びカルマンフィルタリング理論において伝統的に、望ましくない雑音成分の存在をモデリングするために適用されるものであり、これは幾分直感に反した使用である。これが本技術革新において適用される場合、その目的は、平滑化及び等化のレベルを設定することにある。本革新技術のコンテキストにおいては、ピッチ適応型くし形フィルタ又はノッチフィルタリング及びウィーナ又はカルマン型フィルタリングの代替として、効果的には、残留信号の平滑化及び等化に第3の方法が適用される。この第3の方法により、効果的には、例えば無声音声に適用されるようなサンプル振幅又は効果的には、例えば発声音声に適用されるようなサンプルの連続するベクトルの何れかがますます類似したものにされる。以下、これを達成することのできる手順について、発声音声のベクトル及び無声音声のサンプルのそれぞれに関連して概説する。
発声音声に関しては、音声又は残留の連続するサンプルが複数のベクトルにして収集され、ここで、各ベクトルは1ピッチ周期に等しくかつ幾つかのサンプルを有する。説明の便宜上、ここではこのベクトルをv(k)で表す。次に、本方法は、残差ベクトルr(k)を何らかの手段によって周囲ベクトルv(k−L1),v(k−L1+1),…,v(k−1)及びv(k+1),v(k+2),…,v(k+L2)において発見され得なかったv(k)の成分として取得する。説明の便宜上、周囲ベクトルにおいて発見される成分をa(k)で表す。残差ベクトルr(k)は、続いて何らかの線形的又は非線形的方法でその可聴性を低減するように操作され、同時に、この操作されたバージョンのr(k)に成分a(k)を挿入し直すことによって達成される最終的に再構成されたベクトルの自然さが保たれる。
これにより、平滑化されかつ等化された形の発声音声又は発声残留音声がもたらされる。以下、便宜的に行列−ベクトル表記を使用し、かつ例を単純にするためにa(k)を定義する線形結合及び最小二乗の概念を使用して、上述の原理の単純な一実施形態を示す。但しこれは、上述の平滑化及び等化の一般原理の単純かつ単一の実施形態の単なる一例である。
本例の目的に沿って、行列M(k)を次のように定義する。
[数4]
M(k)=[v(k−L1)v(k−L1+1)…v(k−1)v(k+1)v(k+2)…v(k+L2)]
上述の式から、a(k)を、例えばM(k)が与えられたときのv(k)の最小二乗推定として計算することができる。
[数5]
a(k)=M(k)inv(trans(M(k))M(k))v(k)
ここで、inv()は行列反転又は擬似反転を表し、trans()は行列の転置を表す。よって、残差r(k)は、例えば以下の減算によって計算することができる。
[数6]
r(k)=v(k)−a(k)
r(k)の操作の一例は、例えば、サンプルの最大絶対値を、前後の隠蔽手順の始点に最も近いr(k)の最大振幅に等しいレベルに、又はベクトル内の同じ位置にあるが、ベクトル内で前後の隠蔽手順の始点に最も近いサンプルの振幅に何らかの係数を乗じたものに制限するために、このベクトルのピークをクリッピングして除くというものである。操作された残差rm(k)は、続いてa(k)ベクトルと結合され、v(k)が等化された形で再構成される。ここではこれを、便宜的にve(k)で表す。一例として、この結合は、以下の単純な加算によって達成することができる。
[数7]
ve(k)=alpha*rm(k)+a(k)
本例におけるパラメータalphaは1.0に設定されてもよく、効果的には、1.0未満となるように選択されてもよいが、その効果的な選択肢の1つは0.8である。
無声音声の場合、効果的には、別の平滑化及び等化方法が使用されてもよい。無声音声の平滑化及び等化の一例は、対数領域における残留信号の振幅との多項式フィッティングを計算する。一例として、二次多項式及びlog10領域が使用されてもよい。多項式フィッティングを対数領域から線形領域へ変換して戻した後、フィッティング曲線は、前後手順の始点に対応するポイントで1.0へ正規化される。続いて、フィッティング曲線は下方を、例えば0.5に制限され、その後、残留信号の振幅は、無声残留信号の振幅の変形を滑らかに等化するようにフィッティング曲線で分割されてもよい。
重み付けされたオーバーラップ加算手順に関しては、先に本明細書においてその幾つかの、但し全てではないアプリケーション、すなわち索引付け及び補間演算620及び位相調整フィルタリング970の入力信号の起動方法を開示している。これらの手順は、当業者に周知の方法で実行されてもよい。しかしながら、重み付けされたオーバーラップ加算手順の好ましい実施形態においては、効果的には、以下で開示する方法が使用されてもよい。
マッチング品質インジケータに応答して修正される重み付けされたオーバーラップ加算手順の単純な実施形態においては、第1のウィンドウが第1のサブシーケンスで乗算され、第2のウィンドウが第2のサブシーケンスで乗算され、これらの2つの積がオーバーラップ加算演算へ入力されるものと考える。ここで、例として、第1のウィンドウを単調減少関数等の先細りのウィンドウとし、第2のウィンドウを単調増加関数等の先広がりのウィンドウとする。第2に、例を単純にするために、第2のウィンドウを基本的なウィンドウ形状とスカラ乗数との積によってパラメータ化させる。ここで、targetを上記第1のサブシーケンスと定義し、w_targetを上記先細りのウィンドウで乗算されたサンプル毎の第1のサブシーケンスと定義し、w_regressorを先広がりのウィンドウの基本的なウィンドウ形状で乗算されたサンプル毎の第2のサブシーケンスと定義し、coefを上記スカラ乗数と定義する。これで、第2のウィンドウのスカラ乗数成分を、ターゲットとオーバーラップ加算演算の結果との間の二乗誤差の総和を最小化するようにして最適化することができる。便宜上、行列−ベクトル表記を使用すると、上記問題は、ターゲットと以下の式で示す量との二乗差合計の最小化として定式化することができる。
[数8]
w_target+w_regressor*coef
これから、ベクトルT及びHを、以下のように定義する。
[数9]
T=target−w_target
[数10]
H=w_regressor
この最適化問題に対する解は、以下の式で与えられる。
[数11]
coef=inv(trans(H)*H)*trans(H)*T
ここで、inv()はスカラ又は行列反転を表し、trans()は行列又はベクトルの転置を表し、*は行列乗算又はベクトル乗算である。次に、本明細書に開示している発明における中心要素として、この方法は、ウィンドウの実際の形状を最適化するように拡張されてもよい。これを達成する1つの方法は、下記の通りである。形状の集合を、希望されるウィンドウをその形状の集合に含まれる要素の線形結合として得るための集合と定義する。ここで、Hを、Hの各列が上記第2のサブシーケンスによりサンプル毎に乗算されたこの集合からの1つの形状であるように定義し、coefを、最適化されたウィンドウ関数におけるこれらの形状の未知の重みを含む列ベクトルとして定義する。これらの定義を使用して、問題及びその解を定式化した上述の方程式を、今度はより一般的なウィンドウ形状の解法のために適用する。当然ながら、第1及び第2のウィンドウの役割は上記課題において互換されてもよく、よって、ここでは最適化実行の対象は第1のウィンドウになる。
本発明のより高度な実施形態は、これらの双方のウィンドウ形状を同時に最適化する。これは、おそらくはウィンドウ形状の第1の集合と同等物でありかつ効果的には、ウィンドウ形状の第1の集合におけるウィンドウ形状のそれぞれにおけるサンプルの時間反転索引付けとして選択される、基本的なウィンドウ形状の第2の集合を定義することによって行われる。ここで、w_targetを各列が上記第1のサブシーケンスによりサンプル毎に乗算された上記ウィンドウ形状の第2の集合からの基本的なウィンドウ形状である行列と定義し、coefを、第1に、上記第1のウィンドウのための重みを含みかつ第2に、上記第2のウィンドウのための重みを含む列ベクトルとして定義する。これで、より一般的な問題は、ターゲットと以下の式で示す量との二乗差合計の最小化として定式化することができる。
[数12]
[w_target w_regressor]*coef
ここで、角括弧[]は部分行列又はベクトルから行列を形成するために使用される。次に、これから、ベクトルT及びHを以下のように定義する。
[数13]
T=target
[数14]
H=[w_target w_regressor]
この最適化に対する解は以下の式で与えられる。
[数15]
coef=inv(trans(H)*H)*trans(H)*T
さらに、本発明のさらに高度な実施形態は、瞬時のウィンドウ形状だけでなく、最適化された周波数依存重みを有するウィンドウも最適化する。本発明の一実施形態は多段遅延線の形式を適用するが、本発明全般は、如何なる場合もこの形式に限定されない。この一般化を達成する1つの方法は、上述のw_target及びw_regressorの定義において、各列をそれぞれがサンプル毎に基本的なウィンドウ形状による乗算を行う幾つかの列で置換するというものであり、上記基本的なウィンドウ形状は、これらの幾つかの列が置換する列、但しこの基本的なウィンドウ形状がその時間的な位置でサンプル毎に多段遅延線における特定位置に対応する関連の遅延されたサブシーケンスで乗算される場所である列に対応している。
効果的には、これらの方法における係数の最適化は、本明細書に開示している発明を逸脱することなく、係数の重み、制約又は逐次計算を考慮する。このような重みには、効果的には、低い絶対遅延値に対応する係数へより大きい重みを付ける傾向のある重みが含まれる。このような逐次計算は、効果的には、低い絶対遅延値の係数を、まずはこれらの係数のみを使用して二乗誤差の合計を最小化し、続いてこのプロセスを、増加する遅延値に関して、但しこのプロセスの早期のステップから残る誤差のみに関して反復するように計算してもよい。
一般に、本発明の実施形態は、幾つかのサブシーケンスを最適化の目標として採用する。一般的に言えば、最適化は、これらの目標のサブシーケンス及び重み付けされたオーバーラップ加算系からの出力の関数である歪み関数を最小化する。この最適化は、本発明を逸脱することなく、基本形状の選択及び遅延及びオーバーラップ加算全体における重みに様々な制約を付してもよい。形状の的確な選択に依存して、オーバーラップ加算の影響は、効果的には、時間的にオーバーラップ加算領域に続くサブシーケンスから漸次フェードアウトされる。
図10は、開示しているオーバーラップ加算方法の一実施形態を示す。本発明は、本図における正確な構造に限定されず、よって本図は単に本発明の一実施形態を例示するためのものである。図10において、1つのサブシーケンス1000は、別のサブシーケンス1010と共に時間及び周波数形状を最適化されたオーバーラップ加算で入力される。これらのサブシーケンスはそれぞれ、別の遅延線に入力される。本図において、zは1サンプル分の時間先行を示し、z−1は1サンプル分の時間遅延を示す。選択されている1、−1及び0という遅延は純粋に例示を目的とするものであり、本発明に関しては、多かれ少なかれ、他の遅延を効果的に使用することができる。遅延されたバージョンの各サブシーケンスは、次に、幾つかの基本的なウィンドウ形状によって乗算され、これらの結果はそれぞれ、最適化の過程で他の係数と同時に発見されるべき係数によって乗算される。これらの係数による乗算の後、結果として得られたサブシーケンスは加算され、時間及び周波数形状を最適化されたオーバーラップ加算から出力1020がもたらされる。係数の最適化1030は、図10における例ではサブシーケンス1040及び1050を入力として取り込み、1040及び1050及び出力1020の関数である歪み関数を最小化する。
請求の範囲において図面を示す引用符号は、単に明確さを目的として記述されたものである。諸図における例示的な実施形態を指すこれらの引用符号は、如何なる場合も請求の範囲を限定するものとして解釈されるべきではない。
損失、遅延、遅延ジッタ及び/又はクロックスキューの影響を受ける既知のエンドツーエンドのパケット交換式音声送信システムを示すブロック図である。 制御ユニットによる制御下でジッタバッファリング、復号及び隠蔽及び再生出力バッファリングを達成する例示的な受信機サブシステムを示す。 クロックスキュー、損失、遅延及び遅延ジッタの影響を受けるパケット交換チャンネルのリレーサブシステムを示すブロック図である。 制御ユニットによる制御下で入力バッファリング、出力バッファリング及び必要に応じてトランスコーディング及び隠蔽を達成する例示的なリレーサブシステムを示す。 本発明の一連の好ましい実施形態を示すブロック図である。 隠蔽フレームにおけるサブシーケンスを描いたスケッチであり、上記フレームの始点は、時間の逆方向の順序で最後にバッファされたサブシーケンスに基づくサブシーケンスである。 隠蔽フレームにおけるサブシーケンスのより大きいシーケンスによる別の例を示し、上記フレームの始点は、時間の逆方向の順序による最後の2つのバッファされたサブシーケンスであり、連続するサブシーケンスは時間の逆方向でさらにバッファされたサブシーケンスに基づく。 ステップバック及び読み取り長さによってフォーマットされたインデックスパターンにおけるサンプル計数インデックスを示す。 索引付け及び補間関数に関係する信号を描いたスケッチである。 停止基準の決定論理を実行できる一方法を示すフローチャートである。 平滑化及び等化、停止基準及び許容される繰り返し数の反復的な同時最適化を達成できる一方法を示すフローチャートである。 位相調整フィルタの初期化及び供給に関連する循環シフト及びオーバーラップ加算の使用を示す。 開示されている重み付けされたオーバーラップ加算手順の一実施形態を示す。

Claims (1)

  1. ディジタル化されたオーディオ信号の伝送に関連して隠蔽サンプルのシーケンス生成する方法であって、
    サンプルの時間順序でバッファされた、オーディオ信号のディジタル化された表現のサンプルの複数のサブシーケンスら、隠蔽サンプルのシーケンス生成するステップを有し、
    前記生成するステップは、
    前記バッファされたサブシーケンス、最後にバッファされたサブシーケンスから始めて、時間の逆方向に所定数のバッファされたサブシーケンスを読み出した隠蔽サブシーケンスから構成されるステップバックシーケンス(逆順シーケンス)と、前記バッファされたサブシーケンスを、前記ステップバックシーケンスの最後のサブシーケンスと対応するバッファされたサブシーケンスに、前記バッファにおいて時間の順方向で続くバッファされたサブシーケンスから始めて、時間の順方向に最後にバッファされたサブシーケンスまで読み出した隠蔽サブシーケンスから構成される読み取り長さシーケンス(時間順シーケンス)との組をつくる段階と、
    前記ステップバックシーケンスと前記読み取り長さシーケンスとの組をつくる段階を、隠蔽サンプルのシーケンスの長さに応じて複数回くり返す段階とを有し、
    前記くり返す段階において、ステップバックシーケンスをつくる際に所定数読み出されるバッファされたサブシーケンスの数を、くり返し回数の増加に応じて増加させることを特徴とする方法。
JP2007552505A 2005-01-31 2006-01-31 通信システムにおける隠蔽フレームの生成方法 Active JP5420175B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DKPA200500146 2005-01-31
DKPA200500146 2005-01-31
PCT/DK2006/000053 WO2006079348A1 (en) 2005-01-31 2006-01-31 Method for generating concealment frames in communication system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013198241A Division JP5925742B2 (ja) 2005-01-31 2013-09-25 通信システムにおける隠蔽フレームの生成方法

Publications (3)

Publication Number Publication Date
JP2008529072A JP2008529072A (ja) 2008-07-31
JP2008529072A5 JP2008529072A5 (ja) 2008-12-18
JP5420175B2 true JP5420175B2 (ja) 2014-02-19

Family

ID=59285473

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2007552505A Active JP5420175B2 (ja) 2005-01-31 2006-01-31 通信システムにおける隠蔽フレームの生成方法
JP2007552507A Active JP5202960B2 (ja) 2005-01-31 2006-01-31 通信システムにおけるフレームの連結方法
JP2007552506A Pending JP2008529073A (ja) 2005-01-31 2006-01-31 重み付けされたオーバーラップ加算方法
JP2013198241A Active JP5925742B2 (ja) 2005-01-31 2013-09-25 通信システムにおける隠蔽フレームの生成方法

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2007552507A Active JP5202960B2 (ja) 2005-01-31 2006-01-31 通信システムにおけるフレームの連結方法
JP2007552506A Pending JP2008529073A (ja) 2005-01-31 2006-01-31 重み付けされたオーバーラップ加算方法
JP2013198241A Active JP5925742B2 (ja) 2005-01-31 2013-09-25 通信システムにおける隠蔽フレームの生成方法

Country Status (15)

Country Link
US (5) US9047860B2 (ja)
EP (3) EP1846920B1 (ja)
JP (4) JP5420175B2 (ja)
KR (3) KR101203348B1 (ja)
CN (3) CN101120399B (ja)
AU (3) AU2006208528C1 (ja)
BR (3) BRPI0607247B1 (ja)
CA (3) CA2596338C (ja)
ES (1) ES2625952T3 (ja)
HK (1) HK1108760A1 (ja)
IL (3) IL184864A (ja)
NO (3) NO338798B1 (ja)
RU (3) RU2405217C2 (ja)
WO (3) WO2006079349A1 (ja)
ZA (3) ZA200706261B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014038347A (ja) * 2005-01-31 2014-02-27 Skype 通信システムにおける隠蔽フレームの生成方法

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
WO2007086380A1 (ja) * 2006-01-26 2007-08-02 Pioneer Corporation 高音質化装置及び方法、並びにコンピュータプログラム
JP2007316254A (ja) * 2006-05-24 2007-12-06 Sony Corp オーディオ信号補間方法及びオーディオ信号補間装置
RU2437170C2 (ru) * 2006-10-20 2011-12-20 Франс Телеком Ослабление чрезмерной тональности, в частности, для генерирования возбуждения в декодере при отсутствии информации
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
US8280539B2 (en) * 2007-04-06 2012-10-02 The Echo Nest Corporation Method and apparatus for automatically segueing between audio tracks
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
CN101437009B (zh) * 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
CN102881294B (zh) 2008-03-10 2014-12-10 弗劳恩霍夫应用研究促进协会 操纵具有瞬变事件的音频信号的方法和设备
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
EP2301015B1 (en) * 2008-06-13 2019-09-04 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
JP5664291B2 (ja) * 2011-02-01 2015-02-04 沖電気工業株式会社 音声品質観測装置、方法及びプログラム
CN103620672B (zh) 2011-02-14 2016-04-27 弗劳恩霍夫应用研究促进协会 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
AU2012217156B2 (en) 2011-02-14 2015-03-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Linear prediction based coding scheme using spectral domain noise shaping
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
TWI479478B (zh) 2011-02-14 2015-04-01 Fraunhofer Ges Forschung 用以使用對齊的預看部分將音訊信號解碼的裝置與方法
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
EP3239978B1 (en) 2011-02-14 2018-12-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of pulse positions of tracks of an audio signal
SG192745A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Noise generation in audio codecs
WO2012110481A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio codec using noise synthesis during inactive phases
US9008170B2 (en) 2011-05-10 2015-04-14 Qualcomm Incorporated Offset type and coefficients signaling method for sample adaptive offset
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US8935308B2 (en) * 2012-01-20 2015-01-13 Mitsubishi Electric Research Laboratories, Inc. Method for recovering low-rank matrices and subspaces from data in high-dimensional matrices
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR102173422B1 (ko) 2012-11-15 2020-11-03 가부시키가이샤 엔.티.티.도코모 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
CN103888630A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 用于控制声学回声消除的方法和音频处理装置
RU2625561C2 (ru) 2013-01-29 2017-07-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип для компенсации переключения режима кодирования
CN110223704B (zh) 2013-01-29 2023-09-15 弗劳恩霍夫应用研究促进协会 对音频信号的频谱执行噪声填充的装置
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
WO2014123470A1 (en) 2013-02-05 2014-08-14 Telefonaktiebolaget L M Ericsson (Publ) Audio frame loss concealment
ES2603827T3 (es) * 2013-02-05 2017-03-01 Telefonaktiebolaget L M Ericsson (Publ) Método y aparato para controlar la ocultación de pérdida de trama de audio
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
US9406308B1 (en) 2013-08-05 2016-08-02 Google Inc. Echo cancellation via frequency domain modulation
US10728298B2 (en) * 2013-09-12 2020-07-28 Qualcomm Incorporated Method for compressed sensing of streaming data and apparatus for performing the same
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
CN104751851B (zh) * 2013-12-30 2018-04-27 联芯科技有限公司 一种基于前后向联合估计的丢帧差错隐藏方法及系统
WO2015102452A1 (en) 2014-01-03 2015-07-09 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
EP3090574B1 (en) * 2014-01-03 2019-06-26 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
US10157620B2 (en) 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
NO2780522T3 (ja) 2014-05-15 2018-06-09
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
RU2711108C1 (ru) * 2016-03-07 2020-01-15 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, подвергающие затуханию замаскированный аудиокадр согласно разным коэффициентам затухания для разных полос частот
RU2712093C1 (ru) 2016-03-07 2020-01-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, использующие характеристики декодированного представления надлежащим образом декодированного аудиокадра
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
JP6652469B2 (ja) * 2016-09-07 2020-02-26 日本電信電話株式会社 復号装置、復号方法及びプログラム
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
EP3984026A1 (en) * 2019-06-13 2022-04-20 Telefonaktiebolaget LM Ericsson (publ) Time reversed audio subframe error concealment
EP3901950A1 (en) * 2020-04-21 2021-10-27 Dolby International AB Methods, apparatus and systems for low latency audio discontinuity fade out
JP7524678B2 (ja) 2020-08-28 2024-07-30 沖電気工業株式会社 信号処理装置および信号処理方法並びに信号処理方法のプログラム

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2102254B (en) * 1981-05-11 1985-08-07 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
EP0123616B1 (en) * 1983-04-20 1987-03-04 Nippon Telegraph And Telephone Corporation Interframe coding method and apparatus therefor
FR2606239A1 (fr) * 1986-10-30 1988-05-06 Bull Sa Procede et dispositif de transmission de donnees numeriques
US5007094A (en) * 1989-04-07 1991-04-09 Gte Products Corporation Multipulse excited pole-zero filtering approach for noise reduction
US5371853A (en) 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
US5995539A (en) * 1993-03-17 1999-11-30 Miller; William J. Method and apparatus for signal transmission and reception
SE503547C2 (sv) 1993-06-11 1996-07-01 Ericsson Telefon Ab L M Anordning och förfarande för döljande av förlorade ramar
JP3520555B2 (ja) * 1994-03-29 2004-04-19 ヤマハ株式会社 音声符号化方法及び音声音源装置
US5602959A (en) 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
ZA9510509B (en) * 1994-12-23 1996-05-30 Qualcomm Inc Dual-mode digital FM communication system
US5699481A (en) * 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6028890A (en) * 1996-06-04 2000-02-22 International Business Machines Corporation Baud-rate-independent ASVD transmission built around G.729 speech-coding standard
JP3623056B2 (ja) * 1996-09-10 2005-02-23 ソニー株式会社 動画像圧縮装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
JP3596841B2 (ja) 1997-01-24 2004-12-02 株式会社ルネサステクノロジ 受信データ伸長装置
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
CA2249792C (en) * 1997-10-03 2009-04-07 Matsushita Electric Industrial Co. Ltd. Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6415253B1 (en) 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
SE513520C2 (sv) * 1998-05-14 2000-09-25 Ericsson Telefon Ab L M Förfarande och anordning för maskering av fördröjda paket
US6292454B1 (en) 1998-10-08 2001-09-18 Sony Corporation Apparatus and method for implementing a variable-speed audio data playback system
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
WO2000060576A1 (en) * 1999-04-05 2000-10-12 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6765931B1 (en) * 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
EP1088303B1 (en) * 1999-04-19 2006-08-02 AT & T Corp. Method and apparatus for performing frame erasure concealment
US7117156B1 (en) 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6691082B1 (en) 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US6665317B1 (en) * 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
JP2001142477A (ja) 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd 有声音形成装置とそれを用いた音声認識装置
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
SE517156C2 (sv) 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
EP1319227B1 (en) * 2000-09-15 2007-03-14 Lernout & Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
US6661842B1 (en) 2000-09-22 2003-12-09 General Dynamics Decision Systems, Inc. Methods and apparatus for error-resilient video coding
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
EP1217613A1 (fr) 2000-12-19 2002-06-26 Koninklijke Philips Electronics N.V. Reconstitution de trames manquantes ou mauvaises en téléphonie cellulaire
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
KR100591350B1 (ko) 2001-03-06 2006-06-19 가부시키가이샤 엔.티.티.도코모 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체
JP2004519736A (ja) * 2001-04-09 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 位相スメアリング及び位相デスメアリングフィルタを有するadpcm音声コーディングシステム
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP4426186B2 (ja) 2001-05-22 2010-03-03 富士通株式会社 音声信号処理装置
FI20011392A (fi) * 2001-06-28 2002-12-29 Nokia Corp Mekanismi multicast-jakelua varten tietoliikennejärjestelmässä
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7711563B2 (en) * 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6681842B2 (en) * 2001-12-03 2004-01-27 Agilent Technologies, Inc. Cooling apparatus
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4022427B2 (ja) 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
US7496086B2 (en) * 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4089347B2 (ja) 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
WO2004054225A2 (en) * 2002-12-04 2004-06-24 Thomson Licensing S.A. Encoding of video cross-fades using weighted prediction
CN100576318C (zh) 2003-05-14 2009-12-30 冲电气工业株式会社 用于隐藏被擦除的周期信号数据的装置与方法
JP4233931B2 (ja) 2003-06-17 2009-03-04 日本電信電話株式会社 音声・音響信号再生調整方法、装置、および音声・音響信号再生調整プログラム、そのプログラムを記録した記録媒体
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
JP2005315973A (ja) 2004-04-27 2005-11-10 Seiko Epson Corp 半導体集積回路
TWI273562B (en) * 2004-09-01 2007-02-11 Via Tech Inc Decoding method and apparatus for MP3 decoder
US7676362B2 (en) 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
WO2006079349A1 (en) * 2005-01-31 2006-08-03 Sonorit Aps Method for weighted overlap-add
US7359409B2 (en) * 2005-02-02 2008-04-15 Texas Instruments Incorporated Packet loss concealment for voice over packet networks
US9160382B2 (en) * 2013-10-08 2015-10-13 Blackberry Limited Phase noise mitigation for wireless communications

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014038347A (ja) * 2005-01-31 2014-02-27 Skype 通信システムにおける隠蔽フレームの生成方法
US9270722B2 (en) 2005-01-31 2016-02-23 Skype Method for concatenating frames in communication system

Also Published As

Publication number Publication date
AU2006208530B2 (en) 2010-10-28
EP1846921B1 (en) 2017-10-04
US20080154584A1 (en) 2008-06-26
ZA200706261B (en) 2009-09-30
ZA200706307B (en) 2008-06-25
US8068926B2 (en) 2011-11-29
CN101120400A (zh) 2008-02-06
NO340871B1 (no) 2017-07-03
JP2008529072A (ja) 2008-07-31
JP2008529074A (ja) 2008-07-31
CN101120400B (zh) 2013-03-27
JP2008529073A (ja) 2008-07-31
RU2007132729A (ru) 2009-03-10
BRPI0607246B1 (pt) 2019-12-03
US20080275580A1 (en) 2008-11-06
CN101120399B (zh) 2011-07-06
CA2596341A1 (en) 2006-08-03
RU2007132728A (ru) 2009-03-10
EP1846921A1 (en) 2007-10-24
KR20080002757A (ko) 2008-01-04
NO338798B1 (no) 2016-10-24
AU2006208529B2 (en) 2010-10-28
WO2006079350A1 (en) 2006-08-03
NO20074418L (no) 2007-08-29
US20150207842A1 (en) 2015-07-23
ES2625952T3 (es) 2017-07-21
AU2006208528C1 (en) 2012-03-01
RU2417457C2 (ru) 2011-04-27
IL184864A (en) 2011-01-31
US9270722B2 (en) 2016-02-23
JP5925742B2 (ja) 2016-05-25
US9047860B2 (en) 2015-06-02
BRPI0607251A2 (pt) 2017-06-13
AU2006208529A1 (en) 2006-08-03
BRPI0607247B1 (pt) 2019-10-29
HK1108760A1 (en) 2008-05-16
CN101120399A (zh) 2008-02-06
US20120158163A1 (en) 2012-06-21
NO338702B1 (no) 2016-10-03
IL184948A (en) 2012-07-31
CA2596338A1 (en) 2006-08-03
CN101120398B (zh) 2012-05-23
JP2014038347A (ja) 2014-02-27
BRPI0607246A2 (pt) 2010-03-23
BRPI0607247A2 (pt) 2010-03-23
EP1846920A1 (en) 2007-10-24
WO2006079348A1 (en) 2006-08-03
IL184948A0 (en) 2007-12-03
US20100161086A1 (en) 2010-06-24
US8918196B2 (en) 2014-12-23
RU2407071C2 (ru) 2010-12-20
KR20080002756A (ko) 2008-01-04
KR101203244B1 (ko) 2012-11-20
JP5202960B2 (ja) 2013-06-05
EP1849156B1 (en) 2012-08-01
CA2596337C (en) 2014-08-19
IL184927A0 (en) 2007-12-03
WO2006079349A1 (en) 2006-08-03
IL184927A (en) 2016-06-30
NO20074348L (no) 2007-10-21
RU2007132735A (ru) 2009-03-10
KR20080001708A (ko) 2008-01-03
RU2405217C2 (ru) 2010-11-27
CA2596341C (en) 2013-12-03
EP1846920B1 (en) 2017-04-19
EP1849156A1 (en) 2007-10-31
KR101237546B1 (ko) 2013-02-26
AU2006208530A1 (en) 2006-08-03
CN101120398A (zh) 2008-02-06
CA2596338C (en) 2014-05-13
KR101203348B1 (ko) 2012-11-20
AU2006208528B2 (en) 2011-08-18
ZA200706534B (en) 2008-07-30
NO20074349L (no) 2007-10-18
AU2006208528A1 (en) 2006-08-03
IL184864A0 (en) 2007-12-03
CA2596337A1 (en) 2006-08-03

Similar Documents

Publication Publication Date Title
JP5925742B2 (ja) 通信システムにおける隠蔽フレームの生成方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081028

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081128

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120723

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120821

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130218

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131120

R150 Certificate of patent or registration of utility model

Ref document number: 5420175

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250