JP5203923B2 - 残留信号を修正することによって、ボコーダ内部のフレームを時間伸縮すること - Google Patents

残留信号を修正することによって、ボコーダ内部のフレームを時間伸縮すること Download PDF

Info

Publication number
JP5203923B2
JP5203923B2 JP2008501073A JP2008501073A JP5203923B2 JP 5203923 B2 JP5203923 B2 JP 5203923B2 JP 2008501073 A JP2008501073 A JP 2008501073A JP 2008501073 A JP2008501073 A JP 2008501073A JP 5203923 B2 JP5203923 B2 JP 5203923B2
Authority
JP
Japan
Prior art keywords
speech
segment
residual
pitch period
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008501073A
Other languages
English (en)
Other versions
JP2008533529A (ja
Inventor
カプーア、ロヒット
ディアズ・スピンドラ、セラフィン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36575961&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP5203923(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2008533529A publication Critical patent/JP2008533529A/ja
Application granted granted Critical
Publication of JP5203923B2 publication Critical patent/JP5203923B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electric Clocks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、一般に、ボコーダ内のボコーダフレームを時間伸縮(展開又は圧縮)する方法に関する。時間伸縮は、ボコーダパケットが非同期に到着するパケット交換ネットワークにおいて多くの用途がある。時間伸縮が、ボコーダ内部又はボコーダ外部で行なわれうる一方、ボコーダ内で時間伸縮を行うことによって、より品質の優れた伸縮フレーム、及び、低減された計算負荷のような多くの利点を与える。本明細書で示される方法は、本特許では、音声データをボコードするアプリケーションとして称されるものと類似の技術を用いるあらゆるボコーダに適用することが可能である。
(35U.S.C.§119の下の優先権主張)
本願は、「残留信号を修正することによってボコーダ内部のフレームを時間伸縮すること」(Time Warping Frames Inside the Vocoder by Modifying the Residual)と題され、2005年3月11日に出願され、その出願の開示全体が本願の開示の一部として考慮され、本明細書に参照によって組み込まれている米国仮出願番号60/660,824の利益を主張する。
本発明は、スピーチ信号を扱うことによってスピーチフレームを時間伸縮する装置及び方法を備える。1つの実施形態では、この方法及び装置は、限定される訳ではないが、第4世代ボコーダ(4GV)において使用される。開示された実施形態は、異なるタイプのスピーチセグメントを展開/圧縮する方法及び装置を備える。
上記を考慮して、本発明の記述した特徴は、一般に、スピーチを通信するための1又は複数の改良システム、方法、及び/又は装置に関する。
1つの実施形態では、本発明は、スピーチを通信する方法を備える。この方法は、スピーチセグメントを分類することと、符号励振型線形予測を用いて前記スピーチセグメントを符号化することと、残留スピーチ信号を、前記残留スピーチ信号の展開バージョン又は圧縮バージョンへ時間伸縮することとの各ステップを備える。
他の実施形態では、スピーチを通信する方法は更に、線形予測符号化フィルタを介して前記スピーチ信号を送り、前記スピーチ信号における短期的な相関をフィルタ出力することと、線形予測符号化係数及び残留信号を出力することとを備える。
別の実施形態では、符号化は、符号励起型線形予測符号化であり、前記時間伸縮するステップは、ピッチ遅延を推定することと、その境界がスピーチフレーム内の様々なポイントにおけるピッチ遅延を用いて決定されるピッチ期間にスピーチフレームを分割することと、残留スピーチ信号が圧縮されるのであれば、ピッチ期間をオーバラップさせることと、残留スピーチ信号が展開されるのであれば、ピッチ期間を加えることとを備える。
別の実施形態では、符号化は、プロトタイプピッチ期間符号化であり、前記時間伸縮するステップは、少なくとも1つのピッチ期間を推定することと、前記少なくとも1つのピッチ期間を補間することと、残留スピーチ信号を展開する場合に、少なくとも1つのピッチ期間を加えることと、前記残留スピーチ信号を圧縮する場合に、前記少なくとも1つのピッチ期間を減じることとを備える。
別の実施形態では、前記符号化は、雑音励起型線形予測符号化であり、前記時間伸縮するステップは、合成する前に、スピーチセグメントの別の部分に恐らく異なる利得を適用することを備える。
別の実施形態では、本発明は、少なくとも1つのインプット、及び、少なくとも1つのアウトプットを有するボコーダと、前記ボコーダのインプットに操作可能に接続された少なくとも1つのインプットと、少なくとも1つのアウトプットとを有するフィルタを含むエンコーダと、前記エンコーダの少なくとも1つのアウトプットに操作可能に接続された少なくとも1つのインプットと、前記ボコーダの少なくとも1つのアウトプットに操作可能に接続された少なくとも1つのアウトプットとを有するシンセサイザを含むデコーダとを備える。
別の実施形態では、エンコーダはメモリを備える。そして、前記エンコーダは、スピーチセグメントを1/8フレーム、プロトタイプピッチ期間、符号励起型線形予測、又は、雑音励起型線形予測として分類することを備え前記メモリに格納された命令を実行可能に適応されている。
別の実施形態では、デコーダはメモリを備え、前記デコーダは、残留信号を、前記残留信号の展開バージョン又は圧縮バージョンに時間伸縮することを備え前記メモリに格納された命令を実行可能に適応されている。
本発明の適用可能性の更なる範囲は、以下の詳細説明、請求項、及び図面から明白になるだろう。しかしながら、本発明の精神及び範囲内で様々な変更及び変形が当業者に明白になるであろうから、詳細な記述及び具体例は、本発明の好適な実施形態を示す一方、例示のみによって与えられることが理解されるべきである。
本発明は、後述する詳細記述、特許請求の範囲、及び添付図面からより完全に理解されるようになるだろう。
用語「例示的な」(illustrative)は、本明細書において、「例、インスタンス、又は実例として役立つ」ことを意味するために使用される。本明細書で「例示的な」と記述されたどの実施形態も、他の実施形態よりも好適であるとか有利であるとか必ずしも解釈される必要はない。
(ボコーダにおいて時間伸縮を使用することの特徴)
人間の音声は2つの成分から成る。1つの成分は、ピッチに敏感な基本波を含む。また、他の成分は、ピッチに敏感ではない固定高調波である。感じられる音のピッチは、周波数に対する耳の反応である。つまり、最も実際的な目的の場合、ピッチは周波数である。高調波成分は、人の音声に際立った特性を加える。それらは、声帯とともに、及び声道の物理的な形とともに変わり、フォルマントと呼ばれる。
人間の音声は、デジタル信号s(n)10によって表わすことができる。s(n)10は、異なる音声サウンド及び静寂期間を含む一般的な会話中に得られるデジタルスピーチ信号であると仮定する。スピーチ信号s(n)10は、好適にはフレーム20へ分配される。1つの実施形態では、s(n)10は、8kHzにおいてデジタルサンプリングされる。
現在の符号化スキームは、スピーチに固有の自然冗長性(すなわち、相関要素)の全てを取り除くことによって、デジタルスピーチ信号10を低ビットレート信号に圧縮する。スピーチは、一般に、唇と舌の機械的動作に起因する短期冗長性と、声帯の振動に起因する長期冗長性とを示す。線形予測符号化(LPC)は、残留スピーチ信号30を生成する冗長性を除去することにより、スピーチ信号10をフィルタする。その後、LPCは、結果として生じる残留信号30をホワイトガウシアン雑音としてモデル化する。スピーチ波形のサンプル値は、それぞれ線形予測係数50が乗じられた多くの過去のサンプル40の合計を重み付けることによって予測されうる。従って、線形予測コーダは、フィルタ係数50と、完全な帯域幅スピーチ信号10ではない量子化された雑音とを送信することによって、低減されたビットレートを達成する。残留信号30は、残留信号30の現在のフレーム20から、プロトタイプ期間100を抽出することによって符号化される。
この方法及び装置によって使用されるLPCボコーダ70の1つの実施形態のブロック図を図1に示す。LPCの機能は、有限期間にわたるオリジナルスピーチ信号と推定スピーチ信号との平方差の合計を最小化することである。これは、通常フレーム20毎に推定される予測係数50のユニークセットを生成しうる。フレーム20は、一般に、20ミリ秒の長さである。時間変動デジタルフィルタ75の伝達関数は、
Figure 0005203923
で与えられる。ここで、予測係数50は、a及び利得Gによって表わされる。
総和が、k=1からk=pまで計算される。LPC−10方法が使用される場合、p=10となる。これは、最初の10の係数50のみがLPCシンセサイザ80に送信されることを意味する。係数を計算するための最も一般的に使用されている2つの方法は、限定される訳ではないが、共分散方法と自動相関方法である。
異なる話者が、異なる速度で話すことは一般的である。時間圧縮は、個々の話者に対する速度変化の影響を弱める1つの方法である。2つのスピーチパターン間のタイミング差は、他のスピーチパターンとの一致が最大になるように、1つのスピーチパターンの時間軸を伸縮することによって低減される。この時間圧縮技術は、時間伸縮として知られている。更に、時間伸縮は、ピッチを変えることなく音声信号を圧縮又は展開する。
一般的なボコーダは、20ミリ秒持続するフレーム20を生成する。これは、好適には8kHzレートで、160のサンプル90を含む。フレーム20の時間伸縮圧縮バージョンは、20ミリ秒よりも短い持続時間を有する一方、時間伸縮展開バージョンは20ミリ秒よりも長い持続時間を有する。パケット交換ネットワークを介して音声データを送る場合、音声データの時間伸縮は、音声パケットの送信において遅延ジッタを導入するという顕著な利点を有する。そのようなネットワークでは、時間伸縮は、そのような遅延ジッタの影響を緩和し、かつ、「同時に」見る音声ストリームを生成するために使用することができる。
本発明の実施形態は、残留スピーチ信号30を操作することによって、ボコーダ70内でフレーム20を時間伸縮する装置及び方法に関連する。1つの実施形態では、本方法及び装置は4GVで使用される。開示された実施形態は、プロトタイプピッチ期間(PPP)、符号励起型線形予測(CELP)、又は雑音励起型線形予測(NELP)符号化を用いて符号化される4GVスピーチセグメント110の異なるタイプを展開/圧縮する方法、装置、又はシステムを備える。
用語「ボコーダ」70は、一般に、人間のスピーチ生成モデルに基づいてパラメータを抽出することにより、音声化されたスピーチを圧縮するデバイスを称する。ボコーダ70は、エンコーダ204及びデコーダ206を含む。エンコーダ204は、到来するスピーチを解析し、適切なパラメータを抽出する。1つの実施形態では、エンコーダはフィルタ75を備える。デコーダ206は、送信チャネル208を経由してエンコーダ204から受け取るパラメータを用いてスピーチを合成する。1つの実施形態では、デコーダは、シンセサイザ80を備える。スピーチ信号10は、ボコーダ70によって処理されるデータ及びブロックのフレーム20に分割される。
当業者であれば、人間のスピーチを、多くの異なる方式で分類できることを認識するだろう。スピーチの従来の3分類は、音声サウンド、無音声サウンド、及び瞬間的スピーチである。図2Aは、音声スピーチ信号s(n)402である。図2Aは、ピッチ期間100として知られている音声スピーチの測定可能な一般的特性を示す。
図2Bは、無音声スピーチ信号s(n)404である。無音声スピーチ信号404は、有色雑音に似ている。
図2Cは、瞬間的スピーチ信号s(n)406(すなわち、音声でも無音声でもないスピーチ)を示す。図2Cで示される瞬間的スピーチ406の例は、無音声スピーチと音声スピーチとの間を移行しているs(n)を示しうる。これらの3つの分類が、全てを含んでいる訳ではない。同等の結果を達成するために、本明細書で記述された方法に従って適用される多くの異なるスピーチ分類が存在する。
(4GVボコーダは、4つの異なるフレームタイプを使用する)
本発明の1つの実施形態で使用される第4世代ボコーダ(4GV)70は、無線ネットワークを介して使用するための魅力的な特徴を提供する。これら特徴のうちの幾つかは、品質とビットレートとをトレードオフする能力、増加するパケット誤り率(PER)にも関わらずより回復の早いボコード、消去跡の良好な隠蔽等を含む。4GVボコーダ70は、4台の異なるエンコーダ204及びデコーダ206のうちの何れかを使用することができる。異なるエンコーダ204及びデコーダ206は、異なる符号化スキームに従って動作する。幾つかのエンコーダ204は、ある特性を示すスピーチ信号s(n)10の符号化部においてより効果的である。従って、1つの実施形態では、エンコーダ204及びデコーダ206は、現在のフレーム20の分類に基づいて選択されうる。
4GVエンコーダ204は、4つの異なるフレーム20タイプ、すなわち、プロトタイプピッチ期間波形補間(PPPWI)、符号励起型線形予測(CELP)、雑音励起型線形予測(NELP)、又は、静寂1/8レートフレームのうちの1つへ音声データの各フレーム20を符号化する。CELPは、貧弱な周期性を備えたスピーチ、あるいは、ある周期的なセグメント110から別のセグメントへの変化を含むスピーチを符号化するために使用される。従って、CELPモードは、一般に、瞬間的スピーチとして分類されたフレームを符号化するために選択される。そのようなセグメント110は、1つのみのプロトタイプピッチ期間から正確には再構築できないので、CELPは、完全なスピーチセグメント110の特徴を符号化する。CELPモードは、線形予測残留信号30の量子化バージョンを用いて、線形予測声道モデルを励起する。本明細書に記載の全てのエンコーダ204及びデコーダ206のうち、CELPは一般に、より正確なスピーチ再生を生成するが、より高いビットレートを必要とする。
プロトタイプピッチ期間(PPP)モードは、音声スピーチとして分類されたフレーム20を符号化するために選択される。音声スピーチは、PPPモードによって利用されるゆっくりと時間変動する周期的成分を含む。PPPモードは、各フレーム20内のピッチ期間100のサブセットを符号化する。スピーチ信号10の残りの期間100は、これらのプロトタイプ期間100の間を補間することにより再構築される。音声スピーチの周期性を利用することによって、PPPは、CELPよりも低いビットレートを達成することができ、知覚的に正確な方法で、スピーチ信号10を再生することができる。
PPPWIは、本来周期的なスピーチデータを符号化するために使用される。そのようなスピーチは、「プロトタイプ」ピッチ期間(PPP)に類似した、別のピッチ期間100によって特徴付けられる。このPPPは、エンコーダ204が符号化する必要のある唯一の音声情報である。デコーダは、スピーチセグメント110中の他のピッチ期間100を再構築するためにこのPPPを使用することができる。
「雑音励起型線形予測」(NELP)エンコーダ204は、無音声スピーチとして分類されたフレーム20を符号化するために選択される。NELP符号化は、信号再生の観点から効率的に動作し、スピーチ信号10は、ほとんど又は全くピッチ構造を持たない。より具体的には、NELPは、無音声スピーチ又は背景雑音のように、雑音のような特徴を持つスピーチを符号化するために使用される。NELPは、無音声スピーチをモデル化するために、フィルタ化された準ランダム雑音信号を使用する。スピーチセグメント110のそのような雑音のような特徴は、デコーダ206においてランダム信号を生成することにより、そして、それらに適切な利得を加えることにより、再構築することができる。NELPは、符号化されたスピーチのために最も単純なモデルを使用し、もって、より低いビットレートを達成する。
1/8レートフレームは、例えば、ユーザが話していない期間である静寂期間を符号化するために使用される。
4つのボコードスキームの全ては、上述したように、図3に示すような最初のLPCフィルタ処理を共有する。4つのカテゴリのうちの1つへスピーチを特徴付けた後、スピーチ信号10は、線形予測を用いてスピーチにおける短期的な相関をフィルタ出力する線形予測符号化(LPC)フィルタ80を介して送られる。このブロックの出力は、LPC係数50及び「残留」信号30である。残留信号30は、基本的には、短期的な相関が除去されたオリジナルのスピーチ信号10である。その後、この残留信号30は、フレーム20のために選択されたボコード方法によって使用される特定の方法を用いて符号化される。
図4A及び図4Bは、オリジナルスピーチ信号10の一例であり、LPCブロック80後の残留信号30を示す。残留信号30は、オリジナルスピーチ10よりもより明確にピッチ期間100を示すことが見てわかる。従って、当然ながら、残留信号30は、(短期的な相関をも含む)オリジナルスピーチ信号10よりもより正確にスピーチ信号のピッチ期間100を決定するために使用することができる。
(残留時間伸縮)
上述したように、時間伸縮は、スピーチ信号10の展開又は圧縮のために使用することができる。これを達成するために多くの方法を使用できるが、これらのうちのほとんどは、信号10にピッチ期間100を加えたり、あるいは、信号10からピッチ期間100を除去することに基づく。ピッチ期間100の追加又は除去は、残留信号30を受信した後、残留信号30が合成される前に、デコーダ206内で行うことが出来る。CELP又はPPPの何れか(NELPではない)を用いて符号化されたスピーチデータの場合、信号は、多くのピッチ期間100を含んでいる。従って、スピーチ信号10に追加、又はスピーチ信号10から除去することが可能な最小単位は、ピッチ期間100である。なぜなら、これよりも小さな単位は、認識可能なスピーチアーティファクトを導くことになるフェーズ不連続に至るからである。従って、CELPスピーチ又はPPPスピーチに適用される時間伸縮方法の1ステップは、ピッチ期間100の推定である。このピッチ期間100は、CELP/PPPスピーチフレーム20用としてデコーダ206に既に知られている。PPPとCELPとの両方の場合、ピッチ情報が、自動相関方法を用いてエンコーダ204によって計算され、デコーダ206に送信される。従って、デコーダ206は、ピッチ期間100を正確に知っている。これは、デコーダ206内に本発明の時間伸縮方法を適用することをより単純にする。
更に、上述したように、信号10を合成する前に、より簡単に信号10を時間伸縮する。そのような時間伸縮方法が、信号10を復号した後に適用されるのであれば、信号10のピッチ期間100が推定される必要があるであろう。これは、更なる計算を必要とするのみならず、ピッチ期間100の推定が、非常に正確ではないかもしれない。なぜなら、残留信号30もまたLPC情報170を含むからである。
一方、追加のピッチ期間100の推定があまり複雑ではない場合、復号後に時間伸縮を行うことは、デコーダ206に対する変更を必要とせず、もって、全てのボコーダ80に対して一度のみ実施することができる。
LPC符号合成を用いて信号を合成する前に、デコーダ206内で時間伸縮を行う別の理由は、圧縮/展開が、残留信号30に適用可能であるからである。これは、線形予測符号化(LPC)合成が、時間伸縮された残留信号30に適用されることを可能にする。LPC係数50は、スピーチがどのように聞こえるかに関する役割を担い、伸縮後に合成を適用することは、正しいLPC情報170が信号10内に維持されることを保証する。
一方、残留信号30を復号した後に時間伸縮が行われた場合、LPC合成は、時間伸縮前に既に行われている。従って、特に、復号後のピッチ期間100予測が、さほど正確ではないのであれば、伸縮処理は、信号10のLPC情報170を換えることができる。1つの実施形態では、本願で開示された時間伸縮方法によって実行されるステップは、メモリ82内に位置されたソフトウェア又はファームウェア81内に位置した命令として格納される。図1では、このメモリは、デコーダ206の内部に位置して示される。メモリ82はまた、デコーダ206の外部に位置することもできる。
(4GVにおける1つのような)エンコーダ204は、フレーム20が音声スピーチ、無音声スピーチ、あるいは瞬間的スピーチを示すかに依存して、スピーチフレーム20をPPP(周期的)、CEFLP(僅かに周期的)、又はNELP(雑音の多い)として分類しうる。スピーチフレーム20タイプに関する情報を用いて、デコーダ206は、異なる方法を使って、異なるフレーム20を時間伸縮することができる。例えば、NELPスピーチフレーム20は、ピッチ期間の概念を持っておらず、その残留信号30は、「ランダムな」情報を用いて、デコーダ206において生成される。従って、CELP/PPPのピッチ期間100推定は、NELPに当てはまらず、一般に、NELPフレーム20は、ピッチ期間100よりも短くなるまで伸縮(展開/圧縮)されうる。そのような情報は、時間伸縮が、デコーダ206において、残留信号30の復号後に行なわれるのであれば、利用可能ではない。一般に、復号後にNELPのようなフレーム20を時間伸縮することは、スピーチアーティファクトに至る。一方、デコーダ206内でNELPフレーム20を伸縮することは、より良い品質をもたらす。
従って、ポストデコーダ(つまり、残留信号30が合成された後)に対立するものとして、デコーダ206内で時間伸縮を行う(つまり、残留信号30を合成する前に)ことに2つの利点がある。すなわち、(i)計算上のオーバーヘッドの低減(例えば、ピッチ期間100の探索の回避)、及び、(ii)a)フレーム20タイプを知っていること、b)伸縮された信号についてLPC合成を行うこと、c)ピッチ期間をより正確に推定/把握することによる伸縮品質の改善。
(残留時間伸縮方法)
下記は、本方法及び装置が、PPPデコーダ、CELPデコーダ、及びNELPデコーダ内で残留スピーチ30を時間伸縮する実施形態を記載する。以下の2ステップ、すなわち、(i)残留信号30を展開バージョン又は圧縮バージョンへ時間伸縮すること、及び、(ii)時間伸縮された残留信号30をLPCフィルタ80を介して送ることが各デコーダ206内で行なわれる。更に、ステップ(i)は、PPP、CELP、及びNELPによるスピーチセグメント110について別の方法で実行される。これら実施形態を以下に説明する。
(スピーチセグメント110がPPPである場合における残留信号の時間伸縮)
上述したように、スピーチセグメント110がPPPである場合、信号に加えることができる、あるいは信号から除去することができる最小単位は、ピッチ期間100である。プロトタイプピッチ期間100から信号10を復号でき(そして、残留信号30が再構築される)前に、デコーダ206は、(格納された)前のプロトタイプピッチ期間100から、現在のフレーム20におけるプロトタイプピッチ期間100へと信号10を補間し、処理中に失われたピッチ期間100を追加する。この処理は図5に示される。そのような補間は、補間されたピッチ期間100を生成することによって、むしろ、時間伸縮を容易にすることに向いている。これは、圧縮又は展開した残留信号30に至るだろう。これら残留信号30は、その後、LPC合成を介して送られる。
(スピーチセグメント110がCELPである場合における残留信号の時間伸縮)
上述したように、スピーチセグメント110がPPPである場合、信号に追加、又は信号から除去される最小単位は、ピッチ期間100である。一方、CELPの場合には、伸縮は、PPPに関してほど簡単ではない。残留信号30を伸縮するために、デコーダ206は、符号化されたフレーム20に含まれるピッチ遅延180情報を使用する。このピッチ遅延180は、フレーム20の終わりにおける実際のピッチ遅延180である。周期的なフレーム20でさえ、ピッチ遅延180はわずかに変化しているかもしれないことが注目されるべきである。フレーム内の任意のポイントにおけるピッチ遅延180は、最後のフレーム20の終わりにおけるピッチ遅延180と、現在のフレーム20の終わりにおけるピッチ遅延180との間を補間することによって推定されうる。これは図6に示される。フレーム20内の全てのポイントにおけるピッチ遅延180が一旦知られると、フレーム20をピッチ期間100に分割することができる。ピッチ期間100の境界は、フレーム20内の様々なポイントにおけるピッチ遅延180を使用して決定される。
図6Aは、フレーム20をそのピッチ期間100に分割する方法の一例を示す。例えば、サンプル番号70は、おおよそ70に等しいピッチ遅延180を有し、サンプル番号142は、おおよそ72のピッチ遅延180を有する。従って、ピッチ期間100は、サンプル番号[1−70]から、及び、サンプル番号[71−142]からである。図6Bを参照されたい。
フレーム20が、ピッチ期間100に一旦分割されると、ピッチ期間100は、残留信号30のサイズを増加/減少するためにオーバラップ追加することができる。図7B乃至図7Fを参照されたい。合成を追加及びオーバラップする際、入力信号10からセグメント110を除去し、時間軸に沿ってそれらの位置を変え、更に、合成信号150の構築のために加えられた重み付けオーバラップを実行することによって、修正された信号が取得される。1つの実施形態では、セグメント110は、ピッチ期間100と等しくなりえる。オーバラップ追加方法は、スピーチのセグメント110を「合併する」ことによって、2つの異なるスピーチセグメント110を、1つのスピーチセグメント110に置き換える。スピーチの合併は、可能な限りスピーチ品質を維持する方法で行われる。スピーチ品質を維持し、かつ、スピーチへのアーティファクトの導入を最小にすることは、合併するセグメント110を注意深く選択することによって行われる。(アーティファクトは、クリック、ポップ等のような望まれない要素である)。スピーチセグメント110の選択は、セグメント「類似性」に基づく。スピーチセグメント110の「類似性」がより近づくと、残留スピーチ信号30のサイズを減少/増加するためにスピーチの2つのセグメント110がオーバラップしている場合、結果として得られるスピーチ品質がより向上し、スピーチアーティファクトを導入する可能性がより低くなる。ピッチ期間がオーバラップ追加されるべきかを判定するための有用なルールは、これら2つのピッチ遅延が類似しているか否か(一例として、ピッチ遅延が、約1.8ミリ秒に相当する15サンプルまで異なるか否か)である。
図7Cは、残留信号30を圧縮するためにオーバラップ追加がどのように使用されるのかを示す。オーバラップ/追加方法の第1ステップは、インプットサンプルシーケンスs[n]10を、上述したようなそのピッチ期間に分割することである。図7Aでは、4つのピッチ期間100(PP)を含むオリジナルのスピーチ信号10が示される。次のステップは、図7Aに示す信号10のピッチ期間100を除去することと、これらピッチ期間100を、合併したピッチ期間100と置き換えることとを含む。例えば、図7Cでは、ピッチ期間PP2,PP3が除去され、PP2とPP3とがオーバラップ追加された1つのピッチ期間100で置き換えられている。更に具体的には、図7Cでは、ピッチ期間100 PP2とPP3とが、第2のピッチ期間100(PP2)の寄与が減少し続け、PP3の寄与が増加し続けるようにオーバラップ追加される。この追加オーバラップ方法は、2つの異なるスピーチセグメント110から1つのスピーチセグメント110を生成する。1つの実施形態では、追加−オーバラップは、重み付けられたサンプルを用いて行なわれる。これは、図8に示すような方程式a)及びb)で例示される。重み付けは、セグメント1(110)の最初のPCM(パルス符号化変調)サンプルと、セグメント2(110)の最後のPCMサンプルとの間でのスムーズな遷移を提供するために使用される。
図7Dは、オーバラップ追加されているPP2とPP3の別のグラフィック例示である。(図7Eに示すように)単純に1つのセグメント110を除去し、残りの隣接セグメント110に隣接するのに比べて、クロスフェードは、本方法によって時間圧縮された信号10の認識品質を改善する。
ピッチ期間100が変化している場合、このオーバラップ−追加方法は、等しくない長さからなる2つのピッチ期間110を合併しうる。この場合、より良い合併は、2つのピッチ期間100をオーバラップ−追加する前に、それらのピークを揃えることによって達成されうる。その後、展開/圧縮された残留信号が、LPC合成を経て送られる。
(スピーチ展開)
スピーチを展開する簡単なアプローチは、同じPCMサンプルに対して多数の反復を行うことである。しかしながら、同じPCMサンプルを複数回繰り返すことによって、フラットなピッチを持つ領域を生成することができる。このフラットなピッチは、人間によって容易に検知可能なアーティファクトである(例えば、スピーチは、「ロボット」のように聞こえるかもしれない)。スピーチ品質を維持するために、追加−オーバラップ方法を使用して良い。
図7Bは、本発明のオーバラップ−追加方法を用いて、スピーチ信号10がどのように展開されるのかを示している。図7Bでは、ピッチ期間100 PP1及びPP2から生成された追加ピッチ期間100が加えられる。この追加ピッチ期間100では、第2のピッチ(PP2)期間100の寄与が減少し続け、PP1の寄与が増加し続けるように、ピッチ期間100 PP2及びPP1がオーバラップ−追加される。図7Fは、オーバラップ追加されているPP2とPP3とのグラフ例示を示す。
(スピーチセグメントがNELPである場合における残留信号の時間伸縮)
NELPスピーチセグメントの場合、エンコーダが、スピーチセグメント110の別の部分に対する利得のみならず、LPC情報を符号化する。スピーチは、本来極めて雑音状であるので、その他の情報を符号化する必要はない。1つの実施形態では、利得は、16個のPCMサンプルからなるセットで符号化される。従って、例えば、160のサンプルからなるフレームは、それぞれが16のスピーチサンプルからなる10の符号化された利得値によって表されうる。デコーダ206は、先ず、ランダム値を生成し、次に、それらそれぞれに利得を適用することによって、残留信号30を生成する。この場合、ピッチ期間100の概念はないかもしれないので、展開/圧縮は、ピッチ期間100の粒度である必要はない。
NELPセグメントを展開又は圧縮するために、デコーダ206は、セグメント110が展開されているか、あるいは圧縮されているかに依存して、160よりも多いか、あるいは少ない数のセグメント(110)を生成する。その後、10の復号された利得がサンプルに加えられ、展開又は圧縮された残留信号30が生成される。これら10の復号された利得は、オリジナルの160のサンプルに対応しているので、これらは、展開/圧縮されたサンプルへは直接的には適用されない。これらの利得を適用するために、様々な方法が使用されうる。これら方法のうちの幾つかを以下に述べる。
生成されるサンプルの数が160未満である場合、必ずしも、10全ての利得を適用する必要はない。例えば、サンプル数が144である場合、最初の9つの利得が適用されうる。この例では、第1の利得が、最初の16のサンプルであるサンプル1〜16に適用され、第2の利得が、次の16のサンプルであるサンプル17〜32に適用されるようになされる。同様に、サンプルが160以上ある場合、10番目の利得が、2度以上適用されうる。例えば、サンプル数が192である場合、10番目の利得を、サンプル145〜160、161〜176、及び177〜192に適用することができる。
あるいは、サンプルは、等しい数のサンプルを有する10のセットに分割され、10の利得が、これら10のセットに適用される。例えば、サンプル数が140である場合、10の利得を、14のサンプル各々のセットに適用することができる。この例では、第1の利得が最初の14のサンプルであるサンプル1〜14に適用され、第2の利得が次の14のサンプルであるサンプル15〜28に適用されるようになされる。
サンプルの数が、10で完全に割り切れない場合、10番目の利得が、10で割って得られる余りのサンプルに適用される。例えば、サンプル数が145である場合、10の利得を、それぞれ14サンプルからなるセットに適用することができる。更に、10番目の利得が、サンプル141〜145に適用される。
上述した符号化方法のうちの何れかを用いた場合、時間伸縮の後、展開/圧縮残留信号30が、LPC合成を通じて送られる。
当該技術における熟練者であれば、これら情報および信号が、種々異なった技術や技法を用いて表されることを理解するであろう。例えば、上述した記載の全体で引用されているデータ、指示、命令、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場または磁性粒子、光学場または光学微粒子、あるいはこれら何れかの組み合わせによって表現されうる。
これら熟練者であれば、更に、 ここで開示された実施形態に関連して記載された様々な説明的論理ブロック、モジュール、回路、およびアルゴリズムステップが、電子工学ハードウェア、コンピュータソフトウェア、あるいはこれらの組み合わせとして実現されることを理解するであろう。ハードウェアとソフトウェアとの相互互換性を明確に説明するために、様々に例示された部品、ブロック、モジュール、回路、およびステップが、それらの機能に関して一般的に記述された。それら機能がハードウェアとして又はソフトウェアとして実現されているかは、特定のアプリケーション及びシステム全体に課せられている設計制約に依存する。熟練した技術者であれば、各特定のアプリケーションに応じて変更した方法で上述した機能を実施しうる。しかしながら、この適用判断は、本発明の範囲から逸脱したものと解釈されるべきではない。
ここで開示された実施形態に関連して記述された様々の説明的論理ブロック、モジュール、および回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、アプリケーションに固有の集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)あるいはその他のプログラマブル論理デバイス、ディスクリートゲートあるいはトランジスタロジック、ディスクリートハードウェア部品、又は上述された機能を実現するために設計された上記何れかの組み合わせを用いて実現又は実行されうる。汎用プロセッサとしてマイクロプロセッサを用いることが可能であるが、代わりに、従来技術によるプロセッサ、コントローラ、マイクロコントローラ、あるいは状態機器を用いることも可能である。プロセッサは、たとえばDSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアに接続された1つ以上のマイクロプロセッサ、またはこのような任意の構成である計算デバイスの組み合わせとして実現することも可能である。
ここで開示された実施形態に関連して記述された方法やアルゴリズムのステップは、ハードウェアや、プロセッサによって実行されるソフトウェアモジュールや、これらの組み合わせによって直接的に具現化される。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、あるいは当該技術分野で知られているその他の型式の記憶媒体に収納されうる。例示した記憶媒体は、プロセッサがそこから情報を読み取り、またそこに情報を書き込むことができるようにプロセッサに結合される。
または、記憶媒体はプロセッサに統合されうる。このプロセッサと記憶媒体は、ASIC内に存在することができる。ASICは、ユーザ端末内に存在することもできる。あるいはこのプロセッサと記憶媒体は、ユーザ端末内のディスクリート部品として存在しうる。開示された実施形態における上述の記載は、当該技術分野におけるいかなる人であっても、本発明の活用または利用を可能とするように提供される。これらの実施形態への様々な変形例もまた、当該技術分野における熟練者に対しては明らかであって、ここで定義された一般的な原理は、本発明の主旨または範囲を逸脱せずに他の実施形態にも適用されうる。このように、本発明は、ここで示された実施形態に制限されるものではなく、ここで記載された原理と新規の特徴に一致した最も広い範囲に相当するものを意図している。
図1は、線形予測符号化(LPC)ボコーダのブロック図である。 図2Aは、音声スピーチを含むスピーチ信号である。 図2Bは、無音声スピーチを含むスピーチ信号である。 図2Cは、瞬間的スピーチを含むスピーチ信号である。 図3は、残留信号の符号化が後に続くスピーチのLPCフィルタリングを例示するブロック図である。 図4Aは、オリジナルのスピーチのプロットである。 図4Bは、LPCフィルタリング後の残留スピーチ信号のプロットである。 図5は、前のプロトタイプピッチ期間と現在のプロトタイプピッチ期間との間の補間を用いた波形の生成を例示する。 図6Aは、補間によってピッチ遅延を決定することを示す。 図6Bは、ピッチ期間を識別することを示す。 図7Aは、オリジナルのスピーチ信号をピッチ期間の形で示す。 図7Bは、オーバラップ追加を用いて展開されたスピーチ信号を表す。 図7Cは、オーバラップ追加を用いて圧縮されたスピーチ信号を表す。 図7Dは、残留信号を圧縮するために重み付けがどのように使用されるかを表す。 図7Eは、オーバラップ追加を用いずに圧縮されたスピーチ信号を表す。 図7Fは、残留信号を展開するために重み付けがどのように使用されるかを表す。 図8は、オーバラップ追加方法で使用される2つの方程式を含む。

Claims (35)

  1. スピーチを通信する方法であって、
    プロトタイプピッチ期間(PPP)、符号励起型線形予測(CELP)、雑音励起型線形予測(NELP)、又は、1/8フレーム符号化を用いて符号化されたスピーチセグメントに基づく残留スピーチ信号を受信することと、
    前記残留スピーチ信号における残留スピーチセグメントを、前記残留スピーチセグメントに対して少なくとも1つのサンプルを加えるか、または、減じることによって時間伸縮することと、
    前記時間伸縮された残留スピーチ信号に基づいて、合成スピーチ信号を生成することとを備え、
    前記スピーチセグメントが、プロトタイプピッチ期間、符号励起型線形予測、雑音励起型線形予測、又は、1/8フレーム符号化を用いて符号化されたかに基づいて、複数の異なる時間伸縮方法のうちの1つが選択され、
    前記スピーチセグメントがCELPを用いて符号化された場合、前記時間伸縮方法は、
    最後のスピーチフレームの終わりにおけるピッチ遅延と、現在のスピーチフレームの終わりにおけるピッチ遅延との間を補間することによって、前記残留スピーチ信号におけるピッチ遅延を推定することと、
    前記残留スピーチ信号における任意のポイントにおけるピッチ遅延を用いて、ピッチ期間の境界を決定することと、
    前記決定されたピッチ期間に、前記残留スピーチ信号を分割することと、
    前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせることと、
    前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えることと
    を備える方法。
  2. 分類されたスピーチフレームを符号化することを更に備え、前記スピーチフレームを符号化することは、
    線形予測符号化フィルタを介して前記残留スピーチ信号を送り、前記残留スピーチ信号における短期的な相関をフィルタ出力することと、
    線形予測符号化係数及び残留信号を出力することと
    を備える請求項1に記載のスピーチ通信方法。
  3. 前記スピーチフレームを符号化することの前に、前記スピーチフレームを分類することを備え、前記スピーチフレームを分類することは、スピーチフレームが音声スピーチ、無音声スピーチ、又は瞬間的スピーチであるかに依存して、前記スピーチフレームを、周期的であるか、僅かに周期的であるか、あるいは雑音が多いかとして分類することを備える請求項2に記載のスピーチ通信方法。
  4. 前記時間伸縮するステップは、
    前記少なくとも1つのピッチ期間を補間すること
    からなるステップを更に備え、
    前記加えるか、または、減じることは、
    前記残留スピーチ信号を展開する場合、前記少なくとも1つのピッチ期間を加えることと、
    前記残留スピーチ信号を圧縮する場合、前記少なくとも1つのピッチ期間を減じることと
    を備える請求項1に記載の方法。
  5. 前記符号化することが、雑音励起型線形予測符号化を用いる場合、前記符号化するステップは、線形予測符号化情報を、スピーチセグメントの別の部分の利得として符号化することを更に備える請求項2に記載の方法。
  6. 前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせるステップは、
    インプットサンプルシーケンスを、サンプルブロックにセグメント化することと、
    規則的な時間間隔において前記残留スピーチ信号のセグメントを除去することと、
    前記除去したセグメントを合併することと、
    前記除去したセグメントを、合併したセグメントに置き換えることと
    を備える請求項1に記載の方法。
  7. 前記ピッチ遅延を推定するステップは、最後のフレームの終わりと、現在のフレームの終わりとのピッチ遅延の間を補間することを備える請求項1に記載の方法。
  8. 前記ピッチ期間を加えるステップは、スピーチセグメントを合併することを備える請求項1に記載の方法。
  9. 前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えるステップは、第1のピッチ期間セグメントと第2のピッチ期間セグメントとから生成される追加ピッチ期間を加えることを備える請求項1に記載の方法。
  10. 前記利得は、スピーチサンプルのセットに対して符号化される請求項5に記載の方法。
  11. 前記除去したセグメントを合併するステップは、
    第1のピッチ期間セグメントの寄付を増加させることと、
    第2のピッチ期間セグメントの寄付を減少させることと
    を備える請求項6に記載の方法。
  12. 類似のスピーチセグメントを選択するステップを更に備え、前記類似のスピーチセグメントが合併される請求項8に記載の方法。
  13. スピーチセグメントを相関付けるステップを更に備え、これによって類似のスピーチセグメントが選択される請求項8に記載の方法。
  14. 前記第1のピッチ期間セグメントと第2のピッチ期間セグメントとから生成される追加ピッチ期間を加えるステップは、前記第1のピッチ期間セグメントの寄与が増加し、前記第2のピッチ期間セグメントの寄与が減少するように前記第1のピッチセグメントと前記第2のピッチセグメントとを加えることを備える請求項9に記載の方法。
  15. ランダム値を生成することにより残留信号を生成することと、
    その後、前記ランダム値に前記利得を適用することと
    からなる各ステップを更に備える請求項10に記載の方法。
  16. 前記線形予測符号化情報を、符号化された10の利得値として表すステップを更に備え、符号化された各利得値は、16のスピーチサンプルを代表する請求項10に記載の方法。
  17. 少なくとも1つのインプットと少なくとも1つのアウトプットとを有するボコーダであって、
    プロトタイプピッチ期間(PPP)、符号励起型線形予測(CELP)、雑音励起型線形予測(NELP)、又は、1/8フレーム符号化を用いて符号化されたスピーチセグメントに基づく残留スピーチ信号を受信するデコーダを備え、
    前記デコーダは、記少なくとも1つのアウトプットに操作可能に接続された少なくとも1つのインプットと、前記ボコーダの前記少なくとも1つのアウトプットに操作可能に接続された少なくとも1つのアウトプットとを有するシンセサイザと、メモリとを備え、前記メモリに格納されたソフトウェア命令を実行するように適応され、
    前記命令は、前記残留スピーチ信号における残留スピーチセグメントを、前記残留スピーチセグメントに対して少なくとも1つのサンプルを加えるか、または、減じることによって時間伸縮することを備え、
    前記スピーチセグメントが、プロトタイプピッチ期間、符号励起型線形予測、又は雑音励起型線形予測、又は、1/8フレーム符号化を用いて符号化されたかに基づいて、複数の異なる時間伸縮方法のうちの1つが選択され、
    前記スピーチセグメントがCELPを用いて符号化された場合、前記時間伸縮方法は、
    最後のスピーチフレームの終わりにおけるピッチ遅延と、現在のスピーチフレームの終わりにおけるピッチ遅延との間を補間することによって、前記残留スピーチ信号におけるピッチ遅延を推定することと、
    前記残留スピーチ信号における任意のポイントにおけるピッチ遅延を用いて、ピッチ期間の境界を決定することと、
    前記決定されたピッチ期間に、前記残留スピーチ信号を分割することと、
    前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせることと、
    前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えることと
    を備えるボコーダ。
  18. 前記ボコーダのインプットに操作可能に接続された少なくとも1つのインプットと、少なくとも1つのアウトプットとを有するフィルタを備えるエンコーダを更に備え、
    前記フィルタは、スピーチ信号における短期的な相関をフィルタ出力し、線形予測符号化係数及び残留信号を出力するように適応された線形予測符号化フィルタである請求項17に記載のボコーダ。
  19. 前記エンコーダはメモリを備え、
    前記エンコーダは、符号励起型線形予測符号化を用いて前記スピーチセグメントを符号化することを備え前記メモリに格納されたソフトウェア命令を実行するように適応された請求項18に記載のボコーダ。
  20. 前記エンコーダはメモリを備え、
    前記エンコーダは、雑音励起型線形予測符号化を用いて前記スピーチセグメントを符号化することを備え前記メモリに格納されたソフトウェア命令を実行するように適応された請求項18に記載のボコーダ。
  21. 前記時間伸縮するソフトウェア命令は、
    前記少なくとも1つのピッチ期間を補間することを備え、
    前記加えるか、または、減じることは、
    前記残留スピーチ信号を展開する場合、前記少なくとも1つのピッチ期間を加えることと、
    前記残留スピーチ信号を圧縮する場合、前記少なくとも1つのピッチ期間を減じることと
    を備える請求項17に記載のボコーダ。
  22. 前記雑音励起型線形予測符号化するソフトウェア命令を用いて前記スピーチセグメントを符号化することは、線形予測符号化情報を、スピーチセグメントの別の部分の利得として符号化することを備える請求項20に記載のボコーダ。
  23. 前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせる命令は、
    インプットサンプルシーケンスをサンプルブロックにセグメント化することと、
    規則的な時間間隔において、前記残留スピーチ信号のセグメントを除去することと、
    前記除去されたセグメントを合併することと、
    前記除去されたセグメントを、合併されたセグメントと置き換えることと
    を備える請求項17に記載のボコーダ。
  24. 前記ピッチ遅延を推定する命令は、最後のフレームの終わりと、現在のフレームの終わりとの間のピッチ遅延を補間することを備える請求項17に記載のボコーダ。
  25. 前記ピッチ期間を加える命令は、スピーチセグメントを合併することを備える請求項17に記載のボコーダ。
  26. 前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加える命令は、第1のピッチ期間セグメントと第2のピッチ期間セグメントとから生成される追加のピッチ期間を加えることを備える請求項17に記載のボコーダ。
  27. 前記利得は、スピーチサンプルのセットに対して符号化される請求項22に記載のボコーダ。
  28. 前記除去されたセグメントを合併する命令は、
    第1のピッチ期間セグメントの寄付を増加させることと、
    第2のピッチ期間セグメントの寄与を減少させることと
    を備える請求項23に記載のボコーダ。
  29. 類似のスピーチセグメントを選択するステップを更に備え、前記類似のスピーチセグメントが合併される請求項25に記載のボコーダ。
  30. 前記時間伸縮する命令は更に、スピーチセグメントを相関付けることを備え、これによって、類似のスピーチセグメントが選択される請求項25に記載のボコーダ。
  31. 前記第1のピッチ期間セグメントと第2のピッチ期間セグメントとから生成される追加のピッチ期間を加える命令は、前記第1のピッチ期間セグメントの寄与が増加し、前記第2のピッチ期間セグメントの寄与が減少するように前記第1のピッチセグメントと前記第2のピッチセグメントとを加えることを備える請求項26に記載のボコーダ。
  32. 前記時間伸縮する命令は更に、
    ランダム値を生成することにより残留スピーチ信号を生成することと、
    その後、前記ランダム値に前記利得を適用することと
    を備える請求項27に記載のボコーダ。
  33. 前記時間伸縮する命令は更に、前記線形予測符号化情報を、符号化された10の利得値として表すことを更に備え、符号化された各利得値は、16のスピーチサンプルを代表する請求項27に記載のボコーダ。
  34. 残留信号を生成するために、プロトタイプピッチ期間(PPP)、符号励起型線形予測(CELP)、雑音励起型線形予測(NELP)、又は、1/8フレーム符号化を用いて符号化されたスピーチセグメントに基づく残留スピーチ信号を受信する手段と、
    前記残留スピーチ信号における残留スピーチセグメントを、前記残留スピーチセグメントに対して少なくとも1つのサンプルを加えるか、または、減じることによって時間伸縮する手段と、
    前記時間伸縮された残留スピーチ信号に基づいて、合成スピーチ信号を生成する手段とを備え、
    前記スピーチセグメントが、プロトタイプピッチ期間、符号励起型線形予測、雑音励起型線形予測、又は、1/8フレーム符号化を用いて符号化されたかに基づいて、複数の異なる時間伸縮方法のうちの1つが選択され、
    前記スピーチセグメントがCELPを用いて符号化された場合、前記時間伸縮方法は、
    最後のスピーチフレームの終わりにおけるピッチ遅延と、現在のスピーチフレームの終わりにおけるピッチ遅延との間を補間することによって、前記残留スピーチ信号におけるピッチ遅延を推定することと、
    前記残留スピーチ信号における任意のポイントにおけるピッチ遅延を用いて、ピッチ期間の境界を決定することと、
    前記決定されたピッチ期間に、前記残留スピーチ信号を分割することと、
    前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせることと、
    前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えることと
    を備えるボコーダ。
  35. プロセッサに、スピーチを通信するための動作を実行させるためのプログラムを記録したプロセッサ読取可能な記録媒体であって、
    前記プログラムは、前記プロセッサに対して、
    プロトタイプピッチ期間(PPP)、符号励起型線形予測(CELP)、雑音励起型線形予測(NELP)、又は、1/8フレーム符号化を用いて符号化されたスピーチセグメントに基づく残留スピーチ信号を受信するための手順と、
    前記残留スピーチ信号における残留スピーチセグメントを、前記残留スピーチセグメントに対して少なくとも1つのサンプルを加えるか、または、減じることによって時間伸縮するための手順と、
    前記時間伸縮された残留スピーチ信号に基づいて、合成スピーチ信号を生成するための手順と、
    前記スピーチセグメントが、プロトタイプピッチ期間、符号励起型線形予測、雑音励起型線形予測、又は、1/8フレーム符号化を用いて符号化されたかに基づいて、複数の異なる時間伸縮方法のうちの1つを選択するための手順とを備え、
    前記時間伸縮方法は、前記スピーチセグメントがCELPを用いて符号化された場合、
    最後のスピーチフレームの終わりにおけるピッチ遅延と、現在のスピーチフレームの終わりにおけるピッチ遅延との間を補間することによって、前記残留スピーチ信号におけるピッチ遅延を推定することと、
    前記残留スピーチ信号における任意のポイントにおけるピッチ遅延を用いて、ピッチ期間の境界を決定することと、
    前記決定されたピッチ期間に、前記残留スピーチ信号を分割することと、
    前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせることと、
    前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えることと
    を備えるプロセッサ読取可能な記録媒体。
JP2008501073A 2005-03-11 2006-03-13 残留信号を修正することによって、ボコーダ内部のフレームを時間伸縮すること Active JP5203923B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US66082405P 2005-03-11 2005-03-11
US60/660,824 2005-03-11
US11/123,467 2005-05-05
US11/123,467 US8155965B2 (en) 2005-03-11 2005-05-05 Time warping frames inside the vocoder by modifying the residual
PCT/US2006/009472 WO2006099529A1 (en) 2005-03-11 2006-03-13 Time warping frames inside the vocoder by modifying the residual

Publications (2)

Publication Number Publication Date
JP2008533529A JP2008533529A (ja) 2008-08-21
JP5203923B2 true JP5203923B2 (ja) 2013-06-05

Family

ID=36575961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008501073A Active JP5203923B2 (ja) 2005-03-11 2006-03-13 残留信号を修正することによって、ボコーダ内部のフレームを時間伸縮すること

Country Status (14)

Country Link
US (1) US8155965B2 (ja)
EP (1) EP1856689A1 (ja)
JP (1) JP5203923B2 (ja)
KR (2) KR100956623B1 (ja)
AU (1) AU2006222963C1 (ja)
BR (1) BRPI0607624B1 (ja)
CA (1) CA2600713C (ja)
IL (1) IL185935A (ja)
MX (1) MX2007011102A (ja)
NO (1) NO20075180L (ja)
RU (1) RU2371784C2 (ja)
SG (1) SG160380A1 (ja)
TW (1) TWI389099B (ja)
WO (1) WO2006099529A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
ATE488838T1 (de) * 2004-08-30 2010-12-15 Qualcomm Inc Verfahren und vorrichtung für einen adaptiven de- jitter-puffer
US7674096B2 (en) * 2004-09-22 2010-03-09 Sundheim Gregroy S Portable, rotary vane vacuum pump with removable oil reservoir cartridge
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
BRPI0607646B1 (pt) * 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8401865B2 (en) 2007-07-18 2013-03-19 Nokia Corporation Flexible parameter update in audio/speech coded signals
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
CN103000178B (zh) * 2008-07-11 2015-04-08 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
BR112012009490B1 (pt) 2009-10-20 2020-12-01 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados
AU2011240621B2 (en) 2010-04-12 2015-04-16 Smule, Inc. Continuous score-coded pitch correction and harmony generation techniques for geographically distributed glee club
TWI409802B (zh) * 2010-04-14 2013-09-21 Univ Da Yeh 音頻特徵處理方法及其裝置
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
PL3471092T3 (pl) 2011-02-14 2020-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekodowanie pozycji impulsów ścieżek sygnału audio
ES2534972T3 (es) 2011-02-14 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
AU2012217153B2 (en) 2011-02-14 2015-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
CN103534754B (zh) 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
CN102959620B (zh) * 2011-02-14 2015-05-13 弗兰霍菲尔运输应用研究公司 利用重迭变换的信息信号表示
CN103092330B (zh) * 2011-10-27 2015-11-25 宏碁股份有限公司 电子装置及其语音辨识方法
TWI584269B (zh) * 2012-07-11 2017-05-21 Univ Nat Central Unsupervised language conversion detection method
FR3024582A1 (fr) 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal

Family Cites Families (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5643800A (en) 1979-09-19 1981-04-22 Fujitsu Ltd Multilayer printed board
JPS57158247A (en) 1981-03-24 1982-09-30 Tokuyama Soda Co Ltd Flame retardant polyolefin composition
JPS59153346A (ja) * 1983-02-21 1984-09-01 Nec Corp 音声符号化・復号化装置
JPS61156949A (ja) 1984-12-27 1986-07-16 Matsushita Electric Ind Co Ltd 音声パケツト通信方式
BE1000415A7 (nl) 1987-03-18 1988-11-22 Bell Telephone Mfg Asynchroon op basis van tijdsverdeling werkend communicatiesysteem.
JPS6429141A (en) 1987-07-24 1989-01-31 Nec Corp Packet exchange system
JP2760810B2 (ja) 1988-09-19 1998-06-04 株式会社日立製作所 音声パケット処理方法
SE462277B (sv) 1988-10-05 1990-05-28 Vme Ind Sweden Ab Hydrauliskt styrsystem
JPH04113744A (ja) 1990-09-04 1992-04-15 Fujitsu Ltd 可変速度パケット伝送方式
DE69128772T2 (de) * 1990-09-19 1998-08-06 Philips Electronics N.V., Eindhoven System mit einem aufzeichnungsträger und einer wiedergabevorrichtung
JP2846443B2 (ja) 1990-10-09 1999-01-13 三菱電機株式会社 パケット組立分解装置
US5283811A (en) * 1991-09-03 1994-02-01 General Electric Company Decision feedback equalization for digital cellular radio
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5317604A (en) * 1992-12-30 1994-05-31 Gte Government Systems Corporation Isochronous interface method
JP3186315B2 (ja) * 1993-02-27 2001-07-11 ソニー株式会社 信号圧縮装置、信号伸張装置、信号送信装置、信号受信装置及び信号送受信装置
US5490479A (en) * 1993-05-10 1996-02-13 Shalev; Matti Method and a product resulting from the use of the method for elevating feed storage bins
US5440562A (en) 1993-12-27 1995-08-08 Motorola, Inc. Communication through a channel having a variable propagation delay
JP3713715B2 (ja) * 1994-08-12 2005-11-09 ソニー株式会社 ビデオ信号編集装置
NL9401696A (nl) 1994-10-14 1996-05-01 Nederland Ptt Bufferuitleesbesturing van ATM ontvanger.
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5699478A (en) 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5929921A (en) 1995-03-16 1999-07-27 Matsushita Electric Industrial Co., Ltd. Video and audio signal multiplex sending apparatus, receiving apparatus and transmitting apparatus
JP3286110B2 (ja) 1995-03-16 2002-05-27 松下電器産業株式会社 音声パケット補間装置
KR0164827B1 (ko) * 1995-03-31 1999-03-20 김광호 프로그램 가이드신호 수신기
JPH09127995A (ja) 1995-10-26 1997-05-16 Sony Corp 信号復号化方法及び信号復号化装置
US5640388A (en) * 1995-12-21 1997-06-17 Scientific-Atlanta, Inc. Method and apparatus for removing jitter and correcting timestamps in a packet stream
JPH09261613A (ja) 1996-03-26 1997-10-03 Mitsubishi Electric Corp データ受信再生装置
US5940479A (en) * 1996-10-01 1999-08-17 Northern Telecom Limited System and method for transmitting aural information between a computer and telephone equipment
JPH10190735A (ja) 1996-12-27 1998-07-21 Secom Co Ltd 通話システム
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6259677B1 (en) * 1998-09-30 2001-07-10 Cisco Technology, Inc. Clock synchronization and dynamic jitter management for voice over IP and real-time data
US6370125B1 (en) * 1998-10-08 2002-04-09 Adtran, Inc. Dynamic delay compensation for packet-based voice network
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
WO2000063883A1 (en) 1999-04-19 2000-10-26 At & T Corp. Method and apparatus for performing packet loss or frame erasure concealment
GB9911737D0 (en) * 1999-05-21 1999-07-21 Philips Electronics Nv Audio signal time scale modification
US6785230B1 (en) * 1999-05-25 2004-08-31 Matsushita Electric Industrial Co., Ltd. Audio transmission apparatus
JP4218186B2 (ja) 1999-05-25 2009-02-04 パナソニック株式会社 音声伝送装置
JP4895418B2 (ja) 1999-08-24 2012-03-14 ソニー株式会社 音声再生方法および音声再生装置
EP1221694B1 (en) 1999-09-14 2006-07-19 Fujitsu Limited Voice encoder/decoder
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
US6859460B1 (en) * 1999-10-22 2005-02-22 Cisco Technology, Inc. System and method for providing multimedia jitter buffer adjustment for packet-switched networks
US6665317B1 (en) 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6496794B1 (en) * 1999-11-22 2002-12-17 Motorola, Inc. Method and apparatus for seamless multi-rate speech coding
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6693921B1 (en) * 1999-11-30 2004-02-17 Mindspeed Technologies, Inc. System for use of packet statistics in de-jitter delay adaption in a packet network
GB2360178B (en) * 2000-03-06 2004-04-14 Mitel Corp Sub-packet insertion for packet loss compensation in Voice Over IP networks
US6813274B1 (en) * 2000-03-21 2004-11-02 Cisco Technology, Inc. Network switch and method for data switching using a crossbar switch fabric with output port groups operating concurrently and independently
EP1275225B1 (en) 2000-04-03 2007-12-26 Ericsson Inc. Method and apparatus for efficient handover in packet data communication system
EP1796083B1 (en) 2000-04-24 2009-01-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US7246057B1 (en) * 2000-05-31 2007-07-17 Telefonaktiebolaget Lm Ericsson (Publ) System for handling variations in the reception of a speech signal consisting of packets
EP1182875A3 (en) * 2000-07-06 2003-11-26 Matsushita Electric Industrial Co., Ltd. Streaming method and corresponding system
US7155518B2 (en) * 2001-01-08 2006-12-26 Interactive People Unplugged Ab Extranet workgroup formation across multiple mobile virtual private networks
US20020133334A1 (en) * 2001-02-02 2002-09-19 Geert Coorman Time scale modification of digitally sampled waveforms in the time domain
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US7212517B2 (en) * 2001-04-09 2007-05-01 Lucent Technologies Inc. Method and apparatus for jitter and frame erasure correction in packetized voice communication systems
DE60137656D1 (de) 2001-04-24 2009-03-26 Nokia Corp Verfahren zum ändern der Grösse eines Zitterpuffers und zur Zeitausrichtung, Kommunikationssystem, Empfängerseite und Transcoder
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7266127B2 (en) * 2002-02-08 2007-09-04 Lucent Technologies Inc. Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system
US7079486B2 (en) * 2002-02-13 2006-07-18 Agere Systems Inc. Adaptive threshold based jitter buffer management for packetized data
US7158572B2 (en) * 2002-02-14 2007-01-02 Tellabs Operations, Inc. Audio enhancement communication techniques
US7126957B1 (en) * 2002-03-07 2006-10-24 Utstarcom, Inc. Media flow method for transferring real-time data between asynchronous and synchronous networks
US7263109B2 (en) * 2002-03-11 2007-08-28 Conexant, Inc. Clock skew compensation for a jitter buffer
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3761486B2 (ja) * 2002-03-29 2006-03-29 Necインフロンティア株式会社 無線lanシステム、主装置およびプログラム
US20050228648A1 (en) * 2002-04-22 2005-10-13 Ari Heikkinen Method and device for obtaining parameters for parametric speech coding of frames
US7496086B2 (en) * 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
US7280510B2 (en) * 2002-05-21 2007-10-09 Nortel Networks Limited Controlling reverse channel activity in a wireless communications system
WO2003107591A1 (en) * 2002-06-14 2003-12-24 Nokia Corporation Enhanced error concealment for spatial audio
US7336678B2 (en) * 2002-07-31 2008-02-26 Intel Corporation State-based jitter buffer and method of operation
US8520519B2 (en) * 2002-09-20 2013-08-27 Broadcom Corporation External jitter buffer in a packet voice system
JP3796240B2 (ja) 2002-09-30 2006-07-12 三洋電機株式会社 ネットワーク電話機および音声復号化装置
JP4146708B2 (ja) 2002-10-31 2008-09-10 京セラ株式会社 通信システム、無線通信端末、データ配信装置及び通信方法
US6996626B1 (en) * 2002-12-03 2006-02-07 Crystalvoice Communications Continuous bandwidth assessment and feedback for voice-over-internet-protocol (VoIP) comparing packet's voice duration and arrival rate
KR100517237B1 (ko) 2002-12-09 2005-09-27 한국전자통신연구원 직교 주파수 분할 다중화 무선 통신 시스템에서의채널품질 추정과 링크적응 방법 및 그 장치
US7525918B2 (en) * 2003-01-21 2009-04-28 Broadcom Corporation Using RTCP statistics for media system control
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
JP2004266724A (ja) 2003-03-04 2004-09-24 Matsushita Electric Ind Co Ltd リアルタイム音声用バッファ制御装置
JP3825007B2 (ja) * 2003-03-11 2006-09-20 沖電気工業株式会社 ジッタバッファの制御方法
US7551671B2 (en) * 2003-04-16 2009-06-23 General Dynamics Decision Systems, Inc. System and method for transmission of video signals using multiple channels
JP2005057504A (ja) 2003-08-05 2005-03-03 Matsushita Electric Ind Co Ltd データ通信装置及びデータ通信方法
CA2536358C (en) * 2003-08-15 2011-09-27 Research In Motion Uk Limited Apparatus, and an associated method, for preserving service quality levels during hand-off in a radio communication system
US7596488B2 (en) 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US7505764B2 (en) * 2003-10-28 2009-03-17 Motorola, Inc. Method for retransmitting a speech packet
US7272400B1 (en) * 2003-12-19 2007-09-18 Core Mobility, Inc. Load balancing between users of a wireless base station
US7424026B2 (en) * 2004-04-28 2008-09-09 Nokia Corporation Method and apparatus providing continuous adaptive control of voice packet buffer at receiver terminal
JP4076981B2 (ja) 2004-08-09 2008-04-16 Kddi株式会社 通信端末装置およびバッファ制御方法
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060187970A1 (en) * 2005-02-22 2006-08-24 Minkyu Lee Method and apparatus for handling network jitter in a Voice-over IP communications network using a virtual jitter buffer and time scale modification
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
BRPI0607646B1 (pt) * 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala

Also Published As

Publication number Publication date
RU2007137643A (ru) 2009-04-20
EP1856689A1 (en) 2007-11-21
AU2006222963C1 (en) 2010-09-16
BRPI0607624A2 (pt) 2009-09-22
KR100957265B1 (ko) 2010-05-12
US20060206334A1 (en) 2006-09-14
SG160380A1 (en) 2010-04-29
BRPI0607624B1 (pt) 2019-03-26
MX2007011102A (es) 2007-11-22
US8155965B2 (en) 2012-04-10
JP2008533529A (ja) 2008-08-21
IL185935A0 (en) 2008-01-06
NO20075180L (no) 2007-10-31
TWI389099B (zh) 2013-03-11
WO2006099529A1 (en) 2006-09-21
CA2600713A1 (en) 2006-09-21
CA2600713C (en) 2012-05-22
AU2006222963B2 (en) 2010-04-08
KR100956623B1 (ko) 2010-05-11
KR20090119936A (ko) 2009-11-20
AU2006222963A1 (en) 2006-09-21
TW200638336A (en) 2006-11-01
RU2371784C2 (ru) 2009-10-27
IL185935A (en) 2013-09-30
KR20070112832A (ko) 2007-11-27

Similar Documents

Publication Publication Date Title
JP5203923B2 (ja) 残留信号を修正することによって、ボコーダ内部のフレームを時間伸縮すること
KR100956526B1 (ko) 보코더에서 프레임을 위상 매칭하는 방법 및 장치
JP5006398B2 (ja) 広帯域ボコーダのタイムワーピングフレーム
JP5373217B2 (ja) 可変レートスピーチ符号化
JP5202960B2 (ja) 通信システムにおけるフレームの連結方法
JP2010501896A5 (ja)
CN111566733B (zh) 选择音高滞后
WO2003041054A2 (en) Enhancement of a coded speech signal
CN113826161A (zh) 用于检测待编解码的声音信号中的起音以及对检测到的起音进行编解码的方法和设备

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110608

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120416

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130214

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5203923

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250