JP2010501896A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2010501896A5 JP2010501896A5 JP2009525687A JP2009525687A JP2010501896A5 JP 2010501896 A5 JP2010501896 A5 JP 2010501896A5 JP 2009525687 A JP2009525687 A JP 2009525687A JP 2009525687 A JP2009525687 A JP 2009525687A JP 2010501896 A5 JP2010501896 A5 JP 2010501896A5
- Authority
- JP
- Japan
- Prior art keywords
- band
- speech
- signal
- vocoder
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 description 30
- 238000000034 method Methods 0.000 description 24
- 230000002194 synthesizing Effects 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 10
- 238000007906 compression Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 230000005284 excitation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 210000001260 Vocal Cords Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006011 modification reaction Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000000737 periodic Effects 0.000 description 2
- 210000000088 Lip Anatomy 0.000 description 1
- 230000003044 adaptive Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
- RZVAJINKPMORJF-UHFFFAOYSA-N p-acetaminophenol Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral Effects 0.000 description 1
- 230000001360 synchronised Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal Effects 0.000 description 1
Description
本発明は、一般にはタイムワーピング、即ち、ボコーダにおけるフレームの伸張または圧縮に関し、特に、広帯域ボコーダにおけるフレームをタイムワーピングする方法に関する。
タイムワーピングは、ボコーダパケットが非同期的に到達する可能性があるパケット交換ネットワークにおいて多くの応用を有している。タイムワーピングはボコーダの内部または外部で行われてよく、それをボコーダにおいて実施することは多くの利点、例えばワープしたフレームのより良好な品質および低い計算負荷を与える。
本発明は、音声信号を操作することにより、音声フレームをタイムワープする装置および方法を含んでなるものである。一つの側面では、第四世代ボコーダ(4GV)広帯域ボコーダの符号励振線形予測(CELP)および雑音励振線形予測(NELP)のフレームをタイムワーピングする方法が開示される。CELPフレームについて更に詳細に言えば、該方法は、音声を伸張または圧縮するためにピッチ周期を追加または削除することにより音声相を維持する。この方法では、より低い帯域の信号は残余において、即ち合成の前にタイムワープされてよいのに対して、より高い帯域の信号は8kHzドメインにおける合成の後にタイムワープされてよい。該開示される方法は、低帯域についてはCELPおよび/またはNELPを使用し、および/または分割帯域技術を使用して低帯域および高帯域を別々に符号化する如何なる広帯域ボコーダに適用されてもよい。なお、4GV広帯域の標準名称はEVRC−Cであることに留意すべきである。
上記の観点から、本発明の記述される特徴は、一般に、音声を通信するための1以上の改善されたシステム、方法および/または装置に関する。一つの実施形態において、本発明は、音声を通信する方法であって、残余低帯域音声信号を、該残余低帯域音声信号の伸張または圧縮バージョンへとタイムワープさせること;高帯域音声信号を、該高帯域音声信号の伸張または圧縮バージョンへとタイムワープさせること;および前記タイムワープされた低帯域および高帯域音声信号をマージして、全体のタイムワープされた音声信号を与えることを含んでなる方法からなるものである。本発明の一つの側面において、前記残余低帯域音声信号は、前記残余低帯域信号のタイムワーピング後に合成されるのに対して、高帯域においては、合成は前記高帯域音声信号のタイムワーピングの前に行われる。当該方法は更に、音声セグメントを分類すること、および該音声セグメントを符号化することを含んでいてもよい。該音声セグメントの符号化は、符号励振線形予測、雑音励振線形予測、または1/8(無音)フレームの符号化のうちの一つであってよい。低帯域とは約4kHz以下の周波数帯域を表してよく、また高帯域とは約3.5kHz〜約7kHzの帯域を表してよい。
もう一つの実施形態では、少なくとも一つの入力および少なくとも一つの出力を有するボコーダが開示され、このボコーダは、該ボコーダの入力に動作可能に接続された少なくとも一つの入力および少なくとも一つの出力を有するフィルタを含んでなる符号化器と、前記符号化器の少なくとも一つの出力に動作可能に接続された少なくとも一つの入力および前記ボコーダの少なくとも一つの出力に動作可能に接続された少なくとも一つの出力を有するシンセサイザを含んでなる復号器とを具備する。この実施形態において、該復号器はメモリーを具備してなり、ここでの復号器は該メモリーに保存されたソフトウエア命令を実行するように適合され、該ソフトウエア命令は、残余低帯域音声信号を該残余低帯域音声信号の伸張または圧縮バージョンへとタイムワープすること;高帯域音声信号を該高帯域音声信号の伸張または圧縮バージョンへとタイムワープすること;および前記タイムワープされた低帯域および高帯域音声信号をマージして、全体のタイムワープされた音声信号を与えることを含んでなるものである。前記シンセサイザは、前記タイムワープされた残余低帯域音声信号を合成するための手段と、それをタイムワープする前に前記高帯域音声信号を合成するための手段を具備する。前記符号化器はメモリーを備えており、音声セグメントを1/8(無音)フレーム、符号励振線形予測、または雑音励振線形予測として分類することを含んでなる、該メモリーに保存されたソフトウエア命令を実行するように適合されてよい。
本発明の更なる適用範囲は、以下の詳細な説明、特許請求の範囲および図面から明らかになるであろう。しかし、本発明の精神および範囲内の種々の変形および修飾が当業者に明らかになるであろうから、詳細な説明および特定の実施例は、本発明の好ましい実施形態を示すものではあるが、例示のためだけに与えられるものであることが理解されるべきである。
本発明は、以下に与えられる詳細な説明、特許請求の範囲、および添付の図面から更に充分に理解されるようになるであろう。図面において、
図1は、線形予測符号化(LPC)ボコーダのブロック図である。
図2Aは、有声音の音声を含む音声信号である。
図2Bは、無声音の音声を含む音声信号である。
図2Cは、一時的音声を含む音声信号である。
図3は、低帯域および高帯域のタイムワーピングを示すブロック図である。
図4Aは、補間によるピッチ遅延の決定を描いている。
図4Bは、ピッチ周期の同定を描いている。
図5Aは、ピッチ周期の形態で元の音声信号を表している。
図5Bは、overlap-and-add技術を使用して伸張された音声信号を表している。
図5Cは、overlap-and-add技術を使用して圧縮された音声信号を表している。
「例示的」の語は、ここでは「例、事例、または実例として役立つ」ことを意味するように使用される。ここで「例示的」として記載する何れかの実施形態は、必ずしも他の実施形態を凌駕して好ましく、または有利であるとは解釈されない。
タイムワーピングは、ボコーダパケットが非同期的に到着する可能性があるパケット切替えネットワークにおいて、多くの応用を有している。タイムワーピングは、ボコーダの内部または外部の何れで行われてもよいが、ボコーダの中でそれを行うことは、ワープされたフレームの良好な品質および低い通信負荷等の多くの利点を提供する。ここに記載する技術は、EVRC−Cが標準名称がある4GV−広帯域等の同様の技術を使用して音声データをボコードするような、他のボコーダにも容易に適用されてよい。
<ボコーダ機能の説明>
人間の声は二つの成分を含んでいる。一方の成分はピッチ感受性である基本波であり、他方はピッチ感受性でない固定された高調波である。音響の知覚されるピッチは、周波数に対する耳の反応である。即ち、最も実際的な目的では、ピッチは周波数である。高調波成分は、人間の声に対して独特の特徴を加える。それらは声帯と共に、また声道の物理的形状と共に変化し、フォルマントと称される。
人間の声は二つの成分を含んでいる。一方の成分はピッチ感受性である基本波であり、他方はピッチ感受性でない固定された高調波である。音響の知覚されるピッチは、周波数に対する耳の反応である。即ち、最も実際的な目的では、ピッチは周波数である。高調波成分は、人間の声に対して独特の特徴を加える。それらは声帯と共に、また声道の物理的形状と共に変化し、フォルマントと称される。
人間の声は、デジタル信号s(n)10で表されてよい(図1参照)。s(n)10が、異なる肉声および無音の時間を含む典型的な会話の際に得られたデジタル音声信号であると仮定しよう。この音声信号s(n)10は、図2A〜2Cに示すように、フレーム20に分割されてよい。一つの側面において、s(n)10は、8kHzでデジタル的にサンプリングされる。他の側面において、s(n)10は、16kHzもしくは32kHzまたは他の幾つかの周波数においてデジタル的にサンプリングされてよい。
現在の符号化スキームは、音声に固有の自然冗長性(即ち、相関要素)の全てを除去することによって、デジタル化された音声信号10を低ビットレートの信号に圧縮する。音声は典型的には、唇および舌の機械的動作から生じる短期冗長性と、声帯の振動から生じる長期冗長性とを示す。線形予測符号化(LPC)は、冗長性を除去することにより音声信号10をフィルタして、残余音声信号を生じる。次いで、それは得られた残余信号を白色ガウスノイズとしてモデル化する。音声波形のサンプリングされた値は、各々に線形予測係数を乗じた過去の多くのサンプルの合計を重み付けすることによって予測されてよい。従って、線形予測符号化器は、全帯域幅音声信号10ではなく、フィルタ係数および量子化されたノイズを送信することによって、低減されたビットレートを達成する。
図1には、LPCボコーダ70の一実施形態になるブロック図が示されている。LPCの機能は、有限の期間に亘って、元の音声信号と推定された音声信号の間の二乗差の合計を最小化することである。これは、フレーム20毎に予測されるユニークな予測子係数の組を生じ得る。フレーム20は、典型的には20msの長さである。時間が変化するデジタルフィルタ75の変換関数は、次式で与えられてよい:
ここで、予測子係数はakで、またゲインはGで表されてよい。
合計は、k=1からk=pまで計算される。LPC−10法が使用されれば、p=10である。このことは、最初の10個の係数だけが、LPCシンセサイザ80へ送信されることを意味している。該係数を計算するために最も普通に使用される二つの方法は、共分散法および自己相関法であるが、これらに限定されるものではない。
典型的なボコーダは、好ましくは8kHzレートでの160のサンプルまたは16kHzレートでの320のサンプルを含んだ、持続時間20msecのフレーム20を生じる。このフレーム20のタイムワープされた圧縮バージョンは、20msecよりも小さい持続時間を有するのに対して、タイムワーピングされた伸張バージョンは20msecよりも大きな持続時間を有する。肉声データのタイムワーピングは、肉声データをパケット切替えネットワーク上で送信するときに顕著な利点を有し、これは肉声パケットの送信において遅延ジッタを導入する。このようなネットワークにおいて、タイムワーピングは、斯かる遅延ジッタの効果を軽減し、また「同期式」ルッキング・ボイスストリームを生じるように使用されてよい。
本発明の実施形態は、音声残余を操作することによって、ボコーダ70の内部でフレーム20をタイムワーピングするための装置および方法に関する。一つの実施形態において、本発明の方法および装置は4GV広帯域において使用される。開示された実施形態は、符号励振線形予測(CELP)および雑音励振線形予測(NELP)を使用して、符号化された4GV広帯域音声セグメントの異なるタイプを伸張/圧縮するための方法および装置またはシステムを含んでいる。
「ボコーダ」70の用語は、典型的には、ヒト音声発生モデルに基づいてパラメータを抽出することにより、有声の音声を圧縮する装置を言う。ボコーダ70は、符号化器204および復号器206を含んでいる。符号化器204は入ってくる音声を分析し、関連のパラメータを抽出する。一実施形態において、該符号化器はフィルタ75を備えている。復号器206は、送信チャンネル208を介して符号化器204から受信するパラメータを使用して、前記音声を合成する。一実施形態において、該復号器はシンセサイザ80を含んでいる。音声信号10は、屡々、ボコーダ70により処理されるデータのフレーム20およびブロックに分割される。
当業者は、ヒト音声が多くの異なる方法で分類され得ることを理解するであろう。これら従来の音声分類は、有声、無声、音響、および一時的音声である。図2Aは、有声の音声信号s(n)402である。図2Aは、ピッチ周期100として知られた、有声音声の測定可能な共通の性質を示している。
図2Bは、無声の音声信号s(n)404である。無声の音声信号404は、有色雑音に類似している。
図2Cは、一時的な音声信号s(n)406、即ち、有声でも無声でもない音声を描いている。図2Cに示した一時的音声406の例は、無声音声と有声音声との間で遷移するs(n)を表すかもしれない。これら三つの分類は、全く包括的なものではない。多くの異なる分類の音声が存在し、それらは同等の結果を達成するように、ここに記載される方法に従って用いられてよい。
<4GV広帯域ボコーダ>
第四世代ボコーダ(4GV)は、本明細書の一部として本願に完全に援用する2005年5月5日に出願された「残余を修飾することによるボコーダ内部でのタイムワーピングフレーム」と題する同時係属の特許出願連続番号11/123,467に更に記載されるように、無線ネットワーク上で使用するための魅力的な特徴を提供する。これら特徴の幾つかには、品質vs.ビットレート、増大したパケットエラーレート(PER)にも拘わらず弾力的なボコーディング、削除のより良好な秘匿をトレードオフさせる能力が含まれる。本発明では、分離された帯域技術(split-band technique)、即ち、低帯域および高帯域が別々に符号化される技術を使用して音声を符号化する、4GV広帯域ボコーダが開示される。
第四世代ボコーダ(4GV)は、本明細書の一部として本願に完全に援用する2005年5月5日に出願された「残余を修飾することによるボコーダ内部でのタイムワーピングフレーム」と題する同時係属の特許出願連続番号11/123,467に更に記載されるように、無線ネットワーク上で使用するための魅力的な特徴を提供する。これら特徴の幾つかには、品質vs.ビットレート、増大したパケットエラーレート(PER)にも拘わらず弾力的なボコーディング、削除のより良好な秘匿をトレードオフさせる能力が含まれる。本発明では、分離された帯域技術(split-band technique)、即ち、低帯域および高帯域が別々に符号化される技術を使用して音声を符号化する、4GV広帯域ボコーダが開示される。
一つの側面において、入力信号は16kHzでサンプリングされた広帯域音声を表す。分析フィルタバンクが提供され、8kHでサンプリングされる狭帯域(低帯域)信号、および7kHzでサンプリングされる高帯域信号を発生させる。高帯域信号は、入力信号における約3.5kHz〜約7kHzの帯域を表すのに対して、低帯域信号は約4kHz以下の帯域を表し、最終的に再構築された帯域信号は約7kHzの帯域幅に制限されるであろう。なお、低帯域と高帯域の間には約500Hzの重なりが存在し、これら帯域間でのより段階的な遷移を可能にすることに留意すべきである。
一つの側面において、狭帯域信号は、狭帯域EVRC−B音声符号化器の改変バージョンを使用して符号化されるが、これはフレームサイズが20ミリ秒のCELP符号化器である。狭帯域符号化器からの幾つかの信号が高帯域分析および合成に使用される:これらは、(1)狭帯域符号化器からの励振(即ち、量子化された残余)信号;(2)量子化された第1の反射係数(狭帯域信号のスペクトル傾斜の指標として);(3)量子化された適応コードブックゲイン;および(4)量子化されたピッチラグである。
4GV広帯域に使用される改変されたEVRC−B狭帯域符号化器は、次の3つの異なるフレームタイプの1つにおける各フレーム音声データを符号化する:符号励振線形予測(CELP)、雑音励振線形予測(NELP)、または無音1/8レートフレーム。
CELPは、周期的な音声ならびに周期性に乏しい音声を含む殆どの音声を符号化するために使用される。典型的には、非無音フレームの約75%は、CELPを使用した改変EVRC−B狭帯域符号化器によって符号化される。
NELPは、その特性が雑音のような音声を符号化するために使用される。このような音声セグメントの雑音のような特性は、復号器でランダムな信号を発生し、次いでこれに適切なゲインを適用することによって再構成されてよい。
1/8レートフレームは、バックグラウンドノイズ、即ち、ユーザが話をしていない期間のノイズを符号化するために使用される。
<タイムワーピング4GV広帯域フレーム>
4GV広帯域ボコーダは低帯域および高帯域を別々に符号化するので、フレームをタイムワーピングする際には同じ基本方針が採られる。低帯域は、上記で述べた「残余を修飾することによるボコーダ内部でのタイムワーピングフレーム」と題する同時係属の特許出願に記載されたのと同様の技術を使用してタイムワープされる。
4GV広帯域ボコーダは低帯域および高帯域を別々に符号化するので、フレームをタイムワーピングする際には同じ基本方針が採られる。低帯域は、上記で述べた「残余を修飾することによるボコーダ内部でのタイムワーピングフレーム」と題する同時係属の特許出願に記載されたのと同様の技術を使用してタイムワープされる。
図3を参照すると、残余信号30に適用される低帯域ワーピング32が示されている。残余ドメインにおいてタイムワーピング32を行う主な理由は、これにより、LPC合成34がタイムワープされた残余信号に適用されることを可能にするからである。LPC係数は、音声がどのように聞こえるかに重要な役割を果たし、またワーピング32後に合成34を適用することは、当該信号の中に正確なLPC情報が維持されることを保証する。他方、タイムワーピングが復号器の後に行われるのであれば、LPC合成はタイムワーピングの前に既に行われている。従って、ワーピング操作は、特にピッチ周期の推定がそれほど正確でないならば、当該信号のLPC情報を変化させる可能性がある。
<音声セグメントがCELPであるときの残余信号のタイムワーピング>
残余をワープさせるために、復号器は、符号化されたフレームに含まれるピッチ遅延情報を使用する。このピッチ遅延は、実際には当該フレームの最後におけるピッチ遅延である。ここでは、周期的フレームにおいてさえ、ピッチ遅延は僅かに変化し得ることに留意すべきである。当該フレームの何れかの点におけるピッチ遅延は、最後のフレームの最後におけるピッチ遅延と現在のフレームの最後におけるピッチ遅延との間で、ピッチ遅延を補間することによって予測されてよい。これは図4に示されている。当該フレームの全ての点におけるピッチ遅延が知られていれば、該フレームはピッチ周期に分割されてよい。ピッチ周期の境界は、当該フレームにおける種々の点でのピッチ遅延を使用して決定される。
残余をワープさせるために、復号器は、符号化されたフレームに含まれるピッチ遅延情報を使用する。このピッチ遅延は、実際には当該フレームの最後におけるピッチ遅延である。ここでは、周期的フレームにおいてさえ、ピッチ遅延は僅かに変化し得ることに留意すべきである。当該フレームの何れかの点におけるピッチ遅延は、最後のフレームの最後におけるピッチ遅延と現在のフレームの最後におけるピッチ遅延との間で、ピッチ遅延を補間することによって予測されてよい。これは図4に示されている。当該フレームの全ての点におけるピッチ遅延が知られていれば、該フレームはピッチ周期に分割されてよい。ピッチ周期の境界は、当該フレームにおける種々の点でのピッチ遅延を使用して決定される。
図4Aは、当該フレームをそのピッチ周期に分割する仕方の一例を示している。例えば、サンプル番号70は約70のピッチ遅延を有しており、またサンプル番号142は約72のピッチ遅延を有している。従って、ピッチ周期は[1−70]から、および[71−142]である。
フレームがピッチ周期に分割されたら、これらピッチ周期は、残余のサイズを増大/減少させるためにoverlap-and-add技術されてよい。このoverlap-and-add技術の技術は既知の技術であり、図5A〜5Cは、残余を伸張/圧縮するために、それが如何にして使用されるかを示している。
或いは、音声信号が伸張される必要があるならば、ピッチ周期は反復されてよい。例えば、図5Bにおいて、余分のピッチ周期を生じるために、(PP2とのoverlap-and-add技術の代りに)ピッチ周期PP1は反復されてよい。
更に、ピッチ周期のoverlap-and-add技術および/または反復は、必要とされる量の伸張/圧縮を生じるように、必要とされる回数だけ行われてよい。
図5Aを参照すると、4ピッチ周期(PPs)を含んでなる元の音声信号が示されている。図5Bは、overlap-and-add技術を使用して、この音声信号が如何にして伸張され得るかを示している。図5Bにおいては、ピッチ周期PP2およびPP1がoverlap-and-add技術されて、PP2sの寄与が減少し、またPP1の寄与が増大するようになっている。図5Cは、残余を圧縮するために、overlap-and-add技術が如何にして使用されるかを示している。
ピッチ周期が変化している場合、このoverlap-and-add技術の技術は、等しくない長さの二つのピッチ周期のマージが必要とされる可能性がある。この場合、それらをoverlap-and-add技術する前に、二つのピッチ周期のピークを整列させることによって、より良好なマージが達成される可能性がある。
伸張/圧縮された残余は、最終的に、LPCシステムを通して送られる。
低帯域がワープされたら、低帯域からのピッチ周期を使用して広帯域をワープさせる必要がある。即ち、伸張のためにサンプルのピッチ周期が加えられる一方、圧縮のためにはピッチ周期が除去される。
高帯域をワープさせるための手順は、低帯域とは異なる。図3に戻って参照すると、高帯域は残余ドメインにおいてはワープされないが、高帯域サンプルの合成36後にワーピング38が行われる。この理由は、高帯域が7kHzでサンプリングされるのに対して、低帯域は8kHzでサンプリングされることである。従って、低帯域のピッチ周期(8kHzでサンプリングされたもの)は、サンプリングレートが高帯域におけると同様に7kHzであるときは、サンプルの端数になる可能性がある。一例として、ピッチ周期が低帯域における25であれば、高帯域の残余ドメインにおいて、これは25*7/8=21.875サンプルが高帯域残余から加算/除去されることを必要とするであろう。明らかに、サンプルの端数は発生され得ないので、高帯域は、それが8kHzに再サンプリングされた後にワープ38される。これは合成36の後の事例である。
低帯域がワープ32されたら、ワープされていない低帯域励振(160サンプルからなる)は、高帯域復号器へと回される。このワープされていない低帯域励振を使用して、高帯域復号器は、7kHzでの高帯域の140サンプルを生じる。これら140サンプルは、次いで合成フィルタ36を通され、8kHzに再サンプリングされて、160の高帯域サンプルを与える。
次いで、8kHzにおけるこれら160サンプルは、低帯域CELP音声セグメントをワープするために使用された低帯域からのピッチ周期およびoverlap-and-add技術の技術を使用してタイムワープ38される。
高帯域および低帯域が最終的に加算またはマージされて、全体のワープされた信号を生じる。
<音声セグメントがNELPであるときの残余信号のタイムワープ>
NELP音声セグメントについて、符号化器はLPC情報、並びに低帯域についての音声セグメントの異なる部分のゲインのみを符号化する。このゲインは、16のPCMサンプル各々の「セグメント」の中に符号化されてよい。従って、低帯域は、10の符号化されたゲイン値(16の音声サンプルの各々について一つ)として表されてよい。
NELP音声セグメントについて、符号化器はLPC情報、並びに低帯域についての音声セグメントの異なる部分のゲインのみを符号化する。このゲインは、16のPCMサンプル各々の「セグメント」の中に符号化されてよい。従って、低帯域は、10の符号化されたゲイン値(16の音声サンプルの各々について一つ)として表されてよい。
復号器は、ランダムな値を発生し、次いでこれらにそれぞれのゲインを適用することによって、低帯域残余信号を発生する。この場合、ピッチ周期の概念は存在せず、従って、低帯域の伸張/圧縮はピッチ周期の粒度でなければならないことはない。
低帯域のNELP符号化されたフレームを伸張/圧縮するために、復号器は10よりも大きい/小さい数のセグメントを発生させてよい。この場合における低帯域の伸張/圧縮は、複数の16サンプルによるものであり、N=16*nサンプルを導き、ここでのnはセグメントの数である。伸張の場合、余分な追加されるセグメントは、最初の10セグメントの何れかの関数のゲインを取ることができる。一例として、該余分なセグメントは第10番目のセグメントのゲインを取ってよい。
或いは、復号器は、y(10の代りに)サンプルの組に10の復号されたゲインを適用して、伸張された(y>16)または圧縮された(y<16)の低帯域残余を発生させることにより、符号化されたNELPの低帯域を伸張/圧縮してよい。
この伸張/圧縮された残余は、次いで、低帯域ワープされた信号を生じるために、LPC合成を通して送られる。
低帯域がワープされると、ワープされていない低帯域励振(160サンプルからなる)が高帯域復号器へと通される。このワープされていない低帯域励振を使用すると、高帯域復号器は、7kHzにおいて140の高帯域サンプルを生じる。次いで、これら140のサンプルは合成フィルタを通され、8kHzに再サンプリングされて、160の高帯域サンプルを生じる。
次いで、8kHzのこれら160のサンプルは、CELP音声セグメントの高帯域ワーピングと同じ方法、即ち、overlap-and-add技術を使用してタイムワープされる。NELPの高帯域についてoverlap-and-add技術を使用するとき、圧縮/伸張する量は、低帯域について使用される量と同じである。換言すれば、overlap-and-add技術法のために使用される「重なり」は、低帯域における伸張/圧縮の量であると仮定される。一例として、低帯域がワーピング後に192のサンプルを生じれば、overlap-and-add技術法に使用された重なり周期は、192−160=32サンプルである。
高帯域および低帯域は、最後にマージされて、全体のワープされたNELP音声セグメントを与える。
当業者は、種々の異なる技術および技量の何れかを使用して、情報および信号が表され得ることを理解するであろう。例えば、上記の説明を通して言及されたデータ、命令、コマンド、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場もしくは粒子、光学的場もしくは粒子、またはそれらの何れかの組み合わせによって表されてよい。
当業者は更に、個々に開示された実施形態との関係で記載された種々の例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップが、電子的ハードウエア、コンピュータソフトウエアまたは両者の組み合わせとして実施されてよいことを理解するであろう。ハードウエアおよびソフトウエアの互換性を明瞭に示すために、種々の例示的なコンポーネント、ブロック、モジュール、回路、およびステップについては、それらの機能によって上記で一般的に説明してきた。このような機能がハードウエアまたはソフトウエアの何れとして実施されるかは、特定のアプリケーションおよび全体のシステムに課される設計制約に依存する。当業者は、各々の特定のアプリケーションについて、記載された機能を種々の方法で実施してよいが、このような実施の決定が本発明の範囲からの逸脱を生じると解釈されるべきではない。
ここに開示された実施形態に関して記述された種々の例示的な論理ブロック、モジュールおよび回路は、ここに記載した機能を実行する様に設計された汎用プロセッサ、デジタル信号プロセッサ(DSP)、アプリケーション特異的集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、もしくは他のプログラマブル論理装置、個別のゲートもしくはトランジスタロジック、個別のハードウエアコンポーネント、またはそれらの何れかの組合せを用いて実施または実行されてよい。汎用プロセッサはマイクロプロセッサであってよいが、代替として、該プロセッサは何れか従来のプロセッサ、コントローラ、マイクロコントローラ、または状態マシンであっもよい。プロセッサもまた、コンピュータ処理装置の組合せ、例えば、DSPおよびマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと関連した1以上のマイクロプロセッサ、または何れか他の斯かる構成として実施されてよい。
ここに開示した実施形態に関連して説明した方法またはアルゴリズムのステップは、ハードウエアにおいて、プロセッサによって実施されるソフトウエアモジュールにおいて、またはこれら二つの組合せにおいて直接実現されてよい。ソフトウエアモジュールは、ランダムアクセスメモリー(RAM)、フラッシュメモリー、読取専用メモリー(ROM)、電気的なプログラマブルROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)、レジスタ、ハードディスク、取外し可能なディスク、CD−ROM、または当該技術において知られた何れか他の形態の保存媒体の中に存在してよい。例示的保存媒体は、プロセッサが該保存媒体から情報を読取り、且つ該媒体に情報を書き込むことができるように、前記プロセッサに結合される。或いは、該保存媒体は前記プロセッサと一体であってよい。前記プロセッサおよび前記保存媒体は、ASICの中に存在していてよい。ASICは、ユーザ端末の中に存在していてよい。或いは、該プロセッサおよび保存媒体は、ユーザ端末の中に個別のコンポーネントとして存在していてよい。
開示された実施形態の先の説明は、当業者が本発明を製造または使用することを可能にするために提供されるものである。これら実施形態に対する種々の変更は当業者に容易に明らかであり、ここに定義される一般的原理は、本発明の精神または範囲を逸脱することなく他の実施形態に適用されてよい。従って、本発明はここに示された実施形態に限定されることを意図するものではなく、ここに開示された原理および新規な特徴に一致した最も広い範囲が与えられるべきでものである。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/508,396 | 2006-08-22 | ||
US11/508,396 US8239190B2 (en) | 2006-08-22 | 2006-08-22 | Time-warping frames of wideband vocoder |
PCT/US2007/075284 WO2008024615A2 (en) | 2006-08-22 | 2007-08-06 | Time-warping frames of wideband vocoder |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2010501896A JP2010501896A (ja) | 2010-01-21 |
JP2010501896A5 true JP2010501896A5 (ja) | 2012-04-12 |
JP5006398B2 JP5006398B2 (ja) | 2012-08-22 |
Family
ID=38926197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009525687A Active JP5006398B2 (ja) | 2006-08-22 | 2007-08-06 | 広帯域ボコーダのタイムワーピングフレーム |
Country Status (10)
Country | Link |
---|---|
US (1) | US8239190B2 (ja) |
EP (1) | EP2059925A2 (ja) |
JP (1) | JP5006398B2 (ja) |
KR (1) | KR101058761B1 (ja) |
CN (1) | CN101506877B (ja) |
BR (1) | BRPI0715978A2 (ja) |
CA (1) | CA2659197C (ja) |
RU (1) | RU2414010C2 (ja) |
TW (1) | TWI340377B (ja) |
WO (1) | WO2008024615A2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
CN100524462C (zh) | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
EP2293294B1 (en) * | 2008-03-10 | 2019-07-24 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Device and method for manipulating an audio signal having a transient event |
US8768690B2 (en) | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
PL2311033T3 (pl) | 2008-07-11 | 2012-05-31 | Fraunhofer Ges Forschung | Dostarczanie sygnału aktywującego dopasowanie czasowe i kodowanie sygnału audio z jego użyciem |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
US8798776B2 (en) | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
US8428938B2 (en) * | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
ES2458354T3 (es) * | 2010-03-10 | 2014-05-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de señales de audio, codificador de señales de audio, métodos y programa de ordenador que utiliza tasa de muestreo dependiente de la codificación del contorno de distorsión en el tiempo |
KR101809298B1 (ko) | 2010-10-06 | 2017-12-14 | 파나소닉 주식회사 | 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법 |
CN102201240B (zh) * | 2011-05-27 | 2012-10-03 | 中国科学院自动化研究所 | 基于逆滤波的谐波噪声激励模型声码器 |
JP6303340B2 (ja) * | 2013-08-30 | 2018-04-04 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
US10083708B2 (en) * | 2013-10-11 | 2018-09-25 | Qualcomm Incorporated | Estimation of mixing factors to generate high-band excitation signal |
KR101972007B1 (ko) | 2014-04-24 | 2019-04-24 | 니폰 덴신 덴와 가부시끼가이샤 | 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체 |
ES2732859T3 (es) | 2014-05-01 | 2019-11-26 | Nippon Telegraph & Telephone | Codificador, descodificador, método de codificación, método de descodificación, programa de codificación, programa de descodificación y medio de grabación |
DE102018206689A1 (de) * | 2018-04-30 | 2019-10-31 | Sivantos Pte. Ltd. | Verfahren zur Rauschunterdrückung in einem Audiosignal |
Family Cites Families (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2412987A1 (fr) * | 1977-12-23 | 1979-07-20 | Ibm France | Procede de compression de donnees relatives au signal vocal et dispositif mettant en oeuvre ledit procede |
US4570232A (en) * | 1981-12-21 | 1986-02-11 | Nippon Telegraph & Telephone Public Corporation | Speech recognition apparatus |
CA1204855A (en) * | 1982-03-23 | 1986-05-20 | Phillip J. Bloom | Method and apparatus for use in processing signals |
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
DE4324853C1 (de) | 1993-07-23 | 1994-09-22 | Siemens Ag | Spannungserzeugungsschaltung |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5717823A (en) | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
US5594174A (en) * | 1994-06-06 | 1997-01-14 | University Of Washington | System and method for measuring acoustic reflectance |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
US5598505A (en) * | 1994-09-30 | 1997-01-28 | Apple Computer, Inc. | Cepstral correction vector quantizer for speech recognition |
JP2976860B2 (ja) | 1995-09-13 | 1999-11-10 | 松下電器産業株式会社 | 再生装置 |
DE69629486T2 (de) * | 1995-10-23 | 2004-06-24 | The Regents Of The University Of California, Oakland | Kontrollstruktur für klangsynthesierung |
TW321810B (ja) * | 1995-10-26 | 1997-12-01 | Sony Co Ltd | |
US5749073A (en) * | 1996-03-15 | 1998-05-05 | Interval Research Corporation | System for automatically morphing audio information |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
FR2786308B1 (fr) * | 1998-11-20 | 2001-02-09 | Sextant Avionique | Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US7315815B1 (en) | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6842735B1 (en) * | 1999-12-17 | 2005-01-11 | Interval Research Corporation | Time-scale modification of data-compressed audio information |
JP2001255882A (ja) * | 2000-03-09 | 2001-09-21 | Sony Corp | 音声信号処理装置及びその信号処理方法 |
US6735563B1 (en) | 2000-07-13 | 2004-05-11 | Qualcomm, Inc. | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system |
US6671669B1 (en) | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US6477502B1 (en) * | 2000-08-22 | 2002-11-05 | Qualcomm Incorporated | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system |
US6754629B1 (en) | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
CN1408146A (zh) * | 2000-11-03 | 2003-04-02 | 皇家菲利浦电子有限公司 | 音频信号的参数编码 |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US20020133334A1 (en) * | 2001-02-02 | 2002-09-19 | Geert Coorman | Time scale modification of digitally sampled waveforms in the time domain |
US6999598B2 (en) * | 2001-03-23 | 2006-02-14 | Fuji Xerox Co., Ltd. | Systems and methods for embedding data by dimensional compression and expansion |
CA2365203A1 (en) | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
US7254533B1 (en) * | 2002-10-17 | 2007-08-07 | Dilithium Networks Pty Ltd. | Method and apparatus for a thin CELP voice codec |
US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
EP1604352A4 (en) * | 2003-03-15 | 2007-12-19 | Mindspeed Tech Inc | SINGLE NOISE DELETION MODEL |
US7433815B2 (en) * | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
US7672838B1 (en) * | 2003-12-01 | 2010-03-02 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals |
US20050137730A1 (en) * | 2003-12-18 | 2005-06-23 | Steven Trautmann | Time-scale modification of audio using separated frequency bands |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
JP4146489B2 (ja) | 2004-05-26 | 2008-09-10 | 日本電信電話株式会社 | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
EP2189978A1 (en) * | 2004-08-30 | 2010-05-26 | QUALCOMM Incorporated | Adaptive De-Jitter Buffer for voice over IP |
US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
SG124307A1 (en) | 2005-01-20 | 2006-08-30 | St Microelectronics Asia | Method and system for lost packet concealment in high quality audio streaming applications |
US8155965B2 (en) | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US8355907B2 (en) * | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
JP5129115B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 高帯域バーストの抑制のためのシステム、方法、および装置 |
US7945305B2 (en) * | 2005-04-14 | 2011-05-17 | The Board Of Trustees Of The University Of Illinois | Adaptive acquisition and reconstruction of dynamic MR images |
US7490036B2 (en) * | 2005-10-20 | 2009-02-10 | Motorola, Inc. | Adaptive equalizer for a coded speech signal |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
-
2006
- 2006-08-22 US US11/508,396 patent/US8239190B2/en active Active
-
2007
- 2007-08-06 EP EP07813815A patent/EP2059925A2/en not_active Withdrawn
- 2007-08-06 JP JP2009525687A patent/JP5006398B2/ja active Active
- 2007-08-06 BR BRPI0715978-1A patent/BRPI0715978A2/pt not_active Application Discontinuation
- 2007-08-06 KR KR1020097005598A patent/KR101058761B1/ko active IP Right Grant
- 2007-08-06 CN CN2007800308129A patent/CN101506877B/zh active Active
- 2007-08-06 RU RU2009110202/09A patent/RU2414010C2/ru active
- 2007-08-06 CA CA2659197A patent/CA2659197C/en active Active
- 2007-08-06 WO PCT/US2007/075284 patent/WO2008024615A2/en active Application Filing
- 2007-08-13 TW TW096129874A patent/TWI340377B/zh not_active IP Right Cessation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5006398B2 (ja) | 広帯域ボコーダのタイムワーピングフレーム | |
JP2010501896A5 (ja) | ||
JP5203923B2 (ja) | 残留信号を修正することによって、ボコーダ内部のフレームを時間伸縮すること | |
US10249313B2 (en) | Adaptive bandwidth extension and apparatus for the same | |
JP5722437B2 (ja) | 広帯域音声コーディングのための方法、装置、およびコンピュータ可読記憶媒体 | |
US11328739B2 (en) | Unvoiced voiced decision for speech processing cross reference to related applications | |
JP2004252477A (ja) | 広帯域音声復元装置 | |
JP2004355018A (ja) | 広帯域音声復元方法及び広帯域音声復元装置 | |
JP2004046238A (ja) | 広帯域音声復元装置及び広帯域音声復元方法 |