JP2003504655A - 音声コーディングシステムにおける双方向ピッチエンハンスメント - Google Patents
音声コーディングシステムにおける双方向ピッチエンハンスメントInfo
- Publication number
- JP2003504655A JP2003504655A JP2001508443A JP2001508443A JP2003504655A JP 2003504655 A JP2003504655 A JP 2003504655A JP 2001508443 A JP2001508443 A JP 2001508443A JP 2001508443 A JP2001508443 A JP 2001508443A JP 2003504655 A JP2003504655 A JP 2003504655A
- Authority
- JP
- Japan
- Prior art keywords
- pitch enhancement
- reverse
- encoder
- celp
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002457 bidirectional effect Effects 0.000 title abstract 2
- 238000004891 communication Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 31
- 230000005284 excitation Effects 0.000 claims description 13
- 239000011295 pitch Substances 0.000 description 138
- 238000010586 diagram Methods 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 239000000835 fiber Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 102100032566 Carbonic anhydrase-related protein 10 Human genes 0.000 description 1
- 101000867836 Homo sapiens Carbonic anhydrase-related protein 10 Proteins 0.000 description 1
- 101001062854 Rattus norvegicus Fatty acid-binding protein 5 Proteins 0.000 description 1
- 102100031083 Uteroglobin Human genes 0.000 description 1
- 108090000203 Uteroglobin Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Pitch Enhancement In Speech Coding
Systems」と称する米国仮特許出願第60/142,092号(アトーニ
ードケット第97RSS380P)、および1999年8月2日に出願された「
Bi−Directional Pitch Enhancement In
Speech Coding Systems」と称する米国仮特許出願第09
/365,444号(アトーニードケット第97RSS380)の優先権を主張
する。
の知覚品質を向上するために、ピッチエンハンスメントを用いる低ビットレート
音声コーディングシステムに関する。
ディングシステムにおいて順方向ピッチエンハンスメントのみを用いる。これは
、大部分は、比較的大きな帯域幅が利用できる従来の音声コードのサブフレーム
のサイズが、順方向ピッチエンハンスメント単独で十分な知覚品質を提供するこ
とができることに起因する。しかしながら、音声コーディングシステムで用いら
れる種々の通信媒体内のより低ビットレートに対しては、合成後に再生された音
声の知覚品質は、高い知覚品質を維持できないでいる。
ピッチ予測時に発生されるピッチ遅延は、通常、サブフレーム全体のサイズに比
べてはるかに短い。すなわち、このピッチ遅延は、サブフレーム全体のうち比較
的小さい部分を含む。この特徴は、女性および子供のようなより高い(より短い
)ピッチを有するスピーカの場合にさらに助長する。従来の励起コードブック構
造は、低ビットレートで動作する際に、十分高い知覚品質を提供しない。これは
主には、音声信号の周期性が十分に確立されていないか、またはコードブックか
ら抽出された励起ベクトルが、高い知覚品質を有する合成音声信号を生成するに
は不十分であることに起因する。
、ますます低くなるビットレートを有する通信システムに関連して一般的である
ように、ピッチエンハンスメントが順方向のみに実行されるという事実によって
、知覚品質を著しく低下させることになる。これは、いくつかある他の理由のう
ちとりわけ、多くのパルスがないことに起因した大量のデッドスペースがサブフ
レーム内に存在するという事実による。より高いビットレートで動作し、従って
より短いサブフレームを有する従来の音声コーディングシステムにおいて、この
影響は、典型的には、人間の耳によって音声として知覚されない。このより低い
知覚品質の影響は、比較的低い利用可能なビットレートを有する音声コーディン
グを扱うほぼすべての音声コーディングシステムで認識されている。
テムと、図面を参照して本出願の残りの部分に記載される本発明との比較によっ
て、当業者に明らかとなる。
ンハンスメントを用いる音声コーディングシステムにおいて見出され得る。本発
明の特定の実施形態において、順方向ピッチエンハンスメントおよび逆方向ピッ
チエンハンスメントは、音声コーディングシステム全体のうち1つの部分におい
て実行される。例えば、エンコーダおよびデコーダを含む音声コーデックを有す
る音声コーディングシステムにおいて、順方向ピッチエンハンスメントおよび逆
方向ピッチエンハンスメントは、音声コーデックのエンコーダおよびデコーダの
両方において実行される。あるいは、本発明の他の実施形態では、順方向ピッチ
エンハンスメントおよび逆方向ピッチエンハンスメントは、音声コーデックのデ
コーダでのみ実行される。特定のアプリケーションによって決定されるように、
順方向ピッチエンハンスメントおよび逆方向ピッチエンハンスメントは分散型の
様式で実行される。各ピッチエンハンスメントは、音声コーデックのエンコーダ
およびデコーダの各々の少なくとも一部分において実行される。
ピッチエンハンスメント自身を用いて生成される。逆方向ピッチエンハンスメン
トは、以前に生成された順方向ピッチエンハンスメントの鏡像であり、逆方向ピ
ッチエンハンスメントは、順方向ピッチエンハンスメントに依存して生成される
。あるいは、本発明の別の実施形態では、逆方向ピッチエンハンスメントは、順
方向ピッチエンハンスメントと独立して生成される。すなわち逆方向ピッチエン
ハンスメントは、以前に生成された順方向ピッチエンハンスメントと関係なく生
成される。
な帯域幅が制限された、または利用可能な帯域幅を制約した通信媒体を用いて動
作する音声コーディングシステムに適合される。本発明の範囲および意図を逸脱
することなく、本発明において任意の通信媒体が用いられ得る。このような通信
媒体の例には、無線通信媒体、ワイヤに基づく電話通信媒体、光ファイバ通信媒
体およびイーサネット(登録商標)が含まれるが、これらに限定されない。
下の詳細な説明を解釈する際に、以下の詳細な説明から理解される。
0の1実施形態100を示すシステム図である。音声ピッチエンハンスメントシ
ステム110は、とりわけ、ピッチエンハンスメント処理回路構成要素112、
音声コーディング回路構成要素114、順方向ピッチエンハンスメント回路構成
要素116、逆方向ピッチエンハンスメント回路構成要素118および音声処理
回路構成要素119を含む。音声ピッチエンハンスメントシステム110は、非
強化(non-enhanced)音声データまたは励起信号120に対して動
作し、ピッチ強化(enhanced)音声データ130を生成する。ピッチ強
化音声データまたは励起信号130は、音声サブフレームに関して順方向および
逆方向の両方において実行されるピッチ予測およびピッチエンハンスメントを有
する音声データを含む。音声ピッチエンハンスメントシステム110は、本発明
の特定の実施形態においては、励起信号に対してのみ動作し、音声ピッチエンハ
ンスメントシステム110は、本発明の別の実施形態においては、音声データに
対してのみ動作する。
0は、逆方向ピッチエンハンスメント回路構成要素118を用いて逆方向ピッチ
予測を生成するために独立して動作する。あるいは、順方向ピッチエンハンスメ
ント回路構成要素116および逆方向ピッチエンハンスメント回路構成要素11
8は、音声コーディングシステムのピッチエンハンスメント全体を生成するため
に協働して動作する。本発明の他の実施形態では、ピッチエンハンスメント処理
回路構成要素112を用いて、順方向ピッチエンハンスメント回路構成要素11
6および逆方向ピッチエンハンスメント回路構成要素118をモニタリングする
監視制御動作が実行される。音声処理回路構成要素119は、音声データに対し
て動作し、音声データの操作を実行するための、音声処理分野の当業者に公知で
ある音声処理回路構成要素を含むが、これに限定されない。音声コーディング回
路構成要素114も同様に、音声コーディング分野の当業者に公知である回路構
成要素を含むが、これに限定されない。当業者に公知のこのような音声コーディ
ングは、他の音声コーディング方法のうちとりわけ、符号励起線型予測、代数符
号励起線型予測およびパルス状励起を含む。
ック200の1実施形態を示すシステム図である。分散型音声コーデック200
の音声エンコーダ220は、ピッチエンハンスメントコーディング221を実行
する。ピッチエンハンスメントコーディング221は、逆方向パルスピッチ予測
回路構成要素222および順方向パルスピッチ予測回路構成要素223を用いて
実行される。本発明の別の実施形態において説明されるように、ピッチエンハン
スメントコーディング221は、音声サブフレーム内で、順方向および逆方向の
両方においてピッチ予測およびピッチエンハンスメントを生成する。分散型音声
コーデック200の音声エンコーダ220はまた、音声サブフレーム内で、符号
コーディング226および位置コーディング227の両方を含む音声信号のメイ
ンパルスコーディング225を実行する。音声処理回路構成要素229はまた、
音声データに対して動作し、音声データの操作を実行するための音声処理分野の
当業者に公知の方法を用いた音声処理を助けるために、分散型音声コーデック2
00の音声エンコーダ220内で用いられる。さらに、音声処理回路構成要素2
29は、本発明の特定の実施形態において、逆方向パルスピッチ予測回路構成要
素222および順方向パルスピッチ予測回路構成要素223を協働して動作する
。音声データが処理された後、分散型音声コーデック200の音声エンコーダ2
20によって少なくともある程度の音声データが、通信リンク210を介して分
散型音声コーデック200の音声デコーダ230へと伝送される。通信リンク2
10は、無線通信媒体、ワイヤに基づく電話通信媒体、光ファイバ通信媒体およ
びイーサネット(登録商標)を含む音声データを伝送可能な任意の通信媒体であ
るが、これらに限定されない。音声データを伝送可能な任意の通信媒体は、本発
明の範囲および意図から逸脱することなく通信リンク210に含まれる。分散型
音声コーデック200の音声デコーダ230は、とりわけ、音声再生回路構成要
素232、予測補償回路構成要素234および音声処理回路構成要素236を含
む。
理回路構成要素236は、分散型音声コーデック200の全体の中で、音声デー
タに対して協働して動作する。あるいは、音声処理回路構成要素229および音
声処理回路構成要素236は、音声データに対して独立して動作し、各音声処理
回路構成要素が音声エンコーダ220および音声デコーダ230のそれぞれにお
いて音声処理機能を実行する。音声処理回路構成要素229および音声処理回路
構成要素236は、音声データに対して動作し、音声データの操作を実行するた
めに、音声処理の分野の当業者に公知の音声処理回路構成要素を含むが、これに
限定されない。メインパルスコーディング回路構成要素225も、同様に、音声
コーディングの分野の当業者に公知の回路構成要素を含むが、これに限定されな
い。このようなメインパルスコーディング回路構成要素225の例では、当業者
に公知の回路構成要素、他のメインパルスコーディング方法の中でもとりわけ、
本発明の他の実施形態において上述されるような、符号励起線型予測、代数符号
励起線型予測およびパルス状予測が含まれる。
ック300の別の実施形態を示すシステム図である。分散型音声コーデック30
0の音声エンコーダ320は、音声サブフレーム内で、符号コーディング326
および位置コーディング327の両方を含む音声信号のメインパルスコーディン
グ325を実行する。音声処理回路構成要素329はまた、音声処理の分野の当
業者に公知の方法を用いた音声処理を助けるために、分散型音声コーデック30
0の音声エンコーダ320内で利用され、それにより音声データに対して動作し
、音声データの操作を実行する。音声データが処理された後、分散型音声コーデ
ック300の音声エンコーダ320によって少なくともある程度の音声データが
、通信リンク310を介して分散型音声コーデック300の音声デコーダ330
へと伝送される。通信リンク310は、無線通信媒体、ワイヤに基づく電話通信
媒体、光ファイバ通信媒体およびイーサネット(登録商標)を含む音声データを
伝送可能な任意の通信媒体であるが、これらに限定されない。音声データを伝送
可能な任意の通信媒体は、本発明の範囲および意図から逸脱することなく通信リ
ンク310に含まれる。分散型音声コーデック300の音声デコーダ330は、
ピッチエンハンスメントコーディング321を実行する。ピッチエンハンスメン
トコーディング321は、逆方向パルスピッチ予測回路構成要素322および順
方向パルスピッチ予測回路構成要素323の両方を用いて実行される。本発明の
種々の実施形態において上述されるように、ピッチエンハンスメントコーディン
グ321は、音声サブフレーム内で、順方向および逆方向の両方においてピッチ
予測およびピッチエンハンスメントを生成する。音声処理回路構成要素336は
また、音声処理の分野の当業者に公知の方法を用いた音声処理を助けるために、
分散型音声コーデック300の音声デコーダ330内で利用され、それにより音
声データに対して動作し、音声データの操作を実行する。さらに、音声処理回路
構成要素339は、本発明の特定の実施形態において、逆方向パルスピッチ予測
回路構成要素322および順方向パルスピッチ予測回路構成要素323を協働し
て動作する。
理回路構成要素336は、分散型音声コーデック300の全体の中で、音声デー
タに対して協働して動作する。あるいは、音声処理回路構成要素329および音
声処理回路構成要素336は音声データに対して独立して動作する。各音声処理
回路構成要素は、音声エンコーダ320および音声デコーダ330のそれぞれに
おいて音声処理機能を実行する。音声処理回路構成要素329および音声処理回
路構成要素336は、音声データに対して動作し、音声データの操作を実行する
ために、音声処理の分野の当業者に公知の音声処理回路構成要素を含むが、これ
に限定されない。メインパルスコーディング回路構成要素325も同様に、音声
コーディングの分野の当業者に公知の回路構成要素を含むが、これに限定されな
い。このようなメインパルスコーディング回路構成要素325の例では、当業者
に公知の回路構成要素、他のメインパルスコーディング方法の中でもとりわけ、
本発明の他の実施形態において上述されるような、符号励起線型予測、代数符号
励起線型予測およびパルス状予測が含まれる。
ク420の別の実施形態400を示すシステム図である。集積音声コーデック4
20は、とりわけ、低ビットレート通信リンク410を介して音声デコーダ42
4と通信する音声エンコーダ422を含む。低ビットレート通信リンク410は
、無線通信媒体、ワイヤに基づく電話通信媒体、光ファイバ通信媒体およびイー
サネット(登録商標)を含む音声データを伝送可能な任意の通信媒体であるが、
これらに限定されない。音声データを伝送可能な任意の通信媒体は、本発明の範
囲および意図から逸脱することなく低ビットレート通信リンク410に含まれる
。ピッチエンハンスメントコーディング421が、集積音声コーディング420
内で実行される。ピッチエンハンスメントコーディング421は、とりわけ、逆
方向パルスピッチ予測回路構成要素422および順方向パルスピッチ予測回路構
成要素423を用いて実行される。本発明の種々の実施形態において上述される
ように、逆方向パルスピッチ予測回路構成要素422および順方向パルスピッチ
予測回路構成要素423は、本発明の特定の実施形態では協働して動作し、本発
明の別の実施形態では独立して動作する。
2および順方向パルスピッチ予測回路構成要素423が、集積音声コーデック4
20の全体の中に含まれる。所望ならば、本発明の特定の実施形態では、逆方向
パルスピッチ予測回路構成要素422および順方向パルスピッチ予測回路構成要
素423の両方が、音声エンコーダ422および音声デコーダ424のそれぞれ
に含まれる。あるいは、本発明の他の実施形態では、逆方向パルスピッチ予測回
路構成要素422または順方向パルスピッチ予測回路構成要素423のいずれか
一方が、音声エンコーダ422および音声デコーダ424のいずれか一方のみに
含まれる。任意の(at hand)特定のアプリケーションに応じて、ユーザ
は、逆方向パルスピッチ予測回路構成要素422および順方向パルスピッチ予測
回路構成要素423を音声エンコーダ422および音声デコーダ424のうちい
ずれか一方、あるいは両方に配置するように選択し得る。本発明における種々の
実施形態は、本発明の範囲および意図から逸脱することなく、様々な量の逆方向
パルスピッチ予測回路構成要素422および順方向パルスピッチ予測回路構成要
素423を音声エンコーダ422および音声デコーダ424に配置することを想
定している。例えば、本発明の特定の実施形態では、逆方向パルスピッチ予測回
路構成要素422の所定の部分が、音声エンコーダ422に配置され、一方逆方
向パルスピッチ予測回路構成要素422の残りの部分が、音声デコーダ424に
配置される。同様に、本発明の特定の実施形態では、順方向パルスピッチ予測回
路構成要素423の所定の部分が、音声エンコーダ422に配置され、一方順方
向パルスピッチ予測回路構成要素423の残りの部分が、音声デコーダ424に
配置される。
向ピッチエンハンスメントを示す音声サブフレーム510を示すコーディング図
500である。メインパルスM0520は、符号励起線型予測、代数符号励起線
型予測、合成音声コーディングによる分析およびパルス状励起を含む音声処理の
分野の当業者に公知の任意の方法(但し、これらに限定されない)を用いて、音
声サブフレーム510内で生成される。本発明の種々の実施形態で用いられる上
述の方法を含む音声処理の種々の方法を用いて、順方向予測パルスM1530、
順方向予測パルスM2540および順方向予測パルスM3550はすべて、音声サ
ブフレーム510内で生成されて配置される。上述のように、本発明の特定の実
施形態において、順方向予測パルスM1530、順方向予測パルスM2540およ
び順方向予測パルスM3550の生成は、種々の処理回路構成要素を用いて実行
される。さらに、逆方向予測パルスM-1560および逆方向予測パルスM-257
0もまた本発明に従って生成される。
予測パルスM-2570は、順方向予測パルスM1530、順方向予測パルスM25
40および順方向予測パルスM3550を用いて生成される。あるいは、本発明
の他の実施形態では、逆方向予測パルスM-1560および逆方向予測パルスM-2 570は、順方向予測パルスM1530、順方向予測パルスM2540および順方
向予測パルスM3550と独立して生成される。逆方向予測パルスM-1560お
よび逆方向予測パルスM-2570の独立して生成する例は、ソフトウェア内にお
けるインプリメンテーションであり、この場合、音声サブフレーム510の時間
スケールは、ソフトウェア内で逆にされる。メインパルスM0520は、同様に
して用いて、順方向予測パルスM1530、順方向予測パルスM2540および順
方向予測パルスM3550と、逆方向予測パルスM-1560および逆方向予測パ
ルスM-2570との両方を生成する。つまり、この処理は、典型的な順方向にお
いて1回実行されて、音声サブフレーム510がソフトウェハ内で逆にされた後
に、この処理は、非典型的な逆方向で再度実行される。ただし、同じ数学的方法
を用いる。すなわち、データは、音声サブフレーム510に関して逆にされるだ
けである。
声ピッチエンハンスメントを生成する、本発明の実施形態600を示す機能的ブ
ロック図を示す。ブロック610において、音声信号が処理される。ブロック6
20において、音声データのメインパルスがコード化される。別のプロセスのブ
ロック655において、音声データ情報が通信リンクを介して伝送される。別の
プロセスのブロック655は、コード化された音声データが伝送された後に順方
向ピッチエンハンスメントおよび逆方向ピッチエンハンスメントを実行して、音
声を再生する、本発明の実施形態で用いられる。ブロック630において、順方
向ピッチエンハンスメントが実行され、ブロック640において、逆方向ピッチ
エンハンスメントが実行される。本発明の特定の実施形態において、ブロック6
40の逆方向ピッチエンハンスメントは、ブロック630で生成される順方向ピ
ッチエンハンスメントの鏡像である。他の実施形態では、ブロック640の逆方
向ピッチエンハンスメントは、ブロック630で生成される順方向ピッチエンハ
ンスメントの鏡像ではない。別のプロセスのブロック650において、音声デー
タ情報が通信リンクを介して伝送される。別のプロセスのブロック650は、コ
ード化された音声データが伝送される前に、順方向ピッチエンハンスメントおよ
び逆方向ピッチエンハンスメントを実行して音声を再生する、本発明の実施形態
において用いられる。ブロック660において、音声信号が再構築される/合成
される。
エンハンスメントは、単に、ブロック650で実行さる順方向ピッチエンハンス
メントの冗長にすぎない。すなわち、ブロック640の逆方向ピッチエンハンス
メントが、ブロック630で生成される順方向ピッチエンハンスメントの鏡像で
ある。例えば、順方向ピッチエンハンスメントがブロック650で実行された後
に、得られたピッチエンハンスメントは、音声処理の分野の当業者に公知の任意
の方法を用いて、ブロック640で実行される逆方向ピッチエンハンスメントを
生成するために、音声サブフレーム内で単にコピーされて、逆にされる。そうす
ることによって音声信号を合成し、再生する。
声ピッチエンハンスメントを実行する、本発明の実施形態700を示す機能的ブ
ロック図を示す。ブロック710において、音声信号が処理される。ブロック7
20において、音声データのメインパルスがコード化される。別のプロセスのブ
ロック755において、音声データ情報が通信リンクを介して伝送される。別の
プロセスのブロック755は、コード化された音声データが伝送された後に順方
向ピッチエンハンスメントおよび逆方向ピッチエンハンスメントを実行して、音
声を再生する、本発明の実施形態で用いられる。ブロック730において、順方
向ピッチエンハンスメントが実行され、ブロック740において、逆方向ピッチ
エンハンスメントが実行される。ブロック740の逆方向ピッチエンハンスメン
トは、音声データが逆にされた後で実行され、ブロック740の逆方向ピッチエ
ンハンスメントは、ブロック730で実行される順方向ピッチエンハンスメント
に独立して実行される。この特定の実施形態は、音声データの全体的に新しいセ
ットが処理されているかのように、音声データが逆にされて、ブロック740の
逆方向ピッチエンハンスメントが生成されるという点で、実施形態600に示さ
れるものとは異なる。逆に、実施形態600では、得られるピッチエンハンスメ
ント自身を用いるが、逆方向に広げられる。実施形態700の特定の実施形態に
おいて、この実施形態は、あたかも2つのセットの音声データ(1つのデータセ
ットは、ブロック730において順方向におけるピッチ予測を生成するために処
理され、もう一方のデータセットは、ブロック740において逆方向におけるピ
ッチ予測を生成するために処理される)が各サブフレームについて処理されてい
るかのうようであるが、それらはともに、音声データの同じサブフレームについ
て動作している。別のプロセスのブロック750において、音声データ情報は通
信リンクを介して伝送される。別のプロセスのブロック750は、コード化され
た音声データが伝送される前に、ブロック730の順方向ピッチエンハンスメン
トおよびブロック740の逆方向ピッチエンハンスメントを実行して音声を再生
する、本発明の実施形態において用いられる。ブロック760において、音声信
号が再構築される/合成される。
び変更例が、当業者には明らかである。また、このような他の改変例および変更
例が、本発明の意図および範囲から逸脱することなく為され得ることも理解すべ
きである。
実施形態を示すシステム図である。
ックの1実施形態を示すシステム図である。
ックの別の実施形態を示すシステム図である。
クの別の実施形態を示すシステム図である。
パルスおよび逆方向予測パルスを示す音声サブフレームを示す図である。
声ピッチエンハンスメントを生成する、本発明の実施形態を示す機能的ブロック
図を示す。
声ピッチエンハンスメントを実行する、本発明の実施形態を示す機能的ブロック
図を示す。
な帯域幅が制限された、または利用可能な帯域幅を制約した通信媒体を用いて動
作する音声コーディングシステムに適合される。本発明の範囲を逸脱することな
く、本発明において任意の通信媒体が用いられ得る。このような通信媒体の例に
は、無線通信媒体、ワイヤに基づく電話通信媒体、光ファイバ通信媒体およびイ
ーサネット(登録商標)が含まれるが、これらに限定されない。
び変更例が、当業者には明らかである。また、このような他の改変例および変更
例が、本発明の範囲から逸脱することなく為され得ることも理解すべきである。
Claims (20)
- 【請求項1】 ピッチエンハンスメントを実行するCELPコーデックであ
って、 エンコーダと、 該エンコーダに接続された通信リンクと、 該通信リンクに接続されたデコーダと、 該エンコーダおよび該デコーダのうち少なくとも1つに接続された固定コード
ブックと、 該固定コードブックに基づいて順方向予測パルスを生成するように構成された
順方向ピッチエンハンスメント回路と、 該固定コードブックに基づいて逆方向予測パルスを生成するように構成された
逆方向ピッチエンハンスメント回路と を備える、CELPコーデック。 - 【請求項2】 前記デコーダは逆方向ピッチエンハンスメント回路を含む、
請求項1に記載のCELPコーデック。 - 【請求項3】 前記逆方向ピッチエンハンスメント回路は、前記エンコーダ
および前記デコーダに分散される、請求項1に記載のCELPコーデック。 - 【請求項4】 前記順方向ピッチエンハンスメント回路および前記逆方向ピ
ッチエンハンスメント回路は、協働して動作するように構成される、請求項1に
記載のCELPコーデック。 - 【請求項5】 前記順方向ピッチエンハンスメント回路および前記逆方向ピ
ッチエンハンスメント回路は、独立して動作するように構成される、請求項1に
記載のCELPコーデック。 - 【請求項6】 前記逆方向ピッチエンハンスメント回路は、音声サブフレー
ムについて動作するように構成され、 該逆方向ピッチエンハンスメント回路は、該音声サブフレーム内に少なくとも
1つの逆方向予測パルスを配置するように構成される、請求項1に記載のCEL
Pコーデック。 - 【請求項7】 CELPピッチエンハンスメントシステムであって、 固定コードブックと、 該固定コードブックに基づいて順方向予測パルスを生成するように構成された
順方向ピッチエンハンスメント回路と、 該固定コードブックに接続され、該固定コードブックに基づいて逆方向予測パ
ルスを独立して生成するように構成された逆方向ピッチエンハンスメント回路と
、 該逆方向ピッチエンハンスメント回路に接続され、音声データを操作するよう
に構成された音声処理回路と を備える、CELPピッチエンハンスメントシステム。 - 【請求項8】 前記逆方向ピッチエンハンスメント回路に接続され、前記固
定コードブックに基づいて順方向予測パルスを生成するように構成された順方向
ピッチエンハンスメント回路をさらに備える、請求項7に記載のCELPピッチ
エンハンスメントシステム。 - 【請求項9】 前記順方向ピッチエンハンスメント回路および前記逆方向ピ
ッチエンハンスメント回路は、協働して動作するように構成される、請求項8に
記載のCELPピッチエンハンスメントシステム。 - 【請求項10】 前記順方向ピッチエンハンスメント回路および前記逆方向
ピッチエンハンスメント回路は、独立して動作するように構成される、請求項8
に記載のCELPピッチエンハンスメントシステム。 - 【請求項11】 エンコーダおよびデコーダを含む音声コーデックをさらに
備え、該エンコーダおよび該デコーダのうち少なくとも1つは、前記逆方向ピッ
チエンハンスメント回路を含む、請求項7に記載のCELPピッチエンハンスメ
ントシステム。 - 【請求項12】 エンコーダおよびデコーダを含む音声コーデックをさらに
備え、前記逆方向ピッチエンハンスメント回路は、該エンコーダおよび該デコー
ダに分散される、請求項7に記載のCELPピッチエンハンスメントシステム。 - 【請求項13】 エンコーダと、デコーダと、該エンコーダおよび該デコー
ダに接続された通信リンクとを含む音声コーデックをさらに備え、 前記逆方向ピッチエンハンスメント回路は、該エンコーダおよび該デコーダに
分散され、 励起信号は第1の部分および第2の部分を含み、 該第2の部分の知覚品質は、該逆方向ピッチエンハンスメント回路を用いるよ
うに構成された該エンコーダによって改善され、 該励起信号の該第1の部分および該第2の部分は、該通信リンクを介して該エ
ンコーダから該デコーダに伝送され、 該第2の部分のエンハンスメントは、該エンコーダおよび該デコーダによって
協働して実行される、請求項7に記載のCELPピッチエンハンスメントシステ
ム。 - 【請求項14】 前記音声ピッチエンハンスメントシステムは、符号励起線
型予測を用いる、請求項7に記載のCELPピッチエンハンスメントシステム。 - 【請求項15】 前記逆方向ピッチエンハンスメント回路は、音声サブフレ
ームについて動作し、該逆方向ピッチエンハンスメント回路は、該音声サブフレ
ーム内に少なくとも1つの逆方向予測パルスを配置するように構成される、請求
項7に記載のCELPピッチエンハンスメントシステム。 - 【請求項16】 CELPピッチエンハンスメントを実行する方法であって
、 固定コードブックに基づいて順方向予測パルスを生成する工程と、 該固定コードブックに基づいて逆方向予測パルスを生成する工程と を包含する、方法。 - 【請求項17】 前記順方向予測パルスおよび前記逆方向予測パルスは、独
立して、または協働して生成される、請求項16に記載の方法。 - 【請求項18】 前記逆方向予測パルスを生成する動作は、前記順方向予測
パルスに基づく、請求項16に記載の方法。 - 【請求項19】 少なくとも1つの音声データおよび励起信号について、順
方向ピッチエンハンスメントを実行する工程と、音声コーデックを用いて該少な
くとも1つの音声データおよび該励起信号について逆方向ピッチエンハンスメン
トを実行する工程とをさらに包含する、請求項16に記載の方法。 - 【請求項20】 符号励起線型予測を実行する工程をさらに包含する、請求
項16に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14209299P | 1999-07-02 | 1999-07-02 | |
US60/142,092 | 1999-07-02 | ||
US09/365,444 US6704701B1 (en) | 1999-07-02 | 1999-08-02 | Bi-directional pitch enhancement in speech coding systems |
US60/365,444 | 1999-08-02 | ||
PCT/US2000/018232 WO2001003125A1 (en) | 1999-07-02 | 2000-06-30 | Bi-directional pitch enhancement in speech coding systems |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010230113A Division JP2011048387A (ja) | 1999-07-02 | 2010-10-12 | 音声コーディングシステムにおける双方向ピッチエンハンスメント |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003504655A true JP2003504655A (ja) | 2003-02-04 |
JP2003504655A5 JP2003504655A5 (ja) | 2007-06-21 |
JP4629937B2 JP4629937B2 (ja) | 2011-02-09 |
Family
ID=26839756
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001508443A Expired - Lifetime JP4629937B2 (ja) | 1999-07-02 | 2000-06-30 | 音声コーディングシステムにおける双方向ピッチエンハンスメント |
JP2010230113A Withdrawn JP2011048387A (ja) | 1999-07-02 | 2010-10-12 | 音声コーディングシステムにおける双方向ピッチエンハンスメント |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010230113A Withdrawn JP2011048387A (ja) | 1999-07-02 | 2010-10-12 | 音声コーディングシステムにおける双方向ピッチエンハンスメント |
Country Status (7)
Country | Link |
---|---|
US (1) | US6704701B1 (ja) |
EP (1) | EP1194925B1 (ja) |
JP (2) | JP4629937B2 (ja) |
CN (1) | CN1186766C (ja) |
DE (1) | DE60014904T2 (ja) |
TW (1) | TW473703B (ja) |
WO (1) | WO2001003125A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100841096B1 (ko) * | 2002-10-14 | 2008-06-25 | 리얼네트웍스아시아퍼시픽 주식회사 | 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법 |
KR100754439B1 (ko) * | 2003-01-09 | 2007-08-31 | 와이더댄 주식회사 | 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법 |
CN101176147B (zh) * | 2005-05-13 | 2011-05-18 | 松下电器产业株式会社 | 语音编码装置以及频谱变形方法 |
CN101266797B (zh) * | 2007-03-16 | 2011-06-01 | 展讯通信(上海)有限公司 | 语音信号后处理滤波方法 |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US9728200B2 (en) | 2013-01-29 | 2017-08-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
US9620134B2 (en) | 2013-10-10 | 2017-04-11 | Qualcomm Incorporated | Gain shape estimation for improved tracking of high-band temporal characteristics |
US10083708B2 (en) | 2013-10-11 | 2018-09-25 | Qualcomm Incorporated | Estimation of mixing factors to generate high-band excitation signal |
US10614816B2 (en) | 2013-10-11 | 2020-04-07 | Qualcomm Incorporated | Systems and methods of communicating redundant frame information |
US9384746B2 (en) | 2013-10-14 | 2016-07-05 | Qualcomm Incorporated | Systems and methods of energy-scaled signal processing |
US10163447B2 (en) | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
CN109767781A (zh) * | 2019-03-06 | 2019-05-17 | 哈尔滨工业大学(深圳) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0291699A (ja) * | 1988-09-28 | 1990-03-30 | Nec Corp | 音声符号化復号化方式 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
CA2124713C (en) * | 1993-06-18 | 1998-09-22 | Willem Bastiaan Kleijn | Long term predictor |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
WO1997027578A1 (en) * | 1996-01-26 | 1997-07-31 | Motorola Inc. | Very low bit rate time domain speech analyzer for voice messaging |
JP2940464B2 (ja) * | 1996-03-27 | 1999-08-25 | 日本電気株式会社 | 音声復号化装置 |
US6161086A (en) * | 1997-07-29 | 2000-12-12 | Texas Instruments Incorporated | Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search |
US6385576B2 (en) * | 1997-12-24 | 2002-05-07 | Kabushiki Kaisha Toshiba | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch |
JPH11184500A (ja) * | 1997-12-24 | 1999-07-09 | Fujitsu Ltd | 音声符号化方式及び音声復号化方式 |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6556966B1 (en) * | 1998-08-24 | 2003-04-29 | Conexant Systems, Inc. | Codebook structure for changeable pulse multimode speech coding |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
-
1999
- 1999-08-02 US US09/365,444 patent/US6704701B1/en not_active Expired - Lifetime
-
2000
- 2000-06-30 DE DE60014904T patent/DE60014904T2/de not_active Expired - Lifetime
- 2000-06-30 CN CNB008099723A patent/CN1186766C/zh not_active Expired - Fee Related
- 2000-06-30 WO PCT/US2000/018232 patent/WO2001003125A1/en active IP Right Grant
- 2000-06-30 EP EP00943365A patent/EP1194925B1/en not_active Expired - Lifetime
- 2000-06-30 JP JP2001508443A patent/JP4629937B2/ja not_active Expired - Lifetime
- 2000-07-01 TW TW089113106A patent/TW473703B/zh not_active IP Right Cessation
-
2010
- 2010-10-12 JP JP2010230113A patent/JP2011048387A/ja not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0291699A (ja) * | 1988-09-28 | 1990-03-30 | Nec Corp | 音声符号化復号化方式 |
Non-Patent Citations (1)
Title |
---|
JPN6010025802, Hui Li, Gordon B. Lockhart, "Non−Linear Techniques for Pitch and Waveform Enhancement in PWI Coders", ICASSP ’97, 19970421, Vol. 2, p.1563−1566, US, IEEE * |
Also Published As
Publication number | Publication date |
---|---|
CN1360716A (zh) | 2002-07-24 |
WO2001003125B1 (en) | 2001-02-08 |
WO2001003125A1 (en) | 2001-01-11 |
EP1194925B1 (en) | 2004-10-13 |
DE60014904D1 (de) | 2004-11-18 |
JP2011048387A (ja) | 2011-03-10 |
TW473703B (en) | 2002-01-21 |
DE60014904T2 (de) | 2005-12-22 |
JP4629937B2 (ja) | 2011-02-09 |
US6704701B1 (en) | 2004-03-09 |
EP1194925A1 (en) | 2002-04-10 |
CN1186766C (zh) | 2005-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011048387A (ja) | 音声コーディングシステムにおける双方向ピッチエンハンスメント | |
JP3328080B2 (ja) | コード励振線形予測復号器 | |
CN103187066B (zh) | 处理音频帧以在不同编解码器之间转变的方法和装置 | |
CN1271597C (zh) | 对声源信号进行编码/解码的方法和装置 | |
ZA200205695B (en) | Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals. | |
US8055499B2 (en) | Transmitter and receiver for speech coding and decoding by using additional bit allocation method | |
JP4558734B2 (ja) | 信号復号化装置 | |
JP3064947B2 (ja) | 音声・楽音符号化及び復号化装置 | |
JP2000209663A (ja) | 音声チャネル上で非音声情報を送信する方法 | |
JP2002221994A (ja) | 音声信号の符号列のパケット組立方法、装置及びパケット分解方法、装置並びにこれらの方法を実行するプログラム、プログラムを記録する記録媒体 | |
JP3303580B2 (ja) | 音声符号化装置 | |
KR100468960B1 (ko) | 음성부호화 시스템의 양방향 피치 강화 시스템 | |
JPH0854898A (ja) | 音声符号化装置 | |
KR100542435B1 (ko) | 패킷 망에서의 프레임 손실 은닉 방법 및 장치 | |
JP3662597B2 (ja) | 一般化された合成による分析音声符号化方法と装置 | |
JP2968109B2 (ja) | コード励振線形予測符号化器及び復号化器 | |
EP1387351A1 (en) | Speech encoding device and method having TFO (Tandem Free Operation) function | |
JPH028900A (ja) | 音声符号化復号化方法並びに音声符号化装置及び音声復合化装置 | |
KR100304137B1 (ko) | 음성압축/신장방법및시스템 | |
JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
US6581030B1 (en) | Target signal reference shifting employed in code-excited linear prediction speech coding | |
JP2775533B2 (ja) | 音声の長期予測装置 | |
JP2817196B2 (ja) | 音声符号化方式 | |
JP3118953B2 (ja) | 音声信号補間装置 | |
JP3293654B2 (ja) | 音声伝送方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070425 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100512 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100722 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100729 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100909 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100916 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131119 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4629937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |