JP2003504655A - 音声コーディングシステムにおける双方向ピッチエンハンスメント - Google Patents

音声コーディングシステムにおける双方向ピッチエンハンスメント

Info

Publication number
JP2003504655A
JP2003504655A JP2001508443A JP2001508443A JP2003504655A JP 2003504655 A JP2003504655 A JP 2003504655A JP 2001508443 A JP2001508443 A JP 2001508443A JP 2001508443 A JP2001508443 A JP 2001508443A JP 2003504655 A JP2003504655 A JP 2003504655A
Authority
JP
Japan
Prior art keywords
pitch enhancement
reverse
encoder
celp
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001508443A
Other languages
English (en)
Other versions
JP2003504655A5 (ja
JP4629937B2 (ja
Inventor
ヤン ガオ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Conexant Systems LLC
Original Assignee
Conexant Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Conexant Systems LLC filed Critical Conexant Systems LLC
Publication of JP2003504655A publication Critical patent/JP2003504655A/ja
Publication of JP2003504655A5 publication Critical patent/JP2003504655A5/ja
Application granted granted Critical
Publication of JP4629937B2 publication Critical patent/JP4629937B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 音声コーディングシステムのための双方向ピッチエンハンスメントシステム。音声データアプリケーションが、固有の帯域幅制限を有する領域で動作しつづけると、典型的な音声コーディングシステムにおいて再生される音声データの知覚品質は、大きく低下する。本発明は、再生される音声において高い知覚品質を維持するために、順方向ピッチエンハンスメントおよび逆方向ピッチエンハンスメントを用いる。所望ならば、逆方向ピッチエンハンスメントは、順方向ピッチエンハンスメント自身を用いて生成される。この場合、逆方向ピッチエンハンスメントは、以前に生成された順方向ピッチエンハンスメントの鏡像である。あるいは、本発明の1実施形態において、逆方向ピッチエンハンスメントは、順方向ピッチエンハンスメントと独立して生成される。

Description

【発明の詳細な説明】
【0001】 (関連出願の相互参照) 本出願は、1999年7月2日に出願された「Bi−Directional
Pitch Enhancement In Speech Coding
Systems」と称する米国仮特許出願第60/142,092号(アトーニ
ードケット第97RSS380P)、および1999年8月2日に出願された「
Bi−Directional Pitch Enhancement In
Speech Coding Systems」と称する米国仮特許出願第09
/365,444号(アトーニードケット第97RSS380)の優先権を主張
する。
【0002】 (背景) (1.技術分野) 本発明は、概して、音声コーディングに関し、より詳細には、再生された音声
の知覚品質を向上するために、ピッチエンハンスメントを用いる低ビットレート
音声コーディングシステムに関する。
【0003】 (2.関連技術の説明) 従来の音声コーディングシステムは、典型的には、符号励起線型予測音声コー
ディングシステムにおいて順方向ピッチエンハンスメントのみを用いる。これは
、大部分は、比較的大きな帯域幅が利用できる従来の音声コードのサブフレーム
のサイズが、順方向ピッチエンハンスメント単独で十分な知覚品質を提供するこ
とができることに起因する。しかしながら、音声コーディングシステムで用いら
れる種々の通信媒体内のより低ビットレートに対しては、合成後に再生された音
声の知覚品質は、高い知覚品質を維持できないでいる。
【0004】 これらの低いビットレートで動作する従来の音声コーディングシステムでは、
ピッチ予測時に発生されるピッチ遅延は、通常、サブフレーム全体のサイズに比
べてはるかに短い。すなわち、このピッチ遅延は、サブフレーム全体のうち比較
的小さい部分を含む。この特徴は、女性および子供のようなより高い(より短い
)ピッチを有するスピーカの場合にさらに助長する。従来の励起コードブック構
造は、低ビットレートで動作する際に、十分高い知覚品質を提供しない。これは
主には、音声信号の周期性が十分に確立されていないか、またはコードブックか
ら抽出された励起ベクトルが、高い知覚品質を有する合成音声信号を生成するに
は不十分であることに起因する。
【0005】 音声コーディングシステムのサブフレームサイズがさらに大きくなるにつれて
、ますます低くなるビットレートを有する通信システムに関連して一般的である
ように、ピッチエンハンスメントが順方向のみに実行されるという事実によって
、知覚品質を著しく低下させることになる。これは、いくつかある他の理由のう
ちとりわけ、多くのパルスがないことに起因した大量のデッドスペースがサブフ
レーム内に存在するという事実による。より高いビットレートで動作し、従って
より短いサブフレームを有する従来の音声コーディングシステムにおいて、この
影響は、典型的には、人間の耳によって音声として知覚されない。このより低い
知覚品質の影響は、比較的低い利用可能なビットレートを有する音声コーディン
グを扱うほぼすべての音声コーディングシステムで認識されている。
【0006】 従来および伝統的なシステムのさらなる制限および不利益は、このようなシス
テムと、図面を参照して本出願の残りの部分に記載される本発明との比較によっ
て、当業者に明らかとなる。
【0007】 (発明の要旨) 本発明の種々の局面は、順方向ピッチエンハンスメントおよび逆方向ピッチエ
ンハンスメントを用いる音声コーディングシステムにおいて見出され得る。本発
明の特定の実施形態において、順方向ピッチエンハンスメントおよび逆方向ピッ
チエンハンスメントは、音声コーディングシステム全体のうち1つの部分におい
て実行される。例えば、エンコーダおよびデコーダを含む音声コーデックを有す
る音声コーディングシステムにおいて、順方向ピッチエンハンスメントおよび逆
方向ピッチエンハンスメントは、音声コーデックのエンコーダおよびデコーダの
両方において実行される。あるいは、本発明の他の実施形態では、順方向ピッチ
エンハンスメントおよび逆方向ピッチエンハンスメントは、音声コーデックのデ
コーダでのみ実行される。特定のアプリケーションによって決定されるように、
順方向ピッチエンハンスメントおよび逆方向ピッチエンハンスメントは分散型の
様式で実行される。各ピッチエンハンスメントは、音声コーデックのエンコーダ
およびデコーダの各々の少なくとも一部分において実行される。
【0008】 本発明の特定の実施形態において、逆方向ピッチエンハンスメントは、順方向
ピッチエンハンスメント自身を用いて生成される。逆方向ピッチエンハンスメン
トは、以前に生成された順方向ピッチエンハンスメントの鏡像であり、逆方向ピ
ッチエンハンスメントは、順方向ピッチエンハンスメントに依存して生成される
。あるいは、本発明の別の実施形態では、逆方向ピッチエンハンスメントは、順
方向ピッチエンハンスメントと独立して生成される。すなわち逆方向ピッチエン
ハンスメントは、以前に生成された順方向ピッチエンハンスメントと関係なく生
成される。
【0009】 本発明に従って構築される音声コーディングシステムは、適切には、利用可能
な帯域幅が制限された、または利用可能な帯域幅を制約した通信媒体を用いて動
作する音声コーディングシステムに適合される。本発明の範囲および意図を逸脱
することなく、本発明において任意の通信媒体が用いられ得る。このような通信
媒体の例には、無線通信媒体、ワイヤに基づく電話通信媒体、光ファイバ通信媒
体およびイーサネット(登録商標)が含まれるが、これらに限定されない。
【0010】 本発明の他の局面、利点および新規な特徴は、添付の図面とともに本発明の以
下の詳細な説明を解釈する際に、以下の詳細な説明から理解される。
【0011】 (図面の詳細な説明) 図1は、本発明によって構築される音声ピッチエンハンスメントシステム11
0の1実施形態100を示すシステム図である。音声ピッチエンハンスメントシ
ステム110は、とりわけ、ピッチエンハンスメント処理回路構成要素112、
音声コーディング回路構成要素114、順方向ピッチエンハンスメント回路構成
要素116、逆方向ピッチエンハンスメント回路構成要素118および音声処理
回路構成要素119を含む。音声ピッチエンハンスメントシステム110は、非
強化(non-enhanced)音声データまたは励起信号120に対して動
作し、ピッチ強化(enhanced)音声データ130を生成する。ピッチ強
化音声データまたは励起信号130は、音声サブフレームに関して順方向および
逆方向の両方において実行されるピッチ予測およびピッチエンハンスメントを有
する音声データを含む。音声ピッチエンハンスメントシステム110は、本発明
の特定の実施形態においては、励起信号に対してのみ動作し、音声ピッチエンハ
ンスメントシステム110は、本発明の別の実施形態においては、音声データに
対してのみ動作する。
【0012】 本発明の特定の実施形態において、音声ピッチエンハンスメントシステム11
0は、逆方向ピッチエンハンスメント回路構成要素118を用いて逆方向ピッチ
予測を生成するために独立して動作する。あるいは、順方向ピッチエンハンスメ
ント回路構成要素116および逆方向ピッチエンハンスメント回路構成要素11
8は、音声コーディングシステムのピッチエンハンスメント全体を生成するため
に協働して動作する。本発明の他の実施形態では、ピッチエンハンスメント処理
回路構成要素112を用いて、順方向ピッチエンハンスメント回路構成要素11
6および逆方向ピッチエンハンスメント回路構成要素118をモニタリングする
監視制御動作が実行される。音声処理回路構成要素119は、音声データに対し
て動作し、音声データの操作を実行するための、音声処理分野の当業者に公知で
ある音声処理回路構成要素を含むが、これに限定されない。音声コーディング回
路構成要素114も同様に、音声コーディング分野の当業者に公知である回路構
成要素を含むが、これに限定されない。当業者に公知のこのような音声コーディ
ングは、他の音声コーディング方法のうちとりわけ、符号励起線型予測、代数符
号励起線型予測およびパルス状励起を含む。
【0013】 図2は、本発明による音声ピッチエンハンスメントを用いる分散型音声コーデ
ック200の1実施形態を示すシステム図である。分散型音声コーデック200
の音声エンコーダ220は、ピッチエンハンスメントコーディング221を実行
する。ピッチエンハンスメントコーディング221は、逆方向パルスピッチ予測
回路構成要素222および順方向パルスピッチ予測回路構成要素223を用いて
実行される。本発明の別の実施形態において説明されるように、ピッチエンハン
スメントコーディング221は、音声サブフレーム内で、順方向および逆方向の
両方においてピッチ予測およびピッチエンハンスメントを生成する。分散型音声
コーデック200の音声エンコーダ220はまた、音声サブフレーム内で、符号
コーディング226および位置コーディング227の両方を含む音声信号のメイ
ンパルスコーディング225を実行する。音声処理回路構成要素229はまた、
音声データに対して動作し、音声データの操作を実行するための音声処理分野の
当業者に公知の方法を用いた音声処理を助けるために、分散型音声コーデック2
00の音声エンコーダ220内で用いられる。さらに、音声処理回路構成要素2
29は、本発明の特定の実施形態において、逆方向パルスピッチ予測回路構成要
素222および順方向パルスピッチ予測回路構成要素223を協働して動作する
。音声データが処理された後、分散型音声コーデック200の音声エンコーダ2
20によって少なくともある程度の音声データが、通信リンク210を介して分
散型音声コーデック200の音声デコーダ230へと伝送される。通信リンク2
10は、無線通信媒体、ワイヤに基づく電話通信媒体、光ファイバ通信媒体およ
びイーサネット(登録商標)を含む音声データを伝送可能な任意の通信媒体であ
るが、これらに限定されない。音声データを伝送可能な任意の通信媒体は、本発
明の範囲および意図から逸脱することなく通信リンク210に含まれる。分散型
音声コーデック200の音声デコーダ230は、とりわけ、音声再生回路構成要
素232、予測補償回路構成要素234および音声処理回路構成要素236を含
む。
【0014】 本発明の特定の実施形態において、音声処理回路構成要素229および音声処
理回路構成要素236は、分散型音声コーデック200の全体の中で、音声デー
タに対して協働して動作する。あるいは、音声処理回路構成要素229および音
声処理回路構成要素236は、音声データに対して独立して動作し、各音声処理
回路構成要素が音声エンコーダ220および音声デコーダ230のそれぞれにお
いて音声処理機能を実行する。音声処理回路構成要素229および音声処理回路
構成要素236は、音声データに対して動作し、音声データの操作を実行するた
めに、音声処理の分野の当業者に公知の音声処理回路構成要素を含むが、これに
限定されない。メインパルスコーディング回路構成要素225も、同様に、音声
コーディングの分野の当業者に公知の回路構成要素を含むが、これに限定されな
い。このようなメインパルスコーディング回路構成要素225の例では、当業者
に公知の回路構成要素、他のメインパルスコーディング方法の中でもとりわけ、
本発明の他の実施形態において上述されるような、符号励起線型予測、代数符号
励起線型予測およびパルス状予測が含まれる。
【0015】 図3は、本発明による音声ピッチエンハンスメントを用いる分散型音声コーデ
ック300の別の実施形態を示すシステム図である。分散型音声コーデック30
0の音声エンコーダ320は、音声サブフレーム内で、符号コーディング326
および位置コーディング327の両方を含む音声信号のメインパルスコーディン
グ325を実行する。音声処理回路構成要素329はまた、音声処理の分野の当
業者に公知の方法を用いた音声処理を助けるために、分散型音声コーデック30
0の音声エンコーダ320内で利用され、それにより音声データに対して動作し
、音声データの操作を実行する。音声データが処理された後、分散型音声コーデ
ック300の音声エンコーダ320によって少なくともある程度の音声データが
、通信リンク310を介して分散型音声コーデック300の音声デコーダ330
へと伝送される。通信リンク310は、無線通信媒体、ワイヤに基づく電話通信
媒体、光ファイバ通信媒体およびイーサネット(登録商標)を含む音声データを
伝送可能な任意の通信媒体であるが、これらに限定されない。音声データを伝送
可能な任意の通信媒体は、本発明の範囲および意図から逸脱することなく通信リ
ンク310に含まれる。分散型音声コーデック300の音声デコーダ330は、
ピッチエンハンスメントコーディング321を実行する。ピッチエンハンスメン
トコーディング321は、逆方向パルスピッチ予測回路構成要素322および順
方向パルスピッチ予測回路構成要素323の両方を用いて実行される。本発明の
種々の実施形態において上述されるように、ピッチエンハンスメントコーディン
グ321は、音声サブフレーム内で、順方向および逆方向の両方においてピッチ
予測およびピッチエンハンスメントを生成する。音声処理回路構成要素336は
また、音声処理の分野の当業者に公知の方法を用いた音声処理を助けるために、
分散型音声コーデック300の音声デコーダ330内で利用され、それにより音
声データに対して動作し、音声データの操作を実行する。さらに、音声処理回路
構成要素339は、本発明の特定の実施形態において、逆方向パルスピッチ予測
回路構成要素322および順方向パルスピッチ予測回路構成要素323を協働し
て動作する。
【0016】 本発明の特定の実施形態において、音声処理回路構成要素329および音声処
理回路構成要素336は、分散型音声コーデック300の全体の中で、音声デー
タに対して協働して動作する。あるいは、音声処理回路構成要素329および音
声処理回路構成要素336は音声データに対して独立して動作する。各音声処理
回路構成要素は、音声エンコーダ320および音声デコーダ330のそれぞれに
おいて音声処理機能を実行する。音声処理回路構成要素329および音声処理回
路構成要素336は、音声データに対して動作し、音声データの操作を実行する
ために、音声処理の分野の当業者に公知の音声処理回路構成要素を含むが、これ
に限定されない。メインパルスコーディング回路構成要素325も同様に、音声
コーディングの分野の当業者に公知の回路構成要素を含むが、これに限定されな
い。このようなメインパルスコーディング回路構成要素325の例では、当業者
に公知の回路構成要素、他のメインパルスコーディング方法の中でもとりわけ、
本発明の他の実施形態において上述されるような、符号励起線型予測、代数符号
励起線型予測およびパルス状予測が含まれる。
【0017】 図4は、本発明による音声ピッチエンハンスメントを用いる集積音声コーデッ
ク420の別の実施形態400を示すシステム図である。集積音声コーデック4
20は、とりわけ、低ビットレート通信リンク410を介して音声デコーダ42
4と通信する音声エンコーダ422を含む。低ビットレート通信リンク410は
、無線通信媒体、ワイヤに基づく電話通信媒体、光ファイバ通信媒体およびイー
サネット(登録商標)を含む音声データを伝送可能な任意の通信媒体であるが、
これらに限定されない。音声データを伝送可能な任意の通信媒体は、本発明の範
囲および意図から逸脱することなく低ビットレート通信リンク410に含まれる
。ピッチエンハンスメントコーディング421が、集積音声コーディング420
内で実行される。ピッチエンハンスメントコーディング421は、とりわけ、逆
方向パルスピッチ予測回路構成要素422および順方向パルスピッチ予測回路構
成要素423を用いて実行される。本発明の種々の実施形態において上述される
ように、逆方向パルスピッチ予測回路構成要素422および順方向パルスピッチ
予測回路構成要素423は、本発明の特定の実施形態では協働して動作し、本発
明の別の実施形態では独立して動作する。
【0018】 実施形態400に示されるように、逆方向パルスピッチ予測回路構成要素42
2および順方向パルスピッチ予測回路構成要素423が、集積音声コーデック4
20の全体の中に含まれる。所望ならば、本発明の特定の実施形態では、逆方向
パルスピッチ予測回路構成要素422および順方向パルスピッチ予測回路構成要
素423の両方が、音声エンコーダ422および音声デコーダ424のそれぞれ
に含まれる。あるいは、本発明の他の実施形態では、逆方向パルスピッチ予測回
路構成要素422または順方向パルスピッチ予測回路構成要素423のいずれか
一方が、音声エンコーダ422および音声デコーダ424のいずれか一方のみに
含まれる。任意の(at hand)特定のアプリケーションに応じて、ユーザ
は、逆方向パルスピッチ予測回路構成要素422および順方向パルスピッチ予測
回路構成要素423を音声エンコーダ422および音声デコーダ424のうちい
ずれか一方、あるいは両方に配置するように選択し得る。本発明における種々の
実施形態は、本発明の範囲および意図から逸脱することなく、様々な量の逆方向
パルスピッチ予測回路構成要素422および順方向パルスピッチ予測回路構成要
素423を音声エンコーダ422および音声デコーダ424に配置することを想
定している。例えば、本発明の特定の実施形態では、逆方向パルスピッチ予測回
路構成要素422の所定の部分が、音声エンコーダ422に配置され、一方逆方
向パルスピッチ予測回路構成要素422の残りの部分が、音声デコーダ424に
配置される。同様に、本発明の特定の実施形態では、順方向パルスピッチ予測回
路構成要素423の所定の部分が、音声エンコーダ422に配置され、一方順方
向パルスピッチ予測回路構成要素423の残りの部分が、音声デコーダ424に
配置される。
【0019】 図5は、本発明によって実行される順方向ピッチエンハンスメントおよび逆方
向ピッチエンハンスメントを示す音声サブフレーム510を示すコーディング図
500である。メインパルスM0520は、符号励起線型予測、代数符号励起線
型予測、合成音声コーディングによる分析およびパルス状励起を含む音声処理の
分野の当業者に公知の任意の方法(但し、これらに限定されない)を用いて、音
声サブフレーム510内で生成される。本発明の種々の実施形態で用いられる上
述の方法を含む音声処理の種々の方法を用いて、順方向予測パルスM1530、
順方向予測パルスM2540および順方向予測パルスM3550はすべて、音声サ
ブフレーム510内で生成されて配置される。上述のように、本発明の特定の実
施形態において、順方向予測パルスM1530、順方向予測パルスM2540およ
び順方向予測パルスM3550の生成は、種々の処理回路構成要素を用いて実行
される。さらに、逆方向予測パルスM-1560および逆方向予測パルスM-257
0もまた本発明に従って生成される。
【0020】 本発明の特定の実施形態において、逆方向予測パルスM-1560および逆方向
予測パルスM-2570は、順方向予測パルスM1530、順方向予測パルスM2
40および順方向予測パルスM3550を用いて生成される。あるいは、本発明
の他の実施形態では、逆方向予測パルスM-1560および逆方向予測パルスM-2 570は、順方向予測パルスM1530、順方向予測パルスM2540および順方
向予測パルスM3550と独立して生成される。逆方向予測パルスM-1560お
よび逆方向予測パルスM-2570の独立して生成する例は、ソフトウェア内にお
けるインプリメンテーションであり、この場合、音声サブフレーム510の時間
スケールは、ソフトウェア内で逆にされる。メインパルスM0520は、同様に
して用いて、順方向予測パルスM1530、順方向予測パルスM2540および順
方向予測パルスM3550と、逆方向予測パルスM-1560および逆方向予測パ
ルスM-2570との両方を生成する。つまり、この処理は、典型的な順方向にお
いて1回実行されて、音声サブフレーム510がソフトウェハ内で逆にされた後
に、この処理は、非典型的な逆方向で再度実行される。ただし、同じ数学的方法
を用いる。すなわち、データは、音声サブフレーム510に関して逆にされるだ
けである。
【0021】 図6は、本発明による順方向音声ピッチエンハンスメントを用いて、逆方向音
声ピッチエンハンスメントを生成する、本発明の実施形態600を示す機能的ブ
ロック図を示す。ブロック610において、音声信号が処理される。ブロック6
20において、音声データのメインパルスがコード化される。別のプロセスのブ
ロック655において、音声データ情報が通信リンクを介して伝送される。別の
プロセスのブロック655は、コード化された音声データが伝送された後に順方
向ピッチエンハンスメントおよび逆方向ピッチエンハンスメントを実行して、音
声を再生する、本発明の実施形態で用いられる。ブロック630において、順方
向ピッチエンハンスメントが実行され、ブロック640において、逆方向ピッチ
エンハンスメントが実行される。本発明の特定の実施形態において、ブロック6
40の逆方向ピッチエンハンスメントは、ブロック630で生成される順方向ピ
ッチエンハンスメントの鏡像である。他の実施形態では、ブロック640の逆方
向ピッチエンハンスメントは、ブロック630で生成される順方向ピッチエンハ
ンスメントの鏡像ではない。別のプロセスのブロック650において、音声デー
タ情報が通信リンクを介して伝送される。別のプロセスのブロック650は、コ
ード化された音声データが伝送される前に、順方向ピッチエンハンスメントおよ
び逆方向ピッチエンハンスメントを実行して音声を再生する、本発明の実施形態
において用いられる。ブロック660において、音声信号が再構築される/合成
される。
【0022】 本発明の特定の実施形態において、ブロック640で実行される逆方向ピッチ
エンハンスメントは、単に、ブロック650で実行さる順方向ピッチエンハンス
メントの冗長にすぎない。すなわち、ブロック640の逆方向ピッチエンハンス
メントが、ブロック630で生成される順方向ピッチエンハンスメントの鏡像で
ある。例えば、順方向ピッチエンハンスメントがブロック650で実行された後
に、得られたピッチエンハンスメントは、音声処理の分野の当業者に公知の任意
の方法を用いて、ブロック640で実行される逆方向ピッチエンハンスメントを
生成するために、音声サブフレーム内で単にコピーされて、逆にされる。そうす
ることによって音声信号を合成し、再生する。
【0023】 図7は、本発明による順方向音声ピッチエンハンスメントと独立して逆方向音
声ピッチエンハンスメントを実行する、本発明の実施形態700を示す機能的ブ
ロック図を示す。ブロック710において、音声信号が処理される。ブロック7
20において、音声データのメインパルスがコード化される。別のプロセスのブ
ロック755において、音声データ情報が通信リンクを介して伝送される。別の
プロセスのブロック755は、コード化された音声データが伝送された後に順方
向ピッチエンハンスメントおよび逆方向ピッチエンハンスメントを実行して、音
声を再生する、本発明の実施形態で用いられる。ブロック730において、順方
向ピッチエンハンスメントが実行され、ブロック740において、逆方向ピッチ
エンハンスメントが実行される。ブロック740の逆方向ピッチエンハンスメン
トは、音声データが逆にされた後で実行され、ブロック740の逆方向ピッチエ
ンハンスメントは、ブロック730で実行される順方向ピッチエンハンスメント
に独立して実行される。この特定の実施形態は、音声データの全体的に新しいセ
ットが処理されているかのように、音声データが逆にされて、ブロック740の
逆方向ピッチエンハンスメントが生成されるという点で、実施形態600に示さ
れるものとは異なる。逆に、実施形態600では、得られるピッチエンハンスメ
ント自身を用いるが、逆方向に広げられる。実施形態700の特定の実施形態に
おいて、この実施形態は、あたかも2つのセットの音声データ(1つのデータセ
ットは、ブロック730において順方向におけるピッチ予測を生成するために処
理され、もう一方のデータセットは、ブロック740において逆方向におけるピ
ッチ予測を生成するために処理される)が各サブフレームについて処理されてい
るかのうようであるが、それらはともに、音声データの同じサブフレームについ
て動作している。別のプロセスのブロック750において、音声データ情報は通
信リンクを介して伝送される。別のプロセスのブロック750は、コード化され
た音声データが伝送される前に、ブロック730の順方向ピッチエンハンスメン
トおよびブロック740の逆方向ピッチエンハンスメントを実行して音声を再生
する、本発明の実施形態において用いられる。ブロック760において、音声信
号が再構築される/合成される。
【0024】 本発明の上記詳細な説明およびそれに関連する図面を鑑みて、他の改変例およ
び変更例が、当業者には明らかである。また、このような他の改変例および変更
例が、本発明の意図および範囲から逸脱することなく為され得ることも理解すべ
きである。
【図面の簡単な説明】
【図1】 図1は、本発明によって構築される音声ピッチエンハンスメントシステムの1
実施形態を示すシステム図である。
【図2】 図2は、本発明による音声ピッチエンハンスメントを用いる分散型音声コーデ
ックの1実施形態を示すシステム図である。
【図3】 図3は、本発明による音声ピッチエンハンスメントを用いる分散型音声コーデ
ックの別の実施形態を示すシステム図である。
【図4】 図4は、本発明による音声ピッチエンハンスメントを用いる集積音声コーデッ
クの別の実施形態を示すシステム図である。
【図5】 図5は、本発明によるピッチエンハンスメントを実行するための、順方向予測
パルスおよび逆方向予測パルスを示す音声サブフレームを示す図である。
【図6】 図6は、本発明による順方向音声ピッチエンハンスメントを用いて、逆方向音
声ピッチエンハンスメントを生成する、本発明の実施形態を示す機能的ブロック
図を示す。
【図7】 図7は、本発明による順方向音声ピッチエンハンスメントと独立して逆方向音
声ピッチエンハンスメントを実行する、本発明の実施形態を示す機能的ブロック
図を示す。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年6月22日(2001.6.22)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正の内容】
【0009】 本発明に従って構築される音声コーディングシステムは、適切には、利用可能
な帯域幅が制限された、または利用可能な帯域幅を制約した通信媒体を用いて動
作する音声コーディングシステムに適合される。本発明の範囲を逸脱することな
く、本発明において任意の通信媒体が用いられ得る。このような通信媒体の例に
は、無線通信媒体、ワイヤに基づく電話通信媒体、光ファイバ通信媒体およびイ
ーサネット(登録商標)が含まれるが、これらに限定されない。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0024
【補正方法】変更
【補正の内容】
【0024】 本発明の上記詳細な説明およびそれに関連する図面を鑑みて、他の改変例およ
び変更例が、当業者には明らかである。また、このような他の改変例および変更
例が、本発明の範囲から逸脱することなく為され得ることも理解すべきである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),CN,JP,K R (72)発明者 ガオ, ヤン アメリカ合衆国 カリフォルニア 92692, ミッション ビエジ, サン トリニ ロード 26586 Fターム(参考) 5D045 CA10 CC10 DA11

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 ピッチエンハンスメントを実行するCELPコーデックであ
    って、 エンコーダと、 該エンコーダに接続された通信リンクと、 該通信リンクに接続されたデコーダと、 該エンコーダおよび該デコーダのうち少なくとも1つに接続された固定コード
    ブックと、 該固定コードブックに基づいて順方向予測パルスを生成するように構成された
    順方向ピッチエンハンスメント回路と、 該固定コードブックに基づいて逆方向予測パルスを生成するように構成された
    逆方向ピッチエンハンスメント回路と を備える、CELPコーデック。
  2. 【請求項2】 前記デコーダは逆方向ピッチエンハンスメント回路を含む、
    請求項1に記載のCELPコーデック。
  3. 【請求項3】 前記逆方向ピッチエンハンスメント回路は、前記エンコーダ
    および前記デコーダに分散される、請求項1に記載のCELPコーデック。
  4. 【請求項4】 前記順方向ピッチエンハンスメント回路および前記逆方向ピ
    ッチエンハンスメント回路は、協働して動作するように構成される、請求項1に
    記載のCELPコーデック。
  5. 【請求項5】 前記順方向ピッチエンハンスメント回路および前記逆方向ピ
    ッチエンハンスメント回路は、独立して動作するように構成される、請求項1に
    記載のCELPコーデック。
  6. 【請求項6】 前記逆方向ピッチエンハンスメント回路は、音声サブフレー
    ムについて動作するように構成され、 該逆方向ピッチエンハンスメント回路は、該音声サブフレーム内に少なくとも
    1つの逆方向予測パルスを配置するように構成される、請求項1に記載のCEL
    Pコーデック。
  7. 【請求項7】 CELPピッチエンハンスメントシステムであって、 固定コードブックと、 該固定コードブックに基づいて順方向予測パルスを生成するように構成された
    順方向ピッチエンハンスメント回路と、 該固定コードブックに接続され、該固定コードブックに基づいて逆方向予測パ
    ルスを独立して生成するように構成された逆方向ピッチエンハンスメント回路と
    、 該逆方向ピッチエンハンスメント回路に接続され、音声データを操作するよう
    に構成された音声処理回路と を備える、CELPピッチエンハンスメントシステム。
  8. 【請求項8】 前記逆方向ピッチエンハンスメント回路に接続され、前記固
    定コードブックに基づいて順方向予測パルスを生成するように構成された順方向
    ピッチエンハンスメント回路をさらに備える、請求項7に記載のCELPピッチ
    エンハンスメントシステム。
  9. 【請求項9】 前記順方向ピッチエンハンスメント回路および前記逆方向ピ
    ッチエンハンスメント回路は、協働して動作するように構成される、請求項8に
    記載のCELPピッチエンハンスメントシステム。
  10. 【請求項10】 前記順方向ピッチエンハンスメント回路および前記逆方向
    ピッチエンハンスメント回路は、独立して動作するように構成される、請求項8
    に記載のCELPピッチエンハンスメントシステム。
  11. 【請求項11】 エンコーダおよびデコーダを含む音声コーデックをさらに
    備え、該エンコーダおよび該デコーダのうち少なくとも1つは、前記逆方向ピッ
    チエンハンスメント回路を含む、請求項7に記載のCELPピッチエンハンスメ
    ントシステム。
  12. 【請求項12】 エンコーダおよびデコーダを含む音声コーデックをさらに
    備え、前記逆方向ピッチエンハンスメント回路は、該エンコーダおよび該デコー
    ダに分散される、請求項7に記載のCELPピッチエンハンスメントシステム。
  13. 【請求項13】 エンコーダと、デコーダと、該エンコーダおよび該デコー
    ダに接続された通信リンクとを含む音声コーデックをさらに備え、 前記逆方向ピッチエンハンスメント回路は、該エンコーダおよび該デコーダに
    分散され、 励起信号は第1の部分および第2の部分を含み、 該第2の部分の知覚品質は、該逆方向ピッチエンハンスメント回路を用いるよ
    うに構成された該エンコーダによって改善され、 該励起信号の該第1の部分および該第2の部分は、該通信リンクを介して該エ
    ンコーダから該デコーダに伝送され、 該第2の部分のエンハンスメントは、該エンコーダおよび該デコーダによって
    協働して実行される、請求項7に記載のCELPピッチエンハンスメントシステ
    ム。
  14. 【請求項14】 前記音声ピッチエンハンスメントシステムは、符号励起線
    型予測を用いる、請求項7に記載のCELPピッチエンハンスメントシステム。
  15. 【請求項15】 前記逆方向ピッチエンハンスメント回路は、音声サブフレ
    ームについて動作し、該逆方向ピッチエンハンスメント回路は、該音声サブフレ
    ーム内に少なくとも1つの逆方向予測パルスを配置するように構成される、請求
    項7に記載のCELPピッチエンハンスメントシステム。
  16. 【請求項16】 CELPピッチエンハンスメントを実行する方法であって
    、 固定コードブックに基づいて順方向予測パルスを生成する工程と、 該固定コードブックに基づいて逆方向予測パルスを生成する工程と を包含する、方法。
  17. 【請求項17】 前記順方向予測パルスおよび前記逆方向予測パルスは、独
    立して、または協働して生成される、請求項16に記載の方法。
  18. 【請求項18】 前記逆方向予測パルスを生成する動作は、前記順方向予測
    パルスに基づく、請求項16に記載の方法。
  19. 【請求項19】 少なくとも1つの音声データおよび励起信号について、順
    方向ピッチエンハンスメントを実行する工程と、音声コーデックを用いて該少な
    くとも1つの音声データおよび該励起信号について逆方向ピッチエンハンスメン
    トを実行する工程とをさらに包含する、請求項16に記載の方法。
  20. 【請求項20】 符号励起線型予測を実行する工程をさらに包含する、請求
    項16に記載の方法。
JP2001508443A 1999-07-02 2000-06-30 音声コーディングシステムにおける双方向ピッチエンハンスメント Expired - Lifetime JP4629937B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US14209299P 1999-07-02 1999-07-02
US60/142,092 1999-07-02
US09/365,444 US6704701B1 (en) 1999-07-02 1999-08-02 Bi-directional pitch enhancement in speech coding systems
US60/365,444 1999-08-02
PCT/US2000/018232 WO2001003125A1 (en) 1999-07-02 2000-06-30 Bi-directional pitch enhancement in speech coding systems

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010230113A Division JP2011048387A (ja) 1999-07-02 2010-10-12 音声コーディングシステムにおける双方向ピッチエンハンスメント

Publications (3)

Publication Number Publication Date
JP2003504655A true JP2003504655A (ja) 2003-02-04
JP2003504655A5 JP2003504655A5 (ja) 2007-06-21
JP4629937B2 JP4629937B2 (ja) 2011-02-09

Family

ID=26839756

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001508443A Expired - Lifetime JP4629937B2 (ja) 1999-07-02 2000-06-30 音声コーディングシステムにおける双方向ピッチエンハンスメント
JP2010230113A Withdrawn JP2011048387A (ja) 1999-07-02 2010-10-12 音声コーディングシステムにおける双方向ピッチエンハンスメント

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2010230113A Withdrawn JP2011048387A (ja) 1999-07-02 2010-10-12 音声コーディングシステムにおける双方向ピッチエンハンスメント

Country Status (7)

Country Link
US (1) US6704701B1 (ja)
EP (1) EP1194925B1 (ja)
JP (2) JP4629937B2 (ja)
CN (1) CN1186766C (ja)
DE (1) DE60014904T2 (ja)
TW (1) TW473703B (ja)
WO (1) WO2001003125A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
CN101176147B (zh) * 2005-05-13 2011-05-18 松下电器产业株式会社 语音编码装置以及频谱变形方法
CN101266797B (zh) * 2007-03-16 2011-06-01 展讯通信(上海)有限公司 语音信号后处理滤波方法
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US9620134B2 (en) 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US10614816B2 (en) 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US10163447B2 (en) 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
CN109767781A (zh) * 2019-03-06 2019-05-17 哈尔滨工业大学(深圳) 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0291699A (ja) * 1988-09-28 1990-03-30 Nec Corp 音声符号化復号化方式

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
CA2124713C (en) * 1993-06-18 1998-09-22 Willem Bastiaan Kleijn Long term predictor
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
JP2940464B2 (ja) * 1996-03-27 1999-08-25 日本電気株式会社 音声復号化装置
US6161086A (en) * 1997-07-29 2000-12-12 Texas Instruments Incorporated Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
JPH11184500A (ja) * 1997-12-24 1999-07-09 Fujitsu Ltd 音声符号化方式及び音声復号化方式
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0291699A (ja) * 1988-09-28 1990-03-30 Nec Corp 音声符号化復号化方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6010025802, Hui Li, Gordon B. Lockhart, "Non−Linear Techniques for Pitch and Waveform Enhancement in PWI Coders", ICASSP ’97, 19970421, Vol. 2, p.1563−1566, US, IEEE *

Also Published As

Publication number Publication date
CN1360716A (zh) 2002-07-24
WO2001003125B1 (en) 2001-02-08
WO2001003125A1 (en) 2001-01-11
EP1194925B1 (en) 2004-10-13
DE60014904D1 (de) 2004-11-18
JP2011048387A (ja) 2011-03-10
TW473703B (en) 2002-01-21
DE60014904T2 (de) 2005-12-22
JP4629937B2 (ja) 2011-02-09
US6704701B1 (en) 2004-03-09
EP1194925A1 (en) 2002-04-10
CN1186766C (zh) 2005-01-26

Similar Documents

Publication Publication Date Title
JP2011048387A (ja) 音声コーディングシステムにおける双方向ピッチエンハンスメント
JP3328080B2 (ja) コード励振線形予測復号器
CN103187066B (zh) 处理音频帧以在不同编解码器之间转变的方法和装置
CN1271597C (zh) 对声源信号进行编码/解码的方法和装置
ZA200205695B (en) Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals.
US8055499B2 (en) Transmitter and receiver for speech coding and decoding by using additional bit allocation method
JP4558734B2 (ja) 信号復号化装置
JP3064947B2 (ja) 音声・楽音符号化及び復号化装置
JP2000209663A (ja) 音声チャネル上で非音声情報を送信する方法
JP2002221994A (ja) 音声信号の符号列のパケット組立方法、装置及びパケット分解方法、装置並びにこれらの方法を実行するプログラム、プログラムを記録する記録媒体
JP3303580B2 (ja) 音声符号化装置
KR100468960B1 (ko) 음성부호화 시스템의 양방향 피치 강화 시스템
JPH0854898A (ja) 音声符号化装置
KR100542435B1 (ko) 패킷 망에서의 프레임 손실 은닉 방법 및 장치
JP3662597B2 (ja) 一般化された合成による分析音声符号化方法と装置
JP2968109B2 (ja) コード励振線形予測符号化器及び復号化器
EP1387351A1 (en) Speech encoding device and method having TFO (Tandem Free Operation) function
JPH028900A (ja) 音声符号化復号化方法並びに音声符号化装置及び音声復合化装置
KR100304137B1 (ko) 음성압축/신장방법및시스템
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
US6581030B1 (en) Target signal reference shifting employed in code-excited linear prediction speech coding
JP2775533B2 (ja) 音声の長期予測装置
JP2817196B2 (ja) 音声符号化方式
JP3118953B2 (ja) 音声信号補間装置
JP3293654B2 (ja) 音声伝送方式

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070425

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100512

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100722

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100729

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100909

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4629937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term