JP2002530705A - 音声の無声セグメントの低ビットレート符号化 - Google Patents
音声の無声セグメントの低ビットレート符号化Info
- Publication number
- JP2002530705A JP2002530705A JP2000583003A JP2000583003A JP2002530705A JP 2002530705 A JP2002530705 A JP 2002530705A JP 2000583003 A JP2000583003 A JP 2000583003A JP 2000583003 A JP2000583003 A JP 2000583003A JP 2002530705 A JP2002530705 A JP 2002530705A
- Authority
- JP
- Japan
- Prior art keywords
- energy
- speech
- temporal resolution
- high temporal
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000012805 post-processing Methods 0.000 claims abstract 6
- 230000002123 temporal effect Effects 0.000 claims description 23
- 238000013139 quantization Methods 0.000 claims description 22
- 238000007493 shaping process Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 101001062854 Rattus norvegicus Fatty acid-binding protein 5 Proteins 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Error Detection And Correction (AREA)
- Detection And Correction Of Errors (AREA)
Abstract
Description
ットレートコーディングのための方法および装置に関するものである。 II.技術の背景 ディジタル技術による音声の伝送は、特に長距離およびディジタル無線電話応
用において広く行きわたるようになった。次に、これは、認識される再構成声質
を維持している間にチャネルを介して送信できる最少の情報量を決定することに
興味を生じた。音声が単にサンプリングおよびディジタル化によって伝送される
場合、約64キロビット/秒(kbps)のデータ転送速度が従来のアナログ電
話の声質を得るために必要である。しかしながら、適切なコーディング、伝送お
よび受信機での再合成が後に続く音声分析の使用によって、データ転送速度の著
しい減少を得ることができる。
圧縮する技術を使用する装置は音声コーダと呼ばれる。音声コーダは、入力音声
信号を時間のブロックあるいは分析フレームに分割する。音声コーダは、一般的
にはエンコーダおよびデコーダ、すなわちコーデックを含む。エンコーダは、入
力音声フレームを分析し、所定の関連パラメータを抽出し、次にこのパラメータ
を2進表示、すなわちビットのセットあるいは2進データパケットに量子化する
。このデータパケットは、通信チャネルを介して受信機およびデコーダに伝送さ
れる。このデコーダは、データパケットを処理し、このデータパケットを非量子
化し、パラメータを生成し、それから非量子化パラメータを使用して音声フレー
ムを再合成化する。
ットレート信号に圧縮することにある。このディジタル圧縮は、入力音声フレー
ムをパラメータのセットで表示し、このパラメータをビットのセットで表示する
ために量子化を使用することによって得られる。入力音声フレームが多数のビッ
トNiを有し、音声コーダによって発生されるデータパケットは多数のビットN o を有する場合、音声コーダによって得られる圧縮率はCr=Ni/Noである
。この努力目標は、目標圧縮率を得る間、復号化音声の高声質を保持することに
ある。音声コーダの性能は、(1)音声モデル、あるいは前述された分析処理お
よび合成処理の組合せをいかに十分に実行するか、および(2)いかに完全にパ
ラメータ量子化処理がフレーム当たりNoビットの目標ビットレートでいかに十
分に実行されるかによって決まる。したがって、音声モデルの目的は、各フレー
ムに対するわずかなパラメータのセットを有する音声信号、すなわち目標声質の
本質を捕まえることである。
ドコーディングである。マルチモードコーダは、異なるモード、あるいは符号化
−復号化アルゴリズムを異なる種類の入力音声フレームに適用する。各モード、
あるいは符号化−復号化処理は、最も有効な方法で所定の種類の音声セグメント
(すなわち、有声、無声、背景雑音)を表示するようにカスタマイズする。外部
モード決定機構は、入力音声フレームを検査し、どのモードをフレームに適用す
るかに関する決定を行う。一般的には、モード決定は、入力フレームの中から多
数のパラメータを抽出し、これらを評価し、どのモードを適用するかについての
決定を行うことによって開ループの方法で行われる。したがって、モード決定は
、出力音声の正確な状態、すなわち、出力音声が声質あるいはいかなる他の性能
量に関して入力音声とどれほど類似しているかを前以て知らないで行われる。音
声コーデックのための典型的な開ループモード決定は、本発明の譲受人に譲渡さ
れ、引用文献としてここに完全に組み込まれる米国特許第5,414,796号
に記載されている。
る固定レートであってもよいし、あるいは異なるビットレートが異なるモードの
ために使用される可変レートであってもよい。可変レートコーディングの目的は
、目標品質を得るのに十分なレベルにコーデックパラメータを符号化するのに必
要なビット量だけを使用することにある。結果として、固定レートの声質と同じ
目標声質の比較的高いレートのコーダは、可変ビットレート(VBR)技術を使
用して明らかに比較的低い平均レートで得ることができる。典型的な可変レート
音声コーダは、本発明の譲受人に譲渡され、引用文献としてここに予め完全に組
み込まれる米国特許第5,414,796号に示されている。
にある)の媒体で作動する高品質音声コーダを開発する研究関心および強い営利
的要求のうねりがある。用途の分野は、無線電話、衛星通信、インターネット電
話、様々なマルチメディアおよび音声ストリーム用途、音声メール、および他の
音声蓄積システムを含んでいる。駆動力は、高容量に対する要求およびパケット
損失状態の下での確固不動の要求がある。様々な最近の音声コーディング標準化
の努力は低レート音声コーディングアルゴリズムの研究および開発を推進する他
の直接の原動力である。低レート音声コーダは、許容可能な用途の帯域幅当たり
より多くのチャネル、すなわちユーザを形成し、適当なチャネルコーディングの
他のレイヤと結合された低レート音声コーダは、コーダ仕様の全ビットバジェッ
トに適合でき、チャネルエラー状態の下で確固不動の性能を与える。
符号化するのに有効な方法である。従来のマルチモード方式は、有効な符号化方
式、様々な音声のセグメント(例えば、無声、有声、遷移)に対するモードなら
びに背景雑音あるいは無声に対するモードの設計を必要とする。音声コーダの全
性能は、各モードがいかに十分に実行するかによって決まり、コーダの平均レー
トは、音声の無声セグメント、有声セグメント、および他のセグメントに対する
異なるモードのビットレートによって決まる。低平均レートで目標品質を得るた
めに、そのいくつかが低ビットレートで作動しなければならない有効な高性能モ
ードを設計することが必要である。一般的には、有声音声セグメントおよび無声
音声セグメントは、高ビットレートで捕まえられ、背景雑音および無声セグメン
トは、かなり比較的低いレートで作動するモードで表示される。したがって、フ
レーム当たり最少のビット数を使用している間、音声の無声セグメントを正確に
捕まえる低ビットレート符号化技術に対する要求がある。
トを正確に捕まえる低ビットレートコーディング技術に向けられる。したがって
、本発明の一態様では、音声の無声セグメントを符号化する方法は、有利なこと
には、高時間分解能エネルギー係数を音声のフレームから抽出するステップと、
高時間分解能エネルギー係数を量子化するステップと、量子化エネルギー係数か
ら高時間分解能エネルギーエンベロープを生成するステップと、エネルギーエン
ベロープの量子化値を有するランダムに発生された雑音ベクトルを形成すること
によって残余信号を再構成するステップとを含む。
利なことには、高時間分解能エネルギー係数を音声のフレームから抽出する手段
と、高時間分解能エネルギー係数を量子化する手段と、高時間分解能エネルギー
エンベロープを量子化エネルギー係数から生成する手段と、エネルギーエンベロ
ープの量子化値を有するランダムに発生された雑音ベクトルを形成することによ
って残余信号を再構成する手段とを含んでいる。
利なことには、高時間分解能エネルギー係数を音声のフレームから抽出するよう
に構成されたモジュールと、高時間分解能エネルギー係数を量子化するように構
成されたモジュールと、高時間分解能エネルギーエンベロープを量子化エネルギ
ー係数から生成するように構成されたモジュールと、エネルギーエンベロープの
量子化値を有するランダムに発生された雑音ベクトルを形成することによって残
余信号を再構成するように構成されたモジュールとを含む。
信し、伝送媒体12、すなわち通信チャネル12上で、第1のデコーダ14に伝
送するためにこのサンプルs(n)を符号化する。このデコーダ14は、符号化
音声サンプルを復号化し、出力音声信号sSYNTH(n)を合成する。反対方
向に伝送するために、第2のエンコーダ16は、通信チャネル18上で伝送され
るディジタル化音声サンプルs(n)を符号化する。第2のデコーダ20は、符
号化音声サンプルを受信し、復号化し、合成出力音声信号sSYNTH(n)を
生成する。
るいはA法を技術で公知の様々な方法のいずれかに従ってディジタル化および量
子化された音声信号を示す。当該技術で公知であるように、音声サンプルs(n
)は、入力データのフレームに構成され、各フレームは、所定数のディジタル化
音声サンプルs(n)を含む。典型的な実施形態では、8kHzのサンプリング
レートが使用され、各20msフレームは160のサンプルを含む。後述される
実施形態では、データ伝送速度は、8kbps(フルレート)から4kbps(
ハーフレート)へ2kbps(1/4レート)へ1kbps(1/8レート)に
までフレーム毎に基づいて変えられてもよい。比較的低いビットレートは比較的
少ない音声情報を含むフレームに対して選択的に使用されてもよいために、デー
タ伝送速度を変えることは有利である。当業者に理解されているように、他のサ
ンプリング速度、フレームサイズおよびデータ伝送速度が使用されてもよい。
、あるいは音声コーデックを含む。同様に、第2のエンコーダ16および第1の
エンコーダ14は共に第2の音声コーダを含む。音声コーダは、ディジタル信号
プロセッサ(DSP)、特定用途向け集積回路(ASIC)、個別ゲートロジッ
ク、ファームウェア、あるいは任意の従来のプログラマブルソフトウェアモジュ
ールおよびマイクロプロセッサで実現されてもよいことが当業者に分かる。ソフ
トウェアモジュールは、RAMメモリ、フラッシュメモリ、レジスタ、当該技術
で公知の任意の形式の書込み可能な媒体にあってもよい。それとは別に、任意の
従来のプロセッサ、コントローラ、あるいは状態機械はマイクロプロセッサの代
わりにされてもよい。特に音声符号化のために設計された典型的なASICは、
本発明の譲受人に譲渡され、引用文献としてここに完全に組み込まれる米国特許
第5,727,123号および1994年2月16日に出願され、本発明の譲受
人に譲渡され、引用文献としてここに完全に組み込まれる名称が「ボコーダAS
IC」と題された米国特許出願第08/197,417号に記載されている。
ジュール102と、ピッチ推定モジュール104と、LP分析モジュール106
と、LP分析フィルタ108と、LP量子化モジュール110と、残余量子化モ
ジュール112とを含んでいる。入力音声フレームs(n)は、モード決定モジ
ュール102、ピッチ推定モジュール104、LP分析モジュール106、およ
びLP分析フィルタ108に供給される。モード決定モジュール102は、各入
力音声フレームs(n)の周期性に基づいてモードインデックスIMおよびモー
ドMを発生する。周期性に従って音声フレームを分類する様々な方法は、199
7年3月11日に出願され、本発明の譲受人に譲渡され、引用文献としてここに
完全に組み込まれる名称が「減少された速度の可変速度ボコーディングを実行す
る方法および装置」と題された米国特許出願第08/815,354号に記載さ
れている。このような方法は、米国電気通信工業会工業暫定規格TIA/EIA IS−127およびTIA/EIA IS−733にも組込まれる。
各入力音声フレームs(n)に基づいて発生する。LP分析モジュール106は
、各入力音声フレームs(n)の線形予測分析を実行し、LPパラメータaを発
生する。LPパラメータaは、LP量子化モジュール110に供給される。LP
量子化モジュール110はモードMも受信する。LP量子化モジュール110は
、LPインデックスILPおよび量子化LPパラメータaを発生する。LP分析
フィルタ108は、入力音声フレームs(n)に加えて量子化LPパラメータa
を受信する。LP分析フィルタ108は、入力音声フレームs(n)と量子化線
形予測パラメータaとの間のエラーを示すLP残余信号R[n]を発生する。LP
残余R[n]、モードM、および量子化LPパラメータaは残余量子化モジュー
ル112に供給される。これらの値に基づいて、残余量子化112は、残余イン
デックスIRおよび量子化残余信号R[n]を発生する。
ータ復号化モジュール202と、残余復号化モジュール204と、モード復号化
モジュール206と、LP合成フィルタ208とを含む。モード復号化モジュー
ル206は、モードインデックスIMを受信し、復号化し、それからモードMを
生成する。LPパラメータ復号化モジュール202は、モードMおよびLPイン
デックスILPを受信する。LPパラメータ復号化モジュール202は、受信値
を復号化し、量子化LPパラメータaを発生する。残余復号化モジュール204
は、残余インデックスIR、ピッチインデックスIp、およびモードインデック
スIMを受信する。残余復号化モジュール204は、受信値を復号化し、量子化
残余信号R[n]を生成する。量子化残余信号R[n]および量子化LPパラメ
ータaは、それから復号化出力音声信号s[n]を合成するLP合成フィルタ2
08に供給される。
び実装は、当該技術で公知であり、引用文献としてここに完全に組み込まれるL
.B.Rabiner&R.W.Schafer著の論文「音声信号のディジタ
ル処理(396〜453)(1978)」に詳述される。典型的なエンコーダお
よび典型的なデコーダは、引用文献としてここに予め完全に組み込まれる米国特
許第5,414,796号に記載されている。
ビットレートコーディングを示す。図4の実施形態に示された低ビット無声コー
ディングモードは、有利なことには、フレーム当たり少数のビットを有する無声
セグメントを正確に捕まえることによって全体の高声質を保持している間、マル
チモード音声コーダに比較的低い平均ビットレートを与える。
無声あるいは非無声のいずれかと確認する。速度決定は、フレームのエネルギー
(E)、フレーム周期性(Rp)およびスペクトル傾斜(Ts)のような音声フ
レームS[n](ここで、n=1、2、3、...Nである)から抽出される多
数のパラメータを考察することによって行われる。このパラメータは、所定の閾
値のセットで比較される。現フレームが比較の結果に基づいて無声であるかどう
かに関する決定が行われる。現フレームが無声である場合、現フレームは、後述
されるように無声フレームとして復号化される。
。
ル傾斜は、有利なことには、下記の式に従って決定されてもよい。
、SlおよびShは、原音声フレームS[n]のローパス成分およびハイパス成
分であり、その成分は、有利なことには、一組のローパスフィルタおよびハイパ
スフィルタによって発生されてもよい。
ように行われる。線形予測(LP)分析は、両方とも引用文献としてここに完全
に組み込まれる前述の米国特許第5,414,796号およびL.B.Rabi
ner&R.W.Schafer著の論文「音声信号のディジタル処理(396
〜458)(1978)」に記載されているように当該技術分野で公知である技
術で行われる。Nサンプルの無声LP残余のR[n](ここで、n=1、2、.
..Nである)は、入力音声フレームS[n](ここで、n=1、2、...N
である)から形成される。LPパラメータは、上記で列挙された引用文献のいず
れかに記載されているように公知のLSP量子化技術で線形スペクトル対(LS
P)領域で量子化される。原音声信号振幅対個別時間インデックスのグラフは図
5のAに示されている。量子化無声音声信号振幅対個別時間インデックスのグラ
フは図5のBに示されている。原無声残余信号振幅対個別時間インデックスのグ
ラフは図5のCに示されている。エネルギーエンベロープ振幅対個別時間インデ
ックスのグラフは図5のDに示されている。量子化無声残余信号振幅対個別時間
インデックスは図5のEに示されている。
れる。多数(M)のローカルエネルギーパラメータEi(ここで、n=1、2、
...Mである)は、下記のステップを実行することによって無声残余R[n]
から抽出される。Nサンプルの残余R[n]は、(M−2)個のサブブロックX i (ここで、n=1、2、...M−1である)に分割され、各ブロックXiは
、L=N/(M−2)の長さを有する。Lサンプルの過去残余ブロックXiは、
前フレームの過去量子化残余から得られる。(Lサンプルの過去残余ブロックX i は、最後の音声フレームのNサンプル残余の最後のL個のサンプルを組み込む
)。Lサンプルの将来残余ブロックXMは次のフレームのLP残余から得られる
。(Lサンプル将来残余ブロックXMは、次の音声フレームのNサンプルのLP
残余の最初のL個のサンプルを組み込む)。多数Mのローカルエネルギーパラメ
ータEi(ここで、i=1、2、...M)は、下記の式に従ってM個のブロッ
クXi(ここで、i=1、2、...M)の各々から形成される。
子化(PVD)方法に従ってNrビットで符号化される。したがって、M−1個
のローカルエネルギー値Ei(ここで、i=2、3、,...M)は、量子化エ
ネルギー値Wi(ここで、i=2、3、...M)を形成するようにNrビット
で符号化される。ビットN1、N2、...Nkを有するKステップのPVQ符
号化方式は、N1+N2+...Nk=Nrのように使用され、全ビット数は無
声残余R[n]を量子化するのに役立つ。k(ここで、k=1、2、...K)
ステージの各々に関して、下記のステップが実行される。第1のステージ(すな
わち、k=1)に関しては、バンド数は、Bk=B1=1に設定され、バンド長
はLk=1に設定される。各バンドBkに関しては、平均値meanj(ここで
、j=1,2,...Bk)は下記の式による。
eanj(ここで、j=1、2、...Bk)のセットを形成するようにNk=
Njビットで量子化される。各バンドBkに属するエネルギーは、関連量子化平
均値qmeanjによって分割され、新しい組のエネルギー値{Ek,j}={
Ei,j}(ここで、i=1、2、...M)を生成する。各i(ここで、i=
1、2、3、...M)に対する第1のステージの場合(すなわち、k=1の場
合)下記の式が得られる。
つビットで平均値を量子化し、それからサブバンドの成分をサブバンドの量子化
平均値で割るステップは、各々のその後のステージk(ここで、k=2、3、.
..k−1)に対して繰り返される。
る。M=8およびステージ=4に対するPVQ符号化ステップは図6に例として
示される。
量子化エネルギーベクトルは、コードブックおよびPVQ情報を示すNrビット
から前述のPVQ符号化処理を最終の残余サブベクトルおよび量子化平均値で逆
にすることによって形成される。M=3およびステージk=3に対するPVQ復
号化ステップは図7に例として示される。当業者が理解されるように、無声(U
V)利得は、任意の従来の符号化技術で量子化されてもよい。符号化方式は、図
4〜図7に関して説明される実施形態のPVQ方式に制限される必要がない。
プル(すなわち、音声フレーム長)の高時間分解能エネルギーエンベロープEN
V[n](ここで、i=1、2、3、...N)は、後述された計算に従って復
号化エネルギー値Wi(ここで、i=1、2、3、...M)から形成される。
M個のエネルギー値は、音声の現残余のM−2個のサブフレームのエネルギーを
示し、各サブフレームは長さL=N/Mを有する。値WIおよびWMは、残余の
最後のフレームの過去のL個のサンプルのエネルギーおよび残余の次のフレーム
の将来のL個のサンプルのエネルギーそれぞれを示している。
サブバンド、および(m+1)番目のサブバンドのエネルギーのそれぞれを示す
場合、m番目のサブフレームを示すn=m*L−L/2〜n=m*L+L/2に
対するエネルギーエンベロープENV[n]のサンプルは下記のように計算され
る。n=m*L−L/2に対して、n=m*Lまで、
ドの各々に対して繰り返され、現残余フレームに対する全エネルギーエンベロー
プENV[n](ここで、n=1、2、..N)を計算するためにm=2、3、
4、,...Mとする。
]を有するランダム雑音を特徴付けることによって形成される。量子化無声残余
qR[n]は下記の式に従って形成される。
である。 ここで、Noise[n]は、有利なことには、エンコーダおよびデコーダと同
期する乱数発生器によって人工的に発生される単位分散を有するランダム白色雑
音信号である。
qS[n]は、当該技術分野で公知であり、両方とも引用文献としてここに完全
に組み込まれる前述の米国特許第5,414,796号およびL.B.Rabi
ner&R.W.Schafer著の論文「音声信号のディジタル処理(396
〜458)(1978)」に記載されるように従来のLP合成技術による量子化
無声音声の逆LPフィルタリングによって発生される。
R)のような知覚誤差量を測定することによって実行できる。
]であり、“*”は、畳み込みあるいはフィルタリング演算を示し、h(n)は
、知覚重み付けLPフィルタであり、R[n]およびqR[n]は、それぞれ原
無声残余および量子化無声残余である。PSNRは所定の閾値と比較される。P
SNRが閾値よりも小さい場合、無声符号化方式は十分に実行しなくて、高速度
符号化モードは、その代わりに現フレームをより正確に捕まえるために適用され
てもよい。一方、PSNRが所定の閾値を超える場合、無声符号化方式は十分実
行し、モード決定が保持される。
がら、多数の変更は本発明の精神あるいは範囲から逸脱しないでここに開示され
た実施形態に対して行われてもよい。したがって、本発明は上記の特許請求の範
囲による以外限定されるべきでない。
チャートである。
2…モード決定モジュル、104…ピッチ推定モジュール、106…LP分析フ
ィルタ、110…LP量子化モジュール、112…残余量子化モジュール、20
0…デコーダ、202…LP復号化モジュール、204…残余復号化モジュール
、206…モード復号化モジュール、208…LP合成フィルタ
Claims (18)
- 【請求項1】 音声の無声セグメントを符号化する方法であって、 音声のフレームから高時間分解能係数を抽出するステップと、 前記高時間分解能エネルギー係数を量子化するステップと、 前記量子化エネルギー係数から高時間分解能エネルギーエンベロープを生成す
るステップと、 前記エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベ
クトルを形成することによって残余信号を再構成するステップとを含むことを特
徴とする音声の無声セグメントを符号化する方法。 - 【請求項2】 前記量子化ステップがピラミッドベクトル量子化方式に従っ
て実行されることを特徴とする請求項1の方法。 - 【請求項3】 前記生成するステップが線形補間で行われることを特徴とす
る請求項1の方法。 - 【請求項4】 後処理性能量を得るステップと、前記後処理性能量を所定の
閾値と比較するステップとをさらに含むことを特徴とする請求項1の方法。 - 【請求項5】 前記生成するステップが、残余の前のフレームの所定の過去
のサンプル数のエネルギーの表示を含む高時間分解能エンベロープを生成するこ
とを含むことを特徴とする請求項1の方法。 - 【請求項6】 前記生成するステップが、残余の次のフレームの所定の将来
のサンプル数のエネルギーの表示を含む高時間分解能エンベロープを生成するこ
とを含むことを特徴とする請求項1の方法。 - 【請求項7】 音声の無声セグメントを符号する音声コーダであって、 高時間分解能エネルギー係数を音声のフレームから抽出する手段と、 前記高時間分解能エネルギー係数を量子化する手段と、 高時間分解能エネルギーエンベロープを前記量子化エネルギー係数から生成す
る手段と、 前記エネルギーエンベロープの量子化値を有するランダムに発生された雑音ベ
クトルを形成することによって残余信号を再構成する手段とを備えていることを
特徴とする音声コーダ。 - 【請求項8】 前記量子化する手段が、ピラミッドベクトル量子化方式に従
って量子化する手段を含むことを特徴とする請求項7の音声コーダ。 - 【請求項9】 前記生成する手段が線形補間モジュールを含むことを特徴と
する請求項7の音声コーダ。 - 【請求項10】 後処理性能量を得る手段と、前記後処理性能量を所定の閾
値と比較する手段とをさらに含むことを特徴とする請求項7の音声コーダ。 - 【請求項11】 前記生成する手段が、残余の前のフレームの所定の過去の
サンプル数のエネルギーの表示を含む高時間分解能エンベロープを生成する手段
を含むことを特徴とする請求項7の音声コーダ。 - 【請求項12】 前記生成する手段が、残余の次のフレームの所定の将来の
サンプル数のエネルギーの表示を含む高時間分解能エンベロープを生成する手段
を含むことを特徴とする請求項7の音声コーダ。 - 【請求項13】 音声の無声セグメントを符号化する音声コーダであって、 高時間分解能エネルギー係数を音声のフレームから抽出するように構成された
モジュールと、 前記高時間分解能エネルギー係数を量子化するように構成されたモジュールと
、 高時間分解能エネルギーエンベロープを前記量子化エネルギー係数から生成す
るように構成されたモジュールと、 前記エネルギーエンベロープの量子化値を有するランダムに発生される雑音ベ
クトルを形成することによって残余信号を再構成するように構成されたモジュー
ルとを備えていることを特徴とする音声コーダ。 - 【請求項14】 前記量子化がピラミッド量子化方式に従って行われること
を特徴とする請求項13の音声コーダ。 - 【請求項15】 前記生成が線形補間に従って実行されることを特徴とする
請求項13の音声コーダ。 - 【請求項16】 後処理性能量を得て、かつ所定の閾値と比較するように構
成されたモジュールをさらに含むことを特徴とする請求項13の音声コーダ。 - 【請求項17】 前記高時間分解能エネルギーエンベロープが残余の前のフ
レームの所定の過去のサンプル数のエネルギーの表示を含むことを特徴とする請
求項13の音声コーダ。 - 【請求項18】 前記高時間分解能エネルギーエンベロープが残余の次のフ
レームの所定の将来のサンプル数のエネルギーの表示を含むことを特徴とする請
求項13の音声コーダ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/191,633 US6463407B2 (en) | 1998-11-13 | 1998-11-13 | Low bit-rate coding of unvoiced segments of speech |
US09/191,633 | 1998-11-13 | ||
PCT/US1999/026851 WO2000030074A1 (en) | 1998-11-13 | 1999-11-12 | Low bit-rate coding of unvoiced segments of speech |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002530705A true JP2002530705A (ja) | 2002-09-17 |
JP2002530705A5 JP2002530705A5 (ja) | 2007-01-25 |
JP4489960B2 JP4489960B2 (ja) | 2010-06-23 |
Family
ID=22706272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000583003A Expired - Fee Related JP4489960B2 (ja) | 1998-11-13 | 1999-11-12 | 音声の無声セグメントの低ビットレート符号化 |
Country Status (11)
Country | Link |
---|---|
US (3) | US6463407B2 (ja) |
EP (1) | EP1129450B1 (ja) |
JP (1) | JP4489960B2 (ja) |
KR (1) | KR100592627B1 (ja) |
CN (2) | CN1815558B (ja) |
AT (1) | ATE286617T1 (ja) |
AU (1) | AU1620700A (ja) |
DE (1) | DE69923079T2 (ja) |
ES (1) | ES2238860T3 (ja) |
HK (1) | HK1042370B (ja) |
WO (1) | WO2000030074A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018077546A (ja) * | 2013-09-09 | 2018-05-17 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音声処理のための無声/有声判定 |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
KR20020075592A (ko) * | 2001-03-26 | 2002-10-05 | 한국전자통신연구원 | 광대역 음성 부호화기용 lsf 양자화기 |
CN100338650C (zh) * | 2001-04-05 | 2007-09-19 | 皇家菲利浦电子有限公司 | 时标扩展方法、时标修改装置和接收音频信号的接收器 |
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6917914B2 (en) * | 2003-01-31 | 2005-07-12 | Harris Corporation | Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding |
KR100487719B1 (ko) * | 2003-03-05 | 2005-05-04 | 한국전자통신연구원 | 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기 |
US6987591B2 (en) * | 2003-07-17 | 2006-01-17 | Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada | Volume hologram |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
JP5096474B2 (ja) * | 2006-10-10 | 2012-12-12 | クゥアルコム・インコーポレイテッド | オーディオ信号を符号化及び復号化する方法及び装置 |
EP2538406B1 (en) * | 2006-11-10 | 2015-03-11 | Panasonic Intellectual Property Corporation of America | Method and apparatus for decoding parameters of a CELP encoded speech signal |
GB2466666B (en) * | 2009-01-06 | 2013-01-23 | Skype | Speech coding |
US20100285938A1 (en) * | 2009-05-08 | 2010-11-11 | Miguel Latronica | Therapeutic body strap |
CN110033779B (zh) | 2014-02-27 | 2023-11-17 | 瑞典爱立信有限公司 | 用于棱椎矢量量化编索引和解索引的方法和装置 |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
CN113627499B (zh) * | 2021-07-28 | 2024-04-02 | 中国科学技术大学 | 基于检查站柴油车尾气图像的烟度等级估算方法及设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
IL95753A (en) * | 1989-10-17 | 1994-11-11 | Motorola Inc | Digits a digital speech |
JP2841765B2 (ja) * | 1990-07-13 | 1998-12-24 | 日本電気株式会社 | 適応ビット割当て方法及び装置 |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
EP0588932B1 (en) | 1991-06-11 | 2001-11-14 | QUALCOMM Incorporated | Variable rate vocoder |
US5255339A (en) * | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5381512A (en) * | 1992-06-24 | 1995-01-10 | Moscom Corporation | Method and apparatus for speech feature recognition based on models of auditory signal processing |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5839102A (en) * | 1994-11-30 | 1998-11-17 | Lucent Technologies Inc. | Speech coding parameter sequence reconstruction by sequence classification and interpolation |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6754624B2 (en) * | 2001-02-13 | 2004-06-22 | Qualcomm, Inc. | Codebook re-ordering to reduce undesired packet generation |
-
1998
- 1998-11-13 US US09/191,633 patent/US6463407B2/en not_active Expired - Lifetime
-
1999
- 1999-11-12 ES ES99958940T patent/ES2238860T3/es not_active Expired - Lifetime
- 1999-11-12 AU AU16207/00A patent/AU1620700A/en not_active Abandoned
- 1999-11-12 DE DE69923079T patent/DE69923079T2/de not_active Expired - Lifetime
- 1999-11-12 CN CN200410045610XA patent/CN1815558B/zh not_active Expired - Lifetime
- 1999-11-12 WO PCT/US1999/026851 patent/WO2000030074A1/en active IP Right Grant
- 1999-11-12 AT AT99958940T patent/ATE286617T1/de not_active IP Right Cessation
- 1999-11-12 KR KR1020017006085A patent/KR100592627B1/ko active IP Right Grant
- 1999-11-12 CN CNB99815573XA patent/CN1241169C/zh not_active Expired - Lifetime
- 1999-11-12 JP JP2000583003A patent/JP4489960B2/ja not_active Expired - Fee Related
- 1999-11-12 EP EP99958940A patent/EP1129450B1/en not_active Expired - Lifetime
-
2002
- 2002-05-30 HK HK02104019.7A patent/HK1042370B/zh not_active IP Right Cessation
- 2002-07-17 US US10/196,973 patent/US6820052B2/en not_active Expired - Lifetime
-
2004
- 2004-09-29 US US10/954,851 patent/US7146310B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018077546A (ja) * | 2013-09-09 | 2018-05-17 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音声処理のための無声/有声判定 |
US10347275B2 (en) | 2013-09-09 | 2019-07-09 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
US11328739B2 (en) | 2013-09-09 | 2022-05-10 | Huawei Technologies Co., Ltd. | Unvoiced voiced decision for speech processing cross reference to related applications |
Also Published As
Publication number | Publication date |
---|---|
ES2238860T3 (es) | 2005-09-01 |
KR20010080455A (ko) | 2001-08-22 |
EP1129450A1 (en) | 2001-09-05 |
CN1815558A (zh) | 2006-08-09 |
US20010049598A1 (en) | 2001-12-06 |
CN1815558B (zh) | 2010-09-29 |
ATE286617T1 (de) | 2005-01-15 |
CN1342309A (zh) | 2002-03-27 |
HK1042370B (zh) | 2006-09-29 |
KR100592627B1 (ko) | 2006-06-23 |
US6820052B2 (en) | 2004-11-16 |
DE69923079T2 (de) | 2005-12-15 |
JP4489960B2 (ja) | 2010-06-23 |
DE69923079D1 (de) | 2005-02-10 |
AU1620700A (en) | 2000-06-05 |
US20050043944A1 (en) | 2005-02-24 |
US7146310B2 (en) | 2006-12-05 |
EP1129450B1 (en) | 2005-01-05 |
US6463407B2 (en) | 2002-10-08 |
US20020184007A1 (en) | 2002-12-05 |
WO2000030074A1 (en) | 2000-05-25 |
CN1241169C (zh) | 2006-02-08 |
HK1042370A1 (en) | 2002-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4489960B2 (ja) | 音声の無声セグメントの低ビットレート符号化 | |
EP1340223B1 (en) | Method and apparatus for robust speech classification | |
JP4270866B2 (ja) | 非音声のスピーチの高性能の低ビット速度コード化方法および装置 | |
KR100769508B1 (ko) | Celp 트랜스코딩 | |
KR100679382B1 (ko) | 가변 속도 음성 코딩 | |
JP5543405B2 (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
WO2002065457A2 (en) | Speech coding system with a music classifier | |
JP2003510644A (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
JP2003525473A (ja) | 閉ループのマルチモードの混合領域の線形予測音声コーダ | |
JP2003501675A (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
JP4874464B2 (ja) | 遷移音声フレームのマルチパルス補間的符号化 | |
EP1597721B1 (en) | 600 bps mixed excitation linear prediction transcoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090804 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091104 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091111 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091204 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100302 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100401 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4489960 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |