JP4805506B2 - フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ - Google Patents
フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ Download PDFInfo
- Publication number
- JP4805506B2 JP4805506B2 JP2001534143A JP2001534143A JP4805506B2 JP 4805506 B2 JP4805506 B2 JP 4805506B2 JP 2001534143 A JP2001534143 A JP 2001534143A JP 2001534143 A JP2001534143 A JP 2001534143A JP 4805506 B2 JP4805506 B2 JP 4805506B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- frame
- encoded
- predictive
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000035945 sensitivity Effects 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000003252 repetitive effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 13
- 238000013139 quantization Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Analogue/Digital Conversion (AREA)
Description
発明の背景
I.発明の分野
本発明は一般に音声処理の分野に係り、特に予測音声コーダのフレームエラー状態に対する感度を減らすための方法と装置に関係する。
II.背景技術
デジタル技術による音声の伝送は、特に長距離およびデジタル無線電話応用で広範囲に展開されるようになった。これは再構成された音声の知覚された品質を維持すると共に、チャンネルを通じて送ることが可能である最小の情報量を決定することに関心を引き起こした。音声が単にサンプリングおよびデジタル化により送信される場合、64キロビット/秒(kbps)の程度のデータレートが従来のアナログ電話の音声品質を達成するために必要である。しかし、適当な符号化、伝送および受信機での再合成に続く音声分析の使用によって、データレートの重大な低減が起る。
【0002】
人間の音声発生のモデルに関するパラメタを抽出することによって、音声を圧縮する技術を採用する装置は音声コーダと呼ばれている。音声コーダは入来音声信号を時間のブロックまたは分析フレームに分割する。音声コーダは典型的にエンコーダおよびデコーダを含む。エンコーダは一定の関連したパラメタを抽出するために入来音声フレームを分析し、パラメタを2進表示、即ち、一組のビットまたは2進データパケットに量子化する。データパケットはチャンネルを通じて受信機およびデコーダに伝送される。デコーダはデータパケットを処理し、パラメタを生成するためそれらを非量子化し、非量子化されたパラメタを使用して音声フレームを再合成する。
【0003】
音声コーダの機能は、音声に固有の自然の冗長の全てを取り除くことによって、デジタル化された音声信号を低ビットレート信号に圧縮することである。デジタル圧縮は一組のパラメタを有する入力音声フレームを表すことおよび一組のビットでパラメタを表すために量子化を採用することにより達成される。入力音声フレームがビット数Niを有し、音声コーダによって生成されるデータパケットがビット数Noを有するなら、音声コーダによって達成される圧縮係数はCr=Ni/Noである。目標圧縮係数を達成しながら復号化された音声の高音声品質を保持することが挑戦である。音声コーダの性能は以下に依存する:(1) いかにして良い音声モデルまたは上述された分析および合成処理を実行するか、(2) いかにして良いパラメタ量子化処理がフレーム毎のNoビットの目標ビットレートで実行されるか。音声モデルの目標は、各フレームについてパラメタの小さい組で音声信号または目標音声品質の本質を捕らえることである。
【0004】
おそらく、音声コーダの設計において最も重要であることは、音声信号を記述するパラメタ(ベクトルを含む)の良好な組の検索である。パラメタの良好な組は、知覚的に正確な音声信号の再構成のために低システム帯域幅を要求する。ピッチ、信号パワー、スペクトル包絡線(またはフォルマント)、振幅および位相スペクトルは音声符号化パラメタの例である。
【0005】
音声コーダは時間領域コーダとして実行され、それは一度に音声の小さいセグメント(典型的に5ミリ秒(ms)のサブフレーム)を符号化するために高い時間分解処理を採用することにより時間領域音声波形を捕らえようとする。各々のサブフレームのために、コードブックスペースからの高精度標本が、公知技術のさまざまな検索アルゴリズムの手段により見出される。代わりに音声コーダは周波数領域コーダとして実行されることができ、それは一組のパラメタ(分析)を伴う入力音声フレームの短期音声スペクトルを捕らえて、スペクトルのパラメタから音声波形を再現するために対応する合成処理を採用しようとする。パラメタ量子化器は、A.Gersho&R.M.Gray著「ベクトル量子化および信号圧縮(1992)」で説明さてた公知の量子化技術に従ってコードベクトルの記憶された表現でそれらを表すことによってパラメタを保存する。
【0006】
周知の時間領域音声コーダは、L.B.RabinerとR.W.Schafer著の「音声信号のデジタル処理396-453(1978)」に記述された「符号励起線形予測(CELP) コーダ」であり、それは引用文献としてここに完全に組み込まれる。CELPコーダでは、音声信号の短期間相関関係、または冗長が線形予測(LP)分析によって取り除かれ、それは短期的なフォルマントフィルタの係数を見つける。短期的な予測フィルタを入来音声フレームに適用するとLP残余信号が発生し、それは長期予測フィルタパラメタとその後の確率的なコードブックでさらにモデル化されかつ量子化される。したがって、CELP符号化は時間領域音声波形を符号化するタスクをLPの短期的フィルタ係数に符号化することおよびLP残余に符号化することの別々のタスクに分割する。時間領域符号化は固定レート(即ち、各フレームに同じ数のビット、Noを使用する)または可変レート(異なった型のフレーム内容に対し異なるビットレートが使用される)で実行することができる。可変レートコーダは、コーデックパラメタを目標品質を得るために適切なレベルに符号化するために必要とされるビットの量だけを使用するように試みる。例示的可変レートCELPコーダは米国特許No.5,414,796に記述され、それは本発明の譲受人に譲渡され引用文献としてここに組みこまれる。
【0007】
CELPコーダのような時間領域コーダは、時間領域音声波形の精度を保存するためにフレームにつき大きい数のビットNoを通常当てにする。そのようなコーダは、比較的大きいフレーム(例えば、8kbps以上)につきNoビットの数を提供された優れた音声品質を通常引渡す。しかしながら、低ビットレート(4kbps以下)で、時間領域コーダは有効なビットの有限な数による高品質かつロバスト(robust)性能を保有しない。低ビットレートでは、限られたコードブックスペースは、より高いレートの商業応用であまりに首尾よく配備された通常の時間領域コーダの波形一致能力を切り取る。したがって、時間がたつにつれての改良にもかかわらず、低ビットレートで作動する多くのCELP符号化システムは雑音として通常特徴付けられる知覚的に重要なひずみに悩まされる。
【0008】
低ビットレート(即ち、2.4〜4kbps以下の範囲)で媒体で作動する高品質な音声コーダを開発する研究関心と強い商業的必要性のうねりが現に存在する。応用領域は無線電話、衛星通信、インターネット電話、様々なマルチメディアおよび音声ストリーミング応用、ボイスメール、および他の音声記憶システムを含んでいる。原動力は高い容量の必要性とパケット損失状況の下でのロバスト性能の要請である。様々な最近の音声符号化標準化の努力は低レート音声符号化アルゴリズムの研究開発を推進する別の直接な原動力である。低レート音声コーダが許容できる応用帯域幅あたりのより多くのチャンネル、またはユーザを創造して、適当なチャンネル符号化の付加的な層と結びつけられた低レート音声コーダはコーダ仕様の総合的なビットバジェット(budget)に適合でき、チャンネルエラー状態の下でロバスト性能を引渡すことができる。低ビットレート音声コーダの例はプロトタイプピッチ周期(PPP)音声コーダであり、1998年12月21日に出願され、本発明の譲受人に譲渡され、引用文献としてここに完全に組みこまれる「可変レート音声符号化」と題する米国出願シリーズNo.09/217,341で説明される。
【0009】
CELPコーダ、PPPコーダおよび波形補間(WI)コーダのような通常の予測音声コーダにおいて、符号化体系は重く過去の出力に依存する。それゆえに、フレームエラーまたはフレーム消去がデコーダで受信される場合、デコーダは問題のフレームのためにそれ自身の最高の置換を作らなければならない。デコーダは典型的に前の出力の知的フレーム反復を使用する。デコーダがそれ自身の置換を作らなければならないので、デコーダおよびエンコーダは互いに同期を失う。それ故次のフレームがデコーダに到達するとき、そのフレームが予測的に符号化されるなら、デコーダはエンコーダが使用したのとは異なる前の出力を参照する。これは音声品質または音声コーダ性能の低減を生じる。音声コーダはより重く予測符号化技術(即ち、音声コーダのより多くのフレームが予測的に符号化される)に依存し、性能の低減がひどくなる。このように、予測音声コーダのフレームエラー状態に対する感度を減らす方法の必要がある。
【0010】
発明の概要
本発明は予測音声コーダのフレームエラー状態に対する感度を低減する方法に向けられる。したがって、本発明の一態様において音声コーダが提供される。音声コーダは都合よく少なくとも1つの予測符号化モード、少なくとも1つの非予測符号化モード、および少なくとも1つの予測符号化モードおよび少なくとも1つの非予測符号化モードに結合されたプロセッサを含み、そのプロセッサは連続した音声フレームを符号化された音声フレームのパターンに従って選択された符号化モードにより符号化させるように構成され、そのパターンは非予測符号化モードで符号化された少なくとも1つの音声フレームを含んでいる。
【0011】
本発明の別の態様において、符号化音声フレームの方法が提供される。方法は、予測符号化モードで連続した音声フレームの予め定義された数を符号化し、予測符号化モードで連続した音声フレームの予め定義された数を符号化するステップの後に非予測符号化モードで少なくとも1つの音声フレームを符号化し、パターンに従って符号化された複数の音声フレームを生成するために2つの符号化ステップを繰り返すステップを都合よく含む。
【0012】
本発明の別の態様において、音声コーダが提供される。音声コーダは、予測符号化モードで連続した音声フレームの予め定義された数を符号化する手段と、予め定義された数の連続した音声フレームが予測符号化モードで符号化された後に非予測符号化モードで少なくとも1つの音声フレームを符号化する手段と、パターンに従って符号化される複数の音声フレームを生成するための手段とを都合よく含み、パターンは非予測符号化モードで符号化された少なくとも1つの音声フレームを含んでいる。
【0013】
本発明の別の態様において、音声フレーム符号化の方法が提供される。方法は、複数の音声フレームをパターンで符号化するステップを都合よく含み、パターンは少なくとも1つの予測的に符号化された音声フレームおよび少なくとも1つの非予測的に符号化された音声フレームを含んでいる。
【0014】
本発明の別の態様において、音声フレーム符号化の方法が提供される。方法は、複数の音声フレームをパターンで符号化するステップを都合よく含み、パターンは少なくとも1つの重く予測的に符号化された音声フレームと少なくとも1つの僅かに予測的に符号化された音声フレームを含んでいる。
【0015】
好ましい実施例の詳細な記述
図1において、第1のエンコーダ100はデジタル化された音声サンプルs(n)を受信し、伝送媒体102、即ち通信チャンネル102上で第1のデコーダ104に伝送するためサンプルs(n)を符号化する。伝送媒体102は例えば地上の通信回線、基地局および人工衛星間のリンク、セルラーまたはPCS電話および基地局間の無線通信チャンネル、またはセルラーまたはPCS電話および人工衛星間の無線通信チャンネルであり得る。音声サンプルs(n)は、さまざまなコードブックインデックスの形で都合よく符号化されて、下記のようにノイズを量子化する。デコーダ104は符号化された音声サンプルを復号し、出力された音声信号SSYNTH(n)を合成する。復号化過程は、下記のように出力音声信号SSYNTH(n)の合成に使用するため適当な値を決定する種々のコードブックを捜すための伝送されたコードブックインデックスの使用を含む。反対方向の伝送のために、第2のエンコーダ106はデジタル化された音声サンプルs(n)を符号化し、それは通信チャンネル108上で伝送される。第2のデコーダ110は符号化された音声サンプルを受信して、符号化された音声サンプルを復号し、合成された出力音声信号SSYNTH(n)を生成する。
【0016】
音声サンプルs(n)は、例えばパルス符号変調(PCM)、合成されたμ−法、またはA−法を含んでいる公知技術のさまざまな方法のいずれかに従ってデジタル化され量子化された音声信号を表す。技術において知られているように、音声サンプルs(n)は各々のフレームがデジタル化された音声サンプルs(n)の予め定められた数を含む入力データのフレームに編制される。フレームはサブフレームにさらに再分割されることができる。例示的な実施例において、各々のフレームは4つのサブフレームを含む。例示的な実施例において、8Khzのサンプリングレートが各々160のサンプルからなる20ミリ秒フレームを有して使われる。後述する実施例において、データ伝送のレートはフレーム対フレーム基準で都合よく変えられる。例えば、データ伝送のレートは完全なレートから半分のレート、4分の1のレート、8分の1のレートに変えられ得る。下位ビットレートが比較的少ない音声情報を含んでいるフレームのために選択的に使うことができるので、データレートを変化させることは有利である。当業者によく理解されている様に、さまざまなサンプリングレート、フレームサイズおよびデータ伝送レートが使用されるかもしれない。
【0017】
第1のエンコーダ100および第2のデコーダ110は一緒に第1の音声コーダまたは音声コーデックを含む。音声コーダは、例えばセルラーまたはPCS電話、基地局および/または基地局コントローラを含む伝送している音声信号の任意の通信装置に使用されることができる。同様に、第2のエンコーダ106および第1のデコーダ104は一緒に第2の音声コーダ含む。音声コーダがデジタル信号処理装置(DSP)、特定用途向け集積回路(ASIC)、ディスクリートゲートロジック、ファームウェアまたは任意な通常のプログラム可能なソフトウェアモジュールおよびマイクロプロセッサで実行されてもよいことは当業者によりよく理解される。ソフトウェアモジュールは、RAMメモリー、フラッシュメモリ、レジスタまたは公知技術の他のいかなる形の書き込み可能な記憶媒体でもあることができる。代わりにいかなる従来のプロセッサ、コントローラまたは状態マシンもマイクロプロセッサと置換されることができる。音声符号化のために設計される例示的なASICは本発明の譲受人に譲渡され、引用文献として完全にここに組み込まれた米国特許番号5,727,123、および1994年2月16日に申請され本発明の譲受人に譲渡され、ここに引用文献として完全に組み込まれた「VOCODER ASIC」と題する米国出願番号08/197,417に記述されている。
【0018】
図2において、音声コーダで使用されることができるエンコーダ200は、モード決定モジュール202、ピッチ推定モジュール204、LP分析モジュール206、LP分析フィルタ208、LP量子化モジュール210および残余量子化モジュール212を含む。入力音声フレームs(n)は、モード決定モジュール202、ピッチ推定モジュール204、LP分析モジュール206およびLP分析フィルタ208に提供される。モード決定モジュール202はモードインデックスIMおよび周期性に基づくモードM、エネルギー、信号対雑音比(SNR)、または各入力音声フレームs(n)の他の特徴の中でゼロ交差率を提供する。周期性に従う音声フレームを分類するさまざまな方法は、本発明の譲受人に譲渡されここに引用文献として完全に組み込まれた米国特許番号5,911,128に記述されている。この種の方法は、また、米国電気通信工業会 暫定標準 TIA/EIA IS-127およびTIA/EIA IS-733に組み込まれている。例示的なモード決定案はまた、上述した米国出願番号09/217,341に記述されている。
【0019】
ピッチ推定モジュール204はピッチインデックスIpおよび各入力音声フレームs(n)に基づいた遅れ値P0を生じる。LP分析モジュール206は、LPパラメタaを生成するために各々の入力音声フレームs(n)に線形予測の分析を実行する。LPパラメタaはLP量子化モジュール210に与えられる。LP量子化モジュール210はまたモードMを受け、それによって、モード依存方法で量子化過程を実行する。LP量子化モジュール210はLPインデックスILPおよび量子化されたLPパラメタa―を生じる。LP分析フィルタ208は入力音声フレームs(n)に加えて量子化されたLPパラメタa―を受信する。LP分析フィルタ208はLP残余信号R[n]を生成し、それは入力音声フレームs(n)および線形予測されたパラメタa―に基づいた再構成された音声間の誤差を表す。LP残余R[n]、モードMおよび量子化されたLPパラメタa―が残余量子化モジュール212に提供される。これらの値に基づいて、残余量子化モジュール212は残余インデックスIRおよび量子化残余信号R[n]―を生成する。
【0020】
図3において、音声コーダに使用されることができるデコーダ300は、LPパラメタ復号モジュール302、残余復号モジュール304、モード復号モジュール306およびLP合成フィルタ308を含む。モード復号モジュール306はそこからモードMを生成するモードインデックスIMを受信して復号する。LPパラメタ復号モジュール302はモードMおよびLPインデックスILPを受信する。LPパラメタ復号モジュール302は量子化されたLPパラメタ[x]を生じるために受け取られた値を復号する。残余復号モジュール304は残余インデックスIR、ピッチインデックスIP、およびモードインデックスIMを受信する。残余復号モジュール304は量子化された残余信号[X]を生成するために受け取られた値を復号する。量子化された残余信号[X]および量子化されたLPパラメタ[x]はLP合成フィルタ308に提供され、それはそれらから復号化出力音声信号[X]を合成する。
【0021】
図2のエンコーダ200および図3のデコーダ300のモジュールのためのさまざまな作動および実施技術は、上述した米国特許番号5,414,796および米国出願番号09/217,341に記述されている。
【0022】
図4のフローチャートに示したように、一実施例に従う音声コーダは伝送のための処理音声サンプルの一組のステップに従う。ステップ400において、音声コーダは連続したフレームの音声信号のデジタルサンプルを受信する。与えられたフレームを受信すると、音声コーダはステップ402へ進む。ステップ402において、音声コーダはフレームのエネルギーを検出する。エネルギーはフレームの音声活力の基準である。音声検出はデジタル化された音声サンプルの振幅の平方を合計し、閾値に対して結果として生じるエネルギーを比較することにより実行される。実施例において、閾値はバックグラウンドノイズの変更レベルに基づいて適応する。例示的な可変の閾値音声活力検出回路は上述した米国特許番号5,414,796に記述されている。声に出されない若干の音声音は、バックグラウンドノイズとして誤って符号化されることができる極めて低エネルギーサンプルであり得る。これが起こるのを防止するために、上述した米国特許番号5,414,796に記述したように、低エネルギーサンプルのスペクトルの傾斜はバックグラウンドノイズから無声音声を区別するために用いることができる。
【0023】
フレームのエネルギを検出した後に、音声コーダはステップ404へ進む。ステップ404において、音声コーダは、検出されたフレームエネルギーが音声情報を含むとしてフレームを分類するのに十分かどうか決定する。検出されたフレームエネルギーが予め定義された閾値以下に低下する場合、音声コーダはステップ406へ進む。ステップ406において、音声コーダはバックグラウンドノイズ(即ち、音声なし、即ち沈黙)としてフレームを符号化する。一実施例において、バックグラウンドノイズフレームは8分の1のレートで符号化される。ステップ404において検出フレームエネルギーが予め定義された閾値を満たすかまたは超える場合、フレームは音声として分類され、音声コーダはステップ408へ進む。
【0024】
ステップ408において音声コーダは、フレームが無声音声、即ち音声コーダがフレームの周期性を試験するかどうかを決定する。周期性判定のさまざまな既知の方法は、例えばゼロ交差の使用および正規化自己相関関数(NACF)の使用を含む。特に、周期性を検出するためにゼロ交差およびNACFを使用することは、上述した米国特許番号5,911,128および米国出願番号09/21,7341に記述されている。加えて、有声音声と無声音声を区別するために用いる上記の方法は、米国電気通信工業会 暫定標準TIA/EIA IS-127およびTIA/EIA IS-733に取り込まれている。フレームがステップ408の無声音声であると決定される場合、音声コーダはステップ410へ進む。ステップ410において、音声コーダは無声音声としてフレームを符号化する。一実施例において、無声音声フレームは4分の1のレートで符号化される。ステップ408においてフレームが無声音声であると決定されない場合、音声コーダはステップ412へ進む。
【0025】
ステップ412において、音声コーダは、例えば上述した米国特許番号5,911,128に記述されたように従来技術である周期性検出方法を用いて、フレームが遷移音声であるかどうか決定する。フレームが遷移音声であると決定される場合、音声コーダはステップ414へ進む。ステップ414において、フレームは遷移音声、(即ち、無声音声から有声音声への遷移)として符号化される。一実施例において遷移音声フレームは、本発明の譲受人に譲渡され、ここに引用文献として完全に組み込まれた、1999年5月7日に申請された米国出願番号09/30,7294、題名「遷移音声フレームの多重パルス補間符号化」に記述されている多重パルス補間符号化方法に従って符号化される。もう一つの実施例では、遷移音声フレームは完全なレートで符号化される。
【0026】
ステップ412において音声コーダはフレームが遷移音声でないと決定する場合、音声コーダはステップ416へ進む。ステップ416において、音声コーダは有声音声としてフレームを符号化する。一実施例において、有声音声フレームは半分のレートで符号化されてもよい。また、有声音声フレームを完全なレートで符号化することが可能である。しかし、半分のレートで有声フレームを符号化することは、有声フレームの定常状態の特質を活用することによりコーダが価値あるバンド幅を保存できることを当業者は認識するであろう。さらに、有声音声を符号化するために用いるレートに関係なく、有声音声が過去のフレームから情報を使用して都合よく符号化され、それゆえに、前記を予測的に符号化されるようにする。
【0027】
技術に熟練したものは、音声信号または対応するLP残余が図4に示されるステップに従うことによって符号化されることができることを認識するであろう。ノイズ、無声、遷移および有声音声の波形特性が図5Aのグラフで時間の関数として示されることができる。ノイズ、無声、遷移および有声LP残余の波形特性が図5Bのグラフで時間の関数として示されることができる。
【0028】
一実施例において、予測的にフレーム割合を符号化する音声コーダ500は、図6に示すように、決定論的なコード体系選択パターンを用いてフレームエラー状態に対する感度を減少するために構成される。音声コーダ500は初期パラメータ算出モジュール502、分類モジュール504、制御プロセッサ506、複数Nの予測符号化モード508、510(簡単のため、2つの予測符号化モード508、510だけが点線により象徴されている残留予測符号化モードとして示される)および少なくとも1つの非予測符号化モード512を含む。初期パラメータ算出モジュール502は、分類モジュール504に連結される。分類モジュール506は、制御プロセッサ506に、そして、さまざまな符号化モード508、510、512に連結される。制御プロセッサはまた、さまざまな符号化モード508、510、512に連結される。
【0029】
デジタル化された音声サンプルs(n)は音声コーダ500により受信され、初期パラメータ算出モジュール502に入力される。初期パラメータ算出モジュール502は、例えば線形予測係数(LPC係数)、正規化自己相関関数(NACF)、開ループ遅れパラメタ、帯域エネルギー、ゼロ交差レートおよびフォルマント残留信号を含んでいる音声サンプルs(n)からさまざまな初期パラメータを引き出す。種々の初期パラメータの算出および使用は公知技術であり、上述した米国特許番号5,414,796および米国出願番号09/217,341に記述されている。
【0030】
初期パラメータは分類モジュール504に提供される。初期パラメータ値に基づいて、分類モジュール504は図4に関して上記した分類ステップに従って音声フレームを分類する。フレーム分類は制御プロセッサ506に提供され、音声フレームはさまざまな符号化モード508、510、512に提供される。
【0031】
制御プロセッサ506は、どのモードが現在のフレームのための音声の最も妥当な与えられた特性であるかに依存して、フレームからフレームへ複合の符号化モード508、510、512の間で動的に切り換えるために都合よく構成される。特定の符号化モード508、510、512は、デコーダ(図示せず)で受け入れ可能な信号再生を維持すると共に、得られる最も低いビットレートを達成するために各々のフレームについて選択される。音声コーダ500のビットレートはこのように音声信号s(n)の特性変化、可変音声符号化として参照される過程として、時間とともに変化する。
【0032】
一実施例において、制御プロセッサ506は現在の音声フレームの分類に基づく特定の予測符号化モード508、510の応用を指向する。予測符号化モード508、510のうちの1つは、上述した米国特許番号5,414,796に記述されているCELP符号化モードである。予測符号化モード508、510のもう1つは、上述した米国出願番号0/217,341に記述されているPPP符号化モードである。さらに別の予測符号化モード508、510はWI符号化モードであってもよい。
【0033】
一実施例において、非予測符号化モード512は、僅かな予測、または少ないメモリ符号化体系である。予測符号化モード508、510は、都合よく重い予測符号化体系であってもよい。代替実施例において、非予測符号化モード512は全体的に非予測、またはメモリのない符号化体系である。全体的に非予測符号化モード512は、例えば音声サンプルs(n)のPCM符号化、音声サンプルs(n)の複合されたμ−法符号化、または音声サンプルs(n)のA−法符号化であってもよい。
【0034】
1つの非予測符号化モード512が図6に関して記述されている実施例に示されるが、1つ以上の非予測符号化モジュールが使われることができることは熟練者により理解されるであろう。1つ以上の非予測符号化モジュールが使われる場合、非予測符号化モジュールの型が異なることができる。さらに、1つ以上の非予測符号化モジュールが使われる代替実施例において、いくつかまたは全ての非予測符号化モジュールは、僅かな予測符号化モジュールである。そして他の実施例において、非予測符号化モジュールのいくつかまたは全ては全体的に非予測符号化モジュールである。
【0035】
一実施例において、非予測符号化モード512は決定論的持続で制御プロセッサ506により都合よく挿入される。制御プロセッサ506はフレームの長さFを有するパターンを作る。一実施例において、長さFはフレームエラーの影響の最も長く我慢できる持続に基づいている。最も長く我慢できる持続は聴取者の主観的な見地から予め都合よく決定されることができる。もう一つの実施例では、長さFは制御プロセッサ506によって周期的に変化する。他の実施例において、長さFは制御プロセッサ506によって乱数的にまたは疑似乱数的に変化される。例示的な繰り返されているパターンは、PPPNであり、ここにPは予測符号化モード508、510のためにあり、Nは非予測または僅かな予測符号化モード512を示す。代替実施例において、複数の非予測符号化モードが挿入される。例示的なパターンはPPNPPNである。パターン長さFが変化するある実施例において、パターンPPPNはパターンPPPNPN等により続けられるかもしれないパターンPPNにより続けられるかもしれない。
【0036】
一実施例において、図6の音声コーダ500のような音声コーダは決定論的間隔で少ないメモリまたはメモリのない符号化体系に知的に挿入するため、図7のフローチャートに示されたアルゴリズムステップを実行する。ステップ600において、制御プロセッサ(示されない)は計数変数iをゼロに等しく設定する。制御プロセッサは次にステップ602へ進む。ステップ602において制御プロセッサは現フレームの音声内容の分類に基づいて現音声フレームのための予測符号化モードを選択する。制御プロセッサは次にステップ604に進む。ステップ604において、制御プロセッサは選択された予測符号化モードで現フレームを符号化する。制御プロセッサは次にステップ606へ進む。ステップ606において、制御プロセッサは計数変数iを増加させる。制御プロセッサは次にステップ608へ進む。
【0037】
ステップ608において、制御プロセッサは計数変数iが予め定義された閾値Tより大きいか否かを決定する。予め定義された閾値Tは聴取者の主観的な観点から予め決定されるように、フレームエラーの影響の最も長い我慢できる持続に基づいている。特定の実施例において、予め定義された閾値Tはフローチャートで繰返しの予め定義された数として固定したままであり、次に制御プロセッサによって異なる予め定義された値に変更される。計数変数iが予め定義された閾値Tより大きくない場合、制御プロセッサは次の音声フレームのための予測符号化モードを選ぶためにステップ602に戻る。他方、計数変数iが予め定義された閾値Tより大きい場合、制御プロセッサはステップ610へ進む。ステップ610において、制御プロセッサは非予測または僅かな予測符号化モードで次の音声フレームを符号化する。制御プロセッサはそれからステップ600に戻り、再び計数変数iをゼロに等しく設定する。
【0038】
当業者は、図7のフローチャートが予測的に符号化されるおよび非予測的または僅かに予測的に符号化される音声フレームの異なる繰り返しパターンを組み入れるために修正されることができると認識するであろう。例えば、計数変数iはフローチャートを通して各々の繰返しで、またはフローチャートを通して繰返しの予め定義された数の後に、あるいは疑似乱数的または乱数的に変化されてもよい。または、例えば次の2つのフレームは、ステップ610において非予測符号化モードまたは僅かな予測符号化モードによって符号化されることができる。または、例えばフレームの任意の予め定義された数またはフレームの乱数的に選択された数、フレームの疑似乱数的に選択された数、またはフローチャートで各々の繰返しを有する予め定義された方法で変化するフレームの数は、ステップ610で非予測符号化モードまたは僅かな予測符号化モードで符号化されることができる。
【0039】
一実施例において、図6の音声コーダ500は可変音声コーダ500であり、音声コーダ500の平均ビットレートは都合よく維持される。特定の実施例において、パターンに使用される各々の予測符号化モード508、510が他の各々より異なるレートで符号化され、非予測符号化モード512が予測符号化モード508、510のいずれかのために使用されるより異なるレートで符号化される。他の特定の実施例において、予測符号化モード508、510は比較的低いビットレートで符号化され、非予測符号化モード512は比較的高いビットレートで符号化される。それゆえに、高品質の少ないメモリかメモリのない符号化体系が一旦各Fフレームに挿入され、高品質、重い予測、低ビットレートの符号化体系が減少された平均符号化レートを生じる連続した高ビットレートフレーム間で使用される。いかなる予測音声コーダにおいても有利であるけれども、この技術は特に低ビットレート音声コーダで有効であり、そこにおいて良好な音声品質は重い予測符号化体系を使用することによってのみ達成されることができる。それらの予測特性によるこの種の低ビットレート音声コーダは、フレームエラーによって生じる退行により影響されやすい。高ビットレート、非予測符号化モード512を周期的に挿入することによって、予測符号化モード508、510をさまざまな低ビットレートに維持すると共に、所望の良好な音声品質および低平均符号化レートが達成される。
【0040】
一実施例において、平均レートがRに等しいように繰り返された決定論的なパターンで音声のセグメントの全フレームを符号化することにより、平均符号化レートは予め定義された平均レートRに一定または略一定に都合よく保たれる。例示的なパターンはPPNであり、Pは予測的に符号化されたフレームを表しており、Nは非予測的あるいは僅かに予測的に符号化されたフレームを表している。このパターンにおいて、第1のフレームはR/2で予測的に符号化され、第2のフレームはR/2のレートで予測的に符号化され、第3のフレームは2Rのレートで非予測的にまたは僅かに予測的に符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにRである。
【0041】
他の例示的なパターンはPPPNである。このパターンにおいて、第1のフレームがR/2のレートで予測的に符号化され、第2のフレームはRのレートで予測的に符号化され、第3のフレームはR/2のレートで予測的に符号化され、そして、第4のフレームは2Rのレートで非予測的にまたは僅かに予測的に符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにRである。
【0042】
他の例示的なパターンはPPNPPNである。このパターンにおいて、第1のフレームはR/2のレートで符号化され、第2のフレームはR/2のレートで符号化され、第3フレームは2Rレートで符号化され、第4のフレームはR/3のレートで符号化され、第5のフレームはR/3のレートで符号化され、そして、第6のフレームは7R/3のレートで符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにRである。
【0043】
他の例示的なパターンはPPPNPNである。このパターンにおいて、第1のフレームがR/3のレートで符号化され、第2のフレームはR/3のレートで符号化され、第3のフレームはR/3のレートで符号化され、第4のフレームが3Rレートで符号化され、第5のフレームがR/2のレートで符号化され、そして第6のフレームが3R/2のレートで符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにRである。
【0044】
他の例示的なパターンはPPNNPPNである。このパターンにおいて、第1のフレームがR/3のレートで符号化され、第2のフレームはR/3のレートで符号化され、第3のフレームが2Rのレートで符号化され、第4のフレームが2Rのレートで符号化され、第5のフレームがR/2のレートで符号化され、第6のフレームはR/2のレートで符号化され、そして第7のフレームは4R/3のレートで符号化される。パターンはそれから繰り返す。平均符号化レートはこのようにRである。
【0045】
熟練者は、上記のパターンのいずれかのいかなる循環ローテーションもまた使用されることがでると理解するであろう。熟練者はまた、上記のパターンおよびその他が乱数的または疑似乱数的に選択されるかまたは事実上周期的であるか否かで、いかなる順序にも継ぎ合わせることができることを認識するであろう。当業者は、符号化レートのいかなる組も使うことができ、符号化レート平均をパターンの持続(Fフレーム)に亘って所望の平均符号化レートRに提供できることをさらに認識するであろう。
【0046】
非予測的にまたは僅かに予測的に符号化されるようにと高レートで符号化されるフレームを強制することは、音声のセグメントについてRの所望の平均符号化レートを維持する間に、フレームエラーの影響がパターンと同じ長さだけ続けさせられる。実際、音声のセグメントがFフレームパターン長の正確な倍数を含まない場合、制御プロセッサはわずかに最低の平均レートを達成するために知的にパターンを回転させるように構成されることができる。音声セグメントのための所望の有効平均符号化レートRがRの固定レートでセグメントの全フレームを符号化することによって代わりに達成され、レートRが予測の使用をさせる比較的低レートである場合、音声コーダはフレームエラーの続いている影響に極めて弱いであろう。
【0047】
熟練者は、上記した実施例が可変レート音声コーダによるにもかかわらず、上記したそれらのようなパターンに基づく体系がまた、固定レート、予測音声コーダの利点に採用されることができると理解するであろう。固定レート、予測音声コーダが低ビットレート音声コーダである場合、フレームエラー状態は音声コーダに不利な影響を与えるだろう。非予測的に符号化されたまたは僅かに予測的に符号化されたフレームは同じ低レートで符号化された予測的符号化フレームより低い品質であるかもしれない。それにもかかわらず、あらゆるFフレームの1つの非予測的に符号化されたまたは僅かに予測的に符号化されたフレームを導入することは、あらゆるFフレームのフレームエラーの影響を排除する。
【0048】
このように、フレームエラー状態に対する感度を減らすために予測音声コーダのコード体系選択パターンを使用する新規な方法と装置が記述された。熟練者は、ここに開示された実施例と関連して記述されたさまざまな図解論理ブロックおよびアルゴリズムステップが、電子的ハードウエア、コンピューターソフトウェアまたは両方の組合わせとして実行されることができることを理解するであろう。さまざまな図示する構成要素、ブロックおよびステップは、それらの機能性の用語で一般に記述された。機能性がハードウエアまたはソフトウェアとして実施されるか否かは、全体的なシステムに課せられた特定の応用および設計拘束に依存する。熟練者は、これらの状況の下でハードウェアおよびソフトウェアの互換性、および各々の特定の応用のために記述された機能性を最もよく実施する方法を認識する。実施例としてさまざまな図解論理ブロックおよびここに開示された実施例と関連して記述されたアルゴリズムステップは、デジタル信号処理装置(DSP)、特定用途向けIC(ASIC)、ディスクリートゲートまたはトランジスタ論理、例えばレジスタおよびFIFOのようなディスクリートハードウエア構成要素、一組のファームウェア指令を実行しているプロセッサ、またはあらゆる通常のプログラム可能なソフトウェアモジュールおよびプロセッサで実施または実行されることができる。プロセッサは都合よくマイクロプロセッサであってもよいが、代わりにプロセッサはいかなる通常のプロセッサも、コントローラ、マイクロコントローラまたは状態マシンであってもよい。ソフトウェアモジュールはRAMメモリー、フラッシュメモリ、レジスタまたは公知技術の書き込み可能な記憶媒体の他のいかなる形でもあることができる。熟練者は、上記の説明を通して参照されたデータ、指令、命令、情報、信号、ビット、記号およびチップが電圧、電流、電磁波、磁場または粒子、光学場または粒子、またはそれのいかなる組合わせでも都合よく表されることをさらに認識するであろう。
【0049】
本発明の好ましい実施例はこのように図示され記述された。しかし、多数の変更が発明の精神または範囲から逸脱することなく、ここに開示された実施例になされるかもしれないことは技術に普通に熟練した者には明らかである。したがって、本発明は以下の請求項に従う以外に制限されるべきではない。
【図面の簡単な説明】
【図1】 音声コーダにより各々の端で終端される通信チャンネルのブロックダイヤグラムである。
【図2】 図1の音声コーダにおいて使用されることができるエンコーダのブロックダイヤグラムである。
【図3】 図1の音声コーダにおいて使用されることができるデコーダのブロックダイヤグラムである。
【図4】 音声符号化決定過程を示しているフローチャートである。
【図5A】 音声信号振幅対時間のグラフである。
【図5B】 線形予測(LP)残余振幅対時間のグラフである。
【図6】 符号化モード選択パターンを採用するために構成される音声コーダのブロックダイヤグラムである。
【図7】 符号化モード選択パターンを採用する図6の音声コーダのような音声コーダにより実行される方法ステップを示しているフローチャートである。
【符号の説明】
500…音声コーダ 502…初期パラメタ計算モジュール 504…分類モジュール 506…制御プロセッサ 508、510…予測符号化モード 512…非予測符号化モード
Claims (11)
- 少なくとも1つの予測符号化モードと、少なくとも1つの非予測符号化モードとを有する符号化モジュールと、
前記符号化モジュールに結合されたプロセッサとを含み、
前記プロセッサは、前記予測符号化モードで符号化された音声フレーム及び前記予測符号化モード以外の符号化モードで符号化された音声フレームをそれぞれ少なくとも1つずつ含む繰り返しのパターンに従って選択された符号化モードにより連続した音声フレームを符号化させ、前記符号化された音声フレームの前記パターン毎の平均符号化レートを一定に維持するように構成される音声コーダ。 - 前記非予測符号化モードは、前記予測符号化モードより高いビットレートで符号化される低予測符号化モードである請求項1の音声コーダ。
- 前記符号化された音声フレームの前記パターンは、前記少なくとも1つの予測符号化モードで符号化される複数の音声フレームを含み、前記少なくとも1つの予測符号化モードで符号化される音声フレームの数が聴取者により予め定められている請求項1の音声コーダ。
- 予測符号化モードで予め定義された数の連続した音声フレームを符号化することと、
前記予測符号化モードで予め定義された数の連続した音声フレームを符号化するステップを実行した後に、前記予測符号化モードより高いビットレートで符号化される低予測符号化モードで少なくとも1つの音声フレームを符号化することと、
符号化される複数の音声フレームを生成するために、前記予測符号化モードで符号化された音声フレーム及び前記低符号化モードで符号化された音声フレームをそれぞれ少なくとも1つずつ含むパターンに従って前記予測符号化モード及び前記低予測符号化モードの2つの符号化ステップを繰り返すことと、
前記符号化された音声フレームの前記パターン毎の平均符号化レートを一定に維持するステップと、
含む音声フレームを符号化する方法。 - 前記パターンが周期的に繰り返される請求項4の方法。
- 前記パターンがランダムである請求項4の方法。
- 前記低予測符号化モードが予測する請求項4の方法。
- 前記連続した音声フレームの予め定義された数が聴取者によって予め定められる請求項4の方法。
- 前記連続した音声フレームの予め定義された数を変化させるステップを更に含む請求項4の方法。
- 前記変化させるステップが連続した音声フレームの予め定義された数を周期的に変化させることを含む請求項9の方法。
- 前記変化させるステップが連続した音声フレームの予め定義された数を乱数的に変化させることを含む請求項9の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/429,754 US6438518B1 (en) | 1999-10-28 | 1999-10-28 | Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions |
US09/429,754 | 1999-10-28 | ||
PCT/US2000/029710 WO2001031639A1 (en) | 1999-10-28 | 2000-10-26 | A predictive speech coder using coding scheme selection patterns to reduce sensitivity to frame errors |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011128162A Division JP5543405B2 (ja) | 1999-10-28 | 2011-06-08 | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003515178A JP2003515178A (ja) | 2003-04-22 |
JP4805506B2 true JP4805506B2 (ja) | 2011-11-02 |
Family
ID=23704610
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001534143A Expired - Fee Related JP4805506B2 (ja) | 1999-10-28 | 2000-10-26 | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ |
JP2011128162A Expired - Fee Related JP5543405B2 (ja) | 1999-10-28 | 2011-06-08 | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011128162A Expired - Fee Related JP5543405B2 (ja) | 1999-10-28 | 2011-06-08 | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ |
Country Status (13)
Country | Link |
---|---|
US (1) | US6438518B1 (ja) |
EP (1) | EP1224663B1 (ja) |
JP (2) | JP4805506B2 (ja) |
KR (2) | KR100804888B1 (ja) |
CN (1) | CN1212607C (ja) |
AT (1) | ATE346357T1 (ja) |
AU (1) | AU1576001A (ja) |
BR (1) | BRPI0015070B1 (ja) |
DE (1) | DE60032006T2 (ja) |
ES (1) | ES2274812T3 (ja) |
HK (1) | HK1051735A1 (ja) |
TW (1) | TW530296B (ja) |
WO (1) | WO2001031639A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002247137A (ja) * | 2000-04-25 | 2002-08-30 | Canon Inc | 通信装置及び通信方法 |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
US7487083B1 (en) * | 2000-07-13 | 2009-02-03 | Alcatel-Lucent Usa Inc. | Method and apparatus for discriminating speech from voice-band data in a communication network |
WO2002097796A1 (en) * | 2001-05-28 | 2002-12-05 | Intel Corporation | Providing shorter uniform frame lengths in dynamic time warping for voice conversion |
US7433815B2 (en) * | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
US7542899B2 (en) * | 2003-09-30 | 2009-06-02 | Alcatel-Lucent Usa Inc. | Method and apparatus for adjusting the level of a speech signal in its encoded format |
US8111663B2 (en) * | 2004-07-20 | 2012-02-07 | Qualcomm Incorporated | Methods and systems for variable rate broadcast with soft handoff |
SE0402649D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
US20070005347A1 (en) * | 2005-06-30 | 2007-01-04 | Kotzin Michael D | Method and apparatus for data frame construction |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
CA2663904C (en) * | 2006-10-10 | 2014-05-27 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
US8171380B2 (en) | 2006-10-10 | 2012-05-01 | Marvell World Trade Ltd. | Adaptive systems and methods for storing and retrieving data to and from memory cells |
US7813922B2 (en) * | 2007-01-30 | 2010-10-12 | Nokia Corporation | Audio quantization |
CN102057424B (zh) * | 2008-06-13 | 2015-06-17 | 诺基亚公司 | 用于经编码的音频数据的错误隐藏的方法和装置 |
KR20130036304A (ko) * | 2010-07-01 | 2013-04-11 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
US9263054B2 (en) * | 2013-02-21 | 2016-02-16 | Qualcomm Incorporated | Systems and methods for controlling an average encoding rate for speech signal encoding |
TWI557727B (zh) * | 2013-04-05 | 2016-11-11 | 杜比國際公司 | 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品 |
JP2017009663A (ja) * | 2015-06-17 | 2017-01-12 | ソニー株式会社 | 録音装置、録音システム、および、録音方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS637042A (ja) * | 1986-06-27 | 1988-01-12 | Fujitsu Ltd | 符号化伝送装置 |
JPH01293028A (ja) * | 1988-05-20 | 1989-11-27 | Fujitsu Ltd | 音声符号化モード切り替え方式 |
JPH0646409A (ja) * | 1992-07-23 | 1994-02-18 | Sony Corp | 画像信号符号化装置及び画像信号符号化方法 |
JPH07131793A (ja) * | 1993-11-01 | 1995-05-19 | Toshiba Corp | 映像信号高能率符号化装置 |
JPH0818543A (ja) * | 1994-07-01 | 1996-01-19 | Nippon Telegr & Teleph Corp <Ntt> | 可変ビットレート符号化復号化方法、その符号化器及び復号化器 |
JPH0869298A (ja) * | 1994-08-29 | 1996-03-12 | Olympus Optical Co Ltd | 再生装置 |
JPH0884329A (ja) * | 1994-09-13 | 1996-03-26 | Canon Inc | 画像通信端末装置 |
JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
WO1998041000A1 (en) * | 1997-03-10 | 1998-09-17 | Ericsson Inc. | Mobile telephone having continuous recording capability |
JPH1169355A (ja) * | 1997-08-20 | 1999-03-09 | Sharp Corp | 画像伝送装置 |
JPH1188874A (ja) * | 1997-09-02 | 1999-03-30 | Toshiba Corp | 符号化装置における編集可能点挿入方法および符号化装置 |
JPH11220711A (ja) * | 1998-02-03 | 1999-08-10 | Fujitsu Ltd | 多地点会議システム及び会議端末装置 |
JPH11259096A (ja) * | 1998-03-09 | 1999-09-24 | Sony Corp | 符号化装置、編集装置及び符号化多重化装置並びにそれらの方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6444499A (en) * | 1987-08-12 | 1989-02-16 | Fujitsu Ltd | Forecast encoding system for voice |
US5568483A (en) * | 1990-06-25 | 1996-10-22 | Qualcomm Incorporated | Method and apparatus for the formatting of data for transmission |
BR9206143A (pt) | 1991-06-11 | 1995-01-03 | Qualcomm Inc | Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados |
GB9205932D0 (en) * | 1992-03-18 | 1992-04-29 | Philips Electronics Uk Ltd | Method and apparatus for editing an audio signal |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5659659A (en) * | 1993-07-26 | 1997-08-19 | Alaris, Inc. | Speech compressor using trellis encoding and linear prediction |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
JPH0816200A (ja) * | 1994-06-30 | 1996-01-19 | Olympus Optical Co Ltd | 音声記録装置 |
TW271524B (ja) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5774846A (en) | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
US6064954A (en) * | 1997-04-03 | 2000-05-16 | International Business Machines Corp. | Digital audio signal coding |
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6058359A (en) * | 1998-03-04 | 2000-05-02 | Telefonaktiebolaget L M Ericsson | Speech coding including soft adaptability feature |
AU1524300A (en) * | 1998-11-13 | 2000-06-05 | Qualcomm Incorporated | Closed-loop variable-rate multimode predictive speech coder |
US6324503B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions |
CN1266674C (zh) * | 2000-02-29 | 2006-07-26 | 高通股份有限公司 | 闭环多模混合域线性预测语音编解码器和处理帧的方法 |
-
1999
- 1999-10-28 US US09/429,754 patent/US6438518B1/en not_active Expired - Lifetime
-
2000
- 2000-10-26 ES ES00978283T patent/ES2274812T3/es not_active Expired - Lifetime
- 2000-10-26 BR BRPI0015070A patent/BRPI0015070B1/pt active IP Right Grant
- 2000-10-26 DE DE60032006T patent/DE60032006T2/de not_active Expired - Lifetime
- 2000-10-26 WO PCT/US2000/029710 patent/WO2001031639A1/en active IP Right Grant
- 2000-10-26 JP JP2001534143A patent/JP4805506B2/ja not_active Expired - Fee Related
- 2000-10-26 KR KR1020077025873A patent/KR100804888B1/ko not_active IP Right Cessation
- 2000-10-26 EP EP00978283A patent/EP1224663B1/en not_active Expired - Lifetime
- 2000-10-26 AT AT00978283T patent/ATE346357T1/de not_active IP Right Cessation
- 2000-10-26 AU AU15760/01A patent/AU1576001A/en not_active Abandoned
- 2000-10-26 KR KR1020027005199A patent/KR100827896B1/ko not_active IP Right Cessation
- 2000-10-26 CN CNB008149712A patent/CN1212607C/zh not_active Expired - Lifetime
-
2001
- 2001-02-14 TW TW089122669A patent/TW530296B/zh not_active IP Right Cessation
-
2003
- 2003-06-06 HK HK03103998A patent/HK1051735A1/xx not_active IP Right Cessation
-
2011
- 2011-06-08 JP JP2011128162A patent/JP5543405B2/ja not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS637042A (ja) * | 1986-06-27 | 1988-01-12 | Fujitsu Ltd | 符号化伝送装置 |
JPH01293028A (ja) * | 1988-05-20 | 1989-11-27 | Fujitsu Ltd | 音声符号化モード切り替え方式 |
JPH0646409A (ja) * | 1992-07-23 | 1994-02-18 | Sony Corp | 画像信号符号化装置及び画像信号符号化方法 |
JPH07131793A (ja) * | 1993-11-01 | 1995-05-19 | Toshiba Corp | 映像信号高能率符号化装置 |
JPH0818543A (ja) * | 1994-07-01 | 1996-01-19 | Nippon Telegr & Teleph Corp <Ntt> | 可変ビットレート符号化復号化方法、その符号化器及び復号化器 |
JPH0869298A (ja) * | 1994-08-29 | 1996-03-12 | Olympus Optical Co Ltd | 再生装置 |
JPH0884329A (ja) * | 1994-09-13 | 1996-03-26 | Canon Inc | 画像通信端末装置 |
JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
WO1998041000A1 (en) * | 1997-03-10 | 1998-09-17 | Ericsson Inc. | Mobile telephone having continuous recording capability |
JPH1169355A (ja) * | 1997-08-20 | 1999-03-09 | Sharp Corp | 画像伝送装置 |
JPH1188874A (ja) * | 1997-09-02 | 1999-03-30 | Toshiba Corp | 符号化装置における編集可能点挿入方法および符号化装置 |
JPH11220711A (ja) * | 1998-02-03 | 1999-08-10 | Fujitsu Ltd | 多地点会議システム及び会議端末装置 |
JPH11259096A (ja) * | 1998-03-09 | 1999-09-24 | Sony Corp | 符号化装置、編集装置及び符号化多重化装置並びにそれらの方法 |
Also Published As
Publication number | Publication date |
---|---|
KR100827896B1 (ko) | 2008-05-07 |
DE60032006T2 (de) | 2007-06-21 |
JP2003515178A (ja) | 2003-04-22 |
KR20020040910A (ko) | 2002-05-30 |
AU1576001A (en) | 2001-05-08 |
CN1402869A (zh) | 2003-03-12 |
DE60032006D1 (de) | 2007-01-04 |
BR0015070A (pt) | 2002-12-24 |
HK1051735A1 (en) | 2003-08-15 |
ES2274812T3 (es) | 2007-06-01 |
BRPI0015070B1 (pt) | 2016-10-11 |
EP1224663B1 (en) | 2006-11-22 |
KR100804888B1 (ko) | 2008-02-20 |
CN1212607C (zh) | 2005-07-27 |
ATE346357T1 (de) | 2006-12-15 |
JP2011237809A (ja) | 2011-11-24 |
US6438518B1 (en) | 2002-08-20 |
WO2001031639A1 (en) | 2001-05-03 |
JP5543405B2 (ja) | 2014-07-09 |
KR20070112894A (ko) | 2007-11-27 |
EP1224663A1 (en) | 2002-07-24 |
TW530296B (en) | 2003-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5543405B2 (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
EP1340223B1 (en) | Method and apparatus for robust speech classification | |
KR100805983B1 (ko) | 가변율 음성 코더에서 프레임 소거를 보상하는 방법 | |
EP1214705B1 (en) | Method and apparatus for maintaining a target bit rate in a speech coder | |
US6324503B1 (en) | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions | |
KR100700857B1 (ko) | 전환 스피치 프레임의 다중 펄스 보간 코딩 | |
KR100752797B1 (ko) | 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치 | |
US7085712B2 (en) | Method and apparatus for subsampling phase spectrum information | |
KR20010087393A (ko) | 폐루프 가변-레이트 다중모드 예측 음성 코더 | |
JP2004502203A (ja) | 準周期信号の位相を追跡するための方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110608 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110712 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110811 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4805506 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140819 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |