JP2011518345A - スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング - Google Patents
スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング Download PDFInfo
- Publication number
- JP2011518345A JP2011518345A JP2010550849A JP2010550849A JP2011518345A JP 2011518345 A JP2011518345 A JP 2011518345A JP 2010550849 A JP2010550849 A JP 2010550849A JP 2010550849 A JP2010550849 A JP 2010550849A JP 2011518345 A JP2011518345 A JP 2011518345A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- signal
- codebook
- excitation
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005284 excitation Effects 0.000 claims abstract description 170
- 238000000034 method Methods 0.000 claims abstract description 107
- 239000013598 vector Substances 0.000 claims abstract description 71
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 48
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 48
- 230000005236 sound signal Effects 0.000 claims abstract description 46
- 230000003044 adaptive effect Effects 0.000 claims description 50
- 238000004458 analytical method Methods 0.000 claims description 50
- 230000000737 periodic effect Effects 0.000 claims description 27
- 230000007774 longterm Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003111 delayed effect Effects 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 2
- 238000010168 coupling process Methods 0.000 claims description 2
- 238000005859 coupling reaction Methods 0.000 claims description 2
- 230000001934 delay Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 101
- 238000000926 separation method Methods 0.000 description 57
- 239000011295 pitch Substances 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 230000001052 transient effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本出願は、2008年3月14日出願の米国暫定特許出願番号61/069,449に基づく優先権を主張する。この暫定特許出願はそのすべてを参照として本明細書に組み込むものとする。
[コンテンツ分析に基づくオーディオのクラス分け]
オーディオコンテンツ分析は、オーディオセグメントをスピーチライク信号、ノンスピーチライク信号、等のようないくつかのオーディオのクラスの内の1つにクラス分けすることを手助けすることができる。入ってくるオーディオ信号の形式を知ることにより、オーディオエンコーダーは、特定のオーディオのクラスに適するモードを選択することにより、そのコーディングモードを信号特性の変更に適するようにすることができる。
図1〜3に示した階層への例示した3つのオーディオクラス分けの選択を終えたあと、入力オーディオから抽出した特徴に基づいて選んだ信号タイプを検出するために分類器を組み立てなければならない。この目的に向けて、分類器を組み立てることの目的となる信号のそれぞれために、トレーニングデータを集めることができる。例えば、定常的で高い調波エネルギーを持ついくつかの例示的なオーディオセグメントを、図3のタイプ1の信号タイプを検出するために集めることができる。クラス分けを行う基準に基づいて、各オーディオサンプルブロックのために抽出した特徴の数をMとする。特定の信号タイプを特徴付ける確立密度関数をモデル化するために混合ガウス分布モデル(GMM)を用いることができる。Yを抽出した特徴を表現するM次元のランダムベクトルとする。Kは、混合係数、平均、及び分散を示すパラメータのセット、π、μ、及びRの表記法で示した、混合ガウス分布の数を示す。パラメータの完全なセットは、Kとθ=(π,μ,R)とで与えられる。全シーケンスYn(n=1,2...N)は以下のように表すことができる。
本発明のさらなる特徴としてオーディオセグメントを1以上の信号成分に分離することが含まれる。セグメント内のオーディオにはしばしば、例えば、スピーチライク信号成分とノンスピーチライク信号成分の混合、又は、スピーチライク信号成分とバックグラウンドノイズ成分の混合が含まれる。このような場合、ノンスピーチライク信号よりスピーチライク信号に適したエンコーディングツールでスピーチライク信号成分をコード化するほうが有利であり、スピーチライク信号よりノンスピーチライク信号成分又はバックグラウンドノイズに適したエンコーディングツールでノンスピーチライク信号成分又はバックグラウンド成分をコード化するほうが有利である。デコーダーにおいて、成分信号は、別にデコードしそして再結合させることができる。このようなエンコーディングツールの性能を最大化するために、成分信号を分析し、成分信号の特性に基づきエンコーディングツール間で動的にビットを割り当てることが好ましいであろう。例えば、入力信号が純粋なスピーチライク信号からなるとき、適応結合ビット割当てにより、スピーチライク信号エンコーディングツールにできるだけ多くのビットを割当て、ノンスピーチライク信号エンコーディングツールにできるだけ少ないビットを割り当てることができる。ビットの最適な割当てを補助するために、成分信号自身に加えて信号分離装置又は信号分離機能からの情報を用いることができる。このようなシステムの簡単な線図を図4aに示す。その変形を図4bに示す。
スピーチライク信号成分とノンスピーチライク信号成分とを結合したものからそれぞれの信号を分離するブラインド信号源分離(BSS)技術は当業者に知られている(例えば以下に記載した文献7を参照)。一般に、これらの技術は、図4、5a、5b、及び7cに示した信号分離装置又は信号分離機能に実装するために本発明に組み込むことができる。図6aにおいて、周波数分析に基づく信号分離方法又は信号分離装置が記載されている。このような方法又は装置も、図4、5a、5b、及び7cに示した信号分離装置又は信号分離機能に実装するために本発明に組み込むことができる。図6の方法又は装置において、結合したスピーチライク信号/ノンスピーチライク信号x[n]は、分析フィルターバンク又はフィルターバンク機能(分析フィルターバンク)602を用いて周波数領域に変換されX[i,m]を生成する(ここで「i」は指数、「m」はサンプル信号ブロックの指数である)。各周波数帯域iに対して、スピーチライク信号がこの周波数帯域に含まれている尤度を測定するために、スピーチライク信号検出装置が用いられる。0と1の間の値を持つ一対の分離利得係数は、尤度に従い、スピーチライク信号検出装置により測定される。一般にサブ帯域iがスピーチライク信号から強いエネルギーを含有する大きな尤度がある場合、スピーチライク信号利得Gs(i)に0より1に近い値が割り当てられ、その他の場合に、1より0に近い値が割り当てられる。ノンスピーチライク信号利得Gm(i)は、以下の逆の規則で割り当てられる。スピーチライク信号利得とノンスピーチライク信号利得の適用は、スピーチライク信号検出装置604出力のブロック606の乗算記号への適用によって、概略的に示される。これらそれぞれの分離利得は、周波数帯域信号X[i,m]に適用され、その結果生じた信号は、それぞれの分析フィルターバンク又は分析フィルターバンク機能(分析フィルターバンク)608及び610により逆変換し、それぞれ分離したスピーチライク信号とノンスピーチライク信号とを生成する。
本発明に特徴に係る統合したマルチモードオーディオエンコーダーは、異なった入力信号を扱うことができるよう種々のエンコーディングツールを有する。与えられた入力信号に対してツール及びそのパラメータを選択する3つの異なる方法は以下の通りである。
標準コードブックの目的は、スピーチライク信号又はスピーチライク信号ライクオーディオ信号、特にスピーチライク信号の「無声の」スピーチライクノイズ又は変則的な部分の励振を生成することである。標準コードブックの各項目には、長さM、ここでMは分析窓の長さ、のコードブックベクトルが含まれる。従って、標準コードブックからの寄与er[m]は以下のように構成される。
構造化正弦関数コードブックの目的は、ハーモニック信号及び複数の楽器によるノンスピーチライク信号、ノンスピーチライク信号と有声音を一緒にした信号、及び複数の有声音のスピーチライク信号のような、複雑なスペクトル特性を持つ入力信号に適したスピーチライク信号励振信号及びノンスピーチライク信号励振信号を生成することである。LPC合成フィルタ720の次数がゼロに設定され、正弦関数コードブックが排他的に用いられるとき、結果は、コーディックが知覚オーディオ変換コーディック(例えば、AAC(アドバンスドオーディオコーディング)又は、AC−3エンコーダーを含む)を笑むレートすることのできるコーディックとなる。
適応コードブックの目的は、スピーチライクオーディオ信号のための、特にスピーチライク信号の「有声の」スピーチライク部分のための励振を生成することである。場合によっては、残差信号、例えばスピーチ有声のセグメントが、時間(ピッチ)が経過した後、残差信号の波形を繰り返す、強い調和信号構造を呈することがある。この種の励振信号は、適応コードブックからの手助けにより効率的に生成することができる。図7a及び7bの例に示すように、適応コードブックは、先に生成された励振信号が記憶されているLTP(長期予測)バッファと、励振信号から検出したピッチ期間に従い、現在の励振信号を最もうまく表す過去の励振のLTPバッファから、抽出すべきLTPとを有する。従って、適応コードブックからの寄与es[m]は、以下で与えられる。
図7a〜7dの例におけるどのエンコーダーとでも用いることのできるデコーダーを図7aに示す。このデコーダーは本質的に図7a及び7bのローカルデコーダーと同じであり、従って、その構成要素には同じ参照番号を用いる(例えば、図8aのLTPバッファ834は、図7a及び7bのLTPバッファ734に対応する)。従来のCELPスピーチデコーダーにおけるものに類似する代替的な適応ポストフィルタ装置又はポストフィルタ機能(ポストフィルタリング)801を、スピーチライク信号の出力信号を処理するために加えることができる。図8aを詳細に参照して、受け取ったビットストリームは、少なくとも、制御信号、ベクトル利得、Ga、Gr、及びGs、LTPパラメータ、及びLPCパラメータを出力するために、逆多重化され、デフォーマットされ、そしてデコードされる。
本発明は、ハードウェア又はソフトウェア又は両方を組み合わせたもの(例えば、プログラマブルロジックアレー)で実施することができる。特に記載がない限り、本発明の一部として含まれているアルゴリズム及び処理は本質的に、特定のコンピュータや他の装置と関連付けられるものではない。特に、種々の汎用機をこの記載に従って書かれたプログラムと共に用いてもよい、あるいは、要求の方法を実行するために、より特化した装置(例えば、集積回路)を構成することが便利かもしれない。このように、本発明は、それぞれ少なくとも1つのプロセッサ、少なくとも1つの記憶システム(揮発性及び非揮発性メモリー及び/又は記憶素子を含む)、少なくとも1つの入力装置又は入力ポート、及び少なくとも1つの出力装置又は出力ポートを具備する、1つ以上のプログラマブルコンピュータシステム上で実行される1つ以上のコンピュータプログラムにより実現することができる。ここに記載した機能を遂行し、出力情報を出力させるために入力データにプログラムコードを適用する。この出力情報は、公知の方法で、1以上の出力装置に適用される。
以下の刊行物は参照としてそのすべてを本明細書に編入する。
(文献2)S. Wangによる、Ph.D. Thesis, University of California, Santa Barbara, 1991、「Phonetic Segmentation Techniques for Speech Coding」
(文献3)A. Das、E. Paksoy、及びA. Gershoによる、Speech Coding and Synthesis, W.B. Kleijn and K.K.Paliwal Eds., Elsevier Science B.V., 1995、「Multimode and Variable-Rate Coding of Speech」
(文献4)B. Bessette、R. Lefebvre、及びR. Salamiによる、Proc. ICASSP-2005, March 2005、「Universal Speech/ Audio Coding using Hybrid ACELP/TCX Techniques」
(文献5)S. Ramprashadによる、IEEE Speech Coding Workshop, Helsinki, Finland, June 1999、「A Multimode Transform Predictive Coder (MTPC) for Speech and Audio」
(文献6)S. Ramprashadによる、IEEE Trans. On Speech and Audio Processing, March 2003、「The Multimode Transform Predictive Coding Paradigm」
(文献7)Shoji Makino(編集)、Te-Won Lee(編集)、Hiroshi Sawada(編集)、Springerによる、2007の「Blind Speech Separation (Signals and Communication Technology)」
(文献8)M. Yong、G. Davidson、及びA. Gershoによる、IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing, 1988、「Encoding of LPC Spectral Parameters Using Switched-Adaptive Interframe Vector Prediction」
(文献9)A. M. Kondozによる、「Digital speech coding for low bit rate communication system」第2版、セクション7.3.4、Wiley、2004
以下の米国特許はそのすべてを参照として本明細書に編入する。
Uvliden、他の、米国特許7,146,311Bl
Lelinek、他の、米国特許7,203,638B2
Uvliden、他の、米国特許7,194,408B2
Koishida、他の、米国特許6,658,383B2
Khalil、他の、米国特許6,785,645B2
本発明のさらなる特徴としてオーディオセグメントを1以上の信号成分に分離することが含まれる。セグメント内のオーディオにはしばしば、例えば、スピーチライク信号成分とノンスピーチライク信号成分の混合が含まれる。このような場合、ノンスピーチライク信号よりスピーチライク信号に適したエンコーディングツールでスピーチライク信号成分をコード化するほうが有利であり、スピーチライク信号よりノンスピーチライクに適したエンコーディングツールでノンスピーチライクをコード化するほうが有利である。デコーダーにおいて、成分信号は、別にデコードしそして再結合させることができる。このようなエンコーディングツールの性能を最大化するために、成分信号を分析し、成分信号の特性に基づきエンコーディングツール間で動的にビットを割り当てることが好ましいであろう。例えば、入力信号が純粋なスピーチライク信号からなるとき、適応結合ビット割当てにより、スピーチライク信号エンコーディングツールにできるだけ多くのビットを割当て、ノンスピーチライク信号エンコーディングツールにできるだけ少ないビットを割り当てることができる。ビットの最適な割当てを補助するために、成分信号自身に加えて信号分離装置又は信号分離機能からの情報を用いることができる。このようなシステムの簡単な線図を図4aに示す。その変形を図4bに示す。
本発明のさらなる特徴としてオーディオセグメントを1以上の信号成分に分離することが含まれる。セグメント内のオーディオにはしばしば、例えば、スピーチライク信号成分とノンスピーチライク信号成分の混合、又は、スピーチライク信号成分とバックグラウンドノイズ成分の混合が含まれる。このような場合、ノンスピーチライク信号よりスピーチライク信号に適したエンコーディングツールでスピーチライク信号成分をコード化するほうが有利であり、スピーチライク信号よりノンスピーチライク信号又はバックグラウンドノイズに適したエンコーディングツールでノンスピーチライク信号成分又はバックグラウンド成分をコード化するほうが有利である。デコーダーにおいて、成分信号は、別にデコードしそして再結合させることができる。このようなエンコーディングツールの性能を最大化するために、成分信号を分析し、成分信号の特性に基づきエンコーディングツール間で動的にビットを割り当てることが好ましいであろう。例えば、入力信号が純粋なスピーチライク信号からなるとき、適応結合ビット割当てにより、スピーチライク信号エンコーディングツールにできるだけ多くのビットを割当て、ノンスピーチライク信号エンコーディングツールにできるだけ少ないビットを割り当てることができる。ビットの最適な割当てを補助するために、成分信号自身に加えて信号分離装置又は信号分離機能からの情報を用いることができる。このようなシステムの簡単な線図を図4aに示す。その変形を図4bに示す。
Claims (27)
- LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも1つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数と、を採用する、符号励振線形予測(CELP)オーディオエンコーディングの方法であって、該方法は、
LPCパラメータを生成するためにオーディオ信号に線型予測コーディング(LPC)分析を適用するステップと、
前記オーディオ信号とコードブック励振から導き出した再構成したオーディオ信号と差異の測度を最小にすることで、少なくとも2つのコードブックからコードベクトル及び/又は関連する利得係数を選択するステップであって、これらのコードブックには、ノンスピーチライク信号に適した励振をもたらすコードブックと、スピーチライク信号に適した励振をもたらすコードブックとが含まれることを特徴とするステップと、
オーディオ信号を再構成するためにCELPオーディオデコーダーで使用可能な出力を生成するステップであって、該出力にはLPCパラメータとコードベクトルと利得係数とが含まれることを特徴とするステップと、
を具備することを特徴とする方法。 - 前記コードブックの励振出力から導き出した信号のいくつかは、前記線型予測コーディング合成フィルタによりフィルタされることを特徴とする請求項1に記載の方法。
- コードブックの励振出力がノンスピーチライク信号よりスピーチライク信号に適するようなコードブックから導き出された信号が、前記線型予測コーディング合成フィルタでフィルタされることを特徴とする請求項2に記載の方法。
- コードブックの励振出力がスピーチライク信号よりノンスピーチライク信号に適するようなコードブックから導き出された信号が、前記線型予測コーディング合成フィルタでフィルタされないことを特徴とする請求項3に記載の方法。
- ノンスピーチライク信号よりスピーチライクに適した励振出力をもたらす前記少なくとも1つのコードブックには、ノイズライクな励振を生成するコードブックと周期的励振を生成するコードブックとを含み、励振出力がスピーチライク信号よりノンスピーチライク信号に適した励振をもたらす前記少なくとも1つの他のコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことを特徴とする請求項1乃至請求項4のいずれか1項に記載の方法。
- LTPパラメータを生成するために前記オーディオ信号に長期予測(LTP)分析を適用するステップであって、周期的励振を生成するコードブックは、LTPパラメータにより制御され、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取る適応コードブックであり、前記出力にはさらにLTPパラメータが含まれることを特徴とするステップをさらに具備することを特徴とする請求項5に記載の方法。
- 前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とを時間遅れさせた結合のいずれかを受け取ることができ、前記出力には、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報をさらに含めることができることを特徴とする請求項6に記載の方法。
- オーディオ信号を複数の信号のクラスの1つにクラス分けするステップと、
このクラス分けに応じて動作モードを選択するステップと、
オープンループ手法により、励振出力に寄与させるために、1以上のコードブックを選択するステップと、
をさらに具備することを特徴とする請求項1乃至請求項7のいずれか1項に記載の方法。 - 前記動作モードを選択するステップの信頼性レベルを決定するステップであって、高信頼性レベルを含む少なくとも2つの信頼性レベルがあることを特徴とするステップと、オープンループ手法により、信頼性レベルが高いときのみ、排他的に励振に寄与する1以上のコードブックを選択するステップとを、さらに、具備することを特徴とする請求項8に記載の方法。
- 前記最小にすることは、再構成したオーディオ信号とクローズドループ中のオーディオ信号との差を最小にすることであることを特徴とする請求項1乃至請求項9のいずれか1項に記載の方法。
- 前記差異の測度は、知覚的に重み付けした測度であることを特徴とする請求項1乃至請求項10のいずれか1項に記載の方法。
- LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも1つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数と、を採用する、符号励振線形予測(CELP)オーディオエンコーディングの方法であって、該方法は、
オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離するステップと、
LPCパラメータを生成するために前記オーディオ信号のスピーチライク信号成分に線型予測コーディング(LPC)分析を適用するステップと、
ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらすコードブックに関連させた、コードベクトルの選択及び/又は利得係数を変化させることにより、LPC合成フィルタ出力とオーディオ信号のスピーチライク信号成分との差異を最小化するステップと、
スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックに関連させた、コードベクトルの選択及び/又は利得係数を変化させるステップと、
オーディオ信号の近似値を生成するためにCELPオーディオデコーダーで用いることのできる出力をもたらすステップであって、該出力には、コードベクトルの選択及び/又は各コードブックと関連付けた利得と、LPCパラメータとが含まれることを特徴とするステップと、
を具備ことを特徴とする方法。 - 前記分離するステップでは、前記オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離することを特徴とする請求項12に記載の方法。
- 前記分離するステップでは、前記オーディオ信号から前記スピーチライク信号成分を分離し、前記オーディオ信号からスピーチライク信号成分を復元したものを減算することにより、前記ノンスピーチライク信号成分の近似値を導き出すことを特徴とする請求項12に記載の方法。
- 前記分離するステップでは、前記オーディオ信号から前記ノンスピーチライク信号成分を分離し、前記オーディオ信号からノンスピーチライク信号成分を復元したものを減算することにより、前記スピーチライク信号成分の近似値を導き出すことを特徴とする請求項12に記載の方法。
- 第2の線型予測コーディング(LPC)合成フィルタを用意するステップを具備し、該第2の線型予測コーディング合成フィルタにより、ノンスピーチライク信号成分を復元したものをフィルタすることを特徴とする請求項12乃至請求項15のいずれか1項に記載の方法。
- ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす前記少なくとも1つのコードブックには、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含むことができ、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす前記少なくとも1つのコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことを特徴とする請求項12乃至請求項16のいずれか1項に記載の方法。
- LTPパラメータを生成するためにオーディオ信号のスピーチライク信号成分に長期予測(LTP)分析を適用するステップを具備し、周期的励振を生成するコードブックはLTPパラメータにより制御される適応コードブックであり、前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取ることを特徴とする請求項17に記載の方法。
- スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び/又は利得係数は、スピーチライク信号に応じて変化させることを特徴とする請求項12に記載の方法。
- スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び/又は利得係数は、このノンスピーチライク信号とこのようなコードブックから復元された信号との差異を減少させるために変化することを特徴とする請求項12に記載の方法。
- LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも1つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数と、を採用する、符号励振線形予測(CELP)オーディオエンコーディングの方法であって、該方法は、
パラメータとコードベクトルと利得係数とを受け取るステップと、
少なくとも1つのコードブック励振出力から前記LPC合成フィルタのための励振信号を導き出すステップと、
前記LPCフィルタの出力又は前記LPC合成フィルタの出力と前記1つ以上のコードブックの励振の組み合わせからオーディオ出力信号を導き出すステップとを具備し、該組み合わせは、コードブックの各々と関連づけられたコードベクトル及び/又は利得係数により制御されることを特徴とする方法。 - ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす前記少なくとも1つのコードブックは、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含み、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす前記少なくとも1つの他のコードブックは、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことを特徴とする請求項21に記載の方法。
- 前記周期的励振を生成するコードブックは、LTPパラメータにより制御される適応コードブックであり、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取り、前記方法は、LTPパラメータを受け取るステップをさらに具備することを特徴とする請求項22に記載の方法。
- 前記コードブックの全ての励振はLPCフィルタに適用され、前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とだけを時間遅れさせた結合のいずれかを受け取り、前記方法は、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報を受け取るステップをさらに具備することを特徴とする請求項23に記載の方法。
- 前記LPCフィルタの出力からオーディオ出力信号を導き出すステップにはポストフィルタを行うステップが含まれることを特徴とする請求項21乃至請求項23のいずれか1項に記載の方法。
- 請求項1乃至請求項25のいずれか1項に記載の方法を実行することができるようにした装置。
- 請求項1乃至乃至請求項25のいずれか1項に記載の方法をコンピュータに実行させるために、コンピュータ読み取り可能媒体に記憶させた、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US6944908P | 2008-03-14 | 2008-03-14 | |
US61/069,449 | 2008-03-14 | ||
PCT/US2009/036885 WO2009114656A1 (en) | 2008-03-14 | 2009-03-12 | Multimode coding of speech-like and non-speech-like signals |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011518345A true JP2011518345A (ja) | 2011-06-23 |
JP2011518345A5 JP2011518345A5 (ja) | 2012-05-10 |
Family
ID=40565281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010550849A Pending JP2011518345A (ja) | 2008-03-14 | 2009-03-12 | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
Country Status (5)
Country | Link |
---|---|
US (1) | US8392179B2 (ja) |
EP (1) | EP2269188B1 (ja) |
JP (1) | JP2011518345A (ja) |
CN (1) | CN101971251B (ja) |
WO (1) | WO2009114656A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2013129439A1 (ja) * | 2012-02-28 | 2015-07-30 | 日本電信電話株式会社 | 符号化装置、この方法、プログラム及び記録媒体 |
JP2016537667A (ja) * | 2013-10-18 | 2016-12-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 |
US10373625B2 (en) | 2013-10-18 | 2019-08-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010044593A2 (ko) | 2008-10-13 | 2010-04-22 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
KR101649376B1 (ko) | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
TWI435317B (zh) * | 2009-10-20 | 2014-04-21 | Fraunhofer Ges Forschung | 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式 |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
BR112012025347B1 (pt) * | 2010-04-14 | 2020-06-09 | Voiceage Corp | dispositivo de codificação de livro-código de inovação combinado, codificador de celp, livro-código de inovação combinado, decodificador de celp, método de codificação de livro-código de inovação combinado e método de decodificação de livro-código de inovação combinado |
IL205394A (en) * | 2010-04-28 | 2016-09-29 | Verint Systems Ltd | A system and method for automatically identifying a speech encoding scheme |
KR101790373B1 (ko) * | 2010-06-14 | 2017-10-25 | 파나소닉 주식회사 | 오디오 하이브리드 부호화 장치 및 오디오 하이브리드 복호 장치 |
CA3160488C (en) | 2010-07-02 | 2023-09-05 | Dolby International Ab | Audio decoding with selective post filtering |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
US10134440B2 (en) * | 2011-05-03 | 2018-11-20 | Kodak Alaris Inc. | Video summarization using audio and visual cues |
NO2669468T3 (ja) * | 2011-05-11 | 2018-06-02 | ||
KR20130109793A (ko) * | 2012-03-28 | 2013-10-08 | 삼성전자주식회사 | 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치 |
HUE033069T2 (hu) * | 2012-03-29 | 2017-11-28 | ERICSSON TELEFON AB L M (publ) | Harmonikus hangjelek átalakítási kódolása/dekódolása |
WO2014055076A1 (en) * | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
JP6170172B2 (ja) | 2012-11-13 | 2017-07-26 | サムスン エレクトロニクス カンパニー リミテッド | 符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置 |
CA3076775C (en) | 2013-01-08 | 2020-10-27 | Dolby International Ab | Model based prediction in a critically sampled filterbank |
JP6179122B2 (ja) * | 2013-02-20 | 2017-08-16 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
MX343673B (es) | 2013-04-05 | 2016-11-16 | Dolby Int Ab | Codificador y decodificador de audio. |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
US9224402B2 (en) | 2013-09-30 | 2015-12-29 | International Business Machines Corporation | Wideband speech parameterization for high quality synthesis, transformation and quantization |
MX362490B (es) | 2014-04-17 | 2019-01-18 | Voiceage Corp | Metodos codificador y decodificador para la codificacion y decodificacion predictiva lineal de señales de sonido en la transicion entre cuadros teniendo diferentes tasas de muestreo. |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
US20160098245A1 (en) * | 2014-09-05 | 2016-04-07 | Brian Penny | Systems and methods for enhancing telecommunications security |
US9886963B2 (en) * | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
CN113287167B (zh) * | 2019-01-03 | 2024-09-24 | 杜比国际公司 | 用于混合语音合成的方法、设备及系统 |
CN113938749B (zh) * | 2021-11-30 | 2023-05-05 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
JP2003044097A (ja) * | 2001-06-26 | 2003-02-14 | Microsoft Corp | 音声信号および音楽信号を符号化する方法 |
WO2006046547A1 (ja) * | 2004-10-27 | 2006-05-04 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3328080B2 (ja) | 1994-11-22 | 2002-09-24 | 沖電気工業株式会社 | コード励振線形予測復号器 |
TW321810B (ja) * | 1995-10-26 | 1997-12-01 | Sony Co Ltd | |
US5778335A (en) * | 1996-02-26 | 1998-07-07 | The Regents Of The University Of California | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding |
KR100527217B1 (ko) * | 1997-10-22 | 2005-11-08 | 마츠시타 덴끼 산교 가부시키가이샤 | 확산 벡터 생성 방법, 확산 벡터 생성 장치, celp형 음성 복호화 방법 및 celp형 음성 복호화 장치 |
CN1737903A (zh) * | 1997-12-24 | 2006-02-22 | 三菱电机株式会社 | 声音译码方法以及声音译码装置 |
CN1167048C (zh) | 1998-06-09 | 2004-09-15 | 松下电器产业株式会社 | 语音编码设备和语音解码设备 |
SE521225C2 (sv) * | 1998-09-16 | 2003-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för CELP-kodning/avkodning |
US6298322B1 (en) * | 1999-05-06 | 2001-10-02 | Eric Lindemann | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US7020605B2 (en) * | 2000-09-15 | 2006-03-28 | Mindspeed Technologies, Inc. | Speech coding system with time-domain noise attenuation |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
WO2004034379A2 (en) * | 2002-10-11 | 2004-04-22 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
-
2009
- 2009-03-12 JP JP2010550849A patent/JP2011518345A/ja active Pending
- 2009-03-12 US US12/921,752 patent/US8392179B2/en not_active Expired - Fee Related
- 2009-03-12 EP EP09720866.4A patent/EP2269188B1/en not_active Not-in-force
- 2009-03-12 CN CN2009801087796A patent/CN101971251B/zh not_active Expired - Fee Related
- 2009-03-12 WO PCT/US2009/036885 patent/WO2009114656A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
JP2003044097A (ja) * | 2001-06-26 | 2003-02-14 | Microsoft Corp | 音声信号および音楽信号を符号化する方法 |
WO2006046547A1 (ja) * | 2004-10-27 | 2006-05-04 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
Non-Patent Citations (6)
Title |
---|
JPN6014015630; Jian Zhang, et al.: 'Implementation of A Low Delay Modified CELP Coder at 4.8kb/s' Proc. GLOBECOM '95 Vol.3, 19951114, pp.1610-1614, IEEE * |
JPN6014015632; Song Shaopeng, et al.: 'A Low Bit-Rate Audio Coder Based on Modified Sinusoidal Model' Proc. ICCCAS 2002 Vol.1, 20020629, pp.648-652, IEEE * |
JPN6014015635; Jian Zhang, et al.: 'A 4.2 kb/s Low-Delay Speech Coder with Modified CELP' Signal Processing Letters Vol.4, No.11, 199711, pp.301-303, IEEE * |
JPN6014015636; Cagri Ozgenc Etemoglu, et al.: 'Speech Coding with an Analysis-by-Synthesis Sinusoidal Model' Proc. ICASSP '00 Vol.3, 20000605, pp.1371-1374, IEEE * |
JPN7014001184; Denis S. Likhachov et al.: 'Parameters Quantization in Sinusoidal Speech Coder on Basis of Human Auditory Model' Proc. SPECOM '2004 pp.195-202, 20040920, ISCA * |
JPN7014001185; Ari Heikkinen: 'Development of a 4 kbit/s Hybrid Sinusoidal/CELP Speech Coder' SPEECH COMMUNICATION Vol.42, No.3-4, 200404, pp.353-371, Elsevier B.V. * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2013129439A1 (ja) * | 2012-02-28 | 2015-07-30 | 日本電信電話株式会社 | 符号化装置、この方法、プログラム及び記録媒体 |
JP2016537667A (ja) * | 2013-10-18 | 2016-12-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 |
US10304470B2 (en) | 2013-10-18 | 2019-05-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US10373625B2 (en) | 2013-10-18 | 2019-08-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
US10607619B2 (en) | 2013-10-18 | 2020-03-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US10909997B2 (en) | 2013-10-18 | 2021-02-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
US11798570B2 (en) | 2013-10-18 | 2023-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US11881228B2 (en) | 2013-10-18 | 2024-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
Also Published As
Publication number | Publication date |
---|---|
US8392179B2 (en) | 2013-03-05 |
US20110010168A1 (en) | 2011-01-13 |
CN101971251A (zh) | 2011-02-09 |
EP2269188A1 (en) | 2011-01-05 |
WO2009114656A1 (en) | 2009-09-17 |
CN101971251B (zh) | 2012-08-08 |
EP2269188B1 (en) | 2014-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8392179B2 (en) | Multimode coding of speech-like and non-speech-like signals | |
KR102039399B1 (ko) | 시간 도메인 코딩과 주파수 도메인 코딩 간의 분류 향상 | |
KR101785885B1 (ko) | 적응적 대역폭 확장 및 그것을 위한 장치 | |
JP5325292B2 (ja) | 信号の異なるセグメントを分類するための方法および識別器 | |
JP5325294B2 (ja) | 共通の前処理を有する低ビットレート・オーディオ符号化/復号化方式 | |
EP1982329B1 (en) | Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus | |
KR102626320B1 (ko) | 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치 | |
KR20080101873A (ko) | 부호화/복호화 장치 및 방법 | |
CN1890714B (zh) | 一种优化的复合编码方法 | |
MX2011000362A (es) | Esquema de codificacion/decodificacion de audio a baja velocidad binaria y conmutadores en cascada. | |
CN101743586A (zh) | 音频编码器、编码方法、解码器、解码方法以及经编码的音频信号 | |
KR102593442B1 (ko) | 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치 | |
RU2414009C2 (ru) | Устройство и способ для кодирования и декодирования сигнала | |
KR20190045327A (ko) | 오디오 코덱의 장기 예측을 위한 시스템 및 방법 | |
Fuchs et al. | Super-wideband spectral envelope modeling for speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20111011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120312 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130821 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140422 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140722 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140821 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150310 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150710 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20150722 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20151002 |