JP2015515644A - 音声符号化のための混合コードブック励振のためのシステムおよび方法 - Google Patents
音声符号化のための混合コードブック励振のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2015515644A JP2015515644A JP2014561282A JP2014561282A JP2015515644A JP 2015515644 A JP2015515644 A JP 2015515644A JP 2014561282 A JP2014561282 A JP 2014561282A JP 2014561282 A JP2014561282 A JP 2014561282A JP 2015515644 A JP2015515644 A JP 2015515644A
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- vector
- entry
- group
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005284 excitation Effects 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 479
- 230000006870 function Effects 0.000 claims description 66
- 230000005236 sound signal Effects 0.000 claims description 17
- 101100077952 Arabidopsis thaliana MRL7 gene Proteins 0.000 claims description 11
- 101100298412 Arabidopsis thaliana PCMP-H73 gene Proteins 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 description 80
- 239000011295 pitch Substances 0.000 description 66
- 230000004044 response Effects 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 14
- 238000012805 post-processing Methods 0.000 description 14
- 230000007774 longterm Effects 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 230000000737 periodic effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101000835295 Homo sapiens Protein THEMIS2 Proteins 0.000 description 1
- 102100026110 Protein THEMIS2 Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
W(z)=A(z/γ1)Hde-emph(z)=A(z/γ1)/(1-β1z-1) (3)
この式で、
B(z)=1-β・z-Pitch (5)
e(n)=Gp・ep(n)+Gc・ec(n) (6)
ep(n)は、過去の励振304を含む適応コードブック307に由来する、nでインデックスを付けられたサンプルシリーズの1つのサブフレームであり、ep(n)は、大抵の場合、低周波域が高周波域よりも周期的であるかまたは調波的であるので、適応的に低域通過フィルタリングされてよく、ec(n)は、現在の励振の寄与である符号化励振コードブック308(固定コードブックとも称される)に由来するものであり、ec(n)は、高域通過フィルタリング強調、ピッチ強調、分散強調、フォルマント強調などを用いて強調されてよい。有声の音声については、適応コードブックからのep(n)の寄与が主要であり得て、ピッチ利得Gp 305の値が約1であり得る。励振は、通常、各サブフレームに対して更新される。一般的なフレームサイズは20ミリ秒であり、一般的なサブフレームサイズは5ミリ秒である。
Hemph(z)=1-β1z-1 (8)
β1は0.68に等しい。あるいは、β1は異なる値をとる可能性もある。
hp(n)=h1(n)*h3(n)*h(n) (9)
hn(n)=h2(n)*h3(n)*h(n)
(10)
H3(z)がパルス状ベクトルおよびノイズ状ベクトルの両方に対して共通して用いられるので、合成フィルタ1/A(z)と、重み付けフィルタW(z)と、強調フィルタH3(z)との結合のインパルス応答は、特に次式で示される。
hh(n)=h3(n)*h(n)
(11)
x2(n)=x(n)-Gp・y(n)、n=0、1、…、63
(12)
y(n)=ep(n)*h(n)は、フィルタリングされた適応符号ベクトルであり、Gpは適応コードブックの利得である。マトリクスHを、主対角線hh(0)および下位の(lower)対角線hh(1)、…、hh(63)を有する下位の三角形のテプリッツの畳み込みマトリクスとして定義し、d=HTx2(逆フィルタリングされた目標ベクトルとしても知られている)を、更新された信号x2(n)とインパルス応答hh(n)の間の相関として定義する。さらに、φ=HTHをhh(n)の相関のマトリクスとして定義する。理論上、ベクトルd(n)の要素は次式で計算され、
ck(n)=cp(n)*h1(n)+cn(n)*h2(n)、n=0、1、...、63
(15)
ここで、cp(n)はパルス状コードブックからの候補ベクトルであり、cn(n)はノイズ状コードブックからの候補ベクトルである。混合コードブック励振ck(n)またはec(n)=ck(n)*h3(n)および混合コードブック励振の対応する利得1103 Gcは、次式の重み付き誤差1110の最小化1109によって求められ得る。
zk=Hck (18)
いくつかの実施形態では、ベクトルd(n)およびマトリクスφは、コードブック検索に先立って計算される。いくつかの実施形態では、マトリクスφの計算は不要であり得て、したがって省略される。
hp(n)=h1(n)*hh(n) ←→ Hp(z)=H1(z)H3(z)W(z)/A(z)
(21)
hn(n)=h2(n)*hh(n) ←→ Hn(z)=H2(z)H3(z)W(z)/A(z)
(22)
zp=Hpcp
(23)
znはフィルタリングされたノイズ寄与であり、次式で表される。
zn=Hncn (24)
式(20)は次式のようにさらに表現されてよく、
Ek=zp Tzp+2zp Tzn+zn Tzn
=Ep+2zp Tzn+En
(25)
ここで、
Ep=zp Tzp
(26)
はフィルタリングされたパルス寄与のエネルギーであり、
En=zn Tzn
(27)
はフィルタリングされたノイズ寄与のエネルギーである。
cp=sp・vp(ip)
(28)
また、ノイズサブコードブックからの式(15)の符号ベクトルcn(n)が次式で表される符号付きベクトルであり、
cn=sn・vn(in)
(29)
ここで、vp(ip)は、1つまたはいくつかのパルスから成る次元64(サブフレームサイズ)のip番目のパルスベクトルを表し、vn(in)は、ノイズテーブルから読み取った次元64(サブフレームサイズ)のin番目のノイズベクトルを表し、spおよびsnは符号であり、-1または1に等しく、ipおよびinはベクトルを定義するインデックスであると想定する。
hCB1(n)=h1(n)*h3(n)*h(n)
(34)
CB 2励振のインパルス応答は次式で表される。
hCB2(n)=h2(n)*h3(n)*h(n)
(35)
ck(n)は、次式で表される混合符号ベクトルとする。
ck(n)=cCB1(n)*h1(n)+cCB2(n)*h2(n)、n=0、1、...、63
(36)
(38)
zCB2=HCB2cCB2
(39)
ECB1=zCB1 TzCB1
(40)
ECB2=zCB2 TzCB2
(41)
である。符号ベクトルcCB1およびcCB2が、それぞれ式(42)および式(43)で表される符号付きベクトルであると想定する。
cCB1=sCB1・vCB1(iCB1)
(42)
cCB2= sCB2・vCB2(iCB2)
(43)
検索プロシージャの目標は、2つの最善のベクトルのインデックスiCB1およびiCB2、ならびにそれらの対応する符号sCB1およびsCB2を見つけることである。
|RCB1(i)|の
8 音響アクセスデバイス
10 通信システム
12 マイクロフォン
14 拡声器
16 マイクロフォンインターフェース
18 スピーカインターフェース
20 CODEC
22 符号器
24 復号器
26 ネットワークインターフェース
28 アナログの音響入力信号
30 音響信号
32 デジタル音響信号
34 デジタル音響信号
36 ネットワーク
38 通信リンク
40 通信リンク
101 元の音声
102 合成音声
103 短期予測
105 長期予測
106 利得
108 符号化励振
109 重み付き誤差
110 重み付けフィルタ
111 誤差
201 符号化励振
202 利得
203 長期予測
205 短期予測
206 合成音声
207 後処理
208 最終音声
301 元の音声
302 合成音声
303 短期予測
304 過去の励振
305 ピッチ利得
306 利得
307 適応コードブック
308 符号化励振
309 最小化
310 重み付き誤差
311 重み付けフィルタ
312 誤差
401 適応コードブック
402 符号化励振
404 ピッチ利得
405 利得
406 短期予測
407 合成音声
408 後処理
409 最終音声
501 CELP符号化のための符号化励振コードブックまたは固定コードブック
502 コードブックベクトル
503 利得
601 CELP符号化のための符号化励振コードブックまたは固定コードブック
602 コードブックベクトル
603 利得
701 CELP符号化のための符号化励振コードブックまたは固定コードブック
702 コードブックベクトル
703 利得
704 パルス状のコードブック
705 ノイズ状のコードブック
801 CELP符号化のための符号化励振コードブックまたは固定コードブック
802 コードブックベクトル
803 利得
804 パルス状のコードブック
805 ノイズ状のコードブック
806 低域通過フィルタ
807 高域通過フィルタ
901 CELP符号化のための符号化励振コードブックまたは固定コードブック
902 コードブックベクトル
903 利得
904 パルス状のコードブック
905 ノイズ状のコードブック
906 強調1
907 強調2
1001 CELP符号化のための符号化励振コードブックまたは固定コードブック
1002 コードブックベクトル
1003 利得
1004 パルス状のコードブック
1005 ノイズ状のコードブック
1006 強調1
1007 強調2
1008 強調3
1101 CELP符号化のための符号化励振コードブックまたは固定コードブック
1102 コードブックベクトル
1103 利得
1104 パルス状のコードブック
1105 ノイズ状のコードブック
1106 強調H1(z)
1107 強調H2(z)
1108 強調H3(z)
1201 CELP符号化のための符号化励振コードブックまたは固定コードブック
1202 コードブックベクトル
1203 利得
1204 コードブック1
1205 コードブック2
1206 強調H1(z)
1207 強調H2(z)
1208 強調H3(z)
1301 あらかじめ強調された入力音声
1302 重み付けフィルタ
1303 目標信号
1304 差信号
1305 ピッチ利得
1306 利得
1307 適応コードブック
1308 符号化励振
1309 最小化
1310 重み付き誤差
1401 あらかじめ強調された入力音声
1402 重み付けフィルタ
1403 目標信号
1404 差信号
1405 ピッチ利得
1406 利得
1407 適応コードブック
1408 混合励振
1409 最小化
1410 重み付き誤差
x2(n)=x(n)-Gp・y(n)、n=0、1、…、63
(12)
y(n)=e p (n)*h(n)は、フィルタリングされた適応符号ベクトルであり、G p は適応コードブックの利得である。マトリクスHを、主対角線hh(0)および下位の(lower)対角線hh(1)、…、hh(63)を有する下位の三角形のテプリッツの畳み込みマトリクスとして定義し、d=HTx2(逆フィルタリングされた目標ベクトルとしても知られている)を、更新された信号x2(n)とインパルス応答hh(n)の間の相関として定義する。さらに、φ=HTHをhh(n)の相関のマトリクスとして定義する。理論上、ベクトルd(n)の要素は次式で計算され、
ck(n)=cp(n)*h1(n)+cn(n)*h2(n)、n=0、1、...、63
(15)
ここで、c p (n)はパルス状コードブックからの候補ベクトルであり、c n (n)はノイズ状コードブックからの候補ベクトルである。混合コードブック励振c k (n)またはec(n)=ck(n)*h3(n)および混合コードブック励振の対応する利得1103 G c は、次式の重み付き誤差1110の最小化1109によって求められ得る。
zk=Hck
(18)
いくつかの実施形態では、ベクトルd(n)およびマトリクスφは、コードブック検索に先立って計算される。いくつかの実施形態では、マトリクスφの計算は不要であり得て、したがって省略される。
zp=Hpcp
(23)
z n はフィルタリングされたノイズ寄与であり、次式で表される。
zn=Hncn (24)
式(20)は次式のようにさらに表現されてよく、
Ek=zp Tzp+2zp Tzn+zn Tzn
=Ep+2zp Tzn+En
(25)
ここで、
Ep=zp Tzp
(26)
はフィルタリングされたパルス寄与のエネルギーであり、
En=zn Tzn
(27)
はフィルタリングされたノイズ寄与のエネルギーである。
cp=sp・vp(ip)
(28)
また、ノイズサブコードブックからの式(15)の符号ベクトルc n (n)が次式で表される符号付きベクトルであり、
cn=sn・vn(in)
(29)
ここで、v p (i p )は、1つまたはいくつかのパルスから成る次元64(サブフレームサイズ)のi p 番目のパルスベクトルを表し、v n (i n )は、ノイズテーブルから読み取った次元64(サブフレームサイズ)のi n 番目のノイズベクトルを表し、spおよびs n は符号であり、-1または1に等しく、i p およびinはベクトルを定義するインデックスであると想定する。
hCB1(n)=h1(n)*h3(n)*h(n)
(34)
CB 2励振のインパルス応答は次式で表される。
hCB2(n)=h2(n)*h3(n)*h(n)
(35)
c k (n)は、次式で表される混合符号ベクトルとする。
ck(n)=cCB1(n)*h1(n)+cCB2(n)*h2(n)、n=0、1、...、63
(36)
(38)
zCB2=HCB2cCB2
(39)
ECB1=zCB1 TzCB1
(40)
ECB2=zCB2 TzCB2
(41)
である。符号ベクトルcCB1およびcCB2が、それぞれ式(42)および式(43)で表される符号付きベクトルであると想定する。
cCB1=sCB1・vCB1(iCB1)
(42)
cCB2= sCB2・vCB2(iCB2)
(43)
検索プロシージャの目標は、2つの最善のベクトルのインデックスi CB1 およびi CB2 、ならびにそれらの対応する符号s CB1 およびs CB2 を見つけることである。
Claims (24)
- 音響信号/音声信号を符号化する方法であって、
入って来る音響信号/音声信号に基づいて混合コードブックベクトルを求めるステップであって、前記混合コードブックベクトルが、第1のコードブックからの第1のコードブックエントリと第2のコードブックからの第2のコードブックエントリの合計を含み、前記第1のコードブックがパルス状のエントリを含み、前記第2のコードブックがノイズ状のエントリを含むステップと、
前記求められた混合コードブックベクトルに基づいて、符号化された音響信号を生成するステップと、
前記求められた混合コードブックベクトルの符号化された励振インデックスを伝送するステップとを含み、前記求めるステップおよび前記生成するステップが、ハードウェアベースの音響符号器を使用して遂行される方法。 - 前記第1および第2のコードブックが固定コードブックを含む請求項1に記載の方法。
- 前記混合コードブックベクトルを求めるステップが、
フィルタリングされた目標ベクトルと前記第1のコードブックのフィルタリングされたエントリの間の第1の相関を計算するステップであって、前記フィルタリングされた目標ベクトルが、前記入って来る音響信号に基づくものであるステップと、
最大の第1の相関の第1のグループを求めるステップと、
フィルタリングされた目標ベクトルと前記第2のコードブックのフィルタリングされたエントリの間の相関を計算するステップと、
最大の第2の相関の第2のグループを求めるステップと、
前記第1のグループと前記第2のグループの結合の第1の基準関数を計算するステップであって、前記第1の基準関数が、前記最大の第1の相関の第1のグループのうちの1つ、前記最大の第2の相関の第2のグループのうちの1つ、ならびに前記第1のコードブックおよび前記第2のコードブックからの対応するエントリのエネルギーの関数を含むステップとを含む請求項1に記載の方法。 - 最大の計算された第1の基準関数に基づいて候補の相関の第3のグループを求めるステップと、
前記第3のグループへの第2の基準関数の適用に基づいて前記混合コードブックベクトルを選択するステップであって、前記混合コードブックベクトルが、前記第2の基準関数の最大値と関連した、前記第1のコードブックおよび前記第2のコードブックからのコードブックエントリに対応するステップとをさらに含む請求項3に記載の方法。 - 前記第1の基準関数が次式で表され、
前記第2の基準関数が次式で表され、
- 最大の計算された第1の基準関数に基づいて前記混合コードブックベクトルを選択するステップを含む請求項3に記載の方法。
- 前記第1のコードブックおよび前記第2のコードブックから前記対応するエントリのエネルギーを計算するステップをさらに含む請求項3に記載の方法。
- 前記第1のコードブックおよび前記第2のコードブックからの前記対応するエントリのエネルギーがメモリに記憶される請求項3に記載の方法。
- 前記第1のグループが前記第2のグループよりも多くのエントリを含む請求項3に記載の方法。
- 前記第1のコードブックエントリに対して第1の強調関数を適用するステップと、
前記第2のコードブックエントリに対して第2の強調関数を適用するステップとをさらに含む請求項1に記載の方法。 - 前記第1の強調関数が低域通過フィルタ関数を含み、
前記第2の強調関数が高域通過フィルタ関数を含む請求項11に記載の方法。 - 前記ハードウェアベースの音響符号器がプロセッサを備える請求項1に記載の方法。
- 前記ハードウェアベースの音響符号器が専用ハードウェアを備える請求項1に記載の方法。
- 音響信号/音声信号を符号化するためのシステムであって、前記システムが備えるハードウェアベースの音響符号器が、
入って来る音響信号/音声信号に基づいて、パルス状のコードブックからの第1のコードブックエントリとノイズ状のコードブックからの第2のコードブックエントリの合計を含んでいる混合コードブックベクトルを求め、
前記求められた混合コードブックベクトルに基づいて符号化された音響信号/音声信号を生成して、
前記求められた混合コードブックベクトルの符号化された励振インデックスを伝送するように構成されているシステム。 - 前記ハードウェアベースの音響符号器が、
前記入って来る音響信号に基づくフィルタリングされた目標ベクトルと前記パルス状のコードブックのエントリの間の第1の相関を計算し、
最大の第1の相関の第1のグループを求め、
フィルタリングされた目標ベクトルとノイズ状のコードブックのエントリの間の相関を計算し、
最大の第2の相関の第2のグループを求め、
第1のグループと第2のグループの結合の第1の基準関数であって、前記最大の第1の相関の第1のグループのうちの1つ、前記最大の第2の相関の第2のグループのうちの1つ、ならびに前記パルス状のコードブックおよび前記ノイズ状のコードブックからの対応するエントリのエネルギーの関数を含む第1の基準関数を計算するようにさらに構成されている請求項15に記載のシステム。 - 前記パルス状のコードブックおよび前記ノイズ状のコードブックからの前記対応するエントリのエネルギーの値を記憶するように構成されたメモリをさらに備える請求項16に記載のシステム。
- 前記ハードウェアベースの音響符号器が、最大の計算された第1の基準関数に基づいて前記混合コードブックベクトルを選択するようにさらに構成されている請求項16に記載のシステム。
- 前記ハードウェアベースの音響符号器がプロセッサを備える請求項15に記載のシステム。
- 前記ハードウェアベースの音響符号器が専用ハードウェアを備える請求項15に記載のシステム。
- 音響信号/音声信号を符号化するための、混合コードブックの高速検索方法であって、
入って来る音響信号/音声信号に基づいて、第1のコードブックからの第1のコードブックエントリと第2のコードブックからの第2のコードブックエントリの合計を含んでいる混合コードブックベクトルを求めるステップと、
前記入って来る音響信号に基づくフィルタリングされた目標ベクトルと前記第1のコードブックのフィルタリングされたエントリの間の第1の相関を計算するステップと、
最大の第1の相関の第1のグループを求めるステップと、
フィルタリングされた目標ベクトルと前記第2のコードブックのフィルタリングされたエントリの間の相関を計算するステップと、
最大の第2の相関の第2のグループを求めるステップと、
前記第1のグループと前記第2のグループの結合の第1の基準関数を計算するステップであって、前記第1の基準関数が、前記最大の第1の相関の第1のグループのうちの1つ、前記最大の第2の相関の第2のグループのうちの1つ、ならびに前記第1のコードブックおよび前記第2のコードブックからの対応するエントリのエネルギーの関数を含むステップと、
最大の計算された第1の基準関数に基づいて候補の相関の第3のグループを求めるステップと、
前記第3のグループへの第2の基準関数の適用に基づいて前記混合コードブックベクトルを選択するステップであって、前記混合コードブックベクトルが、前記第2の基準関数の最大値と関連した、前記第1のコードブックおよび前記第2のコードブックからのコードブックエントリに対応するステップと、
前記求められた混合コードブックベクトルに基づいて、符号化された音響信号を生成するステップと、
前記求められた混合コードブックベクトルの符号化された励振インデックスを伝送するステップとを含み、前記求めるステップおよび前記生成するステップが、ハードウェアベースの音響符号器を使用して遂行される方法。 - 前記第1の基準関数が次式で表され、
前記第2の基準関数が次式で表され、
- 前記第1のコードブックがパルス状のコードブックを含み、前記第2のコードブックがノイズ状のコードブックを含む請求項22に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/768,814 US9972325B2 (en) | 2012-02-17 | 2013-02-15 | System and method for mixed codebook excitation for speech coding |
US13/768,814 | 2013-02-15 | ||
PCT/CN2013/080268 WO2014124577A1 (en) | 2013-02-15 | 2013-07-29 | System and method for mixed codebook excitation for speech coding |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017091601A Division JP6392409B2 (ja) | 2013-02-15 | 2017-05-02 | 音声符号化のための混合コードブック励振のためのシステムおよび方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015515644A true JP2015515644A (ja) | 2015-05-28 |
JP6395612B2 JP6395612B2 (ja) | 2018-09-26 |
Family
ID=48982948
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014561282A Active JP6395612B2 (ja) | 2013-02-15 | 2013-07-29 | 音声符号化のための混合コードブック励振のためのシステムおよび方法 |
JP2017091601A Active JP6392409B2 (ja) | 2013-02-15 | 2017-05-02 | 音声符号化のための混合コードブック励振のためのシステムおよび方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017091601A Active JP6392409B2 (ja) | 2013-02-15 | 2017-05-02 | 音声符号化のための混合コードブック励振のためのシステムおよび方法 |
Country Status (18)
Country | Link |
---|---|
US (1) | US9972325B2 (ja) |
EP (2) | EP3214619B1 (ja) |
JP (2) | JP6395612B2 (ja) |
KR (2) | KR101810020B1 (ja) |
CN (1) | CN104126201B (ja) |
AU (1) | AU2013378636B2 (ja) |
BR (1) | BR112014024648B1 (ja) |
CA (2) | CA3069661C (ja) |
ES (2) | ES2716462T3 (ja) |
HK (1) | HK1199542A1 (ja) |
IN (1) | IN2014KN01667A (ja) |
MX (1) | MX350290B (ja) |
MY (1) | MY172894A (ja) |
PT (1) | PT3214619T (ja) |
RU (2) | RU2633105C1 (ja) |
SG (1) | SG11201404753QA (ja) |
WO (1) | WO2014124577A1 (ja) |
ZA (1) | ZA201406064B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016537667A (ja) * | 2013-10-18 | 2016-12-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 |
US10373625B2 (en) | 2013-10-18 | 2019-08-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9202473B2 (en) * | 2011-07-01 | 2015-12-01 | Nokia Technologies Oy | Multiple scale codebook search |
EP3079151A1 (en) * | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and method for encoding an audio signal |
CA2991341A1 (en) | 2015-07-06 | 2017-01-12 | Nokia Technologies Oy | Bit error detector for an audio signal decoder |
EP3413308A1 (en) * | 2017-06-07 | 2018-12-12 | Nokia Technologies Oy | Efficient storage of multiple structured codebooks |
EP3429230A1 (en) * | 2017-07-13 | 2019-01-16 | GN Hearing A/S | Hearing device and method with non-intrusive speech intelligibility prediction |
US10942914B2 (en) * | 2017-10-19 | 2021-03-09 | Adobe Inc. | Latency optimization for digital asset compression |
US11086843B2 (en) | 2017-10-19 | 2021-08-10 | Adobe Inc. | Embedding codebooks for resource optimization |
US11120363B2 (en) | 2017-10-19 | 2021-09-14 | Adobe Inc. | Latency mitigation for encoding data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6053999A (ja) * | 1983-09-05 | 1985-03-28 | 日本電気株式会社 | 音声合成器 |
JPH09190197A (ja) * | 1995-06-07 | 1997-07-22 | At & T Ipm Corp | フレーム消失の間のピッチ遅れ修正方法 |
JP2005031683A (ja) * | 2003-07-09 | 2005-02-03 | Samsung Electronics Co Ltd | ビット率拡張音声符号化及び復号化装置とその方法 |
JP2007226252A (ja) * | 1999-04-28 | 2007-09-06 | Lucent Technol Inc | ボコーダの動作方法 |
JP2008015356A (ja) * | 2006-07-07 | 2008-01-24 | Toshiba Corp | 復号装置およびスペクトル整形方法 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
JPH08179796A (ja) | 1994-12-21 | 1996-07-12 | Sony Corp | 音声符号化方法 |
DE69712537T2 (de) | 1996-11-07 | 2002-08-29 | Matsushita Electric Industrial Co., Ltd. | Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs |
KR100527217B1 (ko) | 1997-10-22 | 2005-11-08 | 마츠시타 덴끼 산교 가부시키가이샤 | 확산 벡터 생성 방법, 확산 벡터 생성 장치, celp형 음성 복호화 방법 및 celp형 음성 복호화 장치 |
US6714907B2 (en) * | 1998-08-24 | 2004-03-30 | Mindspeed Technologies, Inc. | Codebook structure and search for speech coding |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6980948B2 (en) * | 2000-09-15 | 2005-12-27 | Mindspeed Technologies, Inc. | System of dynamic pulse position tracks for pulse-like excitation in speech coding |
JP3404016B2 (ja) * | 2000-12-26 | 2003-05-06 | 三菱電機株式会社 | 音声符号化装置及び音声符号化方法 |
US7206739B2 (en) * | 2001-05-23 | 2007-04-17 | Samsung Electronics Co., Ltd. | Excitation codebook search method in a speech coding system |
US6789059B2 (en) | 2001-06-06 | 2004-09-07 | Qualcomm Incorporated | Reducing memory requirements of a codebook vector search |
US7054807B2 (en) | 2002-11-08 | 2006-05-30 | Motorola, Inc. | Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters |
US7024358B2 (en) * | 2003-03-15 | 2006-04-04 | Mindspeed Technologies, Inc. | Recovering an erased voice frame with time warping |
US7519532B2 (en) * | 2003-09-29 | 2009-04-14 | Texas Instruments Incorporated | Transcoding EVRC to G.729ab |
US8725501B2 (en) * | 2004-07-20 | 2014-05-13 | Panasonic Corporation | Audio decoding device and compensation frame generation method |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
EP1854095A1 (en) | 2005-02-15 | 2007-11-14 | BBN Technologies Corp. | Speech analyzing system with adaptive noise codebook |
BRPI0607646B1 (pt) | 2005-04-01 | 2021-05-25 | Qualcomm Incorporated | Método e equipamento para encodificação por divisão de banda de sinais de fala |
US20060253421A1 (en) | 2005-05-06 | 2006-11-09 | Fang Chen | Method and product for searching title metadata based on user preferences |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
WO2007043643A1 (ja) * | 2005-10-14 | 2007-04-19 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法 |
BRPI0718300B1 (pt) | 2006-10-24 | 2018-08-14 | Voiceage Corporation | Método e dispositivo para codificar quadros de transição em sinais de fala. |
US8175870B2 (en) * | 2006-12-26 | 2012-05-08 | Huawei Technologies Co., Ltd. | Dual-pulse excited linear prediction for speech coding |
US8515767B2 (en) | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
US20110137661A1 (en) * | 2008-08-08 | 2011-06-09 | Panasonic Corporation | Quantizing device, encoding device, quantizing method, and encoding method |
CN101557367B (zh) | 2009-02-27 | 2011-10-05 | 东南大学 | 多点有限协同多输入多输出通信系统预编码方法 |
KR20110022252A (ko) | 2009-08-27 | 2011-03-07 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
CN102006144B (zh) | 2009-09-01 | 2014-01-08 | 华为技术有限公司 | 预编码方法、装置及频域均衡方法、装置 |
AU2012217153B2 (en) | 2011-02-14 | 2015-07-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion |
-
2013
- 2013-02-15 US US13/768,814 patent/US9972325B2/en active Active
- 2013-07-29 KR KR1020177009638A patent/KR101810020B1/ko active IP Right Grant
- 2013-07-29 JP JP2014561282A patent/JP6395612B2/ja active Active
- 2013-07-29 MX MX2014011964A patent/MX350290B/es active IP Right Grant
- 2013-07-29 SG SG11201404753QA patent/SG11201404753QA/en unknown
- 2013-07-29 WO PCT/CN2013/080268 patent/WO2014124577A1/en active Application Filing
- 2013-07-29 ES ES17160978T patent/ES2716462T3/es active Active
- 2013-07-29 ES ES13874853.8T patent/ES2627581T3/es active Active
- 2013-07-29 AU AU2013378636A patent/AU2013378636B2/en active Active
- 2013-07-29 CA CA3069661A patent/CA3069661C/en active Active
- 2013-07-29 RU RU2016143545A patent/RU2633105C1/ru active
- 2013-07-29 RU RU2014140195/08A patent/RU2604425C2/ru active
- 2013-07-29 KR KR1020157017956A patent/KR101727577B1/ko active IP Right Grant
- 2013-07-29 CN CN201380009887.4A patent/CN104126201B/zh active Active
- 2013-07-29 CA CA2864247A patent/CA2864247C/en active Active
- 2013-07-29 EP EP17160978.7A patent/EP3214619B1/en active Active
- 2013-07-29 EP EP13874853.8A patent/EP2805324B1/en active Active
- 2013-07-29 MY MYPI2014002318A patent/MY172894A/en unknown
- 2013-07-29 BR BR112014024648-3A patent/BR112014024648B1/pt active IP Right Grant
- 2013-07-29 PT PT17160978T patent/PT3214619T/pt unknown
-
2014
- 2014-08-11 IN IN1667KON2014 patent/IN2014KN01667A/en unknown
- 2014-08-18 ZA ZA2014/06064A patent/ZA201406064B/en unknown
- 2014-12-30 HK HK14113073.7A patent/HK1199542A1/xx unknown
-
2017
- 2017-05-02 JP JP2017091601A patent/JP6392409B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6053999A (ja) * | 1983-09-05 | 1985-03-28 | 日本電気株式会社 | 音声合成器 |
JPH09190197A (ja) * | 1995-06-07 | 1997-07-22 | At & T Ipm Corp | フレーム消失の間のピッチ遅れ修正方法 |
JP2007226252A (ja) * | 1999-04-28 | 2007-09-06 | Lucent Technol Inc | ボコーダの動作方法 |
JP2005031683A (ja) * | 2003-07-09 | 2005-02-03 | Samsung Electronics Co Ltd | ビット率拡張音声符号化及び復号化装置とその方法 |
JP2008015356A (ja) * | 2006-07-07 | 2008-01-24 | Toshiba Corp | 復号装置およびスペクトル整形方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016537667A (ja) * | 2013-10-18 | 2016-12-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 |
US10304470B2 (en) | 2013-10-18 | 2019-05-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US10373625B2 (en) | 2013-10-18 | 2019-08-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
US10607619B2 (en) | 2013-10-18 | 2020-03-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US10909997B2 (en) | 2013-10-18 | 2021-02-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
US11798570B2 (en) | 2013-10-18 | 2023-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US11881228B2 (en) | 2013-10-18 | 2024-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6392409B2 (ja) | 音声符号化のための混合コードブック励振のためのシステムおよび方法 | |
JP5264913B2 (ja) | 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置 | |
TW497335B (en) | Method and apparatus for variable rate coding of speech | |
CN101180676B (zh) | 用于谱包络表示的向量量化的方法和设备 | |
JP4390803B2 (ja) | 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置 | |
JP4005359B2 (ja) | 音声符号化及び音声復号化装置 | |
US20050053130A1 (en) | Method and apparatus for voice transcoding between variable rate coders | |
AU2014391078B2 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
JP2002202799A (ja) | 音声符号変換装置 | |
KR20130133846A (ko) | 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법 | |
KR100465316B1 (ko) | 음성 부호화기 및 이를 이용한 음성 부호화 방법 | |
Yoon et al. | An efficient transcoding algorithm for G. 723.1 and G. 729A speech coders: interoperability between mobile and IP network | |
JP4007730B2 (ja) | 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体 | |
KR100550002B1 (ko) | 음성부호화기에서 적응 코드북 검색기 및 그 방법 | |
Sahab et al. | SPEECH CODING ALGORITHMS: LPC10, ADPCM, CELP AND VSELP | |
Lin et al. | AN EFFICIENT TRANSCODING SCHEME FOR G. 729 AND G. 723.1 SPEECH CODECS: INTEROPERABILITY OVER THE INTERNET | |
Gardner et al. | Survey of speech-coding techniques for digital cellular communication systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160706 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180828 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6395612 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |