JP5374418B2 - 音声符号化用適応符号帳ゲインの制御 - Google Patents
音声符号化用適応符号帳ゲインの制御 Download PDFInfo
- Publication number
- JP5374418B2 JP5374418B2 JP2010044661A JP2010044661A JP5374418B2 JP 5374418 B2 JP5374418 B2 JP 5374418B2 JP 2010044661 A JP2010044661 A JP 2010044661A JP 2010044661 A JP2010044661 A JP 2010044661A JP 5374418 B2 JP5374418 B2 JP 5374418B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- adaptive codebook
- signal
- noise
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003044 adaptive effect Effects 0.000 title claims description 142
- 239000013598 vector Substances 0.000 claims abstract description 159
- 238000012545 processing Methods 0.000 claims abstract description 90
- 230000005236 sound signal Effects 0.000 claims description 102
- 238000000034 method Methods 0.000 claims description 86
- 238000001914 filtration Methods 0.000 claims description 27
- 230000007774 longterm Effects 0.000 claims description 19
- 230000002829 reductive effect Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000005284 excitation Effects 0.000 abstract description 104
- 238000004891 communication Methods 0.000 abstract description 33
- 230000003595 spectral effect Effects 0.000 abstract description 25
- 238000001514 detection method Methods 0.000 abstract description 23
- 230000000694 effects Effects 0.000 abstract description 6
- 239000011295 pitch Substances 0.000 description 112
- 238000003786 synthesis reaction Methods 0.000 description 47
- 230000015572 biosynthetic process Effects 0.000 description 46
- 238000010586 diagram Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 37
- 238000013139 quantization Methods 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 27
- 230000004044 response Effects 0.000 description 23
- 238000009499 grossing Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 15
- 238000010606 normalization Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 11
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 230000001934 delay Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 101100194363 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res2 gene Proteins 0.000 description 5
- 239000000872 buffer Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- IVEKVTHFAJJKGA-BQBZGAKWSA-N (2s)-2-amino-5-[[(2r)-1-ethoxy-1-oxo-3-sulfanylpropan-2-yl]amino]-5-oxopentanoic acid Chemical compound CCOC(=O)[C@H](CS)NC(=O)CC[C@H](N)C(O)=O IVEKVTHFAJJKGA-BQBZGAKWSA-N 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 102000016550 Complement Factor H Human genes 0.000 description 2
- 108010053085 Complement Factor H Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000011045 prefiltration Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000695 excitation spectrum Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012857 repacking Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
<関連出願との関係>
本願は、1998年11月24日出願の米国特許出願第09/198,414に基づいており、その出願は1998年9月18日出願の米国特許出願第09/154,662の一部継続出願であり、その出願は1998年9月18日出願の米国特許出願第09/156,832の一部継続出願であり、その出願は、1998年8月24日出願の仮出願第60/097,569に基づいた1998年9月18日提出の米国特許出願第09/154,657の一部継続出願である。これらの全ての出願は、その全体が本願に援用され、本出願の一部を成す。
下記の出願は、その全体が本願に援用されることによって、本出願の一部を成す。
1)1998年8月24日出願の米国仮出願第60/097,569(代理人名簿No.98RSS325)
2)1998年11月24日出願の米国特許出願第09/198,414(代理人名簿No.97RSS039CIP)
3)1998年9月18日出願の米国特許出願第09/154,662(代理人名簿No.97RSS383)
4)1998年9月18日出願の米国特許出願第09/156,832(代理人名簿No.97RSS039)
5)1998年9月18日出願の米国特許出願第09/154,657(代理人名簿No.98RSS328)
6)1998年9月18日出願の米国特許出願第09/156,649(代理人名簿No.95E020)
7)1998年9月18日出願の米国特許出願第09/154,654(代理人名簿No.98RSS344)
8)1998年9月18日出願の米国特許出願第09/154,653(代理人名簿No.98RSS406)
9)1998年9月18日出願の米国特許出願第09/156,814(代理人名簿No.98RSS365)
10)1998年9月18日出願の米国特許出願第09/156,648(代理人名簿No.98RSS228)
11)1998年9月18日出願の米国特許出願第09/156,650(代理人名簿No.98RSS343)
12)1998年9月18日出願の米国特許出願第09/154,675(代理人名簿No.97RSS383)
13)1998年9月18日出願の米国特許出願第09/156,826(代理人名簿No.98RSS382)
14)1998年9月18日出願の米国特許出願第09/154,660(代理人名簿No.98RSS384)
音声エンコーダ117は、通信チャネル103を通じてデータ率の制限を基にして複数の作動モードのうち、一のモードを適切に選択する。通信チャネル103は、チャネルエンコーダ119とチャネルデコーダ131との間に帯域割り当てを備える。割り当ては、例えば、多くの上記チャネルが、必要に応じて割り当てられ再割り当てされる電話交換網により確立される。かかる一実施形態において、22.8kbps(キロビット/秒)チャネル帯域、即ちフルレートチャネル、又は11.4kbpsチャネル帯域、即ちハーフレートチャネルのいずれかを割り当ても良い。
ここで、^ai,i=1,....,mは(量子化された)線形予測(LP)パラメータである。
ここで、Tはピッチディレイ及びgpはピッチゲインである。
W(z)=A(z/γ1)/A(z/γ2) (3)
ここでA(z)は非量子化LPフィルタ及び0<γ2<γ1≦1は知覚的重み付け因子である。値γ1=[0.9、0.94]及びγ2=0.6を使う。重み付けフィルタは、例えば、ブロック251及び268において、非量子化LPパラメータを使うが、一方フォルマント合成フィルタは、例えば、ブロック249及び267において、量子化されたLPフィルタを使う。非量子化及び量子化LPパラメータは、共にブロック239において発生する。
Hhl(z)=(0.92727435−1.8544941z−1+0.92
727435z−2)/(1−1.9059465z−1+0.9114024z−2)
ダウンスケーリングおよび高域フィルタリングはHhl(z)の分子の係数を2で割ることにより結合される。
q1(n)=0.5q4(n-1) + 0.5q2(n)
q3(n)=0.5q2(n-1) + 0.5q4(n)
ここでq1 (n)はサブフレーム1について補間したLSFであり、q2 (n) はカレントフレームのLP_analysis_2から得られたサブフレーム2のLSFであり、q3(n)はサブフレーム3について補間したLSFであり、q4 (n-1)は前のフレームのLP_analysis_1から得たLSF(余弦領域)であり、q4(n)はカレントフレームのLP_analysis_1から得られたサブフレーム4に対するLSFである。補間は余弦領域で行われた。
W(z)=A(z/γ1)/A(z/γ2)
これは、サイズL_SFのサブフレームにおいて、重み付けされた音声は次のように与えられる。
2)正規化された一ディレイ相関P2_R1;3)正規化されたゼロ交差レートP3_ZC;および、4)正規化されたLP残差エネルギーP4_REである。
if P2_R1 < 0.6 and P1_SHP > 0.2 set mode =2
if P3_ZC > 0.4 and P1_SHP > 0.18 set mode =2
if P4_RE < 0.4 and P1_SHP > 0.2 set mode =2
if (P2_R1 <-1.2+3.2 P1_SHP) set VUV =-3
if (P4_RE <-0.21+1.4286 P1_SHP) set VUV =-3
if (P3_ZC > 0.8-0.6 P1_SHP) set VUV =-3
if (P4_RE < 0.1)set VUV=-3
の四つの最大値は、4つの領域、17…33、 34…67、 68 …135、136 …145のそれぞれにおいて見出される。得られた最大値Cki、i= 1,2,3,4は、それぞれ、次により除されて、正規化される。
この正規化された最大値と対応するディレイは(RiKi)、i=1,2,3,4.で示される。
ここで、sw(n + nl)、 n = 0, 1, …L-1はルックアヘッド(ルックアヘッドの長さは25サンプルである)を含む重み付けされた音声信号の最後のセグメントを示す。またサイズLは、以下の対応する正規化相関CTopを有する開ループピッチラグTopにしたがって定義される。
Tc(n) = trunc{τc (n+m・Ls)}、
TIC(n)= τc (n) - Tc(n)
mはサブフレームの数、Is(I, TIC(n)) は補間係数のセットであり、fIは10である。次に、マッチングさせるターゲット^st(n)、n = 0,1,…Lsr-1が、時間領域において、^sw(m0 +n)、n = 0,1,…Lsr-1.を重み付けして計算される。
^sI (n) = n・^sw (m0 +n)/Ls, n = 0,1,…Ls-1
^sI(n) =^sw(m0 +n), n = Ls,…Lsr-1
ここで、Psh=max{Psh1, Psh2} であり、Psh1はターゲット信号からのピーク比(すなわちシャープさ)に対する平均値である。
Psh2は重み付け音声信号からのシャープさである。
kr=Kopt + n0 - m0 - τacc
もしRI(kopt)<0.5ならば、krはゼロである。
ここで {If(i,j)} は補間係数の1セットである。最適な小数ディレイインデクスjoptは、Rf(j)を最大化することによって選択される。最終的には、現在処理中のフレームの最終に於ける最善の局所ディレイτoptは、次式で与えられる。
τopt= kr − 0.75+0.1jopt
局所ディレイは次いで次式によって調整される。
バッファーを更新し、固定符号帳261を検索するための第2の目標信号253を作るために、{^Sw(m0+n),n=0,1,...Ls−1}に記録されるカレントサブフレームの修正重み付け音声は、原時間領域
[ m0 +τacc, m0+τopt+ Ls +τopt]
から原重み付け音声{Sw(n)}を修正時間領域
[ m0, m0+Ls ]
へワーピングして作られる。
Tw(n)=trunc {τacc + n・τopt /Ls}
TIw(n)=τacc + n・τopt /Ls-Tw(n),
{Is(i,TIW(n))} は補間係数の一つのセットである。
^Sw(n)<= ^Sw(n +Ls), n = 0,1… nm-1
カレントサブフレームの終わりでの累積ディレイは次式により更新される。
τacc <= τacc + τopt
量子化する前に、知覚できる性質に改善するためにLSFsを平滑化する。一般に、スペクトル包絡中に急速な変化のある音声セグメントの間では平滑化は適用されない。スペクトル包絡中の変化の遅い非音声の間には、望ましくないスペクトル変化を減らすように平滑化が適用される。望ましくないスペクトル変化は典型的にはLPCパラメータの推定やLSF量子化によって起きるはずである。たとえば、スペクトル包絡中で非常に小さな変化を導入する一定のスペクトル包絡を有する定常ノイズ状信号は容易に人の耳で聴き取られ、うるさい変調として知覚される。
lsfi(n) = β(n) ・lsfi(n-1)+(1-β(n))・lsf_esti(n), i = 1,…,10
ここで、 lsf_esti(n) はフレームnのi番目の予測LSFであり、lsfi(n)はフレームnの量子化のためのi番目のLSFである。パラメータβ(n)は平滑化の量をコントロールし、例えば、β(n)がゼロのときは平滑化は適用されない。
fiはi番目のLSF値であり、P(fi)はfiにおけるLPCのパワースペクトルである(Kは無関係な倍率定数である)。パワースペクトルの逆数は、(ある倍率定数まで)次式から得られる。
そして、−0.4のべき数は次いで、ルックアップテーブルとテーブル入力(エントリー)の間の3次スプライン補間を用いて計算される。
もしLTP_モードが0のときは、カレントフレームの量子化LSFセットと先行フレームの量子化LSFセットの間に一次補間がおこなわれ、次のように第1、第2、第3のサブフレームについてのLSFセットを得るように作用する。
q1(n) バー =0.75q4 (n-1) バー + 0.25q4 (n) バー
q2(n) バー =0.5q4 (n-1) バー + 0.5q4 (n) バー
q3(n) バー =0.25q4 (n-1) バー + 0.75q4 (n) バー
ここでq4(n-1) バー およびq4(n) バーはそれぞれ先行およびカレントフレームの量子化LSFセットのコサインであり、q1(n) バー、q2(n) バーおよび q3(n) バーはそれぞれ、第1、第2、第3のサブフレームに対するコサイン領域における補間LSFセットである。
w(0) = (1-l(0))(1-l(1) + l(0))
w(9) = (1-l(9))(1-l(9) + l(8))
i = 1から9において
w(i) = (1-l(i))(1-Min(l(i + 1)-l (i), l(i)-l(i-l)))
ここでMin(a,b) は、aおよびbの最小値を返す。
rq(n) バー=α(k)q4バー (n)+(1−α(k))q4バー (n−1),K=1から4
各パスごとにαバー={0.4,0.5,0.6,0.7}である。ついで、以下の距離尺度が各パスについてつぎのように計算される。
D=|rl(n) バー−l(n) バー|T Wバー
最小距離Dへ導くパスが選ばれ、対応する参照LSFセットが rq(n) バーが下記の通り得られる。
rq(n) バー =αoptq4(n) バー + (1- αopt) q4(n-1) バー
余弦領域の補間LSFセットは、次によって与えられる。
q1(n) バー =0.5q4(n−1) バー+0.5rq(n) バー
q2(n) バー =rq(n) バー
q3(n) バー =0.5rq(n) バー+0.5q4(n) バー
Tc(n) =trunc{τc (n+m・ L_SF)}
TIC(n)=τc (n) −TC (n)
mはサブフレーム数、{Is,(i, TIC(n))} は補間係数,fIは10、MAX_LAGは145+11、そしてL_SF=40はサブフレームサイズである。補間値{ext(MAX_LAG+n), 0<=n<L_SF-17 +11} は、そのピッチラグが小さいときには再び補間するのに用いられるかもしれないことに注意を払われたい。一度補間が終わると、適応コードベクトルVa={va(n),n=0から39}が補間値をコピーして得られる。
適応符号帳検索は、サブフレームごとに行われる。それは閉ループピッチラグ検索の実施から成り、ついで、選択された小数ピッチラグでの過去の励起を補間して適応コードベクトルを計算する。そのLTPパラメータ(あるいは適応符号帳パラメータ)はピッチラグ(あるいはディレイ)およびピッチフィルターのゲインである。検索ステージで、励起は、閉ループ検索を簡易化するために、LP残差によって拡大される。
ここでTgs(n)は目標信号であり、yk(n)はディレイkにおける過去のフィルター励起である(h(n)を畳み込んだ過去の励起)。その畳み込みyk(n)は、検索領域での最初のディレイtmin について計算され,検索領域のその他のディレイk=tmin+1,…tmax については、再帰的関係を用いて更新される。
yk(n) = yk-1(n-1) + u(-)h(n)
ここで、u(n), n = -(143+11) から39は励起バッファーである。
検索を簡易化するのに、LP残差はu(n)にコピーされ、すべてのディレイに有効な計算においての関係を作り出す。一度最適な整数ピッチディレイが決まれば、上に定義したような小数(フラクション)がその整数周辺で試験される。小数ピッチ検索は正規化された相関を補間する事により行われ、その検索は最大値まで行われる。
ピッチ相関
ピッチ相関の操作手段
ma_cp(n) = 0.9・ma_cp(n-1)+0.1・cp
カレントピッチサイクルにおける信号振幅の最大値
max(n) =max{|~s(i)|, i=start,…,L_SF-1}
ここで
start = min(L_SF-lag,0)
現在ピッチサイクルにおける信号振幅の合計
相対的最大値の測定
max_mes = max(n)/ma_max_noise(n-1)
長期合計に対する最大値
過去15サブフレームに対する3個のサブフレームのグループにおける最大値
max_group(n,k)= max{max(n-3(4-k)-j),j = 0,…,2},k=0,…4
先行4グループ最大値の最小値に対するグループ最大値
endmax2minmax = max_group(n,4)/min{max_group(n,k),k=0,...,3}
5グループ最大値の傾斜
現在サブフレームにおける理想的励起の最大振幅
maxres2(n) = max{|res2(i)|, i=0,….L_SF-1}
相対的最大値の尺度
max_mesres2 = maxres2(n)/ma_maxres2(n-1)
Tg(n) = Tgs(n) - Gr ・gp・ Ya(n), n = 0,1,…,39
ここで、Tgs(n)は原目標信号253であり、Ya(n)は適応符号帳からのフィルターにかけられた信号であり、gpは選択された適応符号帳ベクトル用のLTPゲインであり、このゲイン因子は正規化LTPゲインRp,およびビットレートによって決定される。
PNSR = (max{(En-100),0.0}/Es)1/2
ここで、Esは背景雑音を含むカレントインプット信号のエネルギーであり、Enは背景雑音の現在(running)平均エネルギーである。Enはそのインプット信号が背景雑音であると検出されたときにのみ以下のように更新される。
En=0.75Es
else if(背景雑音フレームが真)
En=0.75En_m+0.25Es
ここで,En_mは背景雑音エネルギーの最終評価である。
POS(np,i) = TRACK(mp,i) + PHAS(np,phas_mode)
ここで、i = 0,1,...,7 あるいは15(コード位置に対して3あるいは4ビットに対応する)は可能な位置インデクスであり、np = 0,...,Np-1(Npはパルスの総数である)は他のパルスと区別する。mp=0あるいは1は2つのトラックを定め、phase_mode=0あるいは1は、2つのフェーズモードを特定する。
{TRACK(0,i)}={0,4,8,12,18,24,30,36}と
{TRACK(1,i)}={0,6,12,18,22,26, 30, 34}である。
もし各パルスポジションが4ビットで符号化されるとき、基礎トラックは次の通りである:
{TRACK(0,i)}={0,2,4,6,8,10,12,14,17,20,23,26,29,32,35,38}と
{TRACK(1,i)}={0,3,6,9,12,15,18,21,23,25,27,29,31,33,35,37}である。
PHAS(np,0) = modulus(np/MAXPHAS)
PHAS(np,1) = PHAS(Np-1- np ,0)
ここで、MAXPHASは最大フェーズ値である。
反復アプローチを用いて、パルスポジションがnp=0からnp=Np-1の順に検索されるためである。もし2個のパルスが同じトラックに位置していたら、トラック上の最初のパルスのサインのみがエンコードされる。一方、第2のパルスのサインは第1のパルスの位置に依存する。もし、第2のパルスの位置が小さかったら、それは、反対のサインとなるが、そうでなければ、第1のパルスのサインと同じサインになるだろう。
x2(n) = x(n) - ^gpy(n), n =0,...,39
ここで、y(n)=v(n)*h(n)は適応符号帳ベクトル、^gpは修正(減少)LTPゲインである。
l= idxδ−10・τ
そして、δは第1基礎ベクトルに対しては0、第2基礎ベクトルに対しては1である。さらに、サインは各基礎ベクトルに対して適用される。
これは、両方の基礎ベクトルが選択されたとき、その結合コードベクトルcidxδ,idxlは単一のエネルギーを持ち、従ってガウスサブ符号帳からの候補ベクトルについてはピッチ増強が行われないのでガウス符号帳からの最終励起ベクトルは単一エネルギーを持つだろうということを意味する。
サブ符号帳2: 10パルス×2ビット/パルス+10サイン=30ビット
2個のサブ符号帳のうちの1つはブロック275(図2)で、第1サブ符号帳からの基準値F1と、第2サブ符号帳からの基準値F2を比較した際に適用された適応重み付けを用いる第2のサブ符号帳を好適化することにより選ばれる。
If(Wc・F1>F2)、第一のサブ符号帳選択
else、第二のサブ符号帳選択
サブ符号帳2: 9パルス×1ビット/パルス+1パルス×0ビット+10 サイン=19ビット
2個のサブ符号帳のうち1つは、11kbpsモードでのように第1サブ符号帳からの基準値F1と第2サブ符号帳からの基準値F2を比較した際に適用された適応重み付けを用いる第2サブ符号帳を好適化することにより選ばれる。重み付け、0<Wc<=1は次のように定義される。
6.65kbpsモードは、長期前処理(PP)あるいは従来のLTPを用いて作動する。18ビットのパルスサブ符号帳は、PPモードのときに使用される。13ビットのすべては、操作がLTP−モードで行われるとき、3つのサブ符号帳に割り当てられる。サブ符号帳への割り当ては次のように要約できる。
サブ符号帳: 5パルス×3ビット/パルス+3サイン=18ビット
LTP-モード:
サブ符号帳1: 3パルス×3ビット/パルス+3サイン=12ビット,phase_mode=1
サブ符号帳2: 3パルス×3ビット/パルス+2サイン=11ビット,phase_mode=0
サブ符号帳3: 11ビットのガウスサブ符号帳
この3つのサブ符号帳の一つが、LTP-モードで検索する際にガウスサブ符号帳を好適化することにより選ばれる。適応重み付けはモードで2つのサブ符号帳からの基準値をガウスサブ符号帳からの基準値とを比較して適用される。重み付け0<Wc<=1はつぎのように、定義される。
if(ノイズ状無声(noise-like unvoiced)) Wc<= Wc(0.2Rp(1.0−Rsharp)+0.8)
5.8kbpsエンコードモードは、長期前処理(PP)でのみ作動する。全14ビットは3つのサブ符号帳に割り当てられる。このサブ符号帳ビット割り当ては次のように要約される。
サブ符号帳2: 3パルス×3ビット/パルス+3サイン=12ビット,phase_mode=0
サブ符号帳3: 12ビットのガウスサブ符号帳
この3つのサブ符号帳の1つが2つのパルスサブ符号帳からの基準値とガウスサブ符号帳からの基準値を比較するとき適用された適応重み付けを用いるガウスサブ符号帳を好適化することにより選ばれる。重み付け、0<Wc<=1は次のように定義される。
if(ノイズ状無声) Wc<=Wc(0.3Rp(1.0−Psharp)+0.7)
この4.55kbpsビットレートモードは長期前処理(PP)でのみ作動する
。全10ビットは3つのサブ符号帳に割り当てられる。このサブ符号帳へのビット割り当ては次のように要約される。
サブ符号帳2: 2パルス×3ビット/パルス+2サイン=8ビット,phase_mode=0
サブ符号帳3: 8ビットのガウスサブ符号帳
この3つのサブ符号帳の1つが2つのパルスサブ符号帳からの基準値とガウスサブ符号帳からの基準値を比較するとき適用された適応重み付けを用いるガウスサブ符号帳を好適化することにより選ばれる。重み付け0<Wc<=1は、次のように定義される。
if(ノイズ状無声) Wc <= Wc(0.6Rp(1.0−Rsharp)+0.4)
4.55、5.8、6.65および8.0kbpsビットレートエンコードモードについては、ゲインの再最適化手法は適応および、固定符号帳ゲインそれぞれ、gpおよびgcを第3図で示したように結合し、最適化して行われる。最適化ゲインは次の関係から与えられる:
gp = (R1R2-R3R4)/(R5R2-R3R3)
gc = (R4-gpR3)/R2
ここで、R1=< Cpバー,Tgsバー>, R2 =<Ccバー,Ccバー >, R3 =<Cpバー,Ccバー>, R4 =<Ccバー ,Tgsバー>, R5 =<Cpバー,Cpバー >である。Ccバー , Cpバー , Tgsバーは、フィルターされた固定符号帳励起、フィルターされた適応符号帳励起,適応符号帳検索用目標信号である。
gc = R6/R2
ここで、R6 =< Cpバー,Tgバー>およびTgバー= Tgsバー−gpCpバー
声が真。
(b)雑音レベルPNSRが0.5より大。
(c)ビットレートが6.65kbpsで、雑音レベルPNSRが0.2より大。
(d)ビットレートが5.8又は4.45kbps。
If(第1サブフレームが真)
Ol_Eg = Eres
else
Ol_Eg <= βsub・Ol_Eg + (1-βsub)Eres
If(第1サブフレームが真)
Cl_Eg = ETgs
else
Cl_Eg <= βsub・Cl_Eg + (1-βsub)ETgs
βsubは、分類によって決定される平滑化係数である。基準エネルギーが得られたら、開ループゲインの平滑化因子を計算する。
ν(n) = νa(n)gp + νc(n)gc, n=0,1,...,L_SF-1
gc及びgpは、量子化されていないゲインである。同様に、閉ループゲインの正規化因子は、
Cclは、ビットレートが11.0kbpsの場合に0.9、他のレートについてCclは0.8である。y(n)はフィルタされた信号(y(n) = ν(n)*h(n))で、
y(n) = ya(n)gp + yc(n)gc, n=0,1,...,L_SF-1
である。
gf = CLPCOl_g + (1-CLPC) Cl_g
gf = MAX(1.0,gf)
gf = MIN(gf, 1+CLPC)
If(背景雑音が真でレートが11kbpsより小)
gf = 1.2 MIN{Cl_g, Ol_g}
ここで、CLPCは次のように定義される。
いったんゲイン正規化因子が決定されると、量子化されていないゲインは修正される。
gp <= gp・gf
Err = ‖Tgsバー - gpCpバー - gcCcバー‖2
11.0kbpsのレートについては、スカラー量子化が行われ、適応符号帳ゲインgpは4ビットを用いて、固定符号帳ゲインgcは5ビットを用いてそれぞれ量子化される。
c(i)はスケールされていない固定符号帳励起、Eバー = 30dBは、スケールされた固定符号帳励起の平均エネルギーである。
そして、予測されたゲインgcドットを得る。
gcドット = 10(0.05(~E(n)+Eバー-Ei))
ゲインgcと予測値gcドットとの間の修正因子は、次式によって与えられる。
γ = gc/gcドット
これはまた、予測誤差とも関連する。
エンコードビットレート4.55、5.8、6.65、及び8.0kbpsについての符号帳検索は、2つのステップからなる。第1のステップでは、量子化された予測誤差を表す単式表(single entry table)のバイナリ検索が行われる。第2のステップでは、自乗平均誤差の意味で量子化されていない予測誤差に最も近い最適エントリのインデクスIndex_1が使用され、適応符号帳ゲインと予測誤差とを表す二次元VQテーブルの検索を制限する。VQテーブルの特定の配列及び順序を活用して、Index_1によって指示されるエントリの近辺で利用する候補がほとんどない、高速検索が実行される。実際、テストしたところ、VQテーブルのエントリの約半分がIndex_2を持つ最適エントリへ通じている。Index_2のみが送信される。
を最小化することによって検索が行われる。
u(n) = gpバーν(n) + gcバーc(n), n = 0, 39
gpバー、gcバーは、それぞれ量子化された適応及び固定符号帳ゲインであり、ν(n)は適応符号帳励起(補間された過去の励起)、c(n)は固定符号帳励起である。40のサンプルサブフレームについて、フィルタ1/A(z)バー及びW(z)を通じて信号r(n) - u(n)をフィルタリングすることにより、フィルタの状態を更新することができる。これには、通常、3回のフィルタリングが必要であろう。
ew(n) =Tgs(n) - gpバーCp(n) - gcバーCc(n)
重み付けフィルタの状態は、ew(n)をn=30から39までについて計算することにより更新される。
4.55、5.8、6.65、及び8.0kbpsのビットレートについて、受信されたインデクスを用いて、二次元VQテーブルから量子化された適応符号帳ゲインgpバーを見いだす。同じインデクスを用いて、同じ量子化テーブルから固定符号帳ゲイン修正因子γバーを取得する。量子化された固定符号帳ゲインgcバーは、以下のステップにしたがって得られる。
・スケールされていない固定符号帳励起のエネルギーを計算する。
・gcドット = 10(0.05(~E(n)+Eバー-Ei))として、予測されたゲインgcドットを得る。
8.0、11.0、及び6.65(LTP_モード=1の間)kbpsビットレートエンコーディングモードについては、受信されたピッチインデクス(適応符号帳インデクス)を用いてピッチラグの整数部と小数部とが見いだされる。適応符号帳ν(n)は、FIRフィルタを用いて過去の励起u(n)を(ピッチディレイにおいて)補間することによって見いだされる。
受信された符号帳インデクスを使用して、符号帳のタイプ(パルス又は)と、励起パルスの振幅及び位置又はガウス励起のベース及び符号雑音れかを抽出する。いずれの場合であっても、再構成された固定符号帳励起は、c(n)と与えられる。ピッチラグの整数部がサブフレームサイズ40よりも小で、選択された励起がパルスタイプであれば、ピッチシャープニングが適用される。これは、c(n)をc(n)=c(n)+βc(n−T)と変更するように読み替えるもので、βは[0.2, 1.0]によって拘束される以前のサブフレームからのデコードされたピッチゲインgpバーである。
u(n)’バー=ηu(n)バーによって与えられる。再構成された音声は、
によって与えられ、aiバーは補間されたLPフィルタの係数である。合成された音声s(n)バーは、次いで、適応ポストフィルタを通過する。
Hf(z)=A(z/γn)バー/A(z/γd)バー
と与えられる。A(z)バーは受信された量子化及び補間されたLP逆フィルタであり、γn及びγdは、フォルマントポストフィルタリングの量を制御する。
Htl(z)=(1−μz−1)
μ=γtlk1はフォルマントポストフィルタk1=rh(1)/rh(0)のチルト因子で、k1は切頭インパルス応答hf(n)上で計算された第1の反射係数で、
ポストフィルタリング処理は、以下のように行われる。まず、合成された音声s(n)バーがA(z/γn)バーを通じて逆フィルタされ、残差信号r(n)バーを生成する。信号r(n)バーは、合成フィルタ1/(A(z/γd)バー)によってフィルタされ、第1のチルト補償フィルタhtl(z)に渡されて、ポストフィルタリングされた音声信号sf(n)バーとなる。
ゲインがスケーリングされ、ポストフィルタリングされた信号s’(n)バーは、s’(n)バー=β(n)sf(n)バーによって与えられる。β(n)は、サンプルごとに更新され、次式で与えられる。
αはAGC因子であり、その値は0.9である。最後に、アップスケーリングは、ポストフィルタリングされた音声に因子2を乗じて、入力信号に適用されていた2倍のダウンスケーリング(the down scaling by 2)を復元する(undo)ことからなる。
であろう。
以下の符号、定義および略語が、本願のために用いられる。
適応符号帳(adaptive codebook): 適応符号帳は、各サブフレーム全てに適用される励起ベクトル(excitation vector)を含む。適応符号帳は、長期フィルタ状態から得られる。ピッチラグ値は、適応符号帳へのインデクスとして見ることができる。
適応ポストフィルタ(adaptive postfilter): 適応ポストフィルタは、再構築された音声の知覚的品質を向上させるために、短期合成フィルタの出力に適用される。適応マルチレートコーデック(AMR)においては、適応ポストフィルタは、フォルマントポストフィルタおよびチルト補償フィルタの二つのフィルタのカスケード接続(cascade)である。
AMRハンドオーバー(AMR handover): AMR動作を最適化するための、フルレートおよびハーフレートのチャネルモード間のハンドオーバーである。
チャネルリパッキング(channel repacking): セル内においてより高い容量を達成するための、所定のラジオセルのHR(およびFR)ラジオチャネルのリパッキングである。
コーデックモード(codec mode): 所定のチャネルモードについての、音声およびチャネルコーデック間のビットパーティショニングである。
ダイレクトフォーム係数(direct form coefficients): 短期フィルタパラメータを記憶するためのフォーマットの一つである。適応マルチレートコーデックにおいては、音声サンプルを変更するために用いられる全てのフィルタは、ダイレクトフォーム係数を用いる。
分数のラグ(fractional lags): サブサンプル分解能を有するラグ値のセットである。適応マルチレートコーデックにおいては、サンプルの1/6ないし1.0の間のサブサンプル分解能が用いられる。
フレーム(frame): 20ms(8kHzのサンプリングレートにて160サンプル)に相当する時間間隔である。
ハーフレート(HR)(half-rate): ハーフレートのチャネルまたはチャネルモードである。
整数のラグ(integer lags):全サンプル分解能を有するラグ値のセットである。
ラグ(lag): 長期フィルタのディレイである。これは、典型的に、真のピッチ期間、またはその倍数または約数である。
線スペクトル対(Line Spectral Pair): LPCパラメータの変形である。線スペクトル対は、逆フィルタ伝達関数A(z)を、一方が偶の対称を有し他方が奇の対称を有するような二つの伝達関数のセットに分解能することにより得られる。線スペクトル対(線スペクトル周波数とも称する)は、z−単位円上の多項式の根である。
LP係数(LP coefficients): 線形予測(LP)係数(線形予測符号化(LPC)係数とも称する)は、短期フィルタ係数を記すための総称的な記述用語である。
マルチファンクション符号帳(multi-function codebook): 異なる種類のパルスイノベーションベクトル構造およびノイズイノベーションベクトルにより構成されたいくつかのサブ符号帳からなる固定符号帳である。符号帳からのコードワードが励起ベクトルを合成するために用いられる。
帯域外信号法(out-of-band signaling): リンク制御を支持するための、GSM制御チャネル上の信号法である。
残差(residual): 逆フィルタ動作の結果の出力信号である。
短期合成フィルタ(short term synthesis filter): このフィルタは、励起信号に対し、声道のインパルス応答をモデルとする短期相関を導入する。
サブフレーム(subframe): 5〜10ms(8kHzサンプリングレートにて40〜80サンプル)に相当する時間間隔である。
にグループ化し、それらを同時に量子化する方法である。
ゼロ入力応答(zero input response): 過去の入力に起因する、すなわち、ゼロの入力が付与されると想定すればフィルタの現在の状態に起因するフィルタの出力である。
量子化されていない係数での逆フィルタ
^A(z)
量子化された係数での逆フィルタ
H(z)=1/^A(z)
量子化された係数での音声合成フィルタ
ai
量子化されていない線形予測パラメータ(ダイレクトフォーム係数)
^ai
量子化された線形予測パラメータ
1/B(z)
長期合成フィルタ
W(z)
知覚的重み付けフィルタ(量子化されていない係数)
γ1、γ2
知覚的重み付け因子
FE(z)
適応プレフィルタ
T
サブフレームの閉ループ分数ピッチラグに最も近い整数のピッチラグ
β
適応プレフィルタ係数(量子化されたピッチゲイン)
Hf(z)=^A(z/γn)/^A(z/γd)
フォルマントポストフィルタ
γn
フォルマントポストフィルタリングの量についての制御係数
γd
フォルマントポストフィルタリングの量についての制御係数
Ht(z)
チルト補償フィルタ
γt
チルト補償フィルタリングの量についての制御係数
μ=γtk1’
k1’が第一反射係数であるチルト因子
hf(n)
フォルマントポストフィルタの打切りインパルス応答
Lh
hf(n)の長さ
rh(i)
hf(n)の自己相関
^A(z/γn)
フォルマントポストフィルタの逆フィルタ(分子)部分
1/^A(z/γd)
フォルマントポストフィルタの合成フィルタ(分母)部分
^r(n)
逆フィルタ^A(z/γn)の残差信号
ht(z)
チルト補償フィルタのインパルス応答
βsc(n)
適応ポストフィルタのAGC制御されたゲインスケーリング因子
α
適応ポストフィルタのAGC因子
Hhl(z)
予備処理高域フィルタ
wI(n)、wII(n)
LP分析ウィンドウ
L1 (I)
LP分析ウィンドウwI(n)の第一部分の長さ
L2 (I)
LP分析ウィンドウwI(n)の第二部分の長さ
L1 (II)
LP分析ウィンドウwII(n)の第一部分の長さ
L2 (II)
LP分析ウィンドウwII(n)の第二部分の長さ
rac(k)
ウィンドウされた音声s’(n)の自己相関
wlag(i)
自己相関(60Hzの帯域幅拡大)についてのラグウィンドウ
f0
Hzでの帯域幅拡大
fs
Hzでのサンプリング周波数
r’ac(k)
変更された(帯域幅拡大された)自己相関
ELD(i)
レビンソンアルゴリズムのi番目の反復における予測誤差
ki
i番目の反射係数
aj (i)
レビンソンアルゴリズムのi番目の反復におけるj番目のダイレクトフォーム係数
F1’(z)
対称LSF多項式
F2’(z)
反対称LSF多項式
F1(z)
z=−1の根が除かれた多項式F1’(z)
F2(z)
z=1の根が除かれた多項式F2’(z)
qi
余弦領域における線スペクトル対(LSF)
ベクトルq
余弦領域におけるLSFベクトル
ベクトル^qi (n)
フレームnのi番目のサブフレームでの量子化されたLSFベクトル
ωi
線スペクトル周波数(LSF)
Tm(x)
次数mのチェビシェフ多項式
f1(i)、f2(i)
多項式F1(z)およびF2(z)の係数
f1’(i)、f2’(i)
多項式F1’(z)およびF2’(z)の係数
f(i)
F1(z)またはF2(z)のいずれかの係数
C(x)
チェビシェフ多項式の総和の多項式
x
角周波数ωの余弦
λk
チェビシェフ多項式評価についての反復係数
fi
Hzでの線スペクトル周波数(LSF)
ベクトルft=[f1f2...f10]
HzでのLSFのベクトル表現
ベクトルz(1)(n)、ベクトルz(2)(n)
フレームnでの平均の除かれたLSFベクトル
ベクトルr(1)(n)、ベクトルr(2)(n)
フレームnでのLSF予測残差ベクトル
ベクトルp(n)
フレームnでの予測されたLSFベクトル
ベクトル^r(2)(n−1)
過去のフレームでの量子化された第二の残差ベクトル
ベクトル^fk
量子化インデクスkでの量子化されたLSFベクトル
ELSP
LSF量子化誤差
wi、i=1、...、10、
LSF量子化重み付け因子
di
線スペクトル周波数fi+1およびfi−1間の距離
h(n)
重み付けされた合成フィルタのインパルス応答
Ok
ディレイkでの開ループピッチ分析の相関最大
Oti、i=1、...、3
ディレイti、i=1、...、3での相関最大
(Mi、ti)、i=1、...、3
正規化された相関最大Miと、対応するディレイti、i=1、...、3
H(z)W(z)=A(z/γ1)/^A(z)A(z/γ2)
重み付けされた合成フィルタ
A(z/γ1)
知覚的重み付けフィルタの分子
1/A(z/γ2)
知覚的重み付けフィルタの分母
T1
前の(1番目または3番目の)サブフレームの分数ピッチラグに最も近い整数
s’(n)
ウィンドウされた音声信号
sw(n)
重み付けされた音声信号
^s(n)
再構築された音声信号
^s’(n)
ゲインスケールされポストフィルタされた信号
^sf(n)
ポストフィルタされた音声信号(スケーリング前)
x(n)
適応符号帳検索のためのターゲット信号
x2(n)、ベクトルxt 2
固定符号帳検索のためのターゲット信号
resLP(n)
LP残差信号
c(n)
固定符号帳ベクトル
v(n)
適応符号帳ベクトル
y(n)=v(n)*h(n)
フィルタされた適応符号帳ベクトル
フィルタされた固定符号帳ベクトル
yk(n)
過去のフィルタされた励起
u(n)
励起信号
^u(n)
完全に量子化された励起信号
^u’(n)
ゲインスケールされエンファシスされた励起信号
Top
最適な開ループラグ
tmin
最小のラグ検索値
tmax
最大のラグ検索値
R(k)
適応符号帳検索において最大化されるべき相関ターム
R(k)t
整数ディレイkおよび分数tについて、補間されたR(k)値
Ak
インデクスkでの代数的符号帳検索において最大化されるべき相関ターム
Ck
インデクスkでのAkの分子における相関
EDk
インデクスkでのAkの分母におけるエネルギー
d=Htx2
ターゲット信号x2(n)とインパルス応答h(n)すなわち後方向へフィルタされたターゲットとの間の相関
行列H
対角h(0)およびより低い対角h(1)、...、h(39)の、より低いテプリッツ畳み込み三角行列
行列Φ=HtH
h(n)の相関の行列
d(n)
ベクトルdの要素
φ(i、j)
対称行列Φの要素
ベクトルck
イノベーションベクトル
C
Akの分子における相関
mi
i番目のパルスの位置
i番目のパルスの振幅
Np
固定符号帳励起におけるパルス数
ED
Akの分母におけるエネルギー
resLTP(n)
正規化された長期予測残差
b(n)
正規化されたd(n)ベクトルおよび正規化された長期予測残差resLTP(n)の和
sb(n)
代数的符号帳検索についてのサイン信号
ベクトルzt、z(n)
h(n)でコンボルブされた固定符号帳ベクトル
E(n)
平均の除かれたイノベーションエネルギー(dB)
Eバー
イノベーションエネルギーの平均
〜E(n)
予測されたエネルギー
[b1b2b3b4]
MA予測係数
^R(k)
サブフレームkでの量子化された予測誤差
EI
平均イノベーションエネルギー
R(n)
固定符号帳ゲイン量子化の予測誤差
EQ
固定符号帳ゲイン量子化の量子化誤差
e(n)
合成フィルタ1/^A(z)の状態
ew(n)
合成による分析の検索の知覚的重み付けされた誤差
η
エンファシスされた励起についてのゲインスケーリング因子
gc
固定符号帳ゲイン
gcドット
予測された固定符号帳ゲイン
^gc
量子化された固定符号帳ゲイン
gp
適応符号帳ゲイン
^gp
量子化された適応符号帳ゲイン
γgc=gc/gcドット
ゲインgcおよび概算された一のgcドットの間の修正因子
^γgc
γgcについての最適値
γsc
ゲインスケーリング因子
AGC
適応ゲイン制御
AMR
適応マルチレート
CELP
符号励起線形予測
C/I
キャリア対インタフィアラ比
DTX
非連続伝送
EFR
エンハンスされたフルレート
FIR
有限インパルス応答
FR
フルレート
HR
ハーフレート
LP
線形予測
LPC
線形予測符号化
LSF
線スペクトル周波数
LSF
線スペクトル対
LTP
長期予測子(または長期予測)
MA
移動平均
TFO
タンデムフリー動作
VAD
無音圧縮
Claims (8)
- 入力音声信号(211)の符号化方法であって、
前記入力音声信号に高域フィルタ(215)を適用して、高域フィルタ処理された音声信号を生成することと、
前記高域フィルタ処理された音声信号に知覚的重み付けフィルタ(219)を適用して第1のターゲット信号を生成することと、
前記第1のターゲット信号を用いて適応符号帳から適応符号帳ベクトル(257)を特定することと、
前記適応符号帳ベクトルをフィルタ処理して、フィルタ処理された適応符号帳ベクトルを生成することと、
前記適応符号帳ベクトル用の適応符号帳ゲインを算定することと、
前記第1のターゲット信号と前記フィルタ処理された適応符号帳ベクトルとの相互関係に基づいて前記適応符号帳ゲインを選択的に低減し(247)、低減された適応符号帳ゲインを生成することと、
少なくとも前記第1のターゲット信号に基づいて第2のターゲット信号を生成することと、
前記第2のターゲット信号に基づいて前記入力音声信号を符号化した音声に変換すること
を備える符号化方法。 - 前記第1のターゲット信号と前記フィルタ処理された適応符号帳ベクトルと前記低減された適応符号帳ゲインとに基づいて前記第2のターゲット信号を生成する請求項1に記載の方法。
- 適応符号帳寄与を生成するべく長期予測ゲインに基づいてゲイン因子を算定することと前記低減された適応符号帳ゲインを前記フィルタ処理された適応符号帳ベクトルに適用することをさらに備え、前記ゲイン因子を用いて前記適応符号帳ゲインを選択的に低減し、前記第1のターゲット信号と前記適応符号帳寄与との差として前記第2のターゲット信号を生成する請求項1に記載の方法。
- 前記適応符号帳ゲインを選択的に低減することは、さらに前記入力音声信号の前記符号化した音声への前記変換に使用する符号化ビットレートに基づいている請求項1から3のいずれかに記載の方法。
- 入力音声信号(211)を符号化する音声符号器であって、
適応符号帳(257)と、
前記入力音声信号に高域フィルタ(215)を適用して高域フィルタ処理された音声信号を生成し、
前記高域フィルタ処理された音声信号に知覚的重み付けフィルタ(219)を適用して第1のターゲット信号(229)を生成し、
前記第1のターゲット信号を使用して前記適応符号帳から適応符号帳ベクトル(257)を特定し、
前記適応符号帳ベクトル用の適応符号帳ゲインを算定し、
前記適応符号帳ベクトルをフィルタ処理して、フィルタ処理された適応符号帳ベクトルを生成し、
前記第1のターゲット信号と前記フィルタ処理された適応符号帳ベクトルとの相互関係に基づいて前記適応符号帳ゲインを選択的に低減(247)して低減された適応符号帳ゲインを生成し、
少なくとも前記第1のターゲット信号に基づいて第2のターゲット信号を生成し、
前記第2のターゲット信号に基づいて前記入力音声信号を符号化した音声に変換する
ように構成された処理回路と
を備える音声符号器。 - 前記処理回路が、さらに、前記第1のターゲット信号と前記フィルタ処理された適応符号帳ベクトルと前記低減された適応符号帳ゲインとに基づいて前記第2のターゲット信号を生成するように構成されている請求項5に記載の音声符号器。
- 前記処理回路が、さらに、長期予測ゲインに基づいてゲイン因子を算定し、前記ゲイン因子を用いて前記適応符号帳を選択的に低減し、前記低減された適応符号帳ゲインを前記フィルタ処理された適応符号帳ベクトルに適用し、これらにより、適応符号帳寄与および、前記第1のターゲット信号と前記適応符号帳寄与との差としての前記第2のターゲット信号を生成するように構成されている請求項5に記載の音声符号器。
- 前記処理回路が、さらに、前記入力音声信号の前記符号化した音声への変換に用いる符号化ビットレートに基づいて前記適応符号帳ゲインを選択的に低減するように構成されている請求項5から7のいずれかに記載の音声符号器。
Applications Claiming Priority (10)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US9756998P | 1998-08-24 | 1998-08-24 | |
US60/097,569 | 1998-08-24 | ||
US15465798A | 1998-09-18 | 1998-09-18 | |
US09/154,662 | 1998-09-18 | ||
US09/156,832 US6823303B1 (en) | 1998-08-24 | 1998-09-18 | Speech encoder using voice activity detection in coding noise |
US09/156,832 | 1998-09-18 | ||
US09/154,657 | 1998-09-18 | ||
US09/154,662 US6493665B1 (en) | 1998-08-24 | 1998-09-18 | Speech classification and parameter weighting used in codebook search |
US09/198,414 US6240386B1 (en) | 1998-08-24 | 1998-11-24 | Speech codec employing noise classification for noise compensation |
US09/198,414 | 1998-11-24 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000566830A Division JP2002523806A (ja) | 1998-08-24 | 1999-08-24 | 雑音補償のための音声分類を採用した音声コーデック |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010181891A JP2010181891A (ja) | 2010-08-19 |
JP5374418B2 true JP5374418B2 (ja) | 2013-12-25 |
Family
ID=27536839
Family Applications (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000566830A Pending JP2002523806A (ja) | 1998-08-24 | 1999-08-24 | 雑音補償のための音声分類を採用した音声コーデック |
JP2010044662A Pending JP2010181892A (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用ゲイン平滑化 |
JP2010044663A Expired - Lifetime JP5476160B2 (ja) | 1998-08-24 | 2010-03-01 | 線スペクトル周波数の量子化のための符号帳の共有 |
JP2010044661A Expired - Lifetime JP5374418B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用適応符号帳ゲインの制御 |
JP2010044659A Expired - Lifetime JP4995293B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用のスカラー量子化(sq)とベクトル量子化(vq)の選択 |
JP2010044660A Expired - Lifetime JP5519334B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用開ループピッチ処理 |
JP2011093333A Expired - Lifetime JP5412463B2 (ja) | 1998-08-24 | 2011-04-19 | 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000566830A Pending JP2002523806A (ja) | 1998-08-24 | 1999-08-24 | 雑音補償のための音声分類を採用した音声コーデック |
JP2010044662A Pending JP2010181892A (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用ゲイン平滑化 |
JP2010044663A Expired - Lifetime JP5476160B2 (ja) | 1998-08-24 | 2010-03-01 | 線スペクトル周波数の量子化のための符号帳の共有 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010044659A Expired - Lifetime JP4995293B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用のスカラー量子化(sq)とベクトル量子化(vq)の選択 |
JP2010044660A Expired - Lifetime JP5519334B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用開ループピッチ処理 |
JP2011093333A Expired - Lifetime JP5412463B2 (ja) | 1998-08-24 | 2011-04-19 | 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6240386B1 (ja) |
EP (7) | EP2088584A1 (ja) |
JP (7) | JP2002523806A (ja) |
CA (1) | CA2341712C (ja) |
TW (1) | TW454170B (ja) |
WO (1) | WO2000011650A1 (ja) |
Families Citing this family (109)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
TW376611B (en) * | 1998-05-26 | 1999-12-11 | Koninkl Philips Electronics Nv | Transmission system with improved speech encoder |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6424938B1 (en) * | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6704701B1 (en) * | 1999-07-02 | 2004-03-09 | Mindspeed Technologies, Inc. | Bi-directional pitch enhancement in speech coding systems |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US6636829B1 (en) | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
US6782360B1 (en) | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
JP2001318694A (ja) | 2000-05-10 | 2001-11-16 | Toshiba Corp | 信号処理装置、信号処理方法および記録媒体 |
US7035790B2 (en) | 2000-06-02 | 2006-04-25 | Canon Kabushiki Kaisha | Speech processing system |
US6954745B2 (en) | 2000-06-02 | 2005-10-11 | Canon Kabushiki Kaisha | Signal processing system |
US7072833B2 (en) | 2000-06-02 | 2006-07-04 | Canon Kabushiki Kaisha | Speech processing system |
US7010483B2 (en) | 2000-06-02 | 2006-03-07 | Canon Kabushiki Kaisha | Speech processing system |
US7013268B1 (en) | 2000-07-25 | 2006-03-14 | Mindspeed Technologies, Inc. | Method and apparatus for improved weighting filters in a CELP encoder |
US6728669B1 (en) * | 2000-08-07 | 2004-04-27 | Lucent Technologies Inc. | Relative pulse position in celp vocoding |
US6983242B1 (en) * | 2000-08-21 | 2006-01-03 | Mindspeed Technologies, Inc. | Method for robust classification in speech coding |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
US6529867B2 (en) * | 2000-09-15 | 2003-03-04 | Conexant Systems, Inc. | Injecting high frequency noise into pulse excitation for low bit rate CELP |
US7016833B2 (en) * | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
CN1202514C (zh) | 2000-11-27 | 2005-05-18 | 日本电信电话株式会社 | 编码和解码语音及其参数的方法、编码器、解码器 |
US6614365B2 (en) * | 2000-12-14 | 2003-09-02 | Sony Corporation | Coding device and method, decoding device and method, and recording medium |
DE60209888T2 (de) * | 2001-05-08 | 2006-11-23 | Koninklijke Philips Electronics N.V. | Kodieren eines audiosignals |
US7319703B2 (en) * | 2001-09-04 | 2008-01-15 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts |
US7046636B1 (en) | 2001-11-26 | 2006-05-16 | Cisco Technology, Inc. | System and method for adaptively improving voice quality throughout a communication session |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
US7054807B2 (en) * | 2002-11-08 | 2006-05-30 | Motorola, Inc. | Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters |
FR2850781B1 (fr) * | 2003-01-30 | 2005-05-06 | Jean Luc Crebouw | Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede |
US7146309B1 (en) | 2003-09-02 | 2006-12-05 | Mindspeed Technologies, Inc. | Deriving seed values to generate excitation values in a speech coder |
TWI233590B (en) * | 2003-09-26 | 2005-06-01 | Ind Tech Res Inst | Energy feature extraction method for noisy speech recognition |
US20050071154A1 (en) * | 2003-09-30 | 2005-03-31 | Walter Etter | Method and apparatus for estimating noise in speech signals |
JP4601970B2 (ja) * | 2004-01-28 | 2010-12-22 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
JP4490090B2 (ja) * | 2003-12-25 | 2010-06-23 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
FR2869484B1 (fr) * | 2004-04-26 | 2006-07-07 | Nortel Networks Ltd | Procede de traitement de signal et recepteur de radiocommunication numerique associe |
US7120576B2 (en) * | 2004-07-16 | 2006-10-10 | Mindspeed Technologies, Inc. | Low-complexity music detection algorithm and system |
ATE488838T1 (de) * | 2004-08-30 | 2010-12-15 | Qualcomm Inc | Verfahren und vorrichtung für einen adaptiven de- jitter-puffer |
US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
US20090063158A1 (en) * | 2004-11-05 | 2009-03-05 | Koninklijke Philips Electronics, N.V. | Efficient audio coding using signal properties |
CN101116135B (zh) * | 2005-02-10 | 2012-11-14 | 皇家飞利浦电子股份有限公司 | 声音合成 |
US8155965B2 (en) * | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US8355907B2 (en) * | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
US20060217983A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for injecting comfort noise in a communications system |
US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
FR2884989A1 (fr) * | 2005-04-26 | 2006-10-27 | France Telecom | Procede d'adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques. |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US20070100611A1 (en) * | 2005-10-27 | 2007-05-03 | Intel Corporation | Speech codec apparatus with spike reduction |
US20070136054A1 (en) * | 2005-12-08 | 2007-06-14 | Hyun Woo Kim | Apparatus and method of searching for fixed codebook in speech codecs based on CELP |
JP4727413B2 (ja) * | 2005-12-21 | 2011-07-20 | 三菱電機株式会社 | 音声符号化・復号装置 |
US8032370B2 (en) | 2006-05-09 | 2011-10-04 | Nokia Corporation | Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes |
US8712766B2 (en) * | 2006-05-16 | 2014-04-29 | Motorola Mobility Llc | Method and system for coding an information signal using closed loop adaptive bit allocation |
US20070286351A1 (en) * | 2006-05-23 | 2007-12-13 | Cisco Technology, Inc. | Method and System for Adaptive Media Quality Monitoring |
US20080101338A1 (en) * | 2006-11-01 | 2008-05-01 | Reynolds Douglas F | METHODS AND APPARATUS TO IMPLEMENT HIGHER DATA RATE VOICE OVER INTERNET PROTOCOL (VoIP) SERVICES |
CN101246688B (zh) * | 2007-02-14 | 2011-01-12 | 华为技术有限公司 | 一种对背景噪声信号进行编解码的方法、系统和装置 |
WO2008108721A1 (en) | 2007-03-05 | 2008-09-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for controlling smoothing of stationary background noise |
EP3629328A1 (en) * | 2007-03-05 | 2020-04-01 | Telefonaktiebolaget LM Ericsson (publ) | Method and arrangement for smoothing of stationary background noise |
EP2164238B1 (en) * | 2007-06-27 | 2013-01-16 | NEC Corporation | Multi-point connection device, signal analysis and device, method, and program |
US8248953B2 (en) | 2007-07-25 | 2012-08-21 | Cisco Technology, Inc. | Detecting and isolating domain specific faults |
US20090222268A1 (en) * | 2008-03-03 | 2009-09-03 | Qnx Software Systems (Wavemakers), Inc. | Speech synthesis system having artificial excitation signal |
US7948910B2 (en) * | 2008-03-06 | 2011-05-24 | Cisco Technology, Inc. | Monitoring quality of a packet flow in packet-based communication networks |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
EP2304719B1 (en) | 2008-07-11 | 2017-07-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, methods for providing an audio stream and computer program |
JP5489431B2 (ja) * | 2008-08-11 | 2014-05-14 | 京セラ株式会社 | 無線通信モジュールおよび無線端末、無線通信方法 |
US20120095760A1 (en) * | 2008-12-19 | 2012-04-19 | Ojala Pasi S | Apparatus, a method and a computer program for coding |
CN101609678B (zh) * | 2008-12-30 | 2011-07-27 | 华为技术有限公司 | 信号压缩方法及其压缩装置 |
CN101615395B (zh) | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
US20110137656A1 (en) * | 2009-09-11 | 2011-06-09 | Starkey Laboratories, Inc. | Sound classification system for hearing aids |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
PT3364411T (pt) * | 2009-12-14 | 2022-09-06 | Fraunhofer Ges Forschung | Dispositivo de quantização de vetor, dispositivo de codificação de voz, método de quantização de vetor e método de codificação de voz |
US9647620B2 (en) | 2010-01-17 | 2017-05-09 | Mediatek Pte Ltd. | Electronic device and integrated circuit comprising a gain control module and method therefor |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
IL205394A (en) | 2010-04-28 | 2016-09-29 | Verint Systems Ltd | A system and method for automatically identifying a speech encoding scheme |
CA3160488C (en) | 2010-07-02 | 2023-09-05 | Dolby International Ab | Audio decoding with selective post filtering |
AU2016202478B2 (en) * | 2010-07-02 | 2016-06-16 | Dolby International Ab | Pitch filter for audio signals and method for filtering an audio signal with a pitch filter |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
US8311817B2 (en) * | 2010-11-04 | 2012-11-13 | Audience, Inc. | Systems and methods for enhancing voice quality in mobile device |
TWI426505B (zh) * | 2010-11-15 | 2014-02-11 | Sonix Technology Co Ltd | 音調偵測系統及聲音訊號調制方法 |
US8990074B2 (en) | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
IN2014DN03022A (ja) * | 2011-11-03 | 2015-05-08 | Voiceage Corp | |
JP5480226B2 (ja) * | 2011-11-29 | 2014-04-23 | 株式会社東芝 | 信号処理装置および信号処理方法 |
MX347316B (es) * | 2013-01-29 | 2017-04-21 | Fraunhofer Ges Forschung | Aparato y método para sintetizar una señal de audio, decodificador, codificador, sistema y programa de computación. |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9418671B2 (en) | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
EP3291233B1 (en) | 2013-09-12 | 2019-10-16 | Dolby International AB | Time-alignment of qmf based processing data |
EP2922056A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
KR102245135B1 (ko) | 2014-05-20 | 2021-04-28 | 삼성전자 주식회사 | 패턴 형성 방법 및 이를 이용한 집적회로 소자의 제조 방법 |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
CN107041009B (zh) * | 2015-05-29 | 2020-06-23 | 成都鼎桥通信技术有限公司 | 音频通路控制方法、终端与基站 |
CN105513599B (zh) * | 2015-11-24 | 2019-05-21 | 西安烽火电子科技有限责任公司 | 一种基于非等重保护的速率自适应声码通信方法 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
CN106228978A (zh) * | 2016-08-04 | 2016-12-14 | 成都佳荣科技有限公司 | 一种语音识别方法 |
CN107331393B (zh) * | 2017-08-15 | 2020-05-12 | 成都启英泰伦科技有限公司 | 一种自适应语音活动检测方法 |
CN107863099B (zh) * | 2017-10-10 | 2021-03-26 | 成都启英泰伦科技有限公司 | 一种新型双麦克风语音检测和增强方法 |
CN109767786B (zh) * | 2019-01-29 | 2020-10-16 | 广州势必可赢网络科技有限公司 | 一种在线语音实时检测方法及装置 |
CN111024209B (zh) * | 2019-12-25 | 2022-03-29 | 深圳金信诺高新技术股份有限公司 | 一种适用于矢量水听器的线谱检测方法 |
US11790931B2 (en) | 2020-10-27 | 2023-10-17 | Ambiq Micro, Inc. | Voice activity detection using zero crossing detection |
TW202226225A (zh) * | 2020-10-27 | 2022-07-01 | 美商恩倍科微電子股份有限公司 | 以零點交越檢測改進語音活動檢測之設備及方法 |
CN112833924B (zh) * | 2021-01-07 | 2022-07-22 | 济南轲盛自动化科技有限公司 | 具备自动去噪功能的反射式编码器及去噪方法 |
US20230305111A1 (en) * | 2022-03-23 | 2023-09-28 | Nxp B.V. | Direction of arrival (doa) estimation using circular convolutional network |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR660301A (fr) * | 1927-09-17 | 1929-07-10 | Appareil désargileur | |
JPS54139307A (en) * | 1978-04-20 | 1979-10-29 | Nec Corp | Pitch extraction unit |
DE2854484A1 (de) * | 1978-12-16 | 1980-06-26 | Bayer Ag | Stabile waessrige zeolith-suspensionen |
JPS5642296A (en) * | 1979-09-17 | 1981-04-20 | Nippon Electric Co | Pitch extractor |
JPS58140798A (ja) * | 1982-02-15 | 1983-08-20 | 株式会社日立製作所 | 音声ピツチ抽出方法 |
US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
JP3194930B2 (ja) * | 1990-02-22 | 2001-08-06 | 日本電気株式会社 | 音声符号化装置 |
US5632005A (en) * | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
EP0588932B1 (en) | 1991-06-11 | 2001-11-14 | QUALCOMM Incorporated | Variable rate vocoder |
JP3088163B2 (ja) * | 1991-12-18 | 2000-09-18 | 沖電気工業株式会社 | Lsp係数の量子化方法 |
GB9205932D0 (en) * | 1992-03-18 | 1992-04-29 | Philips Electronics Uk Ltd | Method and apparatus for editing an audio signal |
US5734789A (en) | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
JP3148778B2 (ja) * | 1993-03-29 | 2001-03-26 | 日本電信電話株式会社 | 音声の符号化方法 |
JP3531935B2 (ja) * | 1992-09-16 | 2004-05-31 | 富士通株式会社 | 音声符号化方法及び装置 |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
JP3510643B2 (ja) * | 1993-01-07 | 2004-03-29 | 株式会社東芝 | 音声信号のピッチ周期処理方法 |
DE69413002T2 (de) * | 1993-01-21 | 1999-05-06 | Apple Computer, Inc., Cupertino, Calif. | Text-zu-sprache-Uebersetzungssystem unter Verwendung von Sprachcodierung und Decodierung auf der Basis von Vectorquantisierung |
JPH0744198A (ja) * | 1993-08-02 | 1995-02-14 | Matsushita Electric Ind Co Ltd | 長期予測遅延探索方法 |
JP2616549B2 (ja) * | 1993-12-10 | 1997-06-04 | 日本電気株式会社 | 音声復号装置 |
CA2136891A1 (en) | 1993-12-20 | 1995-06-21 | Kalyan Ganesan | Removal of swirl artifacts from celp based speech coders |
US5731767A (en) * | 1994-02-04 | 1998-03-24 | Sony Corporation | Information encoding method and apparatus, information decoding method and apparatus, information recording medium, and information transmission method |
JPH07273738A (ja) * | 1994-03-28 | 1995-10-20 | Toshiba Corp | 音声送信制御回路 |
US5742734A (en) | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5751903A (en) | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
US5774846A (en) | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
US5727072A (en) * | 1995-02-24 | 1998-03-10 | Nynex Science & Technology | Use of noise segmentation for noise cancellation |
US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
JPH09127997A (ja) * | 1995-10-26 | 1997-05-16 | Sony Corp | 音声符号化方法及び装置 |
JP4005154B2 (ja) * | 1995-10-26 | 2007-11-07 | ソニー株式会社 | 音声復号化方法及び装置 |
JPH09134196A (ja) * | 1995-11-08 | 1997-05-20 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
US5797121A (en) * | 1995-12-26 | 1998-08-18 | Motorola, Inc. | Method and apparatus for implementing vector quantization of speech parameters |
US5689615A (en) * | 1996-01-22 | 1997-11-18 | Rockwell International Corporation | Usage of voice activity detection for efficient coding of speech |
JPH09244695A (ja) * | 1996-03-04 | 1997-09-19 | Kobe Steel Ltd | 音声符号化装置及び復号化装置 |
US6215910B1 (en) * | 1996-03-28 | 2001-04-10 | Microsoft Corporation | Table-based compression with embedded coding |
JP3824706B2 (ja) * | 1996-05-08 | 2006-09-20 | 松下電器産業株式会社 | 音声符号化/復号化装置 |
JP3259759B2 (ja) * | 1996-07-22 | 2002-02-25 | 日本電気株式会社 | 音声信号伝送方法及び音声符号復号化システム |
JP3270922B2 (ja) * | 1996-09-09 | 2002-04-02 | 富士通株式会社 | 符号化,復号化方法及び符号化,復号化装置 |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
JP3367592B2 (ja) * | 1996-09-24 | 2003-01-14 | 日本電信電話株式会社 | 自動利得調整装置 |
US6014622A (en) * | 1996-09-26 | 2000-01-11 | Rockwell Semiconductor Systems, Inc. | Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization |
JP4003240B2 (ja) * | 1996-11-07 | 2007-11-07 | 松下電器産業株式会社 | 音声符号化装置及び音声復号化装置 |
JP3464371B2 (ja) * | 1996-11-15 | 2003-11-10 | ノキア モービル フォーンズ リミテッド | 不連続伝送中に快適雑音を発生させる改善された方法 |
JP3575967B2 (ja) * | 1996-12-02 | 2004-10-13 | 沖電気工業株式会社 | 音声通信システムおよび音声通信方法 |
JP3331297B2 (ja) * | 1997-01-23 | 2002-10-07 | 株式会社東芝 | 背景音/音声分類方法及び装置並びに音声符号化方法及び装置 |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
US6026356A (en) * | 1997-07-03 | 2000-02-15 | Nortel Networks Corporation | Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form |
JP3343082B2 (ja) * | 1998-10-27 | 2002-11-11 | 松下電器産業株式会社 | Celp型音声符号化装置 |
-
1998
- 1998-11-24 US US09/198,414 patent/US6240386B1/en not_active Expired - Lifetime
-
1999
- 1999-08-21 TW TW088114349A patent/TW454170B/zh not_active IP Right Cessation
- 1999-08-24 EP EP09152354A patent/EP2088584A1/en not_active Ceased
- 1999-08-24 EP EP99946655A patent/EP1110209B1/en not_active Expired - Lifetime
- 1999-08-24 EP EP09152357A patent/EP2088586A1/en not_active Ceased
- 1999-08-24 EP EP09152359A patent/EP2088587A1/en not_active Ceased
- 1999-08-24 WO PCT/US1999/019569 patent/WO2000011650A1/en active Search and Examination
- 1999-08-24 EP EP10180379A patent/EP2259255A1/en not_active Ceased
- 1999-08-24 EP EP09152360A patent/EP2085966A1/en not_active Ceased
- 1999-08-24 EP EP09152356A patent/EP2088585A1/en not_active Ceased
- 1999-08-24 CA CA002341712A patent/CA2341712C/en not_active Expired - Lifetime
- 1999-08-24 JP JP2000566830A patent/JP2002523806A/ja active Pending
-
2010
- 2010-03-01 JP JP2010044662A patent/JP2010181892A/ja active Pending
- 2010-03-01 JP JP2010044663A patent/JP5476160B2/ja not_active Expired - Lifetime
- 2010-03-01 JP JP2010044661A patent/JP5374418B2/ja not_active Expired - Lifetime
- 2010-03-01 JP JP2010044659A patent/JP4995293B2/ja not_active Expired - Lifetime
- 2010-03-01 JP JP2010044660A patent/JP5519334B2/ja not_active Expired - Lifetime
-
2011
- 2011-04-19 JP JP2011093333A patent/JP5412463B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2011203737A (ja) | 2011-10-13 |
EP2088585A1 (en) | 2009-08-12 |
EP2085966A1 (en) | 2009-08-05 |
JP2010181891A (ja) | 2010-08-19 |
JP5519334B2 (ja) | 2014-06-11 |
JP4995293B2 (ja) | 2012-08-08 |
CA2341712C (en) | 2008-01-15 |
TW454170B (en) | 2001-09-11 |
WO2000011650A1 (en) | 2000-03-02 |
JP2010181892A (ja) | 2010-08-19 |
EP2259255A1 (en) | 2010-12-08 |
JP2010181889A (ja) | 2010-08-19 |
CA2341712A1 (en) | 2000-03-02 |
EP2088584A1 (en) | 2009-08-12 |
JP5476160B2 (ja) | 2014-04-23 |
EP2088587A1 (en) | 2009-08-12 |
JP2010181890A (ja) | 2010-08-19 |
EP2088586A1 (en) | 2009-08-12 |
EP1110209B1 (en) | 2008-10-08 |
JP2002523806A (ja) | 2002-07-30 |
JP5412463B2 (ja) | 2014-02-12 |
US6240386B1 (en) | 2001-05-29 |
JP2010181893A (ja) | 2010-08-19 |
EP1110209A1 (en) | 2001-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5374418B2 (ja) | 音声符号化用適応符号帳ゲインの制御 | |
US6813602B2 (en) | Methods and systems for searching a low complexity random codebook structure | |
US6493665B1 (en) | Speech classification and parameter weighting used in codebook search | |
US6330533B2 (en) | Speech encoder adaptively applying pitch preprocessing with warping of target signal | |
US6260010B1 (en) | Speech encoder using gain normalization that combines open and closed loop gains | |
US6823303B1 (en) | Speech encoder using voice activity detection in coding noise | |
US6507814B1 (en) | Pitch determination using speech classification and prior pitch estimation | |
US6173257B1 (en) | Completed fixed codebook for speech encoder | |
EP1194924B1 (en) | Adaptive tilt compensation for synthesized speech residual | |
US8635063B2 (en) | Codebook sharing for LSF quantization | |
US6449590B1 (en) | Speech encoder using warping in long term preprocessing | |
KR20020077389A (ko) | 광대역 신호의 코딩을 위한 대수적 코드북에서의 펄스위치 및 부호의 인덱싱 | |
WO2000011651A1 (en) | Synchronized encoder-decoder frame concealment using speech coding parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120417 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120713 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120719 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120813 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130920 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5374418 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |