JP2010181892A - 音声符号化用ゲイン平滑化 - Google Patents
音声符号化用ゲイン平滑化 Download PDFInfo
- Publication number
- JP2010181892A JP2010181892A JP2010044662A JP2010044662A JP2010181892A JP 2010181892 A JP2010181892 A JP 2010181892A JP 2010044662 A JP2010044662 A JP 2010044662A JP 2010044662 A JP2010044662 A JP 2010044662A JP 2010181892 A JP2010181892 A JP 2010181892A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- noise
- signal
- audio
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
Abstract
【解決手段】ブロック527において、デコーダ処理回路は、ゲインを修正し、適応符号帳515からのベクトルの貢献をエンファシス化する。ブロック529において、励起スペクトルを平坦化にする目標と結合したベクトルに適応チルト補償を適用する。デコーダ処理回路は、平坦化された励起信号を使って、ブロック531において合成フィルタリングを行う。
【選択図】図5
Description
<関連出願との関係>
本願は、1998年11月24日出願の米国特許出願第09/198,414に基づいており、その出願は1998年9月18日出願の米国特許出願第09/154,662の一部継続出願であり、その出願は1998年9月18日出願の米国特許出願第09/156,832の一部継続出願であり、その出願は、1998年8月24日出願の仮出願第60/097,569に基づいた1998年9月18日提出の米国特許出願第09/154,657の一部継続出願である。これらの全ての出願は、その全体が本願に援用され、本出願の一部を成す。
下記の出願は、その全体が本願に援用されることによって、本出願の一部を成す。
1)1998年8月24日出願の米国仮出願第60/097,569(代理人名簿No.98RSS325)
2)1998年11月24日出願の米国特許出願第09/198,414(代理人名簿No.97RSS039CIP)
3)1998年9月18日出願の米国特許出願第09/154,662(代理人名簿No.97RSS383)
4)1998年9月18日出願の米国特許出願第09/156,832(代理人名簿No.97RSS039)
5)1998年9月18日出願の米国特許出願第09/154,657(代理人名簿No.98RSS328)
6)1998年9月18日出願の米国特許出願第09/156,649(代理人名簿No.95E020)
7)1998年9月18日出願の米国特許出願第09/154,654(代理人名簿No.98RSS344)
8)1998年9月18日出願の米国特許出願第09/154,653(代理人名簿No.98RSS406)
9)1998年9月18日出願の米国特許出願第09/156,814(代理人名簿No.98RSS365)
10)1998年9月18日出願の米国特許出願第09/156,648(代理人名簿No.98RSS228)
11)1998年9月18日出願の米国特許出願第09/156,650(代理人名簿No.98RSS343)
12)1998年9月18日出願の米国特許出願第09/154,675(代理人名簿No.97RSS383)
13)1998年9月18日出願の米国特許出願第09/156,826(代理人名簿No.98RSS382)
14)1998年9月18日出願の米国特許出願第09/154,660(代理人名簿No.98RSS384)
音声エンコーダ117は、通信チャネル103を通じてデータ率の制限を基にして複数の作動モードのうち、一のモードを適切に選択する。通信チャネル103は、チャネルエンコーダ119とチャネルデコーダ131との間に帯域割り当てを備える。割り当ては、例えば、多くの上記チャネルが、必要に応じて割り当てられ再割り当てされる電話交換網により確立される。かかる一実施形態において、22.8kbps(キロビット/秒)チャネル帯域、即ちフルレートチャネル、又は11.4kbpsチャネル帯域、即ちハーフレートチャネルのいずれかを割り当ても良い。
ここで、^ai,i=1,....,mは(量子化された)線形予測(LP)パラメータである。
ここで、Tはピッチディレイ及びgpはピッチゲインである。
W(z)=A(z/γ1)/A(z/γ2) (3)
ここでA(z)は非量子化LPフィルタ及び0<γ2<γ1≦1は知覚的重み付け因子である。値γ1=[0.9、0.94]及びγ2=0.6を使う。重み付けフィルタは、例えば、ブロック251及び268において、非量子化LPパラメータを使うが、一方フォルマント合成フィルタは、例えば、ブロック249及び267において、量子化されたLPフィルタを使う。非量子化及び量子化LPパラメータは、共にブロック239において発生する。
Hhl(z)=(0.92727435−1.8544941z−1+0.92
727435z−2)/(1−1.9059465z−1+0.9114024z−2)
ダウンスケーリングおよび高域フィルタリングはHhl(z)の分子の係数を2で割ることにより結合される。
q1(n)=0.5q4(n-1) + 0.5q2(n)
q3(n)=0.5q2(n-1) + 0.5q4(n)
ここでq1 (n)はサブフレーム1について補間したLSFであり、q2 (n) はカレントフレームのLP_analysis_2から得られたサブフレーム2のLSFであり、q3(n)はサブフレーム3について補間したLSFであり、q4 (n-1)は前のフレームのLP_analysis_1から得たLSF(余弦領域)であり、q4(n)はカレントフレームのLP_analysis_1から得られたサブフレーム4に対するLSFである。補間は余弦領域で行われた。
W(z)=A(z/γ1)/A(z/γ2)
これは、サイズL_SFのサブフレームにおいて、重み付けされた音声は次のように与えられる。
2)正規化された一ディレイ相関P2_R1;3)正規化されたゼロ交差レートP3_ZC;および、4)正規化されたLP残差エネルギーP4_REである。
if P2_R1 < 0.6 and P1_SHP > 0.2 set mode =2
if P3_ZC > 0.4 and P1_SHP > 0.18 set mode =2
if P4_RE < 0.4 and P1_SHP > 0.2 set mode =2
if (P2_R1 <-1.2+3.2 P1_SHP) set VUV =-3
if (P4_RE <-0.21+1.4286 P1_SHP) set VUV =-3
if (P3_ZC > 0.8-0.6 P1_SHP) set VUV =-3
if (P4_RE < 0.1)set VUV=-3
の四つの最大値は、4つの領域、17…33、 34…67、 68 …135、136 …145のそれぞれにおいて見出される。得られた最大値Cki、i= 1,2,3,4は、それぞれ、次により除されて、正規化される。
この正規化された最大値と対応するディレイは(RiKi)、i=1,2,3,4.で示される。
ここで、sw(n + nl)、 n = 0, 1, …L-1はルックアヘッド(ルックアヘッドの長さは25サンプルである)を含む重み付けされた音声信号の最後のセグメントを示す。またサイズLは、以下の対応する正規化相関CTopを有する開ループピッチラグTopにしたがって定義される。
Tc(n) = trunc{τc (n+m・Ls)}、
TIC(n)= τc (n) - Tc(n)
mはサブフレームの数、Is(I, TIC(n)) は補間係数のセットであり、fIは10である。次に、マッチングさせるターゲット^st(n)、n = 0,1,…Lsr-1が、時間領域において、^sw(m0 +n)、n = 0,1,…Lsr-1.を重み付けして計算される。
^sI (n) = n・^sw (m0 +n)/Ls, n = 0,1,…Ls-1
^sI(n) =^sw(m0 +n), n = Ls,…Lsr-1
ここで、Psh=max{Psh1, Psh2} であり、Psh1はターゲット信号からのピーク比(すなわちシャープさ)に対する平均値である。
Psh2は重み付け音声信号からのシャープさである。
kr=Kopt + n0 - m0 - τacc
もしRI(kopt)<0.5ならば、krはゼロである。
ここで {If(i,j)} は補間係数の1セットである。最適な小数ディレイインデクスjoptは、Rf(j)を最大化することによって選択される。最終的には、現在処理中のフレームの最終に於ける最善の局所ディレイτoptは、次式で与えられる。
τopt= kr − 0.75+0.1jopt
局所ディレイは次いで次式によって調整される。
バッファーを更新し、固定符号帳261を検索するための第2の目標信号253を作るために、{^Sw(m0+n),n=0,1,...Ls−1}に記録されるカレントサブフレームの修正重み付け音声は、原時間領域
[ m0 +τacc, m0+τopt+ Ls +τopt]
から原重み付け音声{Sw(n)}を修正時間領域
[ m0, m0+Ls ]
へワーピングして作られる。
Tw(n)=trunc {τacc + n・τopt /Ls}
TIw(n)=τacc + n・τopt /Ls-Tw(n),
{Is(i,TIW(n))} は補間係数の一つのセットである。
^Sw(n)<= ^Sw(n +Ls), n = 0,1… nm-1
カレントサブフレームの終わりでの累積ディレイは次式により更新される。
τacc <= τacc + τopt
量子化する前に、知覚できる性質に改善するためにLSFsを平滑化する。一般に、スペクトル包絡中に急速な変化のある音声セグメントの間では平滑化は適用されない。スペクトル包絡中の変化の遅い非音声の間には、望ましくないスペクトル変化を減らすように平滑化が適用される。望ましくないスペクトル変化は典型的にはLPCパラメータの推定やLSF量子化によって起きるはずである。たとえば、スペクトル包絡中で非常に小さな変化を導入する一定のスペクトル包絡を有する定常ノイズ状信号は容易に人の耳で聴き取られ、うるさい変調として知覚される。
lsfi(n) = β(n) ・lsfi(n-1)+(1-β(n))・lsf_esti(n), i = 1,…,10
ここで、 lsf_esti(n) はフレームnのi番目の予測LSFであり、lsfi(n)はフレームnの量子化のためのi番目のLSFである。パラメータβ(n)は平滑化の量をコントロールし、例えば、β(n)がゼロのときは平滑化は適用されない。
fiはi番目のLSF値であり、P(fi)はfiにおけるLPCのパワースペクトルである(Kは無関係な倍率定数である)。パワースペクトルの逆数は、(ある倍率定数まで)次式から得られる。
そして、−0.4のべき数は次いで、ルックアップテーブルとテーブル入力(エントリー)の間の3次スプライン補間を用いて計算される。
もしLTP_モードが0のときは、カレントフレームの量子化LSFセットと先行フレームの量子化LSFセットの間に一次補間がおこなわれ、次のように第1、第2、第3のサブフレームについてのLSFセットを得るように作用する。
q1(n) バー =0.75q4 (n-1) バー + 0.25q4 (n) バー
q2(n) バー =0.5q4 (n-1) バー + 0.5q4 (n) バー
q3(n) バー =0.25q4 (n-1) バー + 0.75q4 (n) バー
ここでq4(n-1) バー およびq4(n) バーはそれぞれ先行およびカレントフレームの量子化LSFセットのコサインであり、q1(n) バー、q2(n) バーおよび q3(n) バーはそれぞれ、第1、第2、第3のサブフレームに対するコサイン領域における補間LSFセットである。
w(0) = (1-l(0))(1-l(1) + l(0))
w(9) = (1-l(9))(1-l(9) + l(8))
i = 1から9において
w(i) = (1-l(i))(1-Min(l(i + 1)-l (i), l(i)-l(i-l)))
ここでMin(a,b) は、aおよびbの最小値を返す。
rq(n) バー=α(k)q4バー (n)+(1−α(k))q4バー (n−1),K=1から4
各パスごとにαバー={0.4,0.5,0.6,0.7}である。ついで、以下の距離尺度が各パスについてつぎのように計算される。
D=|rl(n) バー−l(n) バー|T Wバー
最小距離Dへ導くパスが選ばれ、対応する参照LSFセットが rq(n) バーが下記の通り得られる。
rq(n) バー =αoptq4(n) バー + (1- αopt) q4(n-1) バー
余弦領域の補間LSFセットは、次によって与えられる。
q1(n) バー =0.5q4(n−1) バー+0.5rq(n) バー
q2(n) バー =rq(n) バー
q3(n) バー =0.5rq(n) バー+0.5q4(n) バー
Tc(n) =trunc{τc (n+m・ L_SF)}
TIC(n)=τc (n) −TC (n)
mはサブフレーム数、{Is,(i, TIC(n))} は補間係数,fIは10、MAX_LAGは145+11、そしてL_SF=40はサブフレームサイズである。補間値{ext(MAX_LAG+n), 0<=n<L_SF-17 +11} は、そのピッチラグが小さいときには再び補間するのに用いられるかもしれないことに注意を払われたい。一度補間が終わると、適応コードベクトルVa={va(n),n=0から39}が補間値をコピーして得られる。
適応符号帳検索は、サブフレームごとに行われる。それは閉ループピッチラグ検索の実施から成り、ついで、選択された小数ピッチラグでの過去の励起を補間して適応コードベクトルを計算する。そのLTPパラメータ(あるいは適応符号帳パラメータ)はピッチラグ(あるいはディレイ)およびピッチフィルターのゲインである。検索ステージで、励起は、閉ループ検索を簡易化するために、LP残差によって拡大される。
ここでTgs(n)は目標信号であり、yk(n)はディレイkにおける過去のフィルター励起である(h(n)を畳み込んだ過去の励起)。その畳み込みyk(n)は、検索領域での最初のディレイtmin について計算され,検索領域のその他のディレイk=tmin+1,…tmax については、再帰的関係を用いて更新される。
yk(n) = yk-1(n-1) + u(-)h(n)
ここで、u(n), n = -(143+11) から39は励起バッファーである。
検索を簡易化するのに、LP残差はu(n)にコピーされ、すべてのディレイに有効な計算においての関係を作り出す。一度最適な整数ピッチディレイが決まれば、上に定義したような小数(フラクション)がその整数周辺で試験される。小数ピッチ検索は正規化された相関を補間する事により行われ、その検索は最大値まで行われる。
ピッチ相関
ピッチ相関の操作手段
ma_cp(n) = 0.9・ma_cp(n-1)+0.1・cp
カレントピッチサイクルにおける信号振幅の最大値
max(n) =max{|~s(i)|, i=start,…,L_SF-1}
ここで
start = min(L_SF-lag,0)
現在ピッチサイクルにおける信号振幅の合計
相対的最大値の測定
max_mes = max(n)/ma_max_noise(n-1)
長期合計に対する最大値
過去15サブフレームに対する3個のサブフレームのグループにおける最大値
max_group(n,k)= max{max(n-3(4-k)-j),j = 0,…,2},k=0,…4
先行4グループ最大値の最小値に対するグループ最大値
endmax2minmax = max_group(n,4)/min{max_group(n,k),k=0,...,3}
5グループ最大値の傾斜
現在サブフレームにおける理想的励起の最大振幅
maxres2(n) = max{|res2(i)|, i=0,….L_SF-1}
相対的最大値の尺度
max_mesres2 = maxres2(n)/ma_maxres2(n-1)
Tg(n) = Tgs(n) - Gr ・gp・ Ya(n), n = 0,1,…,39
ここで、Tgs(n)は原目標信号253であり、Ya(n)は適応符号帳からのフィルターにかけられた信号であり、gpは選択された適応符号帳ベクトル用のLTPゲインであり、このゲイン因子は正規化LTPゲインRp,およびビットレートによって決定される。
PNSR = (max{(En-100),0.0}/Es)1/2
ここで、Esは背景雑音を含むカレントインプット信号のエネルギーであり、Enは背景雑音の現在(running)平均エネルギーである。Enはそのインプット信号が背景雑音であると検出されたときにのみ以下のように更新される。
En=0.75Es
else if(背景雑音フレームが真)
En=0.75En_m+0.25Es
ここで,En_mは背景雑音エネルギーの最終評価である。
POS(np,i) = TRACK(mp,i) + PHAS(np,phas_mode)
ここで、i = 0,1,...,7 あるいは15(コード位置に対して3あるいは4ビットに対応する)は可能な位置インデクスであり、np = 0,...,Np-1(Npはパルスの総数である)は他のパルスと区別する。mp=0あるいは1は2つのトラックを定め、phase_mode=0あるいは1は、2つのフェーズモードを特定する。
{TRACK(0,i)}={0,4,8,12,18,24,30,36}と
{TRACK(1,i)}={0,6,12,18,22,26, 30, 34}である。
もし各パルスポジションが4ビットで符号化されるとき、基礎トラックは次の通りである:
{TRACK(0,i)}={0,2,4,6,8,10,12,14,17,20,23,26,29,32,35,38}と
{TRACK(1,i)}={0,3,6,9,12,15,18,21,23,25,27,29,31,33,35,37}である。
PHAS(np,0) = modulus(np/MAXPHAS)
PHAS(np,1) = PHAS(Np-1- np ,0)
ここで、MAXPHASは最大フェーズ値である。
反復アプローチを用いて、パルスポジションがnp=0からnp=Np-1の順に検索されるためである。もし2個のパルスが同じトラックに位置していたら、トラック上の最初のパルスのサインのみがエンコードされる。一方、第2のパルスのサインは第1のパルスの位置に依存する。もし、第2のパルスの位置が小さかったら、それは、反対のサインとなるが、そうでなければ、第1のパルスのサインと同じサインになるだろう。
x2(n) = x(n) - ^gpy(n), n =0,...,39
ここで、y(n)=v(n)*h(n)は適応符号帳ベクトル、^gpは修正(減少)LTPゲインである。
l= idxδ−10・τ
そして、δは第1基礎ベクトルに対しては0、第2基礎ベクトルに対しては1である。さらに、サインは各基礎ベクトルに対して適用される。
これは、両方の基礎ベクトルが選択されたとき、その結合コードベクトルcidxδ,idxlは単一のエネルギーを持ち、従ってガウスサブ符号帳からの候補ベクトルについてはピッチ増強が行われないのでガウス符号帳からの最終励起ベクトルは単一エネルギーを持つだろうということを意味する。
サブ符号帳2: 10パルス×2ビット/パルス+10サイン=30ビット
2個のサブ符号帳のうちの1つはブロック275(図2)で、第1サブ符号帳からの基準値F1と、第2サブ符号帳からの基準値F2を比較した際に適用された適応重み付けを用いる第2のサブ符号帳を好適化することにより選ばれる。
If(Wc・F1>F2)、第一のサブ符号帳選択
else、第二のサブ符号帳選択
サブ符号帳2: 9パルス×1ビット/パルス+1パルス×0ビット+10 サイン=19ビット
2個のサブ符号帳のうち1つは、11kbpsモードでのように第1サブ符号帳からの基準値F1と第2サブ符号帳からの基準値F2を比較した際に適用された適応重み付けを用いる第2サブ符号帳を好適化することにより選ばれる。重み付け、0<Wc<=1は次のように定義される。
6.65kbpsモードは、長期前処理(PP)あるいは従来のLTPを用いて作動する。18ビットのパルスサブ符号帳は、PPモードのときに使用される。13ビットのすべては、操作がLTP−モードで行われるとき、3つのサブ符号帳に割り当てられる。サブ符号帳への割り当ては次のように要約できる。
サブ符号帳: 5パルス×3ビット/パルス+3サイン=18ビット
LTP-モード:
サブ符号帳1: 3パルス×3ビット/パルス+3サイン=12ビット,phase_mode=1
サブ符号帳2: 3パルス×3ビット/パルス+2サイン=11ビット,phase_mode=0
サブ符号帳3: 11ビットのガウスサブ符号帳
この3つのサブ符号帳の一つが、LTP-モードで検索する際にガウスサブ符号帳を好適化することにより選ばれる。適応重み付けはモードで2つのサブ符号帳からの基準値をガウスサブ符号帳からの基準値とを比較して適用される。重み付け0<Wc<=1はつぎのように、定義される。
if(ノイズ状無声(noise-like unvoiced)) Wc<= Wc(0.2Rp(1.0−Rsharp)+0.8)
5.8kbpsエンコードモードは、長期前処理(PP)でのみ作動する。全14ビットは3つのサブ符号帳に割り当てられる。このサブ符号帳ビット割り当ては次のように要約される。
サブ符号帳2: 3パルス×3ビット/パルス+3サイン=12ビット,phase_mode=0
サブ符号帳3: 12ビットのガウスサブ符号帳
この3つのサブ符号帳の1つが2つのパルスサブ符号帳からの基準値とガウスサブ符号帳からの基準値を比較するとき適用された適応重み付けを用いるガウスサブ符号帳を好適化することにより選ばれる。重み付け、0<Wc<=1は次のように定義される。
if(ノイズ状無声) Wc<=Wc(0.3Rp(1.0−Psharp)+0.7)
この4.55kbpsビットレートモードは長期前処理(PP)でのみ作動する
。全10ビットは3つのサブ符号帳に割り当てられる。このサブ符号帳へのビット割り当ては次のように要約される。
サブ符号帳2: 2パルス×3ビット/パルス+2サイン=8ビット,phase_mode=0
サブ符号帳3: 8ビットのガウスサブ符号帳
この3つのサブ符号帳の1つが2つのパルスサブ符号帳からの基準値とガウスサブ符号帳からの基準値を比較するとき適用された適応重み付けを用いるガウスサブ符号帳を好適化することにより選ばれる。重み付け0<Wc<=1は、次のように定義される。
if(ノイズ状無声) Wc <= Wc(0.6Rp(1.0−Rsharp)+0.4)
4.55、5.8、6.65および8.0kbpsビットレートエンコードモードについては、ゲインの再最適化手法は適応および、固定符号帳ゲインそれぞれ、gpおよびgcを第3図で示したように結合し、最適化して行われる。最適化ゲインは次の関係から与えられる:
gp = (R1R2-R3R4)/(R5R2-R3R3)
gc = (R4-gpR3)/R2
ここで、R1=< Cpバー,Tgsバー>, R2 =<Ccバー,Ccバー >, R3 =<Cpバー,Ccバー>, R4 =<Ccバー ,Tgsバー>, R5 =<Cpバー,Cpバー >である。Ccバー , Cpバー , Tgsバーは、フィルターされた固定符号帳励起、フィルターされた適応符号帳励起,適応符号帳検索用目標信号である。
gc = R6/R2
ここで、R6 =< Cpバー,Tgバー>およびTgバー= Tgsバー−gpCpバー
声が真。
(b)雑音レベルPNSRが0.5より大。
(c)ビットレートが6.65kbpsで、雑音レベルPNSRが0.2より大。
(d)ビットレートが5.8又は4.45kbps。
If(第1サブフレームが真)
Ol_Eg = Eres
else
Ol_Eg <= βsub・Ol_Eg + (1-βsub)Eres
If(第1サブフレームが真)
Cl_Eg = ETgs
else
Cl_Eg <= βsub・Cl_Eg + (1-βsub)ETgs
βsubは、分類によって決定される平滑化係数である。基準エネルギーが得られたら、開ループゲインの平滑化因子を計算する。
ν(n) = νa(n)gp + νc(n)gc, n=0,1,...,L_SF-1
gc及びgpは、量子化されていないゲインである。同様に、閉ループゲインの正規化因子は、
Cclは、ビットレートが11.0kbpsの場合に0.9、他のレートについてCclは0.8である。y(n)はフィルタされた信号(y(n) = ν(n)*h(n))で、
y(n) = ya(n)gp + yc(n)gc, n=0,1,...,L_SF-1
である。
gf = CLPCOl_g + (1-CLPC) Cl_g
gf = MAX(1.0,gf)
gf = MIN(gf, 1+CLPC)
If(背景雑音が真でレートが11kbpsより小)
gf = 1.2 MIN{Cl_g, Ol_g}
ここで、CLPCは次のように定義される。
いったんゲイン正規化因子が決定されると、量子化されていないゲインは修正される。
gp <= gp・gf
Err = ‖Tgsバー - gpCpバー - gcCcバー‖2
11.0kbpsのレートについては、スカラー量子化が行われ、適応符号帳ゲインgpは4ビットを用いて、固定符号帳ゲインgcは5ビットを用いてそれぞれ量子化される。
c(i)はスケールされていない固定符号帳励起、Eバー = 30dBは、スケールされた固定符号帳励起の平均エネルギーである。
そして、予測されたゲインgcドットを得る。
gcドット = 10(0.05(~E(n)+Eバー-Ei))
ゲインgcと予測値gcドットとの間の修正因子は、次式によって与えられる。
γ = gc/gcドット
これはまた、予測誤差とも関連する。
エンコードビットレート4.55、5.8、6.65、及び8.0kbpsについての符号帳検索は、2つのステップからなる。第1のステップでは、量子化された予測誤差を表す単式表(single entry table)のバイナリ検索が行われる。第2のステップでは、自乗平均誤差の意味で量子化されていない予測誤差に最も近い最適エントリのインデクスIndex_1が使用され、適応符号帳ゲインと予測誤差とを表す二次元VQテーブルの検索を制限する。VQテーブルの特定の配列及び順序を活用して、Index_1によって指示されるエントリの近辺で利用する候補がほとんどない、高速検索が実行される。実際、テストしたところ、VQテーブルのエントリの約半分がIndex_2を持つ最適エントリへ通じている。Index_2のみが送信される。
を最小化することによって検索が行われる。
u(n) = gpバーν(n) + gcバーc(n), n = 0, 39
gpバー、gcバーは、それぞれ量子化された適応及び固定符号帳ゲインであり、ν(n)は適応符号帳励起(補間された過去の励起)、c(n)は固定符号帳励起である。40のサンプルサブフレームについて、フィルタ1/A(z)バー及びW(z)を通じて信号r(n) - u(n)をフィルタリングすることにより、フィルタの状態を更新することができる。これには、通常、3回のフィルタリングが必要であろう。
ew(n) =Tgs(n) - gpバーCp(n) - gcバーCc(n)
重み付けフィルタの状態は、ew(n)をn=30から39までについて計算することにより更新される。
4.55、5.8、6.65、及び8.0kbpsのビットレートについて、受信されたインデクスを用いて、二次元VQテーブルから量子化された適応符号帳ゲインgpバーを見いだす。同じインデクスを用いて、同じ量子化テーブルから固定符号帳ゲイン修正因子γバーを取得する。量子化された固定符号帳ゲインgcバーは、以下のステップにしたがって得られる。
・スケールされていない固定符号帳励起のエネルギーを計算する。
・gcドット = 10(0.05(~E(n)+Eバー-Ei))として、予測されたゲインgcドットを得る。
8.0、11.0、及び6.65(LTP_モード=1の間)kbpsビットレートエンコーディングモードについては、受信されたピッチインデクス(適応符号帳インデクス)を用いてピッチラグの整数部と小数部とが見いだされる。適応符号帳ν(n)は、FIRフィルタを用いて過去の励起u(n)を(ピッチディレイにおいて)補間することによって見いだされる。
受信された符号帳インデクスを使用して、符号帳のタイプ(パルス又は)と、励起パルスの振幅及び位置又はガウス励起のベース及び符号雑音れかを抽出する。いずれの場合であっても、再構成された固定符号帳励起は、c(n)と与えられる。ピッチラグの整数部がサブフレームサイズ40よりも小で、選択された励起がパルスタイプであれば、ピッチシャープニングが適用される。これは、c(n)をc(n)=c(n)+βc(n−T)と変更するように読み替えるもので、βは[0.2, 1.0]によって拘束される以前のサブフレームからのデコードされたピッチゲインgpバーである。
u(n)’バー=ηu(n)バーによって与えられる。再構成された音声は、
によって与えられ、aiバーは補間されたLPフィルタの係数である。合成された音声s(n)バーは、次いで、適応ポストフィルタを通過する。
Hf(z)=A(z/γn)バー/A(z/γd)バー
と与えられる。A(z)バーは受信された量子化及び補間されたLP逆フィルタであり、γn及びγdは、フォルマントポストフィルタリングの量を制御する。
Htl(z)=(1−μz−1)
μ=γtlk1はフォルマントポストフィルタk1=rh(1)/rh(0)のチルト因子で、k1は切頭インパルス応答hf(n)上で計算された第1の反射係数で、
ポストフィルタリング処理は、以下のように行われる。まず、合成された音声s(n)バーがA(z/γn)バーを通じて逆フィルタされ、残差信号r(n)バーを生成する。信号r(n)バーは、合成フィルタ1/(A(z/γd)バー)によってフィルタされ、第1のチルト補償フィルタhtl(z)に渡されて、ポストフィルタリングされた音声信号sf(n)バーとなる。
ゲインがスケーリングされ、ポストフィルタリングされた信号s’(n)バーは、s’(n)バー=β(n)sf(n)バーによって与えられる。β(n)は、サンプルごとに更新され、次式で与えられる。
αはAGC因子であり、その値は0.9である。最後に、アップスケーリングは、ポストフィルタリングされた音声に因子2を乗じて、入力信号に適用されていた2倍のダウンスケーリング(the down scaling by 2)を復元する(undo)ことからなる。
であろう。
以下の符号、定義および略語が、本願のために用いられる。
適応符号帳(adaptive codebook): 適応符号帳は、各サブフレーム全てに適用される励起ベクトル(excitation vector)を含む。適応符号帳は、長期フィルタ状態から得られる。ピッチラグ値は、適応符号帳へのインデクスとして見ることができる。
適応ポストフィルタ(adaptive postfilter): 適応ポストフィルタは、再構築された音声の知覚的品質を向上させるために、短期合成フィルタの出力に適用される。適応マルチレートコーデック(AMR)においては、適応ポストフィルタは、フォルマントポストフィルタおよびチルト補償フィルタの二つのフィルタのカスケード接続(cascade)である。
AMRハンドオーバー(AMR handover): AMR動作を最適化するための、フルレートおよびハーフレートのチャネルモード間のハンドオーバーである。
チャネルリパッキング(channel repacking): セル内においてより高い容量を達成するための、所定のラジオセルのHR(およびFR)ラジオチャネルのリパッキングである。
コーデックモード(codec mode): 所定のチャネルモードについての、音声およびチャネルコーデック間のビットパーティショニングである。
ダイレクトフォーム係数(direct form coefficients): 短期フィルタパラメータを記憶するためのフォーマットの一つである。適応マルチレートコーデックにおいては、音声サンプルを変更するために用いられる全てのフィルタは、ダイレクトフォーム係数を用いる。
分数のラグ(fractional lags): サブサンプル分解能を有するラグ値のセットである。適応マルチレートコーデックにおいては、サンプルの1/6ないし1.0の間のサブサンプル分解能が用いられる。
フレーム(frame): 20ms(8kHzのサンプリングレートにて160サンプル)に相当する時間間隔である。
ハーフレート(HR)(half-rate): ハーフレートのチャネルまたはチャネルモードである。
整数のラグ(integer lags):全サンプル分解能を有するラグ値のセットである。
ラグ(lag): 長期フィルタのディレイである。これは、典型的に、真のピッチ期間、またはその倍数または約数である。
線スペクトル対(Line Spectral Pair): LPCパラメータの変形である。線スペクトル対は、逆フィルタ伝達関数A(z)を、一方が偶の対称を有し他方が奇の対称を有するような二つの伝達関数のセットに分解能することにより得られる。線スペクトル対(線スペクトル周波数とも称する)は、z−単位円上の多項式の根である。
LP係数(LP coefficients): 線形予測(LP)係数(線形予測符号化(LPC)係数とも称する)は、短期フィルタ係数を記すための総称的な記述用語である。
マルチファンクション符号帳(multi-function codebook): 異なる種類のパルスイノベーションベクトル構造およびノイズイノベーションベクトルにより構成されたいくつかのサブ符号帳からなる固定符号帳である。符号帳からのコードワードが励起ベクトルを合成するために用いられる。
帯域外信号法(out-of-band signaling): リンク制御を支持するための、GSM制御チャネル上の信号法である。
残差(residual): 逆フィルタ動作の結果の出力信号である。
短期合成フィルタ(short term synthesis filter): このフィルタは、励起信号に対し、声道のインパルス応答をモデルとする短期相関を導入する。
サブフレーム(subframe): 5〜10ms(8kHzサンプリングレートにて40〜80サンプル)に相当する時間間隔である。
にグループ化し、それらを同時に量子化する方法である。
ゼロ入力応答(zero input response): 過去の入力に起因する、すなわち、ゼロの入力が付与されると想定すればフィルタの現在の状態に起因するフィルタの出力である。
量子化されていない係数での逆フィルタ
^A(z)
量子化された係数での逆フィルタ
H(z)=1/^A(z)
量子化された係数での音声合成フィルタ
ai
量子化されていない線形予測パラメータ(ダイレクトフォーム係数)
^ai
量子化された線形予測パラメータ
1/B(z)
長期合成フィルタ
W(z)
知覚的重み付けフィルタ(量子化されていない係数)
γ1、γ2
知覚的重み付け因子
FE(z)
適応プレフィルタ
T
サブフレームの閉ループ分数ピッチラグに最も近い整数のピッチラグ
β
適応プレフィルタ係数(量子化されたピッチゲイン)
Hf(z)=^A(z/γn)/^A(z/γd)
フォルマントポストフィルタ
γn
フォルマントポストフィルタリングの量についての制御係数
γd
フォルマントポストフィルタリングの量についての制御係数
Ht(z)
チルト補償フィルタ
γt
チルト補償フィルタリングの量についての制御係数
μ=γtk1’
k1’が第一反射係数であるチルト因子
hf(n)
フォルマントポストフィルタの打切りインパルス応答
Lh
hf(n)の長さ
rh(i)
hf(n)の自己相関
^A(z/γn)
フォルマントポストフィルタの逆フィルタ(分子)部分
1/^A(z/γd)
フォルマントポストフィルタの合成フィルタ(分母)部分
^r(n)
逆フィルタ^A(z/γn)の残差信号
ht(z)
チルト補償フィルタのインパルス応答
βsc(n)
適応ポストフィルタのAGC制御されたゲインスケーリング因子
α
適応ポストフィルタのAGC因子
Hhl(z)
予備処理高域フィルタ
wI(n)、wII(n)
LP分析ウィンドウ
L1 (I)
LP分析ウィンドウwI(n)の第一部分の長さ
L2 (I)
LP分析ウィンドウwI(n)の第二部分の長さ
L1 (II)
LP分析ウィンドウwII(n)の第一部分の長さ
L2 (II)
LP分析ウィンドウwII(n)の第二部分の長さ
rac(k)
ウィンドウされた音声s’(n)の自己相関
wlag(i)
自己相関(60Hzの帯域幅拡大)についてのラグウィンドウ
f0
Hzでの帯域幅拡大
fs
Hzでのサンプリング周波数
r’ac(k)
変更された(帯域幅拡大された)自己相関
ELD(i)
レビンソンアルゴリズムのi番目の反復における予測誤差
ki
i番目の反射係数
aj (i)
レビンソンアルゴリズムのi番目の反復におけるj番目のダイレクトフォーム係数
F1’(z)
対称LSF多項式
F2’(z)
反対称LSF多項式
F1(z)
z=−1の根が除かれた多項式F1’(z)
F2(z)
z=1の根が除かれた多項式F2’(z)
qi
余弦領域における線スペクトル対(LSF)
ベクトルq
余弦領域におけるLSFベクトル
ベクトル^qi (n)
フレームnのi番目のサブフレームでの量子化されたLSFベクトル
ωi
線スペクトル周波数(LSF)
Tm(x)
次数mのチェビシェフ多項式
f1(i)、f2(i)
多項式F1(z)およびF2(z)の係数
f1’(i)、f2’(i)
多項式F1’(z)およびF2’(z)の係数
f(i)
F1(z)またはF2(z)のいずれかの係数
C(x)
チェビシェフ多項式の総和の多項式
x
角周波数ωの余弦
λk
チェビシェフ多項式評価についての反復係数
fi
Hzでの線スペクトル周波数(LSF)
ベクトルft=[f1f2...f10]
HzでのLSFのベクトル表現
ベクトルz(1)(n)、ベクトルz(2)(n)
フレームnでの平均の除かれたLSFベクトル
ベクトルr(1)(n)、ベクトルr(2)(n)
フレームnでのLSF予測残差ベクトル
ベクトルp(n)
フレームnでの予測されたLSFベクトル
ベクトル^r(2)(n−1)
過去のフレームでの量子化された第二の残差ベクトル
ベクトル^fk
量子化インデクスkでの量子化されたLSFベクトル
ELSP
LSF量子化誤差
wi、i=1、...、10、
LSF量子化重み付け因子
di
線スペクトル周波数fi+1およびfi−1間の距離
h(n)
重み付けされた合成フィルタのインパルス応答
Ok
ディレイkでの開ループピッチ分析の相関最大
Oti、i=1、...、3
ディレイti、i=1、...、3での相関最大
(Mi、ti)、i=1、...、3
正規化された相関最大Miと、対応するディレイti、i=1、...、3
H(z)W(z)=A(z/γ1)/^A(z)A(z/γ2)
重み付けされた合成フィルタ
A(z/γ1)
知覚的重み付けフィルタの分子
1/A(z/γ2)
知覚的重み付けフィルタの分母
T1
前の(1番目または3番目の)サブフレームの分数ピッチラグに最も近い整数
s’(n)
ウィンドウされた音声信号
sw(n)
重み付けされた音声信号
^s(n)
再構築された音声信号
^s’(n)
ゲインスケールされポストフィルタされた信号
^sf(n)
ポストフィルタされた音声信号(スケーリング前)
x(n)
適応符号帳検索のためのターゲット信号
x2(n)、ベクトルxt 2
固定符号帳検索のためのターゲット信号
resLP(n)
LP残差信号
c(n)
固定符号帳ベクトル
v(n)
適応符号帳ベクトル
y(n)=v(n)*h(n)
フィルタされた適応符号帳ベクトル
フィルタされた固定符号帳ベクトル
yk(n)
過去のフィルタされた励起
u(n)
励起信号
^u(n)
完全に量子化された励起信号
^u’(n)
ゲインスケールされエンファシスされた励起信号
Top
最適な開ループラグ
tmin
最小のラグ検索値
tmax
最大のラグ検索値
R(k)
適応符号帳検索において最大化されるべき相関ターム
R(k)t
整数ディレイkおよび分数tについて、補間されたR(k)値
Ak
インデクスkでの代数的符号帳検索において最大化されるべき相関ターム
Ck
インデクスkでのAkの分子における相関
EDk
インデクスkでのAkの分母におけるエネルギー
d=Htx2
ターゲット信号x2(n)とインパルス応答h(n)すなわち後方向へフィルタされたターゲットとの間の相関
行列H
対角h(0)およびより低い対角h(1)、...、h(39)の、より低いテプリッツ畳み込み三角行列
行列Φ=HtH
h(n)の相関の行列
d(n)
ベクトルdの要素
φ(i、j)
対称行列Φの要素
ベクトルck
イノベーションベクトル
C
Akの分子における相関
mi
i番目のパルスの位置
i番目のパルスの振幅
Np
固定符号帳励起におけるパルス数
ED
Akの分母におけるエネルギー
resLTP(n)
正規化された長期予測残差
b(n)
正規化されたd(n)ベクトルおよび正規化された長期予測残差resLTP(n)の和
sb(n)
代数的符号帳検索についてのサイン信号
ベクトルzt、z(n)
h(n)でコンボルブされた固定符号帳ベクトル
E(n)
平均の除かれたイノベーションエネルギー(dB)
Eバー
イノベーションエネルギーの平均
〜E(n)
予測されたエネルギー
[b1b2b3b4]
MA予測係数
^R(k)
サブフレームkでの量子化された予測誤差
EI
平均イノベーションエネルギー
R(n)
固定符号帳ゲイン量子化の予測誤差
EQ
固定符号帳ゲイン量子化の量子化誤差
e(n)
合成フィルタ1/^A(z)の状態
ew(n)
合成による分析の検索の知覚的重み付けされた誤差
η
エンファシスされた励起についてのゲインスケーリング因子
gc
固定符号帳ゲイン
gcドット
予測された固定符号帳ゲイン
^gc
量子化された固定符号帳ゲイン
gp
適応符号帳ゲイン
^gp
量子化された適応符号帳ゲイン
γgc=gc/gcドット
ゲインgcおよび概算された一のgcドットの間の修正因子
^γgc
γgcについての最適値
γsc
ゲインスケーリング因子
AGC
適応ゲイン制御
AMR
適応マルチレート
CELP
符号励起線形予測
C/I
キャリア対インタフィアラ比
DTX
非連続伝送
EFR
エンハンスされたフルレート
FIR
有限インパルス応答
FR
フルレート
HR
ハーフレート
LP
線形予測
LPC
線形予測符号化
LSF
線スペクトル周波数
LSF
線スペクトル対
LTP
長期予測子(または長期予測)
MA
移動平均
TFO
タンデムフリー動作
VAD
無音圧縮
Claims (20)
- 特性が変化する音声信号について合成による分析の手法を用いており、
前記音声信号から音声パラメータを生成するエンコーダと、
そのエンコーダと通信によって結合されており、前記音声パラメータから音声信号を再生するデコーダとを備え、
前記エンコーダ及びデコーダの少なくとも一方が雑音の分類を行い、
前記エンコーダ及びデコーダの少なくとも一方が、その雑音分類を利用して雑音の補償を行う
音声コーデック。 - 前記エンコーダ及びデコーダの両方が雑音の分類を行う請求項1に記載の音声コーデック。
- 前記エンコーダ及びデコーダの両方が雑音の補償を行う請求項1に記載の音声コーデック。
- コードベクトルの励起を用いて前記音声信号を再生する請求項1に記載の音声コーデック。
- パルス様の励起を用いて前記音声信号を再生する請求項1に記載の音声コーデック。
- 前記音声信号を再生するときに、前記エンコーダ及びデコーダの少なくとも一方がゲインを平滑化する請求項1に記載の音声コーデック。
- 前記音声信号の変化する特性の少なくとも一つがピッチパラメータを含む請求項1に記載の音声コーデック。
- 前記エンコーダは、複数のソースエンコード手法の一つを選択することによって、前記雑音分類の少なくとも一部と前記雑音補償の少なくとも一部とを実行する請求項1に記載の音声コーデック。
- 前記デコーダは、前記音声再生の間に雑音を挿入することによって、前記雑音分類の少なくとも一部と前記雑音補償の少なくとも一部とを実行する請求項1に記載の音声コーデック。
- 特性が変化する音声信号について合成による分析の手法を用いており、
前記音声信号の変化する特性の少なくとも一つを識別するときに雑音補償を選
択的に適用して、前記音声信号の再生品質を向上させる処理回路と、
前記処理回路と通信によって結合されて前記音声信号を再生する音声再生回路と
を備えた音声コーデック。 - 音声再生にはパルス様の励起が用いられる請求項10に記載の音声コーデック。
- 前記処理回路は前記音声信号の雑音分類を適用する請求項10に記載の音声コーデック。
- 前記音声コーデックはデコーダをさらに備え、その処理回路の少なくとも一部がそのデコーダ内部にある請求項10に記載の音声コーデック。
- 適用されるエンコード方式には、パルス様の励起を使用することが含まれる請求項10に記載の音声コーデック。
- 前記処理回路は前記音声信号を再生するのに使用されるゲインを平滑化する請求項10に記載の音声コーデック。
- 前記前記音声信号の変化する特性の少なくとも一つがピッチパラメータを含む請求項10に記載の音声コーデック。
- 前記音声信号が複数のフレームに分割され、前記エンコーダ処理回路はエンコード方式をフレームをベースとして選択的に適用する請求項10に記載の音声コーデック。
- 特性が変化する音声信号に合成による分析のコード化手法を適用する音声コーデックが使用する方法であって、
前記音声信号の変化する特性の少なくとも一つを識別するときに雑音分類を適用し、
その雑音分類に応答して雑音補償を適用し、
その補償が適用されてから前記音声信号を再生する方法。 - 前記音声信号を再生するときにゲインを平滑化することをさらに含む請求項18に記載の方法。
- 前記雑音補償は雑音挿入を行うことを含む請求項18に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US9756998P | 1998-08-24 | 1998-08-24 | |
US15465798A | 1998-09-18 | 1998-09-18 | |
US09/156,832 US6823303B1 (en) | 1998-08-24 | 1998-09-18 | Speech encoder using voice activity detection in coding noise |
US09/154,662 US6493665B1 (en) | 1998-08-24 | 1998-09-18 | Speech classification and parameter weighting used in codebook search |
US09/198,414 US6240386B1 (en) | 1998-08-24 | 1998-11-24 | Speech codec employing noise classification for noise compensation |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000566830A Division JP2002523806A (ja) | 1998-08-24 | 1999-08-24 | 雑音補償のための音声分類を採用した音声コーデック |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010181892A true JP2010181892A (ja) | 2010-08-19 |
Family
ID=27536839
Family Applications (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000566830A Pending JP2002523806A (ja) | 1998-08-24 | 1999-08-24 | 雑音補償のための音声分類を採用した音声コーデック |
JP2010044662A Pending JP2010181892A (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用ゲイン平滑化 |
JP2010044660A Expired - Lifetime JP5519334B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用開ループピッチ処理 |
JP2010044659A Expired - Lifetime JP4995293B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用のスカラー量子化(sq)とベクトル量子化(vq)の選択 |
JP2010044661A Expired - Lifetime JP5374418B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用適応符号帳ゲインの制御 |
JP2010044663A Expired - Lifetime JP5476160B2 (ja) | 1998-08-24 | 2010-03-01 | 線スペクトル周波数の量子化のための符号帳の共有 |
JP2011093333A Expired - Lifetime JP5412463B2 (ja) | 1998-08-24 | 2011-04-19 | 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000566830A Pending JP2002523806A (ja) | 1998-08-24 | 1999-08-24 | 雑音補償のための音声分類を採用した音声コーデック |
Family Applications After (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010044660A Expired - Lifetime JP5519334B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用開ループピッチ処理 |
JP2010044659A Expired - Lifetime JP4995293B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用のスカラー量子化(sq)とベクトル量子化(vq)の選択 |
JP2010044661A Expired - Lifetime JP5374418B2 (ja) | 1998-08-24 | 2010-03-01 | 音声符号化用適応符号帳ゲインの制御 |
JP2010044663A Expired - Lifetime JP5476160B2 (ja) | 1998-08-24 | 2010-03-01 | 線スペクトル周波数の量子化のための符号帳の共有 |
JP2011093333A Expired - Lifetime JP5412463B2 (ja) | 1998-08-24 | 2011-04-19 | 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6240386B1 (ja) |
EP (7) | EP2088585A1 (ja) |
JP (7) | JP2002523806A (ja) |
CA (1) | CA2341712C (ja) |
TW (1) | TW454170B (ja) |
WO (1) | WO2000011650A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE43570E1 (en) | 2000-07-25 | 2012-08-07 | Mindspeed Technologies, Inc. | Method and apparatus for improved weighting filters in a CELP encoder |
US8620649B2 (en) | 1999-09-22 | 2013-12-31 | O'hearn Audio Llc | Speech coding system and method using bi-directional mirror-image predicted pulses |
US8620647B2 (en) | 1998-09-18 | 2013-12-31 | Wiav Solutions Llc | Selection of scalar quantixation (SQ) and vector quantization (VQ) for speech coding |
US10134606B2 (en) | 2014-05-20 | 2018-11-20 | Samsung Electronics Co., Ltd. | Method of forming patterns and method of manufacturing integrated circuit device using the same |
US10181327B2 (en) | 2000-05-19 | 2019-01-15 | Nytell Software LLC | Speech gain quantization strategy |
Families Citing this family (103)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
TW376611B (en) * | 1998-05-26 | 1999-12-11 | Koninkl Philips Electronics Nv | Transmission system with improved speech encoder |
US6424938B1 (en) * | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6704701B1 (en) * | 1999-07-02 | 2004-03-09 | Mindspeed Technologies, Inc. | Bi-directional pitch enhancement in speech coding systems |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
US6636829B1 (en) | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
JP2001318694A (ja) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | 信号処理装置、信号処理方法および記録媒体 |
US6954745B2 (en) | 2000-06-02 | 2005-10-11 | Canon Kabushiki Kaisha | Signal processing system |
US7035790B2 (en) | 2000-06-02 | 2006-04-25 | Canon Kabushiki Kaisha | Speech processing system |
US7010483B2 (en) | 2000-06-02 | 2006-03-07 | Canon Kabushiki Kaisha | Speech processing system |
US7072833B2 (en) | 2000-06-02 | 2006-07-04 | Canon Kabushiki Kaisha | Speech processing system |
US6728669B1 (en) * | 2000-08-07 | 2004-04-27 | Lucent Technologies Inc. | Relative pulse position in celp vocoding |
US6983242B1 (en) * | 2000-08-21 | 2006-01-03 | Mindspeed Technologies, Inc. | Method for robust classification in speech coding |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
US6529867B2 (en) * | 2000-09-15 | 2003-03-04 | Conexant Systems, Inc. | Injecting high frequency noise into pulse excitation for low bit rate CELP |
US7016833B2 (en) * | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
EP1353323B1 (en) | 2000-11-27 | 2007-01-17 | Nippon Telegraph and Telephone Corporation | Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound |
US6614365B2 (en) * | 2000-12-14 | 2003-09-02 | Sony Corporation | Coding device and method, decoding device and method, and recording medium |
ES2260426T3 (es) * | 2001-05-08 | 2006-11-01 | Koninklijke Philips Electronics N.V. | Codificacion de audio. |
US7319703B2 (en) * | 2001-09-04 | 2008-01-15 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts |
US7046636B1 (en) | 2001-11-26 | 2006-05-16 | Cisco Technology, Inc. | System and method for adaptively improving voice quality throughout a communication session |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
US7054807B2 (en) * | 2002-11-08 | 2006-05-30 | Motorola, Inc. | Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters |
FR2850781B1 (fr) * | 2003-01-30 | 2005-05-06 | Jean Luc Crebouw | Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede |
US7146309B1 (en) | 2003-09-02 | 2006-12-05 | Mindspeed Technologies, Inc. | Deriving seed values to generate excitation values in a speech coder |
TWI233590B (en) * | 2003-09-26 | 2005-06-01 | Ind Tech Res Inst | Energy feature extraction method for noisy speech recognition |
US20050071154A1 (en) * | 2003-09-30 | 2005-03-31 | Walter Etter | Method and apparatus for estimating noise in speech signals |
JP4601970B2 (ja) * | 2004-01-28 | 2010-12-22 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
JP4490090B2 (ja) * | 2003-12-25 | 2010-06-23 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
FR2869484B1 (fr) * | 2004-04-26 | 2006-07-07 | Nortel Networks Ltd | Procede de traitement de signal et recepteur de radiocommunication numerique associe |
US7120576B2 (en) * | 2004-07-16 | 2006-10-10 | Mindspeed Technologies, Inc. | Low-complexity music detection algorithm and system |
CN101048813B (zh) * | 2004-08-30 | 2012-08-29 | 高通股份有限公司 | 用于语音ip传输的自适应去抖动缓冲器 |
US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
US20090063158A1 (en) * | 2004-11-05 | 2009-03-05 | Koninklijke Philips Electronics, N.V. | Efficient audio coding using signal properties |
JP5063364B2 (ja) * | 2005-02-10 | 2012-10-31 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声合成方法 |
US8155965B2 (en) * | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US8355907B2 (en) * | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US20060217983A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for injecting comfort noise in a communications system |
US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
FR2884989A1 (fr) * | 2005-04-26 | 2006-10-27 | France Telecom | Procede d'adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques. |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US20070100611A1 (en) * | 2005-10-27 | 2007-05-03 | Intel Corporation | Speech codec apparatus with spike reduction |
US20070136054A1 (en) * | 2005-12-08 | 2007-06-14 | Hyun Woo Kim | Apparatus and method of searching for fixed codebook in speech codecs based on CELP |
JP4727413B2 (ja) * | 2005-12-21 | 2011-07-20 | 三菱電機株式会社 | 音声符号化・復号装置 |
US8032370B2 (en) | 2006-05-09 | 2011-10-04 | Nokia Corporation | Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes |
US8712766B2 (en) * | 2006-05-16 | 2014-04-29 | Motorola Mobility Llc | Method and system for coding an information signal using closed loop adaptive bit allocation |
US20070286351A1 (en) * | 2006-05-23 | 2007-12-13 | Cisco Technology, Inc. | Method and System for Adaptive Media Quality Monitoring |
US20080101338A1 (en) * | 2006-11-01 | 2008-05-01 | Reynolds Douglas F | METHODS AND APPARATUS TO IMPLEMENT HIGHER DATA RATE VOICE OVER INTERNET PROTOCOL (VoIP) SERVICES |
CN101246688B (zh) * | 2007-02-14 | 2011-01-12 | 华为技术有限公司 | 一种对背景噪声信号进行编解码的方法、系统和装置 |
EP2118889B1 (en) | 2007-03-05 | 2012-10-03 | Telefonaktiebolaget LM Ericsson (publ) | Method and controller for smoothing stationary background noise |
WO2008108719A1 (en) * | 2007-03-05 | 2008-09-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for smoothing of stationary background noise |
EP2164238B1 (en) * | 2007-06-27 | 2013-01-16 | NEC Corporation | Multi-point connection device, signal analysis and device, method, and program |
US8248953B2 (en) | 2007-07-25 | 2012-08-21 | Cisco Technology, Inc. | Detecting and isolating domain specific faults |
US20090222268A1 (en) * | 2008-03-03 | 2009-09-03 | Qnx Software Systems (Wavemakers), Inc. | Speech synthesis system having artificial excitation signal |
US7948910B2 (en) * | 2008-03-06 | 2011-05-24 | Cisco Technology, Inc. | Monitoring quality of a packet flow in packet-based communication networks |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
KR101518532B1 (ko) | 2008-07-11 | 2015-05-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램 |
JP5489431B2 (ja) * | 2008-08-11 | 2014-05-14 | 京セラ株式会社 | 無線通信モジュールおよび無線端末、無線通信方法 |
EP2380168A1 (en) * | 2008-12-19 | 2011-10-26 | Nokia Corporation | An apparatus, a method and a computer program for coding |
CN101609678B (zh) | 2008-12-30 | 2011-07-27 | 华为技术有限公司 | 信号压缩方法及其压缩装置 |
CN101615395B (zh) * | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
EP2328363B1 (en) | 2009-09-11 | 2016-05-18 | Starkey Laboratories, Inc. | Sound classification system for hearing aids |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
WO2011074233A1 (ja) * | 2009-12-14 | 2011-06-23 | パナソニック株式会社 | ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法 |
US9647620B2 (en) | 2010-01-17 | 2017-05-09 | Mediatek Pte Ltd. | Electronic device and integrated circuit comprising a gain control module and method therefor |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
IL205394A (en) | 2010-04-28 | 2016-09-29 | Verint Systems Ltd | A system and method for automatically identifying a speech encoding scheme |
AU2016202478B2 (en) * | 2010-07-02 | 2016-06-16 | Dolby International Ab | Pitch filter for audio signals and method for filtering an audio signal with a pitch filter |
DK3079153T3 (en) | 2010-07-02 | 2018-11-05 | Dolby Int Ab | AUDIO DECOD WITH SELECTIVE FILTERING |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
US8311817B2 (en) * | 2010-11-04 | 2012-11-13 | Audience, Inc. | Systems and methods for enhancing voice quality in mobile device |
TWI426505B (zh) * | 2010-11-15 | 2014-02-11 | Sonix Technology Co Ltd | 音調偵測系統及聲音訊號調制方法 |
US8990074B2 (en) | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
LT2774145T (lt) * | 2011-11-03 | 2020-09-25 | Voiceage Evs Llc | Nekalbinio turinio gerinimas mažos spartos celp dekoderiui |
JP5480226B2 (ja) * | 2011-11-29 | 2014-04-23 | 株式会社東芝 | 信号処理装置および信号処理方法 |
AU2014211524B2 (en) | 2013-01-29 | 2016-07-07 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9418671B2 (en) | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
EP3291233B1 (en) * | 2013-09-12 | 2019-10-16 | Dolby International AB | Time-alignment of qmf based processing data |
EP2922056A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
CN107112025A (zh) | 2014-09-12 | 2017-08-29 | 美商楼氏电子有限公司 | 用于恢复语音分量的系统和方法 |
CN107041009B (zh) * | 2015-05-29 | 2020-06-23 | 成都鼎桥通信技术有限公司 | 音频通路控制方法、终端与基站 |
CN105513599B (zh) * | 2015-11-24 | 2019-05-21 | 西安烽火电子科技有限责任公司 | 一种基于非等重保护的速率自适应声码通信方法 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
CN106228978A (zh) * | 2016-08-04 | 2016-12-14 | 成都佳荣科技有限公司 | 一种语音识别方法 |
CN107331393B (zh) * | 2017-08-15 | 2020-05-12 | 成都启英泰伦科技有限公司 | 一种自适应语音活动检测方法 |
CN107863099B (zh) * | 2017-10-10 | 2021-03-26 | 成都启英泰伦科技有限公司 | 一种新型双麦克风语音检测和增强方法 |
CN109767786B (zh) * | 2019-01-29 | 2020-10-16 | 广州势必可赢网络科技有限公司 | 一种在线语音实时检测方法及装置 |
CN111024209B (zh) * | 2019-12-25 | 2022-03-29 | 深圳金信诺高新技术股份有限公司 | 一种适用于矢量水听器的线谱检测方法 |
TW202226225A (zh) * | 2020-10-27 | 2022-07-01 | 美商恩倍科微電子股份有限公司 | 以零點交越檢測改進語音活動檢測之設備及方法 |
US11790931B2 (en) | 2020-10-27 | 2023-10-17 | Ambiq Micro, Inc. | Voice activity detection using zero crossing detection |
CN112833924B (zh) * | 2021-01-07 | 2022-07-22 | 济南轲盛自动化科技有限公司 | 具备自动去噪功能的反射式编码器及去噪方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63500543A (ja) * | 1985-07-01 | 1988-02-25 | モトロ−ラ・インコ−ポレ−テツド | 雑音抑圧システム |
JPH0685766A (ja) * | 1992-03-18 | 1994-03-25 | Philips Gloeilampenfab:Nv | オーディオ信号の編集方法及び装置 |
JPH06202698A (ja) * | 1993-01-07 | 1994-07-22 | Toshiba Corp | 適応ポストフィルタ |
JPH06511320A (ja) * | 1991-06-11 | 1994-12-15 | クゥアルコム・インコーポレイテッド | 可変速度ボコーダ |
JPH07160294A (ja) * | 1993-12-10 | 1995-06-23 | Nec Corp | 音声復号装置 |
JPH08505959A (ja) * | 1993-01-21 | 1996-06-25 | アップル コンピューター インコーポレイテッド | ベクトル量子化ベース音声符号化/複号化を用いたテキスト−音声合成システム |
JPH09204199A (ja) * | 1996-01-22 | 1997-08-05 | Rockwell Internatl Corp | 非活性音声の効率的符号化のための方法および装置 |
JPH1098346A (ja) * | 1996-09-24 | 1998-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 自動利得調整装置 |
JPH10207491A (ja) * | 1997-01-23 | 1998-08-07 | Toshiba Corp | 背景音/音声分類方法、有声/無声分類方法および背景音復号方法 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR660301A (fr) * | 1927-09-17 | 1929-07-10 | Appareil désargileur | |
JPS54139307A (en) * | 1978-04-20 | 1979-10-29 | Nec Corp | Pitch extraction unit |
DE2854484A1 (de) * | 1978-12-16 | 1980-06-26 | Bayer Ag | Stabile waessrige zeolith-suspensionen |
JPS5642296A (en) * | 1979-09-17 | 1981-04-20 | Nippon Electric Co | Pitch extractor |
JPS58140798A (ja) * | 1982-02-15 | 1983-08-20 | 株式会社日立製作所 | 音声ピツチ抽出方法 |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
JP3194930B2 (ja) * | 1990-02-22 | 2001-08-06 | 日本電気株式会社 | 音声符号化装置 |
US5632005A (en) * | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
JP3088163B2 (ja) * | 1991-12-18 | 2000-09-18 | 沖電気工業株式会社 | Lsp係数の量子化方法 |
US5734789A (en) | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
JP3148778B2 (ja) * | 1993-03-29 | 2001-03-26 | 日本電信電話株式会社 | 音声の符号化方法 |
WO1994007239A1 (en) * | 1992-09-16 | 1994-03-31 | Fujitsu Limited | Speech encoding method and apparatus |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
JPH0744198A (ja) * | 1993-08-02 | 1995-02-14 | Matsushita Electric Ind Co Ltd | 長期予測遅延探索方法 |
CA2136891A1 (en) | 1993-12-20 | 1995-06-21 | Kalyan Ganesan | Removal of swirl artifacts from celp based speech coders |
US5731767A (en) * | 1994-02-04 | 1998-03-24 | Sony Corporation | Information encoding method and apparatus, information decoding method and apparatus, information recording medium, and information transmission method |
JPH07273738A (ja) * | 1994-03-28 | 1995-10-20 | Toshiba Corp | 音声送信制御回路 |
US5742734A (en) | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5751903A (en) | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
US5774846A (en) | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
US5727072A (en) * | 1995-02-24 | 1998-03-10 | Nynex Science & Technology | Use of noise segmentation for noise cancellation |
US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
JP4005154B2 (ja) * | 1995-10-26 | 2007-11-07 | ソニー株式会社 | 音声復号化方法及び装置 |
JPH09127997A (ja) * | 1995-10-26 | 1997-05-16 | Sony Corp | 音声符号化方法及び装置 |
JPH09134196A (ja) * | 1995-11-08 | 1997-05-20 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
US5797121A (en) * | 1995-12-26 | 1998-08-18 | Motorola, Inc. | Method and apparatus for implementing vector quantization of speech parameters |
JPH09244695A (ja) * | 1996-03-04 | 1997-09-19 | Kobe Steel Ltd | 音声符号化装置及び復号化装置 |
US6215910B1 (en) * | 1996-03-28 | 2001-04-10 | Microsoft Corporation | Table-based compression with embedded coding |
JP3824706B2 (ja) * | 1996-05-08 | 2006-09-20 | 松下電器産業株式会社 | 音声符号化/復号化装置 |
JP3259759B2 (ja) * | 1996-07-22 | 2002-02-25 | 日本電気株式会社 | 音声信号伝送方法及び音声符号復号化システム |
JP3270922B2 (ja) * | 1996-09-09 | 2002-04-02 | 富士通株式会社 | 符号化,復号化方法及び符号化,復号化装置 |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
US6014622A (en) * | 1996-09-26 | 2000-01-11 | Rockwell Semiconductor Systems, Inc. | Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization |
JP4003240B2 (ja) * | 1996-11-07 | 2007-11-07 | 松下電器産業株式会社 | 音声符号化装置及び音声復号化装置 |
JP3464371B2 (ja) * | 1996-11-15 | 2003-11-10 | ノキア モービル フォーンズ リミテッド | 不連続伝送中に快適雑音を発生させる改善された方法 |
JP3575967B2 (ja) * | 1996-12-02 | 2004-10-13 | 沖電気工業株式会社 | 音声通信システムおよび音声通信方法 |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
US6026356A (en) * | 1997-07-03 | 2000-02-15 | Nortel Networks Corporation | Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form |
JP3343082B2 (ja) * | 1998-10-27 | 2002-11-11 | 松下電器産業株式会社 | Celp型音声符号化装置 |
-
1998
- 1998-11-24 US US09/198,414 patent/US6240386B1/en not_active Expired - Lifetime
-
1999
- 1999-08-21 TW TW088114349A patent/TW454170B/zh not_active IP Right Cessation
- 1999-08-24 EP EP09152356A patent/EP2088585A1/en not_active Ceased
- 1999-08-24 EP EP09152360A patent/EP2085966A1/en not_active Ceased
- 1999-08-24 EP EP99946655A patent/EP1110209B1/en not_active Expired - Lifetime
- 1999-08-24 WO PCT/US1999/019569 patent/WO2000011650A1/en active Search and Examination
- 1999-08-24 EP EP09152357A patent/EP2088586A1/en not_active Ceased
- 1999-08-24 EP EP09152354A patent/EP2088584A1/en not_active Ceased
- 1999-08-24 EP EP10180379A patent/EP2259255A1/en not_active Ceased
- 1999-08-24 EP EP09152359A patent/EP2088587A1/en not_active Ceased
- 1999-08-24 CA CA002341712A patent/CA2341712C/en not_active Expired - Lifetime
- 1999-08-24 JP JP2000566830A patent/JP2002523806A/ja active Pending
-
2010
- 2010-03-01 JP JP2010044662A patent/JP2010181892A/ja active Pending
- 2010-03-01 JP JP2010044660A patent/JP5519334B2/ja not_active Expired - Lifetime
- 2010-03-01 JP JP2010044659A patent/JP4995293B2/ja not_active Expired - Lifetime
- 2010-03-01 JP JP2010044661A patent/JP5374418B2/ja not_active Expired - Lifetime
- 2010-03-01 JP JP2010044663A patent/JP5476160B2/ja not_active Expired - Lifetime
-
2011
- 2011-04-19 JP JP2011093333A patent/JP5412463B2/ja not_active Expired - Lifetime
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63500543A (ja) * | 1985-07-01 | 1988-02-25 | モトロ−ラ・インコ−ポレ−テツド | 雑音抑圧システム |
JPH06511320A (ja) * | 1991-06-11 | 1994-12-15 | クゥアルコム・インコーポレイテッド | 可変速度ボコーダ |
JPH0685766A (ja) * | 1992-03-18 | 1994-03-25 | Philips Gloeilampenfab:Nv | オーディオ信号の編集方法及び装置 |
JPH06202698A (ja) * | 1993-01-07 | 1994-07-22 | Toshiba Corp | 適応ポストフィルタ |
JPH08505959A (ja) * | 1993-01-21 | 1996-06-25 | アップル コンピューター インコーポレイテッド | ベクトル量子化ベース音声符号化/複号化を用いたテキスト−音声合成システム |
JPH07160294A (ja) * | 1993-12-10 | 1995-06-23 | Nec Corp | 音声復号装置 |
JPH09204199A (ja) * | 1996-01-22 | 1997-08-05 | Rockwell Internatl Corp | 非活性音声の効率的符号化のための方法および装置 |
JPH1098346A (ja) * | 1996-09-24 | 1998-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 自動利得調整装置 |
JPH10207491A (ja) * | 1997-01-23 | 1998-08-07 | Toshiba Corp | 背景音/音声分類方法、有声/無声分類方法および背景音復号方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8620647B2 (en) | 1998-09-18 | 2013-12-31 | Wiav Solutions Llc | Selection of scalar quantixation (SQ) and vector quantization (VQ) for speech coding |
US8635063B2 (en) | 1998-09-18 | 2014-01-21 | Wiav Solutions Llc | Codebook sharing for LSF quantization |
US8650028B2 (en) | 1998-09-18 | 2014-02-11 | Mindspeed Technologies, Inc. | Multi-mode speech encoding system for encoding a speech signal used for selection of one of the speech encoding modes including multiple speech encoding rates |
US9190066B2 (en) | 1998-09-18 | 2015-11-17 | Mindspeed Technologies, Inc. | Adaptive codebook gain control for speech coding |
US9269365B2 (en) | 1998-09-18 | 2016-02-23 | Mindspeed Technologies, Inc. | Adaptive gain reduction for encoding a speech signal |
US9401156B2 (en) | 1998-09-18 | 2016-07-26 | Samsung Electronics Co., Ltd. | Adaptive tilt compensation for synthesized speech |
US8620649B2 (en) | 1999-09-22 | 2013-12-31 | O'hearn Audio Llc | Speech coding system and method using bi-directional mirror-image predicted pulses |
US10204628B2 (en) | 1999-09-22 | 2019-02-12 | Nytell Software LLC | Speech coding system and method using silence enhancement |
US10181327B2 (en) | 2000-05-19 | 2019-01-15 | Nytell Software LLC | Speech gain quantization strategy |
USRE43570E1 (en) | 2000-07-25 | 2012-08-07 | Mindspeed Technologies, Inc. | Method and apparatus for improved weighting filters in a CELP encoder |
US10134606B2 (en) | 2014-05-20 | 2018-11-20 | Samsung Electronics Co., Ltd. | Method of forming patterns and method of manufacturing integrated circuit device using the same |
Also Published As
Publication number | Publication date |
---|---|
US6240386B1 (en) | 2001-05-29 |
CA2341712A1 (en) | 2000-03-02 |
TW454170B (en) | 2001-09-11 |
EP2085966A1 (en) | 2009-08-05 |
JP2010181889A (ja) | 2010-08-19 |
JP2002523806A (ja) | 2002-07-30 |
EP1110209A1 (en) | 2001-06-27 |
JP5519334B2 (ja) | 2014-06-11 |
JP5476160B2 (ja) | 2014-04-23 |
EP2259255A1 (en) | 2010-12-08 |
EP2088584A1 (en) | 2009-08-12 |
JP2010181891A (ja) | 2010-08-19 |
CA2341712C (en) | 2008-01-15 |
JP5412463B2 (ja) | 2014-02-12 |
EP2088587A1 (en) | 2009-08-12 |
EP2088585A1 (en) | 2009-08-12 |
EP2088586A1 (en) | 2009-08-12 |
JP4995293B2 (ja) | 2012-08-08 |
JP2010181893A (ja) | 2010-08-19 |
JP2010181890A (ja) | 2010-08-19 |
WO2000011650A1 (en) | 2000-03-02 |
EP1110209B1 (en) | 2008-10-08 |
JP2011203737A (ja) | 2011-10-13 |
JP5374418B2 (ja) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5519334B2 (ja) | 音声符号化用開ループピッチ処理 | |
US6813602B2 (en) | Methods and systems for searching a low complexity random codebook structure | |
US6330533B2 (en) | Speech encoder adaptively applying pitch preprocessing with warping of target signal | |
US6493665B1 (en) | Speech classification and parameter weighting used in codebook search | |
US6260010B1 (en) | Speech encoder using gain normalization that combines open and closed loop gains | |
US6507814B1 (en) | Pitch determination using speech classification and prior pitch estimation | |
US6173257B1 (en) | Completed fixed codebook for speech encoder | |
US6823303B1 (en) | Speech encoder using voice activity detection in coding noise | |
US9190066B2 (en) | Adaptive codebook gain control for speech coding | |
EP1194924B1 (en) | Adaptive tilt compensation for synthesized speech residual | |
US6449590B1 (en) | Speech encoder using warping in long term preprocessing | |
KR20020077389A (ko) | 광대역 신호의 코딩을 위한 대수적 코드북에서의 펄스위치 및 부호의 인덱싱 | |
WO2000011651A9 (en) | Synchronized encoder-decoder frame concealment using speech coding parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120417 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120713 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120719 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120813 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130820 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140902 |