JPH0561499A - Voice encoding/decoding method - Google Patents

Voice encoding/decoding method

Info

Publication number
JPH0561499A
JPH0561499A JP3267112A JP26711291A JPH0561499A JP H0561499 A JPH0561499 A JP H0561499A JP 3267112 A JP3267112 A JP 3267112A JP 26711291 A JP26711291 A JP 26711291A JP H0561499 A JPH0561499 A JP H0561499A
Authority
JP
Japan
Prior art keywords
opt
vector
optimum
pitch
codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3267112A
Other languages
Japanese (ja)
Other versions
JP3100082B2 (en
Inventor
Hideaki Kurihara
秀明 栗原
Tomohiko Taniguchi
智彦 谷口
Takashi Ota
恭士 大田
Yoshihiro Sakai
良広 坂井
Yoshiaki Tanaka
良紀 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP03267112A priority Critical patent/JP3100082B2/en
Publication of JPH0561499A publication Critical patent/JPH0561499A/en
Application granted granted Critical
Publication of JP3100082B2 publication Critical patent/JP3100082B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PURPOSE:To curtail the arithmetic quantity by calculating a time inversion auditory sense weighing input sound signal vector and multiplying it by each pitch prediction residual vector of an adaptive code book generating a correlation value of both of them. CONSTITUTION:An arithmetic means 21 calculates a time inversion auditory sense weighting input sound signal vector <1>AAX from an input sound signal vector AX subjected to auditory sense weighing. Also, a multiplying part 22 multiplies the time inversion auditory sense weighting input sound signal vector <t>AAXC and each pitch prediction residual vector P of an adaptive code book 1 and generated a correlation value t(AP)AX of both of them. Subsequently, a filter arithmetic part 23 derives a self-correlation value <t>(AP)AP of a vector AP after auditory sense weighting reproduction of each pitch prediction residual vector P of the adaptive code book 1. Moreover, an evaluating party 10 selects an optimal pitch prediction residual vector Popt and gain bopt for minimizing power of an error signal E to the input sound signal vector AX subjected to auditory sense weighting, based on both correlation values.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声符号化・復号化方
式に関し、特にベクトル量子化を用いて音声信号の情報
圧縮を行う高能率な音声符号化・復号化方式に関するも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech coding / decoding method, and more particularly to a highly efficient speech coding / decoding method for compressing information of a speech signal by using vector quantization.

【0002】近年、企業内通信システム・ディジタル移
動無線システムなどにおいて、音声信号をその品質を保
持しつつ情報圧縮するベクトル量子化方式が用いられて
いるが、このベクトル量子化方式とは、符号帳(コード
ブック)の各信号ベクトルに予測重み付けを施して再生
信号を作り、再生信号と入力音声信号との間の誤差電力
を評価して最も誤差の小さい信号ベクトルの番号(イン
デックス)を決定するものとして良く知られたものであ
るが、音声情報をより一層圧縮するためこのベクトル量
子化方式をより進めた方式に対する要求が高まってい
る。
In recent years, a vector quantization method for compressing information while maintaining the quality of a voice signal has been used in a corporate communication system, a digital mobile radio system and the like. This vector quantization method is a codebook. Prediction weighting is applied to each signal vector in the (codebook) to create a reproduced signal, and the error power between the reproduced signal and the input audio signal is evaluated to determine the number (index) of the signal vector with the smallest error. However, there is an increasing demand for a method that is a more advanced version of this vector quantization method in order to further compress audio information.

【0003】[0003]

【従来の技術】図12及び図13には、ベクトル量子化
を用いたCELP(Code Excited LPC)と呼ばれる高能率
音声符号化方式が示されており、この内、図12は逐次
最適化CELPと呼ばれ、図13は同時最適化CELP
と呼ばれる方式を示している。尚、以下の説明で用いる
符号P,X,Y,C,及びEはそれぞれベクトルを意味
するものとする(但し、図面中ではベクトル特有の記号
で示している)。
2. Description of the Related Art FIGS. 12 and 13 show a high-efficiency speech coding system called CELP (Code Excited LPC) using vector quantization. Among them, FIG. 12 shows sequential optimization CELP. Called, Figure 13 is a joint optimization CELP
The method is called. The symbols P, X, Y, C, and E used in the following description each mean a vector (however, in the drawings, they are shown by vector-specific symbols).

【0004】図12において、適応符号帳1aは音声信
号を1サンプルづつピッチ周期が遅延されたNサンプル
に対応するN次元のピッチ予測残差ベクトルが適応的に
変化しながら格納されて行くものであり、また固定符号
帳2には同様のNサンプルに対応するN次元の白色雑音
を用いて生成した適応符号帳1aでの周期的な成分以外
の非周期的な成分のコード・ベクトルが2m パターンだ
け予め固定設定されている。
In FIG. 12, an adaptive codebook 1a stores an audio signal while adaptively changing an N-dimensional pitch prediction residual vector corresponding to N samples whose pitch period is delayed by one sample. Also, the fixed codebook 2 has 2 m of code vectors of non-periodic components other than the periodic components in the adaptive codebook 1a generated by using N-dimensional white noise corresponding to the same N samples. Only the pattern is fixed in advance.

【0005】まず、適応符号帳1aの各ピッチ予測残差
ベクトルPにスカラーA=1/A’(Z) (但し、A’
(Z) は聴覚重み付け線形予測分析フィルタを示す)で示
される聴覚重み付け線形予測再生フィルタ3で聴覚重み
付けして生成されたピッチ予測ベクトルAPにゲイン5
でゲインbを乗算してピッチ予測再生信号ベクトルbA
Pを生成する。
First, a scalar A = 1 / A '(Z) (where A'is included in each pitch prediction residual vector P of the adaptive codebook 1a).
(Z) indicates a perceptual weighted linear prediction analysis filter) and a gain of 5 is added to the pitch prediction vector AP generated by perceptual weighting by the perceptual weighted linear prediction reproduction filter 3
Is multiplied by a gain b to obtain a pitch prediction reproduction signal vector bA
Generate P.

【0006】そして、このピッチ予測再生信号ベクトル
bAPと、A(Z) /A’(Z) (但し、A(Z) は線形予測
分析フィルタを示す)で示される聴覚重み付けフィルタ
7で聴覚重み付けされた入力音声信号ベクトルAXとの
間で聴覚重み付けされたピッチ予測誤差信号ベクトルA
Yを減算部8で求め、このピッチ予測誤差信号ベクトル
AYの電力が最小の値になるように評価部10がフレー
ム毎に下記式: P=argmin(|AY|2 ) =argmin(|AX−bAP|2 ) …… により、符号帳1aの中から最適なピッチ予測残差ベク
トルPを選択すると共に最適なゲインbを選択する。
The pitch prediction reproduction signal vector bAP and the perceptual weighting filter 7 represented by A (Z) / A '(Z) (where A (Z) represents a linear prediction analysis filter) are perceptually weighted. And the input speech signal vector AX
Y is obtained by the subtraction unit 8, and the evaluation unit 10 calculates the following formula for each frame so that the power of the pitch prediction error signal vector AY becomes a minimum value: P = argmin (| AY | 2 ) = argmin (| AX− bAP | 2 ) ..., the optimum pitch prediction residual vector P is selected from the codebook 1a, and the optimum gain b is selected.

【0007】更に、白色雑音の固定符号帳2の各コード
・ベクトル信号Cにも同様にして線形予測再生フィルタ
4で聴覚重み付けして生成された聴覚重み付け再生後の
コード・ベクトルACにゲイン6でゲインgを乗算して
線形予測再生信号ベクトルgACを生成する。
Further, each code vector signal C of the fixed codebook 2 of white noise is similarly perceptually weighted by the linear predictive reproduction filter 4 and generated with the gain 6 to the code vector AC after perceptual weighting reproduction. The gain g is multiplied to generate the linear prediction reproduction signal vector gAC.

【0008】そして、この線形予測再生信号ベクトルg
ACと、上記のピッチ予測誤差信号ベクトルAYとの誤
差信号ベクトルEを減算部9で求め、この誤差信号ベク
トルEの電力が下記の式: C=argmin(|E|2 ) =argmin(|AY−gAC|2 ) …… により最小の値になるように評価部11がフレーム毎に
符号帳2の中から最適なコード・ベクトルCを選択する
と共に最適なゲインgを選択する。
Then, the linear prediction reproduction signal vector g
An error signal vector E between AC and the pitch prediction error signal vector AY is obtained by the subtraction unit 9, and the power of this error signal vector E is expressed by the following formula: C = argmin (| E | 2 ) = argmin (| AY -GAC | 2 ) ... The evaluation unit 11 selects the optimum code vector C from the codebook 2 for each frame and the optimum gain g so that the value becomes the minimum value.

【0009】尚、適応符号帳1aの適応化(更新)は、
最適駆動音源信号bAP+gACを加算部12で求め、
これを聴覚重み付け線形予測分析フィルタ( A' (Z) )
13でbP+gCに戻し、更に遅延器14で1フレーム
分遅延させたものを次のフレームの適応符号帳(ピッチ
予測符号帳)として格納することにより行われる。
The adaptation (update) of the adaptive codebook 1a is
The optimum driving sound source signal bAP + gAC is obtained by the addition unit 12,
This is a perceptual weighting linear prediction analysis filter (A '(Z))
This is performed by returning the signal to bP + gC in 13 and further delaying it by one frame in the delay device 14 as the adaptive codebook (pitch prediction codebook) of the next frame.

【0010】このように図12に示した逐次最適化CE
LP方式では、ゲインbとgが別々に制御されるのに対
し、図13に示した同時最適化CELP方式では、bA
PとgACとを加算部15で加算してAX’=bAP+
gACを求め、更に減算部8でフィルタ7からの聴覚重
み付けされた入力音声信号ベクトルAXとの誤差信号ベ
クトルEを上記の式と同様にして求め、評価部16が
このベクトルEの電力を最小にするコード・ベクトルC
を固定符号帳2から選択すると共に最適なゲインbとg
を同時に選択制御するものである。
Thus, the sequential optimization CE shown in FIG.
In the LP method, the gains b and g are controlled separately, whereas in the simultaneous optimization CELP method shown in FIG.
P and gAC are added by the addition unit 15 and AX ′ = bAP +
gAC is obtained, and the subtraction unit 8 further obtains an error signal vector E with the perceptually weighted input speech signal vector AX from the filter 7 in the same manner as the above equation, and the evaluation unit 16 minimizes the power of this vector E. Code vector C
Is selected from the fixed codebook 2 and optimum gains b and g are obtained.
Are controlled simultaneously.

【0011】この場合には、上記の式,より、 C=argmin(|E|2 ) =argmin(|AX−bAP−gAC|2 ) …… となる。In this case, from the above equation, C = argmin (| E | 2 ) = argmin (| AX-bAP-gAC | 2 ) ...

【0012】尚、この場合の適応符号帳1aの適応化
は、図12の加算部12の出力に相当するAX’に対し
て同様にして行われる。また、フィルタ3,4は加算部
15の後に共通に設けてもよく、このときには逆フィル
タ13は不要となる。
The adaptation of the adaptive codebook 1a in this case is similarly performed for AX 'corresponding to the output of the adder 12 in FIG. Further, the filters 3 and 4 may be provided in common after the addition unit 15, and in this case, the inverse filter 13 is not necessary.

【0013】ところで、実際の符号帳探索は、適応符号
帳1aに対する探索と、固定符号帳2に対する探索の二
段階に分けて行われ、適応符号帳1aのピッチ探索にお
いては、上記の式の場合であっても、式に示すよう
に行われる。
By the way, the actual codebook search is performed in two steps, that is, the search for the adaptive codebook 1a and the search for the fixed codebook 2. In the pitch search of the adaptive codebook 1a, the above equation is used. Even is done as shown in the equation.

【0014】即ち、上記の式において、ベクトルEの
電力を最小にするためのゲインgを偏微分により求める
と、 0=δ(|AX−bAP|2)/δb =2 t( −bAP)(AX−bAP) より、 b= t( AP) AX/ t( AP)AP … となる。但し、「 t」は転置行列を示す。
That is, in the above equation, the gain g for minimizing the electric power of the vector E is obtained by partial differentiation: 0 = δ (│AX-bAP│ 2 ) / δb = 2 t (-bAP) ( From AX-bAP), b = t (AP) AX / t (AP) AP. However, " t " shows a transposed matrix.

【0015】そこで、図14に示すピッチ周期の最適化
アルゴリズムにおいては、聴覚重み付け入力音声信号ベ
クトルAXと、適応符号帳1aの各ピッチ予測残差ベク
トルPを聴覚重み付け線形予測再生フィルタ4に通して
得られるコード・ベクトルAPとを乗算部41で乗算し
て両者の相関値 t( AP) AXを発生し、聴覚重み付け
再生後のピッチ予測残差ベクトルAPの自己相関値 t(
AP) APを乗算部42で求める。
Therefore, in the pitch period optimization algorithm shown in FIG. 14, the auditory weighted input speech signal vector AX and each pitch prediction residual vector P of the adaptive codebook 1a are passed through the auditory weighted linear prediction reproduction filter 4. the resulting code vector AP is multiplied by the multiplication unit 41 generates a correlation value t (AP) AX of both, after perceptual weighting reproduction pitch prediction residual vector AP autocorrelation value t (
AP) AP is calculated by the multiplication unit 42.

【0016】そして、評価部10では、両相関値 t( A
P) AX及び t( AP) APに基づいて上記の式によ
り聴覚重み付け入力信号ベクトルAXに対する誤差信号
ベクトルE=AYの電力を最小にする最適なピッチ予測
残差信号ベクトルP及びゲインbを選択する。
Then, in the evaluation section 10, both correlation values t (A
P) AX and t (AP) Select the optimum pitch prediction residual signal vector P and gain b that minimizes the power of the error signal vector E = AY with respect to the perceptually weighted input signal vector AX according to the above equation based on AP ..

【0017】尚、上記の式を最小とするように各ピッ
チ予測残差信号ベクトルPに対してゲインbが求めら
れ、このゲインに対する量子化がオープン・ループで行
われるなら、相関値の比率、 ( t(AX)AP)2 t(AP)AP を最大にすることと等価になる。
If the gain b is obtained for each pitch prediction residual signal vector P so as to minimize the above equation, and the quantization for this gain is performed in open loop, the ratio of the correlation value, It is equivalent to maximizing ( t (AX) AP) 2 / t (AP) AP.

【0018】即ち、 となり、この右辺第2項を最大にすれば良い。That is, Therefore, the second term on the right side should be maximized.

【0019】[0019]

【発明が解決しようとする課題】このような適応符号帳
1aのピッチ探索においては、適応符号帳1aの各ピッ
チ予測残差信号ベクトルPに対してフィルタ4で聴覚重
み付け再生フィルタのインパルス応答が畳み込まれるの
で、適応符号帳1aのM本(M=128〜256)の各
ピッチ予測残差信号ベクトルの次元をN(通常N=40
〜60)、聴覚重み付けフィルタ4の次数をNP (II
R型フィルタの場合はNP =10) とすると、乗算部4
1での演算量は、各ベクトル毎に聴覚重み付けフィルタ
に要する演算量N×NP と、ベクトルの内積計算に要す
る演算量Nとの和となる。
In such a pitch search of the adaptive codebook 1a, the impulse response of the auditory weighting reproduction filter is convolved by the filter 4 with respect to each pitch prediction residual signal vector P of the adaptive codebook 1a. Therefore, the dimension of each of M (M = 128 to 256) pitch prediction residual signal vectors of the adaptive codebook 1a is set to N (normally N = 40).
, 60), the order of the perceptual weighting filter 4 is set to N P (II
In the case of an R type filter, if N P = 10), the multiplication unit 4
The calculation amount for 1 is the sum of the calculation amount N × N P required for the perceptual weighting filter for each vector and the calculation amount N required for the inner product calculation of the vector.

【0020】そして、最適なピッチ・ベクトルPを決定
するには、適応符号帳1aに含まれるM本のピッチ・ベ
クトルの全てについてこの演算量が必要となり、演算量
が膨大になるという問題点があった。
In order to determine the optimum pitch vector P, this calculation amount is required for all of the M pitch vectors included in the adaptive codebook 1a, which causes a problem that the calculation amount becomes huge. there were.

【0021】また、過去のフレームの最適駆動音源信号
をそのまま帰還させて適応符号帳1aの更新を行ってい
るので、図15に示すように、固定符号帳2からのコー
ドベクトル成分をも含んだ信号が帰還されてしまい、適
応符号帳にとって好ましくない非周期的な雑音成分が重
畳されてしまい、特に駆動音源信号の性質としてピッチ
周期の強い有声音の区間において符号化音声品質の劣化
を招くという問題点もあった。
Since the adaptive codebook 1a is updated by directly feeding back the optimum driving excitation signal of the past frame, the code vector component from the fixed codebook 2 is also included, as shown in FIG. The signal is fed back, and an aperiodic noise component that is not preferable for the adaptive codebook is superimposed, and the quality of the coded speech is deteriorated especially in the voiced sound section having a strong pitch period as a property of the driving excitation signal. There were also problems.

【0022】従って、本発明は、このような適応符号帳
によりピッチ周期探索による長期予測を行うCELP型
の音声符号化・復号化方式において、ピッチ周期探索の
演算量をできるだけ少なくすると共に固定符号帳から非
周期な雑音成分が適応符号帳に漏れ込まないようにする
ことを目的とする。
Therefore, according to the present invention, in the CELP-type speech coding / decoding system for performing long-term prediction by pitch period search by such an adaptive codebook, the calculation amount of pitch period search is minimized and the fixed codebook is used. The purpose is to prevent non-periodic noise components from leaking into the adaptive codebook.

【0023】[0023]

【課題を解決するための手段】図1は、上記の課題を解
決するための本発明に係る音声符号化方式における適応
符号帳1の最適なピッチ・ベクトルP及びゲインbを選
択するための最適化アルゴリズムを概念的に示したもの
で、図14に示した従来例の最適化アルゴリズムの改良
に相当している。
FIG. 1 is a block diagram of an optimum pitch vector P and a gain b of an adaptive codebook 1 in a speech coding system according to the present invention for solving the above problems. This is a conceptual illustration of the optimization algorithm, which corresponds to the improvement of the optimization algorithm of the conventional example shown in FIG.

【0024】この発明では、適応符号帳1が、所定の要
素を除いて全てゼロのスパース符号帳であると共に、そ
の中からピッチ探索により選択された最適ピッチ・ベク
トルbopt opt をスパース化回路17でスパース化し
た後、固定符号帳2から符号帳探索により選択された最
適コードベクトルgopt opt と加えあわせ遅延器14
で1フレーム分遅延させて与えることにより更新されて
いる。尚、スパース回路17のスパース化は、一定閾値
Th又は所定サンプル数の平均信号振幅に応じた適応閾
値Thを基準として行うことができる。
According to the present invention, the adaptive codebook 1 is a sparse codebook having all zeros except for predetermined elements, and the optimum pitch vector b opt P opt selected by pitch search from the adaptive codebook 1 is sparse circuit. After being sparsed by 17, the optimum code vector g opt C opt selected by the codebook search from the fixed codebook 2 is added to the delay unit 14
It is updated by delaying by 1 frame and giving. The sparse circuit 17 can be made sparse based on the fixed threshold Th or the adaptive threshold Th according to the average signal amplitude of a predetermined number of samples.

【0025】そして更に、聴覚重み付けされた入力音声
信号ベクトルAXから時間反転聴覚重み付け入力音声信
号ベクトル tAAXを算出する演算手段21と、時間反
転聴覚重み付け入力音声信号ベクトル tAAXと適応符
号帳1の各ピッチ予測残差ベクトルPとを乗算して両者
の相関値t(AP) AXを発生する乗算部22と、適応
符号帳1の各ピッチ予測残差ベクトルPの聴覚重み付け
再生後のベクトルAPの自己相関値 t(AP) APを求
めるフィルタ演算部23と、両相関値に基づいて聴覚重
み付けされた入力音声信号ベクトルAXに対する誤差信
号Eの電力を最小にする最適なピッチ予測残差ベクトル
opt 及びゲインboptを選択する評価部10とを備え
ている。
Further, the calculating means 21 for calculating the time-reversed auditory-weighted input speech signal vector t AAX from the auditory-weighted input speech signal vector AX, the time-reversed auditory-weighted input speech signal vector t AAX and the adaptive codebook 1 are used. A multiplication unit 22 that multiplies each pitch prediction residual vector P by each other to generate a correlation value t (AP) AX between them, and a vector AP after the auditory weighting reproduction of each pitch prediction residual vector P of the adaptive codebook 1 A filter operation unit 23 for obtaining an autocorrelation value t (AP) AP, and an optimum pitch prediction residual vector P opt that minimizes the power of the error signal E with respect to the perceptually weighted input speech signal vector AX based on both correlation values. And an evaluation unit 10 that selects the gain b opt .

【0026】また、図1に示すような符号化側に対し
て、本発明の復号化側では、図2に示すように、符号化
側と同一のスパース適応符号帳1と固定符号帳2とスパ
ース化回路17と遅延器14とを設け、適応符号帳1の
内の最適選択されたピッチ予測残差ベクトルPopt に最
適ゲインbopt を乗じることにより得た最適コード・ベ
クトルbopt opt を該スパース化回路17でスパース
化し、固定符号帳2の最適選択されたコード・ベクトル
opt に最適ゲインgopt を乗じることにより得た最適
コード・ベクトルgopt opt とを加算したコード・ベ
クトルXを線形予測再生フィルタ200を通して再生信
号を得ると共にスパース化回路17に与えている。この
場合もスパース回路17のスパース化は、一定閾値Th
又は平均信号振幅に応じた適応閾値Thを基準として行
うことができる。
In contrast to the coding side as shown in FIG. 1, the decoding side of the present invention has the same sparse adaptive codebook 1 and fixed codebook 2 as the coding side, as shown in FIG. An optimal code vector b opt P opt obtained by multiplying the optimally selected pitch prediction residual vector P opt in the adaptive codebook 1 by the optimal gain b opt is provided by providing the sparsification circuit 17 and the delay unit 14. A code vector X which is sparsed by the sparsification circuit 17 and is added with an optimum code vector g opt C opt obtained by multiplying the optimum selected code vector C opt of the fixed codebook 2 by an optimum gain g opt. Is obtained through the linear predictive reproduction filter 200 and is given to the sparsification circuit 17. Also in this case, the sparse circuit 17 is made sparse by a constant threshold Th.
Alternatively, the adaptive threshold Th according to the average signal amplitude can be used as a reference.

【0027】また、上記の図1及び図2におけるスパー
ス化回路17は、それぞれ図3及び図4に示すように、
最適ピッチ・ベクトルboptoptに対してではなく、該
最適ピッチ・ベクトルboptoptと最適コードベクトル
opt opt とを加え合わせた値に対して設けてもよ
く、この場合には、全体のパワーに占める該最適コード
ベクトルgopt opt のパワーの割合に対応した閾値T
hを閾値演算回路18で生成してスパース化回路17に
与えてスパース化した後、遅延器14に送ることとな
る。
Further, the sparsification circuit 17 in FIGS. 1 and 2 is as shown in FIGS. 3 and 4, respectively.
Optimal Pitch rather than to vector b opt P opt, the optimum pitch vector b opt P opt and the optimal code vector g opt C opt and may be provided with respect to the added combined value, in this case, Threshold value T corresponding to the ratio of the power of the optimum code vector g opt C opt to the total power
After the h is generated by the threshold value calculation circuit 18 and given to the sparsification circuit 17 to be sparsified, it is sent to the delay device 14.

【0028】このようなCELP方式においては、図5
(a) に示すように、演算手段21が、FIR聴覚重み付
けフィルタ・マトリックスの転置マトリックス tAを乗
算するもので構成することができる。
In such a CELP system, as shown in FIG.
As shown in (a), the calculating means 21 may be configured to multiply the transposed matrix t A of the FIR auditory weighting filter matrix.

【0029】或いは、図5(b) に示すように、演算手段
21が、入力信号を時間軸上で逆に並べ換え、IIR聴
覚重み付けフィルタ処理 (1/A' (Z) )した後、再び
時間軸上で逆に並べ換えるもので構成することもでき
る。
Alternatively, as shown in FIG. 5 (b), the calculating means 21 rearranges the input signals in reverse order on the time axis, performs IIR auditory weighting filter processing (1 / A '(Z)), and then repeats the time. It can also be configured by rearranging in reverse on the axis.

【0030】[0030]

【作用】まず、図1に示した本発明のCELP型の音声
符号化方式においては、適応符号帳1がスパース化され
た最適駆動音源信号によって更新されているので、常に
格納されるピッチ予測残差信号ベクトルが所定のサンプ
ルを除いてゼロとなっているスパース(間引)状態に在
る。
First, in the CELP type speech coding system of the present invention shown in FIG. 1, since the adaptive codebook 1 is updated by the sparsified optimum driving excitation signal, the pitch prediction residue that is always stored. It is in a sparse (decimated) state in which the difference signal vector is zero except for a predetermined sample.

【0031】そして、評価部10に与えるべき一方の自
己相関値 t(AP) APは図14に示した従来例と同様
にして演算されるが、相関値 t(AP) AXの方は、聴
覚重み付け入力音声信号ベクトルAXを演算手段21で
tAAXに変換しておき、スパース構成の適応符号帳2
のピッチ予測残差信号ベクトルPをそのまま乗算部22
に与えることにより得ているので、スパース回路17で
スパース化された適応符号帳1の利点をそのまま生かし
た形で(即ち、サンプル値が“0”の部分に対する乗算
を行わない形で)乗算を行うことができ、演算量を削減
することができる。これは、逐次最適化方式及び同時最
適化CELP方式のいずれの場合にも全く同様に適用す
ることができると共に更には、両者を組み合わせたピッ
チ直交最適化CELP方式にも適用することができる。
One autocorrelation value t (AP) AP to be given to the evaluation unit 10 is calculated in the same manner as in the conventional example shown in FIG. 14, but the correlation value t (AP) AX is the auditory sense. The weighted input audio signal vector AX is calculated by the calculating means 21.
Adaptive codebook 2 with sparse structure after conversion to t AAX
Of the pitch prediction residual signal vector P
Since it is obtained by applying to the sparse circuit 17, the multiplication is performed in a form in which the advantage of the adaptive codebook 1 sparsed by the sparse circuit 17 is used as it is (that is, in the form in which the portion of which the sample value is “0” is not multiplied). This can be performed and the amount of calculation can be reduced. This can be applied in exactly the same manner to both the sequential optimization method and the simultaneous optimization CELP method, and further to the pitch orthogonal optimization CELP method in which both are combined.

【0032】また、スパース回路17で各サンプルの信
号振幅を閾値と比較することにより、閾値を越えないサ
ンプル点についてはサンプル値を零に置き換えることに
より非周期成分の適応符号帳1への漏れ込みを防ぐこと
もできる。
The sparse circuit 17 compares the signal amplitude of each sample with a threshold value, and replaces the sample value with zero for sample points that do not exceed the threshold value, thereby leaking aperiodic components into the adaptive codebook 1. Can be prevented.

【0033】更に、スパース化回路17を、それぞれ図
3及び図4に示すように、最適ピッチ・ベクトルbopt
opt に対してではなく、該最適ピッチ・ベクトルb
opt opt と最適コードベクトルgopt opt とを加え
合わせた値に対して設け、このスパース回路17で、全
体のパワーに占める該固定符号帳2のパワーの比に対応
した閾値Thを閾値演算回路18で生成してスパース化
回路17に与えてスパース化した後、遅延器14に送る
ようにすれば、より一層非周期成分の適応符号帳1への
漏れ込みを抑制することができる。
Further, the sparsification circuit 17 is provided with an optimum pitch vector b opt as shown in FIGS. 3 and 4, respectively.
The optimal pitch vector b, not for P opt
It is provided for a value obtained by adding opt P opt and the optimum code vector g opt C opt, and the sparse circuit 17 calculates a threshold Th corresponding to the ratio of the power of the fixed codebook 2 to the total power. If the circuit 18 generates the signal, supplies it to the sparsification circuit 17 to make it sparse, and then sends it to the delay device 14, it is possible to further suppress the leakage of the aperiodic component into the adaptive codebook 1.

【0034】即ち、音声は有声音のときには、或る一定
周期の信号(ピッチ周期)が大きくなり、他の非周期成
分との振幅差が大きくなる。逆に、無声音のときには、
ピッチ周期西部が殆ど無くなり非周期成分が優勢になり
振幅差が無くなってくる。
That is, when the voice is a voiced sound, a signal of a certain fixed period (pitch period) becomes large, and an amplitude difference from other aperiodic components becomes large. Conversely, when unvoiced,
The western part of the pitch period is almost eliminated, and the non-periodic component becomes dominant and the amplitude difference disappears.

【0035】従って、ピッチ周期成分と非周期成分との
差、即ち適応符号帳と固定符号帳の信号パワー差(全体
のパワーに占める固定符号帳2のパワーの比)によりス
パース回路17の閾値を適応的に可変にすることによ
り、非周期成分の適応符号帳1への漏れ込みを少なくす
ることができる。
Therefore, the threshold value of the sparse circuit 17 is determined by the difference between the pitch periodic component and the aperiodic component, that is, the signal power difference between the adaptive codebook and the fixed codebook (the ratio of the fixed codebook 2 power to the total power). By making it adaptively variable, leakage of non-periodic components into the adaptive codebook 1 can be reduced.

【0036】また、図1に示すような符号化側に対し
て、本発明の復号化側では、図2に示すように符号化側
から知らされた適応符号帳1の内の最適選択されたピッ
チ予測残差ベクトルPopt に最適ゲインbopt を乗じる
ことにより得た最適コード・ベクトルbopt opt と、
やはり符号化側から知らされた固定符号帳2の最適選択
されたコード・ベクトルCopt に最適ゲインgopt を乗
じることにより得た最適コード・ベクトルgopt opt
とを加算したコード・ベクトルXを線形予測再生フィル
タ200を通して再生信号を得ることにより適応符号帳
1の更新を行っている。
Further, in contrast to the encoding side as shown in FIG. 1, the decoding side of the present invention is the optimum selection from the adaptive codebook 1 notified from the encoding side as shown in FIG. An optimum code vector b opt P opt obtained by multiplying the pitch prediction residual vector P opt by an optimum gain b opt ,
Again the optimal code vectors obtained by multiplying the optimum gain g opt optimally selected code vector C opt fixed codebook 2 was informed from the encoding side g opt C opt
The adaptive codebook 1 is updated by obtaining the reproduction signal of the code vector X obtained by adding and through the linear prediction reproduction filter 200.

【0037】尚、この場合において、演算手段21が、
図5(b) に示すように、入力信号を時間軸上で逆に並べ
換えし、IIR聴覚重み付けフィルタ処理(1/A’
(Z) )した後、再び時間軸上で逆に並べ換えするもので
構成する場合には、図5(a) に示すように、FIR聴覚
重み付けフィルタ・マトリックスの転置マトリックス t
Aを乗算するもので構成する場合に比べて、IIRとF
IRの違いにより演算量が削減される。
In this case, the calculation means 21 is
As shown in Fig. 5 (b), the input signals are rearranged in the reverse order on the time axis, and IIR auditory weighting filter processing (1 / A '
(Z)) and then rearranging them again on the time axis, the transposed matrix t of the FIR auditory weighting filter matrix as shown in FIG.
Compared to the case where it is configured by multiplying A, IIR and F
The amount of calculation is reduced due to the difference in IR.

【0038】[0038]

【実施例】図6は、図1及び図2に示したスパース化回
路17の一実施例を示したもので、この実施例では、図
6(a) に示すように、一定の閾値Th以上の値を有する
サンプル点については、入力値をそのまま出力し、閾値
Th以下の場合は入力値がゼロに置き換えられてスパー
ス化される。
FIG. 6 shows an embodiment of the sparsification circuit 17 shown in FIGS. 1 and 2. In this embodiment, as shown in FIG. For a sample point having a value of, the input value is output as it is, and when it is less than or equal to the threshold Th, the input value is replaced with zero and sparsified.

【0039】従って、この場合のスパース化回路17は
同図(b) に示すようにセンター・クリッピング特性を有
する回路となり、このようなセンター・クリッピング回
路の実現手法としては、例えば2通り考えられる。
Therefore, the sparsification circuit 17 in this case becomes a circuit having a center clipping characteristic as shown in FIG. 9B, and there are two possible methods for realizing such a center clipping circuit.

【0040】まず、図7に示す実施例では、入力信号
(最適ピッチ予測残差信号)の各サンプル点の値を、そ
の絶対値(信号振幅)の大きい方から順位を付け、その
上位から所望のサンプル数(一定閾値Thに相当)まで
はそのまま出力し、それ以外のサンプル点はゼロに置き
換えている。これにより、ピッチ探索の演算量に直接の
影響を与える“ゼロでないサンプル点”の数(スパース
度)を正確に制御できることとなる。
First, in the embodiment shown in FIG. 7, the value of each sample point of the input signal (optimum pitch prediction residual signal) is ranked from the one having the larger absolute value (signal amplitude), and the value is desired from the higher order. Up to the number of samples (corresponding to the constant threshold Th) are output as they are, and the other sample points are replaced with zero. As a result, the number of "non-zero sample points" (degree of sparseness) that directly affects the calculation amount of pitch search can be accurately controlled.

【0041】一方、図8に示す実施例では、入力信号に
対して所定サンプル当たりの平均信号振幅VAVを算出
し、その値VAVに係数λを乗じて閾値Th=VAV・λを
決定し、この閾値Thを用いてセンター・クリッピング
を行うものである。この場合には、入力信号の性質によ
って適応符号帳1のスパース度は多少変化するが、図7
の実施例に比べてサンプル点の順位付けに必要な演算量
が不要となるため、より少ない演算量で済むこととな
る。
On the other hand, in the embodiment shown in FIG. 8, the average signal amplitude V AV per predetermined sample is calculated for the input signal, and the value V AV is multiplied by the coefficient λ to determine the threshold Th = V AV · λ. However, the center clipping is performed using this threshold Th. In this case, the degree of sparseness of the adaptive codebook 1 changes somewhat depending on the nature of the input signal.
As compared with the embodiment described above, the amount of calculation required for ranking the sample points is unnecessary, and thus the amount of calculation can be reduced.

【0042】図9は、図3及び図4に示した閾値演算回
路18の一実施例を示したもので、この実施例では、閾
値Thを適応符号帳に帰還される最適駆動音源信号中の
ピッチベクトル及びコードベクトルの各成分のパワー
(電力)|bopt opt 2 及び|gopt opt 2
(ベクトルの内積演算により)算出し、この内のコード
ベクトルの成分パワー|gopt opt 2 が全体に占め
る割合(kC ) を次式のように求める。 kC =(|gopt opt 2/(|bopt opt 2+|gopt opt 2))1/2 但し、0≦kC ≦1である。
FIG. 9 shows an embodiment of the threshold value calculation circuit 18 shown in FIGS. 3 and 4. In this embodiment, the threshold value Th is fed back to the adaptive codebook in the optimum drive excitation signal. The power (electric power) | b opt P opt | 2 and | g opt C opt | 2 of each component of the pitch vector and the code vector is calculated (by vector inner product calculation), and the component power of the code vector | g opt The ratio (k C ) of C opt | 2 to the whole is calculated by the following equation. k C = (| g opt C opt | 2 / (| b opt P opt | 2 + | g opt C opt | 2 )) 1/2 where 0 ≦ k C ≦ 1.

【0043】そして、このkC の関数f(kC )として
図9に示すように閾値Th=λ/kC が決定される。但
し、λは経験により決定される定数である。
[0043] Then, the threshold Th = λ / k C as shown as the k C of the function f (k C) in FIG. 9 is determined. However, λ is a constant determined by experience.

【0044】一方、ピッチベクトルの成分パワー|g
opt opt 2 が全体に占める割合(kP ) は、次式の
ようになる。 kp =(|bopt opt 2/(|bopt opt 2+|gopt opt 2))1/2 但し、kC 2 +kp 2 =1である。
On the other hand, the component power of the pitch vector | g
The ratio (k P ) of opt C opt | 2 to the whole is as follows. k p = ( │b opt P opt2 / ( │b opt P opt2 + │g opt C opt2 )) 1/2 where k C 2 + k p 2 = 1.

【0045】ここで、kC とkp とについて考えると、
これらの値は相補的な関係にあり、駆動音源中に占める
ピッチ成分の割合が大きく適応符号帳が入力信号のピッ
チ周期性に充分追従出来ているときにはkC の値は小さ
くなるため、閾値Thは反対に大きくなる。従って、ピ
ッチ成分のみが残り、他の信号成分はクリップされ、適
応符号帳へ帰還される非周期成分が抑圧されることとな
る。
Now, considering k C and k p ,
These values have a complementary relationship, and when the ratio of the pitch component in the driving sound source is large and the adaptive codebook can sufficiently follow the pitch periodicity of the input signal, the value of k C becomes small. Grows on the contrary. Therefore, only the pitch component remains, other signal components are clipped, and the non-periodic component returned to the adaptive codebook is suppressed.

【0046】逆に、ピッチ成分の割合が小さく適応符号
帳が入力信号のピッチ周期性に追従できていないときに
はkC の値が大きくなり、閾値Thが小さくなるため、
最適駆動音源信号成分はそのまま適応符号帳へ帰還され
る。
On the contrary, when the ratio of the pitch component is small and the adaptive codebook cannot follow the pitch periodicity of the input signal, the value of k C becomes large and the threshold Th becomes small.
The optimum driving excitation signal component is directly returned to the adaptive codebook.

【0047】このように、適応符号帳の追従状態に応じ
て適応符号帳の更新に用いられている駆動音源信号の
内、非周期成分の帰還量を制御することが可能になる。
In this way, it is possible to control the feedback amount of the aperiodic component of the driving excitation signal used for updating the adaptive codebook according to the tracking state of the adaptive codebook.

【0048】尚、ピッチベクトル及びコードベクトルの
割合を評価する方法としては,上記のkC の代わりにそ
れぞれの成分に対して重み付け合成フィルタを施したも
のについて次式のようにしてkC ’を求めてもよい。 kC ’= (|gopt ACopt 2/(|bopt APopt 2+|gopt ACopt 2))1/2
As a method of evaluating the ratio of the pitch vector and the code vector, instead of the above k C , a weighting synthesis filter is applied to each component, and k C ′ is calculated as follows. You may ask. k C '= (| g opt AC opt | 2 / (| b opt AP opt | 2 + | g opt AC opt | 2 )) 1/2

【0049】また、このような閾値Thは、kC の値か
らテーブル・ルック・アップ方式でも求めることができ
る。
Further, such a threshold value Th can also be obtained from the value of k C by a table lookup method.

【0050】図10は、図5(a) に示した本発明に係る
音声符号化方式に用いられる演算手段の一実施例を示し
たもので、FIR(有限インパルス応答)聴覚重み付け
フィルタ・マトリックスをAとし、このマトリックスA
の転置マトリックス tAを図10(a) に示す符号帳次元
数Nに一致したN次元のマトリックスとすると、図1に
示したCELP方式の場合では、重み付け入力信号ベク
トルAXが図10(b)に示すようなものであれば、この
重み付け入力信号ベクトルAXに転置マトリックス t
を乗じた時間反転聴覚重み付け入力信号ベクトル t
AXは図10(c) に示すようになる。尚、図中、*は乗
算符号を示す。
FIG. 10 shows an embodiment of the arithmetic means used in the speech coding system according to the present invention shown in FIG. 5 (a), which is a FIR (finite impulse response) auditory weighting filter matrix. A and this matrix A
Assuming that the transposed matrix t A of N is a N-dimensional matrix that matches the codebook dimension number N shown in FIG. 10 (a), in the case of the CELP method shown in FIG. 1, the weighted input signal vector AX is shown in FIG. 10 (b). If it is as shown in, the transposed matrix t A is added to the weighted input signal vector AX.
Time-reversed auditory weighted input signal vector t A multiplied by
AX becomes as shown in FIG. 10 (c). In the figure, * indicates a multiplication code.

【0051】また、図11は、図5(b) に示した本発明
に係る音声符号化方式に用いられる演算手段の一実施例
を示したもので、まず、図1に示したCELP方式の場
合では、重み付け入力信号ベクトルAXが図11(a) に
示すようなもの(図10(b)に示すものと同じ)とする
と、これを時間軸上で逆に並べ換えしたものが図11
(b) に示すベクトル(AX)TRである。
FIG. 11 shows an embodiment of the arithmetic means used in the speech coding system according to the present invention shown in FIG. 5 (b). First, the CELP system shown in FIG. 1 is used. In this case, if the weighted input signal vector AX is as shown in FIG. 11 (a) (the same as that shown in FIG. 10 (b)), the result obtained by reversing this on the time axis is shown in FIG.
It is the vector (AX) TR shown in (b).

【0052】そして、このベクトル(AX)TRを、聴覚
重み付けフィルタ関数1/A’(Z)のIIR(無限イン
パルス応答)形の聴覚重み付け線形予測再生フィルタA
にかけると、A(AX)TRは例えば図11(c) に示すよ
うになる。
Then, this vector (AX) TR is converted into an IIR (infinite impulse response) type auditory weighted linear prediction reproduction filter A of the auditory weighting filter function 1 / A '(Z).
As a result, A (AX) TR becomes as shown in FIG. 11 (c), for example.

【0053】この場合、マトリックスAは図10(a) に
示す転置マトリックス tAを戻した行列であるので、上
記のA(AX)TRを元に戻すために、時間軸上で逆に並
べ換えを行うと、図11(d) に示すように、なり、これ
は図10(c) に示した時間反転聴覚重み付け入力信号ベ
クトル tAAXと同じになる。
In this case, the matrix A is a matrix obtained by returning the transposed matrix t A shown in FIG. 10 (a), and therefore, in order to restore the above A (AX) TR , the rearrangement is performed in reverse on the time axis. When done, it becomes as shown in FIG. 11 (d), which is the same as the time-reversed auditory-weighted input signal vector t AAX shown in FIG. 10 (c).

【0054】このようにして、図10の実施例と図11
の実施例が同じ機能を果たすことが分かる。
Thus, the embodiment of FIG. 10 and FIG.
It can be seen that the example of FIG.

【0055】尚、図11の実施例では、フィルタ・マト
リックスAをIIRフィルタとしたが、FIRフィルタ
を用いても構わない。但し、FIRフィルタを用いる
と、図10の実施例と同様に全乗算回数がN2 /2(及
び2Nの移動操作)となるが、IIRフィルタを用いた
場合には、例えば10次線形予測分析の場合であれば1
0Nの乗算回数と2Nの移動操作とを必要とするだけで
済むことになる。
Although the filter matrix A is an IIR filter in the embodiment shown in FIG. 11, an FIR filter may be used. However, the use of FIR filters, but the total number of multiplications in the same manner as in the example of FIG. 10 is a N 2/2 (and 2N moving operation), in the case of using an IIR filter, for example, 10-order linear prediction analysis If 1 then
It only requires 0N multiplications and 2N move operations.

【0056】[0056]

【発明の効果】以上説明したように、本発明によれば、
適応符号帳として所定の要素を除いて全てゼロのスパー
ス符号帳を用いると共に最適ピッチ・ベクトルをスパー
ス化回路でスパース化して与えることにより更新し、評
価部に与えるべき相関値を求める際に、聴覚重み付けさ
れた入力音声信号ベクトルから時間反転聴覚重み付け入
力音声信号ベクトルを算出して適応符号帳の各ピッチ予
測残差ベクトルとを乗算し両者の相関値を生成するよう
に構成したので、スパース符号帳の利点をそのまま生か
した形で符号化及び復号化に際しての乗算を行うことが
でき、演算量を削減することができる。
As described above, according to the present invention,
A sparse codebook with all zeros except for certain elements is used as the adaptive codebook, and the optimum pitch vector is updated by sparseizing with a sparser circuit to give the correlation value to the evaluation unit. The time-reversed auditory weighted input speech signal vector is calculated from the weighted input speech signal vector and multiplied with each pitch prediction residual vector of the adaptive codebook to generate the correlation value between them. It is possible to carry out multiplication in encoding and decoding while making the best use of the advantage of (3) as it is, and to reduce the amount of calculation.

【0057】また、スパース化に際しての閾値を、適応
符号帳の追従状態に応じて適応符号帳の更新に用いられ
ている駆動音源信号の内、固定符号帳からのコードベク
トルによる非周期成分の帰還量を制御するように可変に
したので、従来のものに比べてより周期性が保たれ、結
果として有声音などのピッチ周期性の強い駆動音源を有
する音声に対して符号化・復号化音声品質を改善するこ
とができる。
Further, as a threshold for sparsification, of the driving excitation signals used for updating the adaptive codebook according to the tracking state of the adaptive codebook, the non-periodic component is fed back by the code vector from the fixed codebook. Since it is variable to control the amount, the periodicity is maintained more than the conventional one, and as a result, the encoded / decoded voice quality is applied to the voice having a drive source with a strong pitch periodicity such as voiced sound. Can be improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る音声符号化方式のピッチ探索の最
適化アルゴリズムを概念的に示したブロック図である。
FIG. 1 is a block diagram conceptually showing an optimization algorithm for pitch search in a speech coding system according to the present invention.

【図2】本発明に係る音声復号化方式の再生アルゴリズ
ムを概念的に示したブロック図である。
FIG. 2 is a block diagram conceptually showing a reproduction algorithm of a voice decoding system according to the present invention.

【図3】本発明に係る音声符号化方式のピッチ探索を別
のスパース化により実行するときの最適化アルゴリズム
を概念的に示したブロック図である。
FIG. 3 is a block diagram conceptually showing an optimization algorithm when the pitch search of the speech coding method according to the present invention is executed by another sparsification.

【図4】本発明に係る音声復号化方式の別のスパース化
により実行するときの再生アルゴリズムを概念的に示し
たブロック図である。
FIG. 4 is a block diagram conceptually showing a reproduction algorithm when it is executed by another sparsification of the speech decoding system according to the present invention.

【図5】本発明に係る音声符号化・復号化方式に用いる
演算手段の構成例を概念的に示した図である。
[Fig. 5] Fig. 5 is a diagram conceptually showing a configuration example of a calculation means used in a voice encoding / decoding system according to the present invention.

【図6】本発明に係る音声符号化・復号化方式に用いる
スパース化回路の実施例を概念的に説明するためのグラ
フ図である。
FIG. 6 is a graph diagram conceptually illustrating an embodiment of a sparsification circuit used in a voice encoding / decoding system according to the present invention.

【図7】本発明に係る音声符号化・復号化方式に用いる
スパース化回路の信号振幅順によるセンター・クリッピ
ングを概念的に説明するためのグラフ図である。
FIG. 7 is a graph diagram conceptually illustrating center clipping in the signal amplitude order of the sparsification circuit used in the speech encoding / decoding system according to the present invention.

【図8】本発明に係る音声符号化・復号化方式に用いる
スパース化回路の平均化閾値によるセンター・クリッピ
ングを概念的に説明するためのグラフ図である。
FIG. 8 is a graph diagram conceptually illustrating center clipping due to an averaging threshold of a sparsification circuit used in a voice encoding / decoding system according to the present invention.

【図9】本発明に係る音声符号化・復号化方式に用いる
閾値演算回路の実施例を示した図である。
FIG. 9 is a diagram showing an embodiment of a threshold value calculation circuit used in the voice encoding / decoding method according to the present invention.

【図10】本発明に用いる演算手段の実施例を説明する
ための図である。
FIG. 10 is a diagram for explaining an embodiment of a calculation means used in the present invention.

【図11】本発明に用いる演算手段の他の実施例を説明
するための図である。
FIG. 11 is a diagram for explaining another embodiment of the calculating means used in the present invention.

【図12】一般的な逐次最適化CELP方式を概略的に
示すブロック図である。
FIG. 12 is a block diagram schematically showing a general sequential optimization CELP method.

【図13】一般的な同時最適化CELP方式を概略的に
示すブロック図である。
FIG. 13 is a block diagram schematically showing a general joint optimization CELP method.

【図14】従来のピッチ探索の最適化アルゴリズムを概
念的に示したブロック図である。
FIG. 14 is a block diagram conceptually showing a conventional pitch search optimization algorithm.

【図15】従来方式の問題点を説明するためのブロック
図である。
FIG. 15 is a block diagram for explaining problems of the conventional method.

【符号の説明】[Explanation of symbols]

1 スパース(ピッチ周期)適応符号帳 2 固定符号帳 10 評価部 14 フレーム遅延器 17 スパース回路 18 閾値演算回路 21 演算手段 22 乗算部 23 フィルタ演算部 図中、同一符号は同一又は相当部分を示す。 1 sparse (pitch period) adaptive codebook 2 fixed codebook 10 evaluation unit 14 frame delay unit 17 sparse circuit 18 threshold value calculation circuit 21 calculation unit 22 multiplication unit 23 filter calculation unit In the drawings, the same reference numerals indicate the same or corresponding portions.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 坂井 良広 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 (72)発明者 田中 良紀 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Yoshihiro Sakai 1015 Kamiodanaka, Nakahara-ku, Kawasaki City, Kanagawa Prefecture, Fujitsu Limited (72) Inventor Yoshinori Tanaka, 1015, Kamiodanaka, Nakahara-ku, Kawasaki City, Kanagawa Prefecture, Fujitsu Limited

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 適応符号帳(1) 及び白色雑音の固定符号
帳(2) の二つの符号帳を用い、ピッチ探索・符号帳探索
を行って最適な駆動音源信号を求めることで符号化を行
うCELP型の音声符号化方式において、 該適応符号帳(1) が、所定の要素を除いて全てゼロのス
パース符号帳であると共に、その中からピッチ探索によ
り選択された最適ピッチ・ベクトル(bopt opt )を
スパース化回路(17)でスパース化した後、該固定符号帳
(2) から符号帳探索により選択された最適コードベクト
ル(gopt opt ) と加えあわせ遅延器(14)で1フレーム
分遅延させて与えることにより更新され、 更に、聴覚重み付けされた入力音声信号ベクトル(A
X)から時間反転聴覚重み付け入力音声信号ベクトル(
tAAX) を算出する演算手段(21)と、 該時間反転聴覚重み付け入力音声信号ベクトル( tAA
X) と該適応符号帳(1) の各ピッチ予測残差ベクトル
(P)とを乗算して両者の相関値( ( t ( AP)AX)
を発生する乗算部(22)と、 該適応符号帳(1) の各ピッチ予測残差ベクトル(P)の
聴覚重み付け再生後のベクトル(AP) の自己相関値
(( t ( AP) A ) を求めるフィルタ演算部(23)と、 両相関値に基づいて該聴覚重み付けされた入力音声信号
ベクトル(AX)に対する誤差信号(E)の電力を最小
にする最適なピッチ予測残差ベクトル(Popt)及びゲ
イン(bopt )を選択する評価部(10)と、 を備えたことを特徴とする音声符号化方式。
1. Encoding is performed by using two codebooks, an adaptive codebook (1) and a white noise fixed codebook (2), to perform a pitch search / codebook search to find an optimum driving excitation signal. In the CELP-type speech coding method to be performed, the adaptive codebook (1) is a sparse codebook of all zeros except for predetermined elements, and the optimum pitch vector (b opt P opt ) is sparsified by a sparsification circuit (17), and then the fixed codebook
The input speech signal is updated by adding the optimum code vector (g opt C opt ) selected by the codebook search from (2) and delaying it by one frame with the delay device (14), and further weighted perceptually. Vector (A
X) time reversal auditory weighting input speech signal vector (
calculating means (21) for calculating t AAX) and the time-reversal auditory-weighted input speech signal vector ( t AA
X) and each pitch prediction residual vector (P) of the adaptive codebook (1) are multiplied to obtain a correlation value (( t (AP) AX) of the two.
And the autocorrelation value (( t (AP) A) of the vector (AP) after auditory weighting reproduction of each pitch prediction residual vector (P) of the adaptive codebook (1). A filter calculation unit (23) to be obtained and an optimum pitch prediction residual vector (P opt ) that minimizes the power of the error signal (E) with respect to the perceptually weighted input speech signal vector (AX) based on both correlation values. And an evaluation unit (10) for selecting a gain (b opt ), and a speech coding method.
【請求項2】 該スパース化回路(17)が、一定閾値(Th)
を基準としてスパース化を行うことを特徴とした請求項
1に記載の音声符号化方式。
2. The sparsification circuit (17) has a constant threshold value (Th).
The speech coding method according to claim 1, wherein the sparse conversion is performed with reference to.
【請求項3】 該スパース化回路(17)が、所定サンプル
数の平均信号振幅に応じた適応閾値(Th)を基準としてス
パース化を行うことを特徴とした請求項1に記載の音声
符号化方式。
3. The speech coding according to claim 1, wherein the sparsification circuit (17) performs sparsification based on an adaptive threshold (Th) corresponding to an average signal amplitude of a predetermined number of samples. method.
【請求項4】 該スパース化回路(17)が、該最適ピッチ
・ベクトル(boptopt ) に対してではなく、該最適ピ
ッチ・ベクトル( bopt opt ) と該最適コードベクト
ル(gopt opt ) とを加え合わせた値に対して設けられ
ており、全体のパワーに占める該最適コードベクトル(g
optopt ) のパワーの割合に対応した閾値(Th)を閾値
演算回路(18)で生成して該スパース化回路(17)に与えて
スパース化した後、該遅延器(14)に送ることを特徴とし
た請求項1に記載の音声符号化方式。
Wherein said sparse circuit (17), said optimum rather than to the pitch vector (b opt P opt), said optimum pitch vector (b opt P opt) and the optimum code vector (g opt C opt ) and the optimum code vector (g
a threshold value (Th) corresponding to the power ratio of ( opt C opt ) is generated by the threshold value calculation circuit (18), given to the sparsification circuit (17) to be sparsified, and then sent to the delay device (14). The voice encoding system according to claim 1, wherein
【請求項5】 該演算手段(21)が、FIR聴覚重み付け
フィルタ・マトリックスの転置マトリックス( tA )を
乗算するものであることを特徴とした請求項1乃至4の
いずれかに記載の音声符号化方式。
5. The voice code according to claim 1, wherein the calculating means (21) is for multiplying a transposed matrix ( t A) of the FIR auditory weighting filter matrix. Method.
【請求項6】 該演算手段(21)が、入力信号を時間軸上
で逆に並べ換え、IIR聴覚重み付けフィルタ処理(1
/A’(Z))した後、再び時間軸上で逆に並べ換えするも
のであることを特徴とした請求項1乃至4のいずれかに
記載の音声符号化方式。
6. The computing means (21) rearranges the input signals in reverse on the time axis, and IIR auditory weighting filter processing (1
/ A '(Z)), and then reversely rearranged again on the time axis. 5. The speech encoding system according to claim 1, wherein
【請求項7】 符号化側と同一のスパース適応符号帳
(1) と固定符号帳(2)とスパース化回路(17)と遅延器(1
4)と演算手段(21)とを有し、該適応符号帳(1)の内の最
適選択されたピッチ予測残差ベクトル(Popt )に最適
ゲイン(bopt)を乗じることにより得た最適コード・
ベクトル(bopt opt )を該スパース化回路(17)でス
パース化し、該固定符号帳(2) の最適選択されたコード
・ベクトル(Copt )に最適ゲイン(gopt )を乗じる
ことにより得た最適コード・ベクトル(gopt opt )
とを加算したコード・ベクトル(X)を線形予測再生フ
ィルタ(200)を通して再生信号を得ることを特徴とした
請求項1乃至6のいずれかに記載の音声復号化方式。
7. The same sparse adaptive codebook as the encoding side
(1), fixed codebook (2), sparsification circuit (17), delay device (1
4) and a calculating means (21), and the optimum gain obtained by multiplying the optimum selected pitch prediction residual vector (P opt ) in the adaptive codebook (1) by the optimum gain (b opt ). code·
The vector (b opt P opt ) is sparsed by the sparsification circuit (17), and the optimum selected code vector (C opt ) of the fixed codebook (2) is multiplied by the optimum gain (g opt ). Optimal code vector (g opt C opt )
7. The speech decoding system according to claim 1, wherein the code vector (X) obtained by adding and is obtained through a linear prediction reproduction filter (200) to obtain a reproduction signal.
JP03267112A 1990-09-18 1991-09-18 Audio encoding / decoding method Expired - Fee Related JP3100082B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03267112A JP3100082B2 (en) 1990-09-18 1991-09-18 Audio encoding / decoding method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP24848490 1990-09-18
JP2-248484 1990-09-18
JP03267112A JP3100082B2 (en) 1990-09-18 1991-09-18 Audio encoding / decoding method

Publications (2)

Publication Number Publication Date
JPH0561499A true JPH0561499A (en) 1993-03-12
JP3100082B2 JP3100082B2 (en) 2000-10-16

Family

ID=26538796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03267112A Expired - Fee Related JP3100082B2 (en) 1990-09-18 1991-09-18 Audio encoding / decoding method

Country Status (1)

Country Link
JP (1) JP3100082B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100447152B1 (en) * 1996-12-31 2004-11-03 엘지전자 주식회사 Method for processing operation of decoder filter, especially removing duplicated weight values by distributive law
JP2006510063A (en) * 2002-12-17 2006-03-23 クゥアルコム・インコーポレイテッド Subsampled excitation waveform codebook
WO2008018464A1 (en) * 2006-08-08 2008-02-14 Panasonic Corporation Audio encoding device and audio encoding method
JP2010256932A (en) * 1998-10-06 2010-11-11 Robert Bosch Gmbh Method for encoding or decoding voice signal scanning values and encoder or decoder
WO2012053146A1 (en) * 2010-10-20 2012-04-26 パナソニック株式会社 Encoding device and encoding method
WO2013057895A1 (en) 2011-10-19 2013-04-25 パナソニック株式会社 Encoding device and encoding method

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100447152B1 (en) * 1996-12-31 2004-11-03 엘지전자 주식회사 Method for processing operation of decoder filter, especially removing duplicated weight values by distributive law
JP2010256932A (en) * 1998-10-06 2010-11-11 Robert Bosch Gmbh Method for encoding or decoding voice signal scanning values and encoder or decoder
JP2006510063A (en) * 2002-12-17 2006-03-23 クゥアルコム・インコーポレイテッド Subsampled excitation waveform codebook
WO2008018464A1 (en) * 2006-08-08 2008-02-14 Panasonic Corporation Audio encoding device and audio encoding method
JPWO2008018464A1 (en) * 2006-08-08 2009-12-24 パナソニック株式会社 Speech coding apparatus and speech coding method
US8112271B2 (en) 2006-08-08 2012-02-07 Panasonic Corporation Audio encoding device and audio encoding method
WO2012053146A1 (en) * 2010-10-20 2012-04-26 パナソニック株式会社 Encoding device and encoding method
CN103119650A (en) * 2010-10-20 2013-05-22 松下电器产业株式会社 Encoding device and encoding method
US8760323B2 (en) 2010-10-20 2014-06-24 Panasonic Corporation Encoding device and encoding method
JP6001451B2 (en) * 2010-10-20 2016-10-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Encoding apparatus and encoding method
WO2013057895A1 (en) 2011-10-19 2013-04-25 パナソニック株式会社 Encoding device and encoding method

Also Published As

Publication number Publication date
JP3100082B2 (en) 2000-10-16

Similar Documents

Publication Publication Date Title
US5396576A (en) Speech coding and decoding methods using adaptive and random code books
EP0476614B1 (en) Speech coding and decoding system
US5867814A (en) Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
JP5400701B2 (en) Method and apparatus for speech coding
CA2044750C (en) Speech coding and decoding system
WO1998006091A1 (en) Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
EP0450064B1 (en) Digital speech coder having improved sub-sample resolution long-term predictor
JPH0451200A (en) Sound encoding system
JP3100082B2 (en) Audio encoding / decoding method
JPH0944195A (en) Voice encoding device
JPH1097294A (en) Voice coding device
JP3095133B2 (en) Acoustic signal coding method
US5719993A (en) Long term predictor
US6078881A (en) Speech encoding and decoding method and speech encoding and decoding apparatus
JP2003044099A (en) Pitch cycle search range setting device and pitch cycle searching device
US6842732B2 (en) Speech encoding and decoding method and electronic apparatus for synthesizing speech signals using excitation signals
JP3194481B2 (en) Audio coding method
JPH0573097A (en) Low delay code driving type linear encoding method
JPH08185199A (en) Voice coding device
JP3192051B2 (en) Audio coding device
JP3270146B2 (en) Audio coding device
JPH04301900A (en) Audio encoding device
JPH08320700A (en) Sound coding device
JP3576805B2 (en) Voice encoding method and system, and voice decoding method and system
JPH05289697A (en) Method for encoding pitch period of voice

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000801

LAPS Cancellation because of no payment of annual fees