JP2702157B2 - Optimal sound source vector search device - Google Patents

Optimal sound source vector search device

Info

Publication number
JP2702157B2
JP2702157B2 JP63153963A JP15396388A JP2702157B2 JP 2702157 B2 JP2702157 B2 JP 2702157B2 JP 63153963 A JP63153963 A JP 63153963A JP 15396388 A JP15396388 A JP 15396388A JP 2702157 B2 JP2702157 B2 JP 2702157B2
Authority
JP
Japan
Prior art keywords
sound source
mapped
source vector
vector
filter coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63153963A
Other languages
Japanese (ja)
Other versions
JPH01319799A (en
Inventor
宏一 白木
邦男 中島
真哉 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP63153963A priority Critical patent/JP2702157B2/en
Publication of JPH01319799A publication Critical patent/JPH01319799A/en
Application granted granted Critical
Publication of JP2702157B2 publication Critical patent/JP2702157B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は音声信号を情報圧縮し、ディジタル伝送,
または蓄積を行なう音声符号化装置の改良に関するもの
である。
DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field] The present invention compresses information of an audio signal and performs digital transmission,
Alternatively, the present invention relates to an improvement of a speech encoding device that performs accumulation.

〔従来の技術〕[Conventional technology]

音声信号を合成フィルタを表すパラメータと音源を表
すパラメータとに分離することで情報圧縮を行なう音声
符号化方式の中にコードエキサイテッド線形予測(CEL
P:Code−Excited Linear Prediction)と呼ばれるもの
がある。CELPの一例を示すものとして、M.R.シュレー
ダ,B.S.アタルの「コードエキサイテッドリニアプリデ
ィクション(CELP):ハイクオリティスピーチアットベ
リィロウビットレイツ」(M.R.Schroeder,B.S.Atal,Cod
e−Excited Linear Prediction(CELP):high−quality
speech at very low bit rates,"Proc,IEEE Int.Conf.
Acoust.,Speech,Signal Processing,pp.937−940(198
5))(以下、文献1と称する)を挙げることができ
る。文献1に示される例では合成フィルタを表すパラメ
ータを10msec毎に分析により求め、一方40点(サンプリ
ング周波数が8KHzのときは5msecになる)毎に区切られ
た音声に時間対応した音源を表すパラメータとして、乱
数により生成した40点の雑音の時系列,即ち40次元のベ
クトル(以下、音源ベクトルと称する)を用いている。
Code Excited Linear Prediction (CEL) is a speech coding method that compresses information by separating a speech signal into a parameter representing a synthesis filter and a parameter representing a sound source.
P: Code-Excited Linear Prediction). As an example of CELP, MR Schroeder, BS Atal's "Code Excited Linear Prediction (CELP): High Quality Speech at Very Low Bit Rate" (MR Schroeder, BSAtal, Cod
e-Excited Linear Prediction (CELP): high-quality
speech at very low bit rates, "Proc, IEEE Int.Conf.
Acoust., Speech, Signal Processing, pp. 937-940 (198
5)) (hereinafter referred to as Document 1). In the example shown in Reference 1, a parameter representing a synthesis filter is obtained by analysis every 10 msec, while a parameter representing a sound source corresponding to time divided into voices divided at every 40 points (5 msec when the sampling frequency is 8 KHz). A time series of 40 points of noise generated by random numbers, that is, a 40-dimensional vector (hereinafter, referred to as a sound source vector) is used.

文献1の中の最適音源ベクトル探索装置の行っている
処理を周波数領域において行う装置として第2図に示す
ようなものがある。第2図はI.M.トランコソ,B.S.アタ
ルの「エフィシェントプロシージャーズフォーファイン
ディングジオプティマムイノベーションインストカステ
ィックコーダーズ」(I.M.Trancoso,B.S.Atal,“Effici
ent procedures for finding the optimum innovation
in stochastic coders,"Proc.IEEE Int.conf.Acoust.,S
peech,Signal Processing,pp.2375−2378(1986))
(以下、文献2と称する)に記載されている,従来の最
適音源ベクトル探索装置を示す図である。図におて、2
はN点(文献2の例ではサンプリング周波数が8KHzのと
きN=40)のサンプル値系列である音源ベクトルを2・
L点(文献2中ではL=40としている)離散フーリエ変
換(DFT:Discrete Fourier Transform)して得られるDF
T音源ベクトル(写像音源ベクトル)、1はL次元の次
元直交条件を満たすL次元歪評価空間に写像したM個の
DFT音源ベクトルから構成される符号帳(写像音源符号
帳)、4はN点のサンプル値系列である入力音声(入力
される音声信号)11を2・L点DFTして得られるDFT入力
音声(写像音声信号)、5は入力音声11を音声分析して
得られる合成フィルタ係数のインパルス応答を2・L点
DFTして得られる周波数特性としての評価重みフィルタ
係数である。また、12は入力音声11をDFTすることによ
りDFT音源ベクトル2と同様のL次元歪評価空間に写像
するDFT回路(第1のL次元写像手段)、14は入力音声1
1を分析して合成フィルタ係数を算出する音声分析回
路、15は音声分析回路14より出力される合成フィルタ係
数のインパルス応答を算出するインパルス応答生成回
路、16は音声分析回路14およびインパルス応答生成回路
15からなる音声分析手段、13はこの合成フィルタ係数の
インパルス応答をDFTすることによりDFT音源ベクトル2
と同様のL次元歪評価空間に写像するDFT回路(第2の
L次元写像手段)、6はDFT音源ベクトル2を切換えて
音源ベクトル選択回路9に入力する切換スイッチ、9は
切換スイッチ6が選択したM個の写像音源ベクトル中か
ら、評価重みフィルタ係数5とM個の写像音源ベクトル
を用いてDFT入力音声4に対する歪量が最小となる1個
の最適音源ベクトルコードを選択する音源ベクトル選択
回路(音源ベクトル選択手段)、10は音源ベクトル選択
回路9によって選択された最適音源ベクトルコードであ
る。
FIG. 2 shows an apparatus for performing the processing performed by the optimum sound source vector search apparatus in Document 1 in the frequency domain. Fig. 2 shows IM Trancoso, BS Atal's “Efficient Procedures for Finding Optimum Innovation Instrumental Coders” (IMTrancoso, BSAtal, “Effici
ent procedures for finding the optimum innovation
in stochastic coders, "Proc.IEEE Int.conf.Acoust., S
peech, Signal Processing, pp.2375-2378 (1986))
FIG. 2 is a diagram showing a conventional optimal sound source vector search device described in (hereinafter, referred to as Document 2). In the figure, 2
Represents the sound source vector, which is a sample value sequence at N points (in the example of Reference 2, N = 40 when the sampling frequency is 8 KHz), is 2 ·
DF obtained by discrete Fourier transform (DFT) at L point (L = 40 in Reference 2)
T sound source vectors (mapped sound source vectors), 1 is the number of M mapped to the L-dimensional distortion evaluation space satisfying the L-dimensional orthogonal condition.
A codebook (mapped excitation codebook) composed of DFT excitation vectors, and 4 is a DFT input speech (DFT input speech) obtained by subjecting an input speech (input speech signal) 11, which is an N-point sample value sequence, to a 2-L point DFT. 5 is an impulse response of a synthetic filter coefficient obtained by analyzing the input speech 11 at 2 · L points.
It is an evaluation weight filter coefficient as a frequency characteristic obtained by DFT. Reference numeral 12 denotes a DFT circuit (first L-dimensional mapping means) for performing DFT on the input voice 11 to map the same into an L-dimensional distortion evaluation space similar to the DFT sound source vector 2;
A speech analysis circuit that analyzes 1 to calculate a synthesis filter coefficient, 15 is an impulse response generation circuit that calculates an impulse response of a synthesis filter coefficient output from the voice analysis circuit 14, and 16 is a speech analysis circuit 14 and an impulse response generation circuit.
Speech analysis means 15 comprises a DFT sound source vector 2 by performing DFT on the impulse response of the synthesis filter coefficient.
A DFT circuit (second L-dimensional mapping means) for mapping to the same L-dimensional distortion evaluation space as that described above, 6 is a changeover switch for switching the DFT sound source vector 2 and input to the sound source vector selection circuit 9, 9 is a changeover switch 6 for selection A source vector selection circuit that selects one optimal source vector code that minimizes the amount of distortion for the DFT input speech 4 using the evaluation weighting filter coefficient 5 and the M mapped source vectors from the M mapped source vectors. (Sound source vector selecting means) and 10 are optimal sound source vector codes selected by the sound source vector selecting circuit 9.

次に、上記従来装置の基本動作を説明する。まず、切
換スイッチ6は符号帳1の中のM個のDFT音源ベクトル
2を1個ずつ最適音源ベクトル選択回路9に伝える。最
適音源ベクトル選択回路9はM個のDFT音源ベクトル2
それぞれに対して、このDFT音源ベクトル2と評価重み
フィルタ係数5とDFT入力音声4とを用いて周波数領域
において再生音声が入力音声に対して持つ歪量を計算す
る。M個中のk番目の音源ベクトルを用いた場合の前記
歪量D(k)は次式で与えられる。
Next, the basic operation of the conventional device will be described. First, the changeover switch 6 transmits the M DFT excitation vectors 2 in the codebook 1 to the optimal excitation vector selection circuit 9 one by one. The optimal sound source vector selection circuit 9 is composed of M DFT sound source vectors 2
For each of them, the distortion amount of the reproduced voice with respect to the input voice in the frequency domain is calculated using the DFT sound source vector 2, the evaluation weight filter coefficient 5, and the DFT input voice 4. The distortion amount D (k) when the k-th sound source vector out of M is used is given by the following equation.

ここで、X(i)はDFT入力音声のi番目の成分、H
(i)は評価重みフィルタのi番目の成分、C(i,k)
はk番目のDFT音源ベクトルのi番目の成分、g(k)
はD(k)を最小化する利得係数である。さらに、前述
の文献2によれば、第(1)式は次の第(2)式と等価
であり、実際の演算には第(2)式が用いられる。
Here, X (i) is the i-th component of the DFT input voice, and H
(I) is the ith component of the evaluation weight filter, C (i, k)
Is the i-th component of the k-th DFT sound source vector, g (k)
Is a gain coefficient that minimizes D (k). Further, according to the above-mentioned document 2, the expression (1) is equivalent to the following expression (2), and the expression (2) is used for the actual calculation.

ここで、Y(i)はY(i)の共役複素数を表し、
Y(i)は次の第(3)式で与えられる。
Here, Y * (i) represents a complex conjugate of Y (i),
Y (i) is given by the following equation (3).

Y(i)=X(i)・a(i)/H(i) …(3) またa(i)は次の第(4)式で与えられる。 Y (i) = X (i) · a (i) / H (i) (3) a (i) is given by the following equation (4).

a(i)=|H(i)| …(4) こうして求めたM個のD(k)の内、最小値を与える
DFT音源ベクトルの番号を最適音源ベクトルコードとし
て選択する。
a (i) = | H (i) | (4) Give the minimum value among the M D (k) obtained in this way
The number of the DFT sound source vector is selected as the optimum sound source vector code.

〔発明が解決しようとする課題〕[Problems to be solved by the invention]

従来の最適音源ベクトル探索装置は以上のように構成
されているので、最適音源ベクトル選択回路9の中で、
L次元の歪量計算をM回行なう必要があり、良好な再生
音声を得るためにMを大きくとる(例えばM=1024)
と、この歪量計算に要する演算量が莫大となり、装置化
した場合の装置規模が非常に大きくなるという問題点が
あった。
Since the conventional optimal sound source vector search device is configured as described above,
It is necessary to perform L-dimensional distortion amount calculation M times, and M is increased to obtain a good reproduced sound (for example, M = 1024).
Thus, there is a problem that the amount of calculation required for calculating the amount of distortion is enormous, and the scale of the device when the device is implemented becomes very large.

この発明は上記のような問題点を解決するためになさ
れたもので、最適音源ベクトル探索における歪量計算に
要する演算量を小さくできる最適音源ベクトル探索装置
を得ることを目的とする。
SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to provide an optimal sound source vector search device capable of reducing the amount of calculation required for calculating the amount of distortion in the optimum sound source vector search.

〔課題を解決するための手段〕[Means for solving the problem]

この発明に係る最適音源ベクトル探索装置は、写像音
源符号帳(1)と、音声分析手段(16)と、第1のL次
元写像手段(12)と、第2のL次元写像手段(13)と、
音源ベクトル予備選択手段(3)と、音源ベクトル選択
手段(9)からなる音声符号化装置の最適音源ベクトル
探索装置において、写像音源符号帳(1)は、L次元の
次元直交条件を満たすL次元歪評価空間に写像したM個
の写像音源ベクトル(2)を有し、第1のL次元写像手
段(12)は、入力される音声信号(11)を写像音源ベク
トル(2)と同様のL次元歪評価空間に写像し、写像音
声信号(4)として音源ベクトル予備選択手段(3)、
および、音源ベクトル選択手段(9)に出力し、音声分
析手段(16)は、入力される音声信号(11)を分析し合
成フィルタ係数を算出すると共に、この合成フィルタ係
数のインパルス応答を算出して第2のL次元写像手段
(13)に出力し、第2のL次元写像手段(13)は、合成
フィルタ係数のインパルス応答を写像音源ベクトル
(2)と同様のL次元歪評価空間に写像し、評価重みフ
ィルタ係数(5)として音源ベクトル予備選択手段
(3)、および、音源ベクトル選択手段(9)に出力
し、音源ベクトル予備選択手段(3)は、評価重みフィ
ルタ係数(5)の各成分の絶対値の大きさに基づいてL1
個(L1<L)の次元成分を選出するとともに、L1個の次
元成分を対象に、評価重みフィルタ係数(5)とM個の
写像音源ベクトル(2)を用いて写像音声信号(4)に
対する歪量が小さいM1個(M1<M)の写像音源ベクトル
を選択し、音源ベクトル選択手段(9)は、L次元全て
を対象に、音源ベクトル予備選択手段(3)の選択した
M1個の写像音源ベクトル中から、評価重みフィルタ係数
(5)とM1個の写像音源ベクトルを用いて写像音声信号
(4)に対する歪量が最小となる1個の最適写像音源ベ
クトルを選択するようにしたものである。
An optimal excitation vector search apparatus according to the present invention comprises a mapped excitation codebook (1), a speech analysis means (16), a first L-dimensional mapping means (12), and a second L-dimensional mapping means (13). When,
In the optimal excitation vector search device of the speech encoding device including the excitation vector preliminary selection means (3) and the excitation vector selection means (9), the mapped excitation codebook (1) is an L-dimensional orthogonal orthogonal condition. It has M mapped sound source vectors (2) mapped to the distortion evaluation space, and the first L-dimensional mapping means (12) converts the input speech signal (11) into the same L as the mapped sound source vector (2). The sound source vector preliminary selecting means (3) is mapped to the dimensional distortion evaluation space, and is mapped as a mapped audio signal (4).
The voice signal is output to the sound source vector selection means (9), and the voice analysis means (16) analyzes the input voice signal (11) to calculate a synthesis filter coefficient, and calculates an impulse response of the synthesis filter coefficient. To the second L-dimensional mapping means (13), and the second L-dimensional mapping means (13) maps the impulse response of the synthesis filter coefficient to the same L-dimensional distortion evaluation space as the mapped sound source vector (2). Then, it outputs to the sound source vector preliminary selecting means (3) and the sound source vector selecting means (9) as the evaluation weight filter coefficient (5), and the sound source vector preliminary selecting means (3) outputs the evaluation weight filter coefficient (5). L1 based on the magnitude of the absolute value of each component
(L1 <L) dimension components are selected, and the L1 dimension components are subjected to the mapped speech signal (4) using the evaluation weight filter coefficient (5) and the M mapped sound source vectors (2). The M1 (M1 <M) mapped sound source vectors having a small distortion amount are selected, and the sound source vector selecting means (9) selects the sound source vector preliminary selecting means (3) for all L dimensions.
From the M1 mapped sound source vectors, one optimal mapped sound source vector that minimizes the amount of distortion for the mapped speech signal (4) is selected using the evaluation weight filter coefficient (5) and the M1 mapped sound source vectors. It was made.

〔作用〕[Action]

この発明においては、上述のように構成したことによ
り、音源ベクトルを予備選択し、そのなかから写像音声
信号に対する歪量が小さい写像音源ベクトルを選択し、
選択された写像音源ベクトルのなかから写像音声信号に
対する歪量が最小となる最適写像音源ベクトルを選択す
るようにしたので、最適音源ベクトルを探索する際にお
ける,歪量計算に要する演算量が小さくなる。
In the present invention, by configuring as described above, the sound source vectors are preliminarily selected, and a mapped sound source vector having a small amount of distortion with respect to the mapped sound signal is selected from among them.
Since the optimum mapped sound source vector that minimizes the amount of distortion for the mapped audio signal is selected from the selected mapped sound source vectors, the amount of calculation required for calculating the amount of distortion when searching for the optimum sound source vector is reduced. .

〔実施例〕〔Example〕

以下、この発明の一実施例を図について説明する。 An embodiment of the present invention will be described below with reference to the drawings.

第1図は本発明の一実施例による最適音源ベクトル探
索装置を示すブロック図であり、図において、第2図と
同一符号は同一または相当部分である。また、3は音源
ベクトル予備選択回路(音源ベクトル予備選択手段)で
あり、切換スイッチ6により選択されたDFT音源ベクト
ル2のなかから評価重みフィルタ係数5の各成分の絶対
値の大きさに基づいてL1個(L1<L)の次元成分を選出
するとともに、L1個の次元成分を対象に、評価重みフィ
ルタ係数5とM個のDFT音源ベクトル2を用いてDFT入力
音声4に対する歪量が小さいM1個(M1<M)のDFT音源
ベクトルを選択する。6は切換スイッチであり、DFT音
源ベクトル2を切換えて、音源ベクトル選択回路9にで
はなく音源ベクトル予備選択回路3に出力する。8は第
2の切換スイッチであり、音源ベクトル予備選択回路3
が出力する指定信号7に応じてDFT音源ベクトル2を切
換えて音源ベクトル選択回路9に出力する。
FIG. 1 is a block diagram showing an apparatus for searching for an optimal excitation vector according to an embodiment of the present invention. In FIG. 1, the same reference numerals as those in FIG. 2 denote the same or corresponding parts. Reference numeral 3 denotes a sound source vector preliminary selection circuit (a sound source vector preliminary selection means), which is based on the magnitude of the absolute value of each component of the evaluation weighting filter coefficient 5 from the DFT source vector 2 selected by the changeover switch 6. In addition to selecting L1 (L1 <L) dimensional components, M1 having a small amount of distortion with respect to the DFT input voice 4 is used for the L1 dimensional components by using an evaluation weighting filter coefficient 5 and M DFT excitation vectors 2. (M1 <M) DFT sound source vectors are selected. A changeover switch 6 switches the DFT excitation vector 2 and outputs the DFT excitation vector 2 not to the excitation vector selection circuit 9 but to the excitation vector preselection circuit 3. Reference numeral 8 denotes a second changeover switch, and the sound source vector preliminary selection circuit 3
The DFT excitation vector 2 is switched in accordance with the designation signal 7 output by the.

次に動作について説明する。 Next, the operation will be described.

先ず、切換スイッチ6は符号帳1の中のDFT音源ベク
トル2を音源ベクトル予備選択回路3に伝える。音源ベ
クトル予備選択回路3は第(2)式におけるa(i)・
|Y(i)|の大きい次元が歪量への寄与度が大きい次元
であるとし、まずこのa(i)・|Y(i)|の大きなL1
個の次元を選出する。そしてM個のDFT音源ベクトル2
それぞれに対して、このL1個の次元についてのみDFT音
源ベクトル2と評価重みフィルタ係数5とDFT入力音声
4とを用いて周波数領域において再生音声が入力音声に
対して持つ歪量を計算する。M個中のk番目の音源ベク
トルを用いた場合の前記歪量D1(k)は次式で与えられ
る。
First, the changeover switch 6 transmits the DFT excitation vector 2 in the codebook 1 to the excitation vector preliminary selection circuit 3. The sound source vector preliminary selection circuit 3 calculates a (i) ·
It is assumed that a dimension having a large | Y (i) | is a dimension having a large contribution to the amount of distortion. First, a large L1 of a (i) · | Y (i) |
Choose dimensions. And M DFT sound source vectors 2
For each of these L1 dimensions, the amount of distortion that the reproduced voice has for the input voice in the frequency domain is calculated using the DFT sound source vector 2, the evaluation weight filter coefficient 5, and the DFT input voice 4. The distortion amount D1 (k) when the k-th sound source vector in M is used is given by the following equation.

ここで、I(i)はベクトル{|a(j)|,j=1,L1}
の中でi番目に大きなベクトル成分に対応する次元であ
る。こうして求めたM個のD1(k)の内、小さなD1
(k)を与えるM1個の音源ベクトルの番号は音源ベクト
ル指定信号7として第2の切換スイッチ8に送られ、第
2の切換スイッチは小さなD1(k)を与えるM1個のDFT
音源ベクトルを音源ベクトル選択回路9に1個ずつ伝え
る。以下の音源ベクトル選択回路9の動作は第2図の音
源ベクトル選択回路9がM個のDFT音源ベクトルを選択
の対象にしていたのが、M1個を対象としていること以外
は同じなので説明は省略する。
Here, I (i) is a vector {| a (j) |, j = 1, L1}.
Is the dimension corresponding to the i-th largest vector component. Of the M D1 (k) obtained in this way, a small D1
The number of M1 sound source vectors giving (k) is sent to the second changeover switch 8 as a sound source vector designating signal 7, and the second changeover switch outputs M1 DFTs giving small D1 (k).
The sound source vectors are transmitted to the sound source vector selection circuit 9 one by one. The following operation of the sound source vector selection circuit 9 is the same as that of the sound source vector selection circuit 9 shown in FIG. 2 except that M1 DFT sound source vectors are selected. I do.

次に演算量について述べる。D(k)、又はD1(k)
の1次元のみの演算に要する演算量をFとするとき、従
来の技術、即ち予備選択を行わずに最適音源ベクトルを
選択するための歪量計算を行なう方法ではL・M・Fの
演算量が必要であり、本実施例によれば、まず予備選択
にL1・M・Fそして本選択にL・M1・Fの合計(L1・M
+L・M1)・Fの演算量が必要であるので、L1・M+L
・M1<L・Mを満たすようにL1,M1を定めれば、演算量
を減少させることができる。このとき、M1,L1が小さい
ほど演算量は減少するが、音源ベクトル予備選択回路で
最適音源ベクトルが予備選択されない場合が起こるので
M1,L1は適切に定める必要がある。実験例としてはM=1
024,L=40のときM1=32,L1=5とした場合は最適音源ベ
クトルが予備選択結果からもれることなく演算量の大幅
な減少が確認されている。
Next, the calculation amount will be described. D (k) or D1 (k)
In the conventional technique, that is, a method of calculating a distortion amount for selecting an optimal sound source vector without performing preliminary selection, the calculation amount of LMF According to the present embodiment, first, L1 ・ M ・ F for the preliminary selection and the sum of L ・ M1 ・ F for the final selection (L1 本 M)
+ L · M1) · F is required, so L1 · M + L
If L1 and M1 are determined so as to satisfy M1 <LM, the amount of calculation can be reduced. At this time, the computation amount decreases as M1 and L1 are smaller, but the optimal excitation vector may not be preselected by the excitation vector preliminary selection circuit.
M1 and L1 need to be determined appropriately. As an experimental example, M = 1
When 024, L = 40 and M1 = 32, L1 = 5, it has been confirmed that the amount of calculation is greatly reduced without the optimal excitation vector being omitted from the preliminary selection result.

なお上記実施例では最適音源探索の処理を回路内で実
現する例について述べたが、これをマイクロプロセッ
サ,信号処理プロセッサ等の汎用演算装置によるソフト
ウェア処理により実現してもよい。
In the above-described embodiment, an example in which the process of searching for an optimum sound source is realized in a circuit has been described. However, this may be realized by software processing using a general-purpose arithmetic device such as a microprocessor or a signal processing processor.

また上記実施例では歪評価空間として、DFTによる周
波数領域を用いた場合について述べたが、これを次元直
交条件を満たす任意の写像空間を用いてもよい。
In the above embodiment, the case where the frequency domain by DFT is used as the distortion evaluation space has been described. However, any mapping space that satisfies the dimensional orthogonality condition may be used.

〔発明の効果〕〔The invention's effect〕

以上のように、この発明によれば、写像音源符号帳
(1)と、音声分析手段(16)と、第1のL次元写像手
段(12)と、第2のL次元写像手段(13)と、音源ベク
トル予備選択手段(3)と、音源ベクトル選択手段
(9)からなる音声符号化装置の最適音源ベクトル探索
装置において、写像音源符号帳(1)は、L次元の次元
直交条件を満たすL次元歪評価空間に写像したM個の写
像音源ベクトル(2)を有し、第1のL次元写像手段
(12)は、入力される音声信号(11)を写像音源ベクト
ル(2)と同様のL次元歪評価空間に写像し、写像音声
信号(4)として音源ベクトル予備選択手段(3)、お
よび、音源ベクトル選択手段(9)に出力し、音声分析
手段(16)は、入力される音声信号(11)を分析して合
成フィルタ係数を算出すると共に、この合成フィルタ係
数のインパルス応答を算出して第2のL次元写像手段
(13)に出力し、第2のL次元写像手段(13)は、合成
フィルタ係数のインパルス応答を写像音源ベクトル
(2)と同様のL次元歪評価空間に写像し、評価重みフ
ィルタ係数(5)として音源ベクトル予備選択手段
(3)、および、音源ベクトル選択手段(9)に出力
し、音源ベクトル予備選択手段(3)は、評価重みフィ
ルタ係数(5)の各成分の絶対値の大きさに基づいてL1
個(L1<L)の次元成分を選出するとともに、L1個の次
元成分を対象に、評価重みフィルタ係数(5)とM個の
写像音源ベクトル(2)を用いて写像音声信号(4)に
対する歪量が小さいM1個(M1<M)の写像音源ベクトル
を選択し、音源ベクトル選択手段(9)は、L次元全て
を対象に、音源ベクトル予備選択手段(3)の選択した
M1個の写像音源ベクトル中から、評価重みフィルタ係数
(5)とM1個の写像音源ベクトルを用いて写像音声信号
(4)に対する歪量が最小となる1個の最適写像音源ベ
クトルを選択するようにしたので、音源ベクトルに対す
る歪量計算を行う際にその演算量を低減でき、小規模な
装置でも十分大きなM個の音源ベクトルの中から最適な
音源ベクトルを探索することが可能となり、同じ装置規
模でより高品質な再生音声を得ることができる効果が得
られる。
As described above, according to the present invention, the mapped excitation codebook (1), the speech analysis means (16), the first L-dimensional mapping means (12), and the second L-dimensional mapping means (13) In the optimal excitation vector search apparatus of the speech encoding apparatus comprising the excitation vector preliminary selection means (3) and the excitation vector selection means (9), the mapped excitation codebook (1) satisfies the L-dimensional orthogonal condition. It has M mapped sound source vectors (2) mapped to the L-dimensional distortion evaluation space, and the first L-dimensional mapping means (12) converts the input audio signal (11) into the same as the mapped sound source vector (2). And outputs it to the sound source vector preliminary selecting means (3) and the sound source vector selecting means (9) as a mapped sound signal (4), and the sound analyzing means (16) is inputted. Analyzing the audio signal (11) to calculate the synthesis filter coefficient and The impulse response of the synthesis filter coefficient is calculated and output to the second L-dimensional mapping means (13), and the second L-dimensional mapping means (13) converts the impulse response of the synthesis filter coefficient into the mapped sound source vector (2). Are mapped to the same L-dimensional distortion evaluation space as described above, and output to the excitation vector preselection means (3) and the excitation vector selection means (9) as evaluation weight filter coefficients (5), and the excitation vector preselection means (3) Is L1 based on the magnitude of the absolute value of each component of the evaluation weight filter coefficient (5).
(L1 <L) dimension components are selected, and the L1 dimension components are subjected to the mapped speech signal (4) using the evaluation weight filter coefficient (5) and the M mapped sound source vectors (2). The M1 (M1 <M) mapped sound source vectors having a small distortion amount are selected, and the sound source vector selecting means (9) selects the sound source vector preliminary selecting means (3) for all L dimensions.
From the M1 mapped sound source vectors, one optimal mapped sound source vector that minimizes the amount of distortion for the mapped audio signal (4) is selected using the evaluation weight filter coefficient (5) and the M1 mapped sound source vectors. Therefore, the amount of calculation can be reduced when calculating the amount of distortion for the sound source vector, and even a small-scale device can search for an optimal sound source vector from M sufficiently large sound source vectors. The effect of obtaining higher-quality reproduced audio on a large scale is obtained.

【図面の簡単な説明】[Brief description of the drawings]

第1図はこの発明の一実施例による最適音源ベクトル探
索装置を示すブロック図、第2図は従来の最適音源ベク
トル探索装置を示すブロック図である。 図において、1はM個のDFT音源ベクトルから構成され
る符号帳、2はDFT音源ベクトル、3は音源ベクトル予
備選択回路、4はDFT入力音声、5は評価重みフィルタ
係数、6は切換スイッチ、7は指定信号、8は第2の切
換スイッチ、9は音源ベクトル選択回路、10は最適音源
ベクトルコードである。 なお図中同一符号は同一又は相当部分を示す。
FIG. 1 is a block diagram showing an optimum sound source vector searching device according to an embodiment of the present invention, and FIG. 2 is a block diagram showing a conventional optimum sound source vector searching device. In the figure, 1 is a codebook composed of M DFT excitation vectors, 2 is a DFT excitation vector, 3 is an excitation vector preliminary selection circuit, 4 is a DFT input voice, 5 is an evaluation weight filter coefficient, 6 is a changeover switch, 7 is a designation signal, 8 is a second switch, 9 is a sound source vector selection circuit, and 10 is an optimum sound source vector code. In the drawings, the same reference numerals indicate the same or corresponding parts.

フロントページの続き (56)参考文献 特開 昭59−99496(JP,A) 特開 昭62−139089(JP,A) 特開 昭59−77730(JP,A) 特開 昭59−94936(JP,A)Continuation of front page (56) References JP-A-59-99496 (JP, A) JP-A-62-139089 (JP, A) JP-A-59-77730 (JP, A) JP-A-59-94936 (JP, A) , A)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】写像音源符号帳と、音声分析手段と、第1
のL次元写像手段と、第2のL次元写像手段と、音源ベ
クトル予備選択手段と、音源ベクトル選択手段からなる
音声符号化装置の最適音源ベクトル探索装置において、 写像音源符号帳は、L次元の次元直交条件を満たすL次
元歪評価空間に写像したM個の写像音源ベクトルを有
し、 第1のL次元写像手段は、入力される音声信号を写像音
源ベクトルと同様のL次元歪評価空間に写像し、写像音
声信号として音源ベクトル予備選択手段、および、音源
ベクトル選択手段に出力し、 音声分析手段は、入力される音声信号を分析し合成フィ
ルタ係数を算出すると共に、この合成フィルタ係数のイ
ンパルス応答を算出して第2のL次元写像手段に出力
し、 第2のL次元写像手段は、合成フィルタ係数のインパル
ス応答を写像音源ベクトルと同様のL次元歪評価空間に
写像し、評価重みフィルタ係数として音源ベクトル予備
選択手段、および、音源ベクトル選択手段に出力し、 音源ベクトル予備選択手段は、評価重みフィルタ係数の
各成分の絶対値の大きさに基づいてL1個(L1<L)の次
元成分を選出するとともに、L1個の次元成分を対象に、
評価重みフィルタ係数とM個の写像音源ベクトルを用い
て写像音声信号に対する歪量が小さいM1個(M1<M)の
写像音源ベクトルを選択し、 音源ベクトル選択手段は、L次元全てを対象に、音源ベ
クトル予備選択手段の選択したM1個の写像音源ベクトル
中から、評価重みフィルタ係数とM1個の写像音源ベクト
ルを用いて写像音声信号に対する歪量が最小となる1個
の最適写像音源ベクトルを選択することを特徴とする最
適音源ベクトル探索装置。
1. A mapped excitation codebook, a speech analysis means, and a first
, A second L-dimensional mapping means, an excitation vector preliminary selection means, and an optimal excitation vector search apparatus of a speech coding apparatus including the excitation vector selection means, wherein the mapped excitation codebook has an L-dimensional It has M mapped sound source vectors mapped to an L-dimensional distortion evaluation space that satisfies the three-dimensional orthogonal condition, and the first L-dimensional mapping means converts the input speech signal into the same L-dimensional distortion evaluation space as the mapped sound source vector. The audio signal is mapped and output to the sound source vector preliminary selecting means and the sound source vector selecting means as a mapped sound signal. The sound analyzing means analyzes the input sound signal to calculate a synthesis filter coefficient, and impulse of the synthesis filter coefficient. Calculates the response and outputs it to the second L-dimensional mapping means. The second L-dimensional mapping means converts the impulse response of the synthesis filter coefficient into the same L as the mapped sound source vector. It maps to the dimensional distortion evaluation space and outputs it to the sound source vector preliminary selecting means and the sound source vector selecting means as the evaluation weight filter coefficient. The sound source vector preliminary selecting means determines the magnitude of the absolute value of each component of the evaluation weight filter coefficient. L1 (L1 <L) dimension components are selected based on the L1 dimension components.
Using the evaluation weighting filter coefficient and the M mapped sound source vectors, select M1 (M1 <M) mapped sound source vectors having a small amount of distortion to the mapped sound signal. The sound source vector selecting means targets all L dimensions, From the M1 mapped sound source vectors selected by the sound source vector preliminary selecting means, one optimal mapped sound source vector with the least amount of distortion to the mapped sound signal is selected using the evaluation weighting filter coefficient and the M1 mapped sound source vectors. An optimal sound source vector search device.
JP63153963A 1988-06-21 1988-06-21 Optimal sound source vector search device Expired - Lifetime JP2702157B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63153963A JP2702157B2 (en) 1988-06-21 1988-06-21 Optimal sound source vector search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63153963A JP2702157B2 (en) 1988-06-21 1988-06-21 Optimal sound source vector search device

Publications (2)

Publication Number Publication Date
JPH01319799A JPH01319799A (en) 1989-12-26
JP2702157B2 true JP2702157B2 (en) 1998-01-21

Family

ID=15573896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63153963A Expired - Lifetime JP2702157B2 (en) 1988-06-21 1988-06-21 Optimal sound source vector search device

Country Status (1)

Country Link
JP (1) JP2702157B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
CN1200403C (en) * 2000-11-30 2005-05-04 松下电器产业株式会社 Vector quantizing device for LPC parameters

Also Published As

Publication number Publication date
JPH01319799A (en) 1989-12-26

Similar Documents

Publication Publication Date Title
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
JP3094908B2 (en) Audio coding device
US6023671A (en) Voiced/unvoiced decision using a plurality of sigmoid-transformed parameters for speech coding
JP3068196B2 (en) Multipulse analysis speech processing system and method
EP0685834B1 (en) A speech synthesis method and a speech synthesis apparatus
JP2624130B2 (en) Audio coding method
JP2970407B2 (en) Speech excitation signal encoding device
US5119423A (en) Signal processor for analyzing distortion of speech signals
JP2702157B2 (en) Optimal sound source vector search device
JPH09214349A (en) Vector quantization method and voice coding method
JP2931059B2 (en) Speech synthesis method and device used for the same
JP3144284B2 (en) Audio coding device
JP3299099B2 (en) Audio coding device
JP3192051B2 (en) Audio coding device
JP3471889B2 (en) Audio encoding method and apparatus
JP3276977B2 (en) Audio coding device
EP0713208A2 (en) Pitch lag estimation system
JP3471542B2 (en) Audio coding device
JP3112462B2 (en) Audio coding device
JP3092654B2 (en) Signal encoding device
JP2907019B2 (en) Audio coding device
JPH05289697A (en) Method for encoding pitch period of voice
JPH04301900A (en) Audio encoding device
JPH0511799A (en) Voice coding system
JP3354338B2 (en) Audio coding device