JP2947788B1 - High-speed encoding method and apparatus for speech and audio signals and recording medium - Google Patents

High-speed encoding method and apparatus for speech and audio signals and recording medium

Info

Publication number
JP2947788B1
JP2947788B1 JP10129236A JP12923698A JP2947788B1 JP 2947788 B1 JP2947788 B1 JP 2947788B1 JP 10129236 A JP10129236 A JP 10129236A JP 12923698 A JP12923698 A JP 12923698A JP 2947788 B1 JP2947788 B1 JP 2947788B1
Authority
JP
Japan
Prior art keywords
impulse response
matrix
period
correlation matrix
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10129236A
Other languages
Japanese (ja)
Other versions
JPH11327599A (en
Inventor
仲 大室
一則 間野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10129236A priority Critical patent/JP2947788B1/en
Application granted granted Critical
Publication of JP2947788B1 publication Critical patent/JP2947788B1/en
Publication of JPH11327599A publication Critical patent/JPH11327599A/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

【要約】 【課題】 低いビットレート、少ないメモリ量、少ない
演算量で、高品質な再生音声を得られる音声および音響
信号の符号化を提供すること。 【解決手段】 目標音響信号と再生音響信号との間の歪
みを計算する過程で、周期化の周期化ゲインを1に設定
し、周期化のための周期を整数サンプル値で近似し、合
成フィルタまたは聴覚重みを考慮した合成フィルタのイ
ンパルス応答を求め、上記インパルス応答を周期化の周
期の2分の1以下の長さで打ち切り、上記打ち切ったイ
ンパルス応答を用いてインパルス応答行列の相関行列を
計算し、周期化を上記整数サンプル値による近似処理で
置き換えることを前提とし、上記打ち切ったインパルス
応答より計算されたインパルス応答行列の相関行列を用
いて、再生される音響信号のパワーの近似値を計算す
る。
An object of the present invention is to provide audio and audio signal encoding that can obtain high-quality reproduced audio with a low bit rate, a small amount of memory, and a small amount of computation. SOLUTION: In a process of calculating a distortion between a target audio signal and a reproduced audio signal, a periodic gain for periodicization is set to 1, a period for periodicization is approximated by an integer sample value, and a synthesis filter is provided. Alternatively, the impulse response of the synthesis filter considering the auditory weight is obtained, the impulse response is truncated at a length equal to or less than half of the period of the period, and the correlation matrix of the impulse response matrix is calculated using the truncated impulse response. Calculating the approximate value of the power of the reproduced sound signal using the correlation matrix of the impulse response matrix calculated from the truncated impulse response, assuming that the periodicization is replaced with the approximation process using the integer sample values described above. I do.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、音声、音楽また
は音響信号の、スペクトル包絡特性を表すフィルタを音
源ベクトルで駆動して音声を合成する予測符号化によ
り、音声の信号系列を少ない情報量でディジタル符号化
する高能率音声符号化方法および装置および記録媒体に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to predictive coding for synthesizing speech by driving a filter representing a spectral envelope characteristic of speech, music, or an acoustic signal with a sound source vector to thereby reduce a signal sequence of the speech with a small amount of information. The present invention relates to a high-efficiency audio encoding method and apparatus for digital encoding and a recording medium.

【0002】[0002]

【従来の技術】ディジタル移動体通信において電波を効
率的に利用したり、音声または音楽蓄積サービス等で通
信回線や記憶媒体を効率的に利用するために、高能率音
声符号化方法が用いられる。現在、音声を高能率に符号
化する方法として、原音声をフレームまたはサブフレー
ムと呼ばれる5〜50ミリ秒程度の一定間隔の区間(以
降、フレームまたはサブフレームを総称してフレームと
呼ぶ。)に分割し、その1フレームの音声を周波数スペ
クトルの包絡特性を表す線形フィルタの特性と、そのフ
ィルタを駆動するための駆動音源信号との2つの情報に
分離し、それぞれを符号化する手法が提案されている。
2. Description of the Related Art In order to efficiently use radio waves in digital mobile communication and to efficiently use communication lines and storage media for voice or music storage services, a high-efficiency voice coding method is used. At present, as a method for efficiently encoding speech, original speech is divided into sections at a fixed interval of about 5 to 50 milliseconds called frames or subframes (hereinafter, frames or subframes are collectively referred to as frames). A method has been proposed in which the audio of one frame is divided into two pieces of information, namely, a linear filter characteristic representing an envelope characteristic of a frequency spectrum and a drive excitation signal for driving the filter, and each is encoded. ing.

【0003】この手法において、駆動音源信号を符号化
する方法として、音声のピッチ周期(基本周波数)に対
応すると考えられる周期成分と、それ以外の成分に分離
して符号化する方法が知られている。この駆動音源情報
の符号化法の例として、符号駆動線形予測符号化(Code
-Excited Linear Prediction:CELP)がある。上記
技術の詳細については、文献 M.R.Schroeder and B.S.A
tal, "Code-Excited Linear Prediction(CELP): High Q
uality Speech at Very Low Bit Rates", IEEEProc. IC
ASSP-85, pp.937-940, 1985に記載されている。
In this method, as a method of encoding a driving excitation signal, there is known a method of encoding by separating a periodic component considered to correspond to a pitch period (fundamental frequency) of voice and other components. I have. As an example of the coding method of the driving excitation information, code driving linear prediction coding (Code
-Excited Linear Prediction (CELP). For details of the above technology, see the literature MRSchroeder and BSA
tal, "Code-Excited Linear Prediction (CELP): High Q
uality Speech at Very Low Bit Rates ", IEEEProc. IC
ASSP-85, pp. 937-940, 1985.

【0004】図4に上記符号化方法の構成例を示す。入
力端子に入力された音声は、線形予測分析部1−1にお
いて、入力音声の周波数スペクトル包絡特性を表す線形
予測パラメータが計算される。得られた線形予測パラメ
ータは線形予測パラメータ符号化部1−2において、符
号化されて線形予測パラメータ復号部1−3に送られ
る。また、歪み計算に聴覚特性を考慮するなど、入力音
声のスペクトル情報を利用して歪み計算を行う場合に
は、線形予測パラメータは歪み計算部1−6へも送られ
る。
FIG. 4 shows a configuration example of the above-mentioned encoding method. For the speech input to the input terminal, a linear prediction parameter representing a frequency spectrum envelope characteristic of the input speech is calculated in the linear prediction analysis unit 1-1. The obtained linear prediction parameters are encoded in the linear prediction parameter encoding unit 1-2 and sent to the linear prediction parameter decoding unit 1-3. In addition, when distortion calculation is performed using spectral information of input speech, for example, by taking into account auditory characteristics in distortion calculation, the linear prediction parameter is also sent to the distortion calculation unit 1-6.

【0005】線形予測パラメータ復号部1−3では、受
け取った符号から合成フィルタ係数を再生し、合成フィ
ルタ1−5に送る。歪み計算に聴覚特性を考慮する場合
に、歪み計算部1−6において量子化前の線形予測パラ
メータを用いる代わりに、上記復号された線形予測パラ
メータを歪み計算に使用することもある。なお、線形予
測分析の詳細および線形予測パラメータの符号化例につ
いては、例えば古井貞煕著”ディジタル音声処理”(東
海大学出版会)に記載されている。ここで、線形予測分
析部1−1,線形予測パラメータ符号化部1−2,線形
予測パラメータ復号部1−3および合成フィルタ1−5
は非線形なものに置き換えてもよい。
[0005] The linear prediction parameter decoding section 1-3 reproduces a synthesis filter coefficient from the received code and sends it to the synthesis filter 1-5. When the auditory characteristics are considered in the distortion calculation, the decoded linear prediction parameter may be used in the distortion calculation instead of using the linear prediction parameter before quantization in the distortion calculation unit 1-6. The details of the linear prediction analysis and examples of encoding of the linear prediction parameters are described in, for example, "Digital Speech Processing" by Sadahiro Furui (Tokai University Press). Here, the linear prediction analysis unit 1-1, the linear prediction parameter encoding unit 1-2, the linear prediction parameter decoding unit 1-3, and the synthesis filter 1-5
May be replaced with a non-linear one.

【0006】駆動音源ベクトル生成部1−4では、1フ
レーム分の長さの駆動音源ベクトル候補を生成し、合成
フィルタ1−5に送る。駆動音源ベクトル生成部1−4
は大きく分けて、音声のピッチ周期(基本周波数)に対
応する部分と、それ以外の非周期成分に対応する部分か
らなる。適応符号帳1−10はピッチ周期に対応する部
分で、バッファに記憶された直前の過去の駆動音源ベク
トル(既に量子化された直前の1〜数フレーム分の駆動
音源ベクトル)c(t−1)を、ある周期に相当する長
さで切り出し、その切り出したベクトルをフレームの長
さになるまで繰り返すことによって、音声の周期成分に
対応する時系列ベクトルの候補を出力する。上記「ある
周期」とは、歪み計算部1−6における歪みが小さくな
るような周期が選択されるが、選択された周期は、一般
には音声のピッチ周期に相当することが多い。
[0006] The drive excitation vector generation section 1-4 generates a drive excitation vector candidate having a length of one frame and sends it to the synthesis filter 1-5. Driving sound source vector generation section 1-4
Is roughly divided into a portion corresponding to the pitch cycle (fundamental frequency) of the voice and a portion corresponding to the other aperiodic components. The adaptive codebook 1-10 is a portion corresponding to the pitch period, and is a drive excitation vector of the immediately preceding past stored in the buffer (a drive excitation vector of one to several frames just before quantization) c (t-1 ) Is cut out at a length corresponding to a certain cycle, and the cut-out vector is repeated until the length of the frame is reached, thereby outputting a time-series vector candidate corresponding to a sound cycle component. As the “certain period”, a period in which the distortion in the distortion calculator 1-6 is reduced is selected, and the selected period generally corresponds to a pitch period of a voice in many cases.

【0007】固定符号帳1−11は、音声の基本周期以
外の成分に対応する部分で、入力音声とは独立に符号化
のためのビット数に応じてあらかじめ指定された数の候
補ベクトルが記憶されており、そこから1フレーム分の
長さの時系列符号ベクトルの候補を出力する。固定符号
帳1−11から出力された固定符号ベクトル候補は、周
期化部1−16において、周期符号で指定される周期
(上記のように一般にピッチ周期に相当)で必要に応じ
て周期化される。周期化とは、指定された周期位置にタ
ップを持つ櫛形フィルタをかけるか、適応符号帳と同様
に、ベクトルの先頭から指定された周期に相当する長さ
で切り出したベクトルを繰り返すことをいう。周期が非
整数サンプル値の場合は、標本化関数の畳み込みを利用
して、非整数サンプル周期の周期化を実現する。なお周
期化部1−16は、子音区間や非音声区間など、音声そ
のものにピッチ成分がないかまたはピッチ成分が少ない
場合などには適用されない場合がある。
The fixed codebook 1-11 is a portion corresponding to a component other than the basic period of speech, and stores a predetermined number of candidate vectors according to the number of bits for encoding independently of the input speech. Then, a time-series code vector candidate having a length of one frame is output therefrom. The fixed code vector candidates output from the fixed codebook 1-11 are periodicized as necessary by the periodicization unit 1-16 at a period specified by the periodic code (generally corresponding to the pitch period as described above). You. The term “periodization” refers to applying a comb filter having a tap at a specified period position, or repeating a vector cut out from the head of the vector at a length corresponding to the specified period, similarly to the adaptive codebook. When the period is a non-integer sample value, the convolution of the sampling function is used to realize the non-integer sample period. Note that the periodicization unit 1-16 may not be applied to a case where a speech itself has no pitch component or a small pitch component, such as a consonant section or a non-speech section.

【0008】適応符号帳1−10および周期化部1−1
6から出力された時系列ベクトルの候補は、乗算部1−
13,1−14において、それぞれ重み作成部1−12
において作成された重みが乗算され、加算部1−15に
おいて加算され、駆動音源ベクトルの候補cとなる。な
お、適応符号帳1−10を用いないで、固定符号帳1−
11のみの構成としてもよく、特に子音部や非音声区間
などのピッチ周期性の少ない信号を符号化するときに
は、ビットを節約するために、適応符号帳1−10を用
いない構成にすることが多い。
Adaptive Codebook 1-10 and Periodizing Unit 1-1
6 are output to the multiplication unit 1-
13 and 1-14, respectively, the weight creating unit 1-12
Are multiplied by the weights generated in step (1), and added in the adder 1-15 to obtain a driving sound source vector candidate c. Note that the fixed codebook 1- 1 is used without using the adaptive codebook 1-10.
In particular, when encoding a signal having a small pitch periodicity such as a consonant part or a non-voice section, a configuration not using the adaptive codebook 1-10 may be used in order to save bits. Many.

【0009】合成フィルタ1−5は、線形予測パラメー
タ復号部1−3の出力をフィルタの係数とする線形フィ
ルタで、駆動音源ベクトル候補cを入力として再生音声
の候補yを出力する。合成フィルタ1−5の次数すなわ
ち線形予測分析の次数は、一般に10〜16次程度が用
いられることが多い。なお、既に述べたように、合成フ
ィルタ1−5は非線形なフィルタでもよい。
The synthesis filter 1-5 is a linear filter that uses the output of the linear prediction parameter decoding section 1-3 as a filter coefficient, and outputs a reproduced sound candidate y with a driving excitation vector candidate c as an input. Generally, the order of the synthesis filter 1-5, that is, the order of the linear prediction analysis, is generally about 10 to 16 order. As described above, the synthesis filter 1-5 may be a non-linear filter.

【0010】歪み計算部1−6では、合成フィルタ1−
5の出力である再生音声の候補yと、入力音声xとの歪
みを計算する。この歪みの計算は、例えば聴覚重み付け
など、合成フィルタの係数または量子化していない線形
予測係数を考慮にいれて行なうことが多い。
The distortion calculator 1-6 includes a synthesis filter 1-
The distortion between the output y of the reproduced voice candidate y and the input voice x is calculated. The calculation of this distortion is often performed taking into account the coefficients of the synthesis filter or unquantized linear prediction coefficients, for example, perceptual weighting.

【0011】符号帳検索制御部1−8では、各再生音声
候補yと入力音声xとの歪みが最小となるような周期符
号、固定符号および重み符号を選択し、そのフレームに
おける駆動音源ベクトルを決定する。このとき、理想的
には歪みが最小となる周期符号、固定符号および重み符
号の最適組み合わせを選択するべきであるが、そのため
には膨大な処理量が必要となり、現実的な時間内で処理
することは困難である。そこで実際には、周期符号→重
み符号の適応符号帳成分ga→固定符号→重み符号の固
定符号帳成分grの順か、周期符号→重み符号の適応符
号帳成分gaの暫定値→固定符号→重み符号(固定符号
帳成分grと適応符号帳成分gaの両方)の順に決め、順
番に決めた結果をもって最適組み合わせとみなすことが
多い。
The codebook search control unit 1-8 selects a periodic code, a fixed code, and a weight code that minimize the distortion between each reproduced voice candidate y and the input voice x, and determines the driving excitation vector in the frame. decide. At this time, ideally, an optimal combination of a periodic code, a fixed code, and a weight code that minimizes distortion should be selected. However, an enormous amount of processing is required, and processing is performed in a realistic time. It is difficult. So in practice, the period codes → weighting code of an adaptive codebook component g a → or order of the fixed code → Weight Codes of the fixed codebook component g r, the provisional value of the period codes → weighting code of an adaptive codebook component g a → decide the order of the fixed code → weighting code (both the fixed codebook component g r and the adaptive codebook component g a), is often regarded as optimal combination with a result of deciding the order.

【0012】上記のように各符号を順番に決める場合、
最適な周期符号と重み符号の適応符号帳成分を探索する
ときには、固定符号帳はないものとして(固定符号帳成
分はゼロであると仮定して)探索する。周期符号と重み
符号の適応符号帳成分を決めた後に、固定符号と重み符
号を決めるときの構成例を図5に示す。図の簡略化のた
め、図5では図4に記載されている各部のうち、線形予
測関連の一部を省略している。
When each code is determined in order as described above,
When searching for the optimal codebook component of the optimal periodic code and weight code, the search is performed assuming that there is no fixed codebook (assuming that the fixed codebook component is zero). FIG. 5 shows a configuration example in which the fixed code and the weight code are determined after the adaptive codebook components of the periodic code and the weight code are determined. For simplification of the drawing, FIG. 5 omits a part related to the linear prediction among the units described in FIG.

【0013】先に決められた適応符号帳出力vaに先に
決めた重み、または重みの暫定値を乗算部2−13にお
いて乗じ、適応符号ベクトルcaを作成する。このca
合成フィルタ2−18に通したベクトルを入力音声xか
ら差し引く。これを固定符号帳成分の参照音声xrと呼
び、固定符号と重み符号を決めるときには、適応符号帳
成分はないものとして、固定符号帳の成分によって生成
された再生音声と、上記参照音声xrとの歪みが最小に
なるように最適値を探索する。なお、適応符号帳を用い
ない構成の場合には、入力音声と参照音声は同じであ
る。
[0013] destination weight previously determined in the adaptive codebook output v a which is determined or the provisional value of the weight, multiplied by the multiplication unit 2-13 generates an adaptive code vector c a. Subtracting the vector through the c a synthesis filter 2-18 from the input speech x. This is called the reference speech x r of the fixed codebook component, when determining the fixed code and weighting code, as not adaptive codebook component, a playback sound generated by the components of the fixed codebook, the reference speech x r The optimum value is searched so as to minimize the distortion. In the case where the adaptive codebook is not used, the input voice and the reference voice are the same.

【0014】図5は適応符号帳と固定符号帳という、2
つの符号帳を用いる構成での探索方法であるが、固定符
号帳が例えば2段構成になっている場合など、3つ以上
の符号帳を用いる場合にも一般化することができる。簡
潔に表現すれば、既に決定しているかまたは暫定的に決
めた符号帳出力を合成して得られる再生音声成分を入力
音声から差し引いて参照音声を作成し、これから探索し
たい符号帳以外は存在しないものとして、上記参照音声
との歪みが最小になるような符号を探索する。なお、上
記符号を順番に決める手順において、各符号を順に1つ
だけに決めてしまうのではなく、途中の段階でいくつか
の候補を残しておいて最後にそれらの組み合わせの中か
ら最適なものを選ぶ場合もあり、これはディレードデシ
ジョンと呼ばれる。
FIG. 5 shows an adaptive codebook and a fixed codebook.
Although the search method is a configuration using one codebook, it can be generalized to a case where three or more codebooks are used, for example, when a fixed codebook has a two-stage configuration. Simply put, a reference speech is created by subtracting the reproduction speech component obtained from the already determined or provisionally determined codebook output from the input speech, and there is no codebook other than the codebook to be searched from now on. Specifically, a code that minimizes distortion from the reference voice is searched for. In the above-described procedure for determining codes in order, instead of deciding only one code in order, some candidates are left at an intermediate stage, and finally the most suitable combination is selected from those combinations. In some cases, this is called a delayed decision.

【0015】図4の符号帳検索制御部1−8において決
定された駆動音源符号(周期符号、雑音符号、重み符
号)と、線形予測パラメータ符号化部1−2の出力であ
る線形予測パラメータ符号は、符号送出部1−9に送ら
れ、利用の形態に応じて記憶装置に記憶されるか、また
は通信路を介して受信側へ送られる。
The excitation code (periodic code, noise code, weight code) determined by codebook search control section 1-8 in FIG. 4 and linear prediction parameter code output from linear prediction parameter coding section 1-2. Is sent to the code sending section 1-9 and stored in a storage device or sent to the receiving side via a communication path according to the form of use.

【0016】このようなCELP方式において問題とな
るのは、駆動音源ベクトル候補の選択をするための歪み
計算、特に固定符号帳を探索する際の歪み計算に、非常
に多くの演算処理が必要になることである。この問題に
対して、パルス駆動型のCELP、あるいはスパース符
号帳によるCELP方式が提案されている。いずれも、
固定符号帳から出力される固定符号ベクトルの一部の要
素(サンプル点)のみに値を持ち、その他の要素(サン
プル点)では値が0であるベクトルを固定符号ベクトル
として用いる。
A problem in such a CELP method is that a large amount of arithmetic processing is required for distortion calculation for selecting a driving excitation vector candidate, particularly for distortion calculation for searching a fixed codebook. It is becoming. To address this problem, a pulse-driven CELP or a CELP scheme using a sparse codebook has been proposed. In each case,
A vector having a value in only some elements (sample points) of the fixed code vector output from the fixed codebook and having a value of 0 in other elements (sample points) is used as a fixed code vector.

【0017】前者の一例を挙げるとパルス駆動型のCE
LPは、固定符号帳を、フレーム長のベクトルパターン
として蓄えるのではなく、高さが1のパルスを、フレー
ム内に数本、例えば、80サンプルのフレームに対し
て、4本、適当な位置に立てることによって、固定符号
ベクトルとする方式である。このようなパルス型の駆動
音源の採用と、歪み計算において演算順序を工夫すれ
ば、従来のCELP方式に比べて演算処理を減らすこと
ができる。以下、パルス駆動型の方式における歪み計算
の例を図を用いて示す。
One example of the former is a pulse-driven CE.
The LP does not store the fixed codebook as a vector pattern of a frame length, but puts several pulses having a height of 1 in an appropriate position in a frame, for example, four pulses in a frame of 80 samples. This is a method of setting a fixed code vector by setting up. By adopting such a pulse-type driving sound source and devising the calculation order in the distortion calculation, the number of calculation processes can be reduced as compared with the conventional CELP method. Hereinafter, an example of distortion calculation in the pulse driving type method will be described with reference to the drawings.

【0018】図5の固定符号帳を探索する構成におい
て、聴覚重みづけを考慮して歪みを計算する構成例を図
6に示す。図6において、固定符号帳(固定符号帳のベ
クトル形状)を探索するときには、一般に、重みgr
任意の値をとってよいものとして探索し、最適な固定符
号べクトルを決めるか、あるいは適当な固定符号ベクト
ルの候補を少数に絞った後に重み符号を探索するので、
重み符号帳部分は省略し、重みは単にgと表記した。g
は各固定符号ベクトル毎に任意の値をとってよいものと
する。聴覚重みづけは、量子化していない線形予測パラ
メータもしくは量子化された合成フィルタ係数を用いた
聴覚重みフィルタの形で構成される。
FIG. 6 shows an example of a configuration for calculating distortion in consideration of auditory weighting in the configuration for searching for a fixed codebook in FIG. 6, when searching fixed codebook (vector shape fixed codebook) generally weights g r is searched as may take any value, or determines the optimum fixed code base vector, or a suitable After searching for a weight code after narrowing down the candidates for the fixed code vector to a small number,
The weight codebook portion is omitted, and the weight is simply expressed as g. g
May take any value for each fixed code vector. The auditory weighting is configured in the form of an auditory weight filter using unquantized linear prediction parameters or quantized synthetic filter coefficients.

【0019】合成フィルタ3−1から出力される再生音
声候補yrは、聴覚重みフィルタ3−2を通され、同じ
く聴覚重みフィルタ3−3に通された参照音声xrとの
間で、歪みが計算される。ここで、聴覚重みフィルタ3
−2,3−3は通常同一のフィルタ係数を用いるため、
聴覚重みフィルタ3−2,3−3は、距離計算部3−4
の後にlつのフィルタとして入れても等価であるが、処
理量の点から、図6に示されるように、距離計算部3−
4の手前で2ヶ所に分けて入れることが多い。
The reproduced speech candidate y r output from the synthesis filter 3-1 is passed through the perceptual weighting filter 3-2, also with the reference speech x r which is passed through the perceptual weighting filter 3-3 strain Is calculated. Here, the auditory weight filter 3
Since −2 and 3-3 usually use the same filter coefficient,
The hearing weight filters 3-2 and 3-3 are provided by a distance calculator 3-4.
Is equivalent even if it is inserted as one filter after, but from the viewpoint of the processing amount, as shown in FIG.
It is often divided into two places just before 4.

【0020】距離計算部3−4では、聴覚重み付き参照
音声xwと聴覚重み付き再生音声候補ywの間の距離を測
定する。このときの距離尺度には例えば、
[0020] In the distance calculating section 3-4 measures the distance between the auditory weighted reference speech x w and auditory weighted reproduced speech candidate y w. The distance scale at this time is, for example,

【数1】 といった距離尺度を用いればよい。(1)式の距離尺度
を最小にするような駆動音源ベクトルが選択される。な
お、聴覚重みフィルタ3−2,3−3は人間の聴覚特性
を利用して再生音声の雑音感を低減するような歪み計算
をするためのフィルタで、必ずしも用いなくてもよい。
(Equation 1) Such a distance scale may be used. A driving sound source vector that minimizes the distance scale of the equation (1) is selected. The auditory weight filters 3-2 and 3-3 are filters for performing distortion calculation to reduce noise in the reproduced voice by using human auditory characteristics, and need not always be used.

【0021】図6の構成において、駆動音源ベクトル候
補を合成フィルタ3−1と聴覚重みづけフィルタ3−2
に通す操作を高速に実行するためには、これらの2つの
フィルタを合わせて、等価なフィルタ特性を持つ1つの
聴覚重み付き合成フィルタとするとよい。等価な1つの
フィルタとするには、例えば合成フィルタ3−1の入力
から聴覚重みフィルタ3−2の出力までのインパルス応
答をフィルタ係数とするFIRフィルタで表現すること
ができる。このとき、合成フィルタはIIRフィルタで
あるので、FIRフィルタで等価なフィルタ特性を実現
するためには、フレーム長のタップ数のFIRフィルタ
が必要となる。
In the configuration shown in FIG. 6, the driving sound source vector candidates are combined with the synthesis filter 3-1 and the auditory weighting filter 3-2.
In order to execute the operation of passing through the filter at high speed, it is preferable to combine these two filters into one auditory weighted synthesis filter having equivalent filter characteristics. In order to make an equivalent one filter, for example, it can be expressed by an FIR filter that uses an impulse response from an input of the synthesis filter 3-1 to an output of the auditory weight filter 3-2 as a filter coefficient. At this time, since the synthesis filter is an IIR filter, in order to realize equivalent filter characteristics with the FIR filter, an FIR filter having the number of taps of the frame length is required.

【0022】フレームの長さ(サンプル数またはベクト
ル長)をN、上記インパルス応答(FIRフィルタの係
数列)をh0,h1,h2,…,hN-1とし、これらのイン
パルス応答を使って以下のようなインパルス応答行列H
を定義する。
The frame length (the number of samples or the vector length) is N, the impulse response (coefficient sequence of the FIR filter) is h 0 , h 1 , h 2 ,..., H N−1, and these impulse responses are Using the following impulse response matrix H
Is defined.

【数2】 また、周期化部3−7の機能も行列で表現することがで
き、この行列をPで表す。
(Equation 2) Further, the function of the periodic unit 3-7 can also be represented by a matrix, and this matrix is represented by P.

【0023】上記行列HおよびPを用いると、重みの値
gが任意の値をとることができるという前提のもとで
(1)式を最小にすることは、以下の(3)式を最大に
することと等価になる。
Using the above matrices H and P, minimizing equation (1) on the premise that the weight value g can take an arbitrary value is equivalent to maximizing equation (3) below. Is equivalent to

【数3】 上記(3)式を最大にすることをもって符号帳を探索す
るのは、(HP)t(HP)とxw t(HP)は1つのフ
レームに対して探索の最初に1回のみ計算をすればよ
く、パルス駆動型またはスパース符号帳を用いる場合
に、高速な探索を実現できるからである。なお、上記式
で、記号tはベクトルおよび行列の転置を表す。また、
(3)式における分母は、合成された信号のパワー(ベ
クトルの二乗和)に相当する。
(Equation 3) The search for the codebook by maximizing the above equation (3) is based on the fact that (HP) t (HP) and xw t (HP) need only be calculated once at the beginning of the search for one frame. This is because a high-speed search can be realized when a pulse-driven or sparse codebook is used. In the above equation, the symbol t represents transposition of a vector and a matrix. Also,
The denominator in the equation (3) corresponds to the power (sum of squares of the vector) of the combined signal.

【0024】上記(3)式の値を高速に求める方法の構
成例を図7に示す。聴覚重み付き合成フィルタインパル
ス応答算出部4−1では、図6における聴覚重み付き合
成フィルタ部3−9のインパルス応答を計算する。図6
では、周期化部3−7は固定符号帳と合成フィルタの間
にあるが、図7の構成ではHPvrの計算において、H
Pの値を先に計算することから、周期化部4−2はイン
パルス応答算出部4−1の次に配置し、インパルス応答
hを周期化する。
FIG. 7 shows an example of a configuration of a method for quickly obtaining the value of the above equation (3). The hearing weighted synthesis filter impulse response calculation unit 4-1 calculates the impulse response of the hearing weighted synthesis filter unit 3-9 in FIG. FIG.
So although periodic unit 3-7 is between the fixed codebook synthesis filter, in the calculation of HPV r in the configuration of FIG. 7, H
Since the value of P is calculated first, the periodicization unit 4-2 is arranged next to the impulse response calculation unit 4-1 to periodicize the impulse response h.

【0025】相関行列計算部4−5では、周期化部4−
2の出力である、周期化されたインパルス応答を用い
て、相関行列(HP)t(HP)を計算する。畳み込み
部4−4では、同じく周期化されたインパルス応答と聴
覚重みづけされた参照音声xwを用いてxw t(HP)を
計算する。最終距離尺度計算部4−7では、相関行列計
算部4−5の出力行列、および畳み込み部4−4の出力
ベクトルと、固定符号帳4−6の出力である固定符号ベ
クトルを用いて、(3)式の値を計算する。
In the correlation matrix calculation section 4-5, the periodicization section 4-
The correlation matrix (HP) t (HP) is calculated using the periodicized impulse response, which is the output of 2. The convolution unit 4-4 calculates x w t (HP) using the impulse response that has been similarly periodized and the reference speech x w weighted with the auditory sense. The final distance scale calculation unit 4-7 uses the output matrix of the correlation matrix calculation unit 4-5, the output vector of the convolution unit 4-4, and the fixed code vector output from the fixed codebook 4-6 to obtain ( 3) Calculate the value of equation.

【0026】[0026]

【発明が解決しようとする課題】図7の構成を用いて歪
み計算を行う際に問題となるのは、フレームが長い場合
である。例えば、サンプリング周波数が8kHzでフレ
ーム長を10ミリ秒とすると、フレーム長は80点とな
り、相関行列(HP)t(HP)のサイズは80×80
となる。このため、要素数が6400の行列計算をしな
ければならず、多大なメモリと演算処理が必要となる。
低ビットレートで高能率な音声符号化を実現しようとす
る場合には、上記フレームを長くしなければならないた
め、図7の方法を用いて演算量の少ない低ビットレート
の音声符号化を実現することは不可能であった。
A problem when performing the distortion calculation using the configuration of FIG. 7 is when the frame is long. For example, if the sampling frequency is 8 kHz and the frame length is 10 ms, the frame length is 80 points, and the size of the correlation matrix (HP) t (HP) is 80 × 80.
Becomes For this reason, a matrix calculation having 6400 elements must be performed, which requires a large amount of memory and arithmetic processing.
In order to realize high-efficiency voice encoding at a low bit rate, the above-mentioned frame must be lengthened. Therefore, low-bit-rate voice encoding with a small amount of computation is realized using the method of FIG. That was impossible.

【0027】この問題を解決するひとつの方法として、
本発明者等が既に出願した「音響信号符号化方法」(特
願平9−040404)がある。この方式の構成例を図
8に示す。この方法はまず、歪み計算に用いる聴覚重み
付き合成フィルタのインパルス応答を途中で打ち切っ
て、有限長のFIRフィルタとする。参照音声には、い
ったん合成フィルタの逆フィルタをかけたあとに、上記
有限長で打ち切ったFIRフィルタをかけて、参照音声
にもインパルス応答の打ち切り歪みを重畳する。図6,
図7の構成では、駆動音源ベクトルをピッチ周期化して
いるが、図8の構成では参照音声側にピッチ逆フィルタ
を入れる。
One way to solve this problem is as follows:
There is an “audio signal encoding method” (Japanese Patent Application No. 9-040404) filed by the present inventors. FIG. 8 shows a configuration example of this method. In this method, first, an impulse response of an auditory weighted synthesis filter used for distortion calculation is truncated halfway to obtain a finite-length FIR filter. The reference voice is once subjected to an inverse filter of the synthesis filter, and then to the FIR filter truncated to the above-mentioned finite length, and the truncation distortion of the impulse response is also superimposed on the reference voice. Figure 6
In the configuration of FIG. 7, the driving sound source vector is pitch-periodized, but in the configuration of FIG. 8, a pitch inverse filter is inserted on the reference voice side.

【0028】この方法を用いることにより、相関行列H
f tfのサイズを非常に小さくできる。例えば、インパ
ルス応答を5タップで打ち切ったと仮定すると、相関行
列は5×5のサイズの行列計算をするだけでよい。この
方法は、フレームが長い場合でも、非常に少ない処理量
で符号化を実現でき、さらに、インパルス応答を打ち切
った歪みが重畳した参照音声と、同じく打ち切り歪みが
重畳した合成音声との間で歪み計算がされるので、両者
間で打ち切りに起因する歪み成分が相殺され、結果とし
て短いタップでインパルス応答を打ち切っても音質劣化
を少なく抑えることができるというメリットがある。
By using this method, the correlation matrix H
The size of f t H f can be made very small. For example, assuming that the impulse response is terminated by 5 taps, the correlation matrix only needs to be calculated in a matrix of size 5 × 5. With this method, even if the frame is long, encoding can be realized with a very small amount of processing.Furthermore, the distortion between the reference speech with the impulse response censored and the synthesized speech with the censored distortion also superimposed. Since the calculation is performed, the distortion component due to the truncation is canceled between the two, and as a result, there is an advantage that even if the impulse response is terminated with a short tap, the sound quality degradation can be suppressed to a small extent.

【0029】しかしながら、図8の方法では、高速演算
を実現できる代償として少ないながら品質劣化を避ける
ことができない。品質劣化の主な要因は、本来の駆動音
源ベクトル側のピッチ周期化を、ピッチ周期化逆フィル
タとして参照音声側に入れるためである。インパルス応
答の打ち切り手法そのものは品質にほとんど影響を与え
ない。そこで、ピッチ周期化を駆動音源ベクトル側に残
したままで、インパルス応答の打ち切りによる高速演算
を実現したい。しかし、ピッチ周期化部を単純に駆動音
源ベクトル側に戻したのでは、インパルス応答hを有限
長で打ち切っても、インパルス応答をピッチ周期化した
Phは有限長にならず、高速な演算を実現できない。
However, in the method shown in FIG. 8, quality deterioration cannot be avoided, albeit little, at the cost of realizing high-speed operation. The main factor of the quality deterioration is that the pitch period on the original drive sound source vector side is put into the reference sound side as a pitch period inverse filter. The truncation of the impulse response itself has little effect on quality. Therefore, it is desired to realize a high-speed calculation by terminating the impulse response while keeping the pitch period on the driving sound source vector side. However, simply returning the pitch-periodization unit to the driving sound source vector side, even if the impulse response h is truncated to a finite length, Ph whose pitch-period of the impulse response does not become a finite length, realizes high-speed operation. Can not.

【0030】この発明の目的は、低いビットレート、か
つ安価なプロセッサで許容される範囲内の少ないメモリ
量、少ない演算量で、高品質な再生音声を得られるよう
な、音声または音楽またはその他の音響信号をディジタ
ル符号化する方法および装置および記録媒体を提供する
ことにある。
An object of the present invention is to provide a low bit rate, low memory amount within a range permitted by an inexpensive processor, and a small amount of operation, so that high quality reproduced sound can be obtained by voice or music or other processing. It is an object of the present invention to provide a method and apparatus for digitally encoding an audio signal and a recording medium.

【0031】[0031]

【課題を解決するための手段】本発明は、符号帳から取
り出した時系列ベクトルを、音声の基本周期に対応する
周期で周期化したベクトルを用いて作成した駆動音源ベ
クトルにより、合成フィルタを駆動して音響信号を再生
し、目標となる音響信号と、上記再生された音響信号の
間の歪みが最小または最小に準ずるような駆動音源ベク
トルを決定する符号化において、上記歪みを計算する過
程で、周期化の周期化ゲインを1に設定し、周期化のた
めの周期を整数サンプル値で近似し、合成フィルタまた
は聴覚重みを考慮した合成フィルタのインパルス応答を
求め、上記インパルス応答を周期化の周期の2分の1以
下の長さで打ち切り、上記打ち切ったインパルス応答を
用いてインパルス応答行列の相関行列を計算し、周期化
を上記整数サンプル値による近似処理で置き換えること
を前提とし、上記打ち切ったインパルス応答より計算さ
れたインパルス応答行列の相関行列を用いて、再生され
る音響信号のパワーの近似値を計算することを特徴とす
る。
According to the present invention, a synthesis filter is driven by a driving sound source vector created by using a time-series vector extracted from a codebook using a vector periodicized at a cycle corresponding to a basic cycle of speech. In the encoding to determine a driving sound source vector such that the distortion between the target audio signal and the reproduced audio signal is minimum or similar to the minimum, in the process of calculating the distortion, , The periodization gain of the periodization is set to 1, the period for the periodization is approximated by an integer sample value, and the impulse response of the synthesis filter or the synthesis filter in consideration of the auditory weight is obtained. The period is truncated to a half or less of the period, the correlation matrix of the impulse response matrix is calculated using the truncated impulse response, and the period is calculated by the integer sampling. It assumes that replace approximation by value, by using a correlation matrix of the censored impulse response from the calculated impulse response matrix, and calculates the approximate value of the power of the acoustic signal reproduced.

【0032】[0032]

【発明の実施の形態】§1.概要 この発明では、(3)式における、分子と分母のピッチ
周期化行列Pの両方か、分母のピッチ周期化行列のみ
を、整数サンプル点ピッチで近似し、周期符号の示すピ
ッチ周期の変動範囲を考慮して、インパルス応答の打ち
切り次数を、一定の範囲内に設定することにより、ピッ
チ周期化部を駆動音源ベクトル側に入れたままで、小さ
いサイズの行列を用いた高速な歪み計算を実現できる。
DESCRIPTION OF THE PREFERRED EMBODIMENTS §1. Overview In the present invention, the pitch period variation range indicated by the periodic code is obtained by approximating both the numerator and the denominator pitch periodic matrix P or only the denominator pitch periodic matrix in the equation (3) by the integer sample point pitch. In consideration of the above, by setting the truncation order of the impulse response within a certain range, high-speed distortion calculation using a matrix of a small size can be realized while the pitch periodization unit is kept on the side of the driving sound source vector. .

【0033】§2.実施形態 以下にこの発明の実施形態を、図表および式を用いて説
明する。なお、本実施形態において、本発明による符号
化方法は、具体的にはパーソナルコンピュータで実行さ
れる。即ち、以下に説明する符号化方法は、上記パーソ
ナルコンピュータのCPU(中央処理装置)を制御する
ための制御プログラムとして、半導体メモリ(ROM,
RAM等)またはその他の記録媒体(磁気ディスク等)
に格納されている。そして、上記CPUは、上記制御プ
ログラムに基づいて音声を符号化する。
§2. Embodiments Embodiments of the present invention will be described below with reference to figures and tables. In the present embodiment, the encoding method according to the present invention is specifically executed by a personal computer. That is, the encoding method described below uses a semiconductor memory (ROM, ROM, etc.) as a control program for controlling the CPU (central processing unit) of the personal computer.
RAM, etc.) or other recording media (magnetic disk, etc.)
Is stored in Then, the CPU encodes audio based on the control program.

【0034】まず、ピッチ周期化の周期化ゲインを1に
設定する。さらに、(3)式において、分母のピッチ周
期化行列Pを近似行列Paで置き換える。分子のピッチ
周期化行列PはPaに置き換えても置き換えなくてもよ
いが、置き換えないほうが音質の点ではよい。ここでピ
ッチ周期化行列の近似行列Paとは、ピッチ周期が非整
数サンプル値、例えば46.25サンプル(8kHzサ
ンプリングの場合では約173Hzに相当)であった場
合に、整数値、例えば46サンプルに近似して作成した
ピッチ周期化行列をいう。
First, the period gain of the pitch period is set to 1. Further, in (3), replace the pitch period of matrix P in the denominator in the approximate matrix P a. Pitch cycle of matrix P of the molecule may or may not replaced be replaced by a P a, but should not replace good in terms of sound quality. Here, the approximate matrix P a pitch period of matrices, when the pitch period is a non-integer sample values, for example (in the case of 8kHz sampling corresponds to approximately 173Hz) 46.25 Sample was, integers, for example 46 samples Is a pitch periodic matrix created by approximating

【0035】一般に非整数サンプル周期のピッチ周期化
は、標本化関数を過去の信号系列に畳み込む処理が必要
であるが、整数サンプル値でしかも周期化ゲインが1の
場合には、過去のサンプル値を単純に繰り返すか、単純
に加算するだけでよい。以下に、周期化ゲインを1に設
定し、周期を整数サンプル値に近似したピッチ周期化行
列の例を示す。
In general, the pitch period of a non-integer sample period requires a process of convolving a sampling function with a past signal sequence. However, when the integer sample value is used and the period gain is 1, the past sample value is used. May simply be repeated or simply added. The following is an example of a pitch periodic matrix in which the periodic gain is set to 1 and the period is approximated to an integer sample value.

【数4】 さらに、インパルス応答hを、前記「音響信号符号化方
法」(特願平9−040404)で述べられているのと
同様に有限長で打ち切る、すなわち打ち切りより先のイ
ンパルス応答は0であるとみなす。
(Equation 4) Further, the impulse response h is truncated to a finite length in the same manner as described in the above-mentioned “Audio Signal Coding Method” (Japanese Patent Application No. 9-040404), that is, the impulse response before the truncation is regarded as 0. .

【0036】この打ち切ったインパルス応答を用いて作
成するインパルス応答行列をHfで表し、分子および分
母のHと置き換える。すると、(3)式は以下の(4)
式で表現される。
An impulse response matrix created using the truncated impulse response is represented by H f , and is replaced with H of the numerator and denominator. Then, equation (3) becomes the following equation (4)
It is represented by an expression.

【数5】 (4)式は(3)式の近似式とみなすことができ、
(3)式を最大にするコードベクトルvrを探索する代
わりに、(4)式を最大にするコードベクトルを探索す
る。(4)式の分母は、ピッチ周期化の周期を整数サン
プル値で近似して合成した信号のパワーに相当する。
(Equation 5) Equation (4) can be regarded as an approximation of equation (3),
(3) Instead of searching for a code vector v r to maximize, to search for a code vector which maximizes the equation (4). The denominator of the equation (4) corresponds to the power of a signal synthesized by approximating the pitch period period with an integer sample value.

【0037】(4)式において、インパルス応答の打ち
切り次数を短くすれば、相関行列H f tfのサイズを非
常に小さくできる。例えば、インパルス応答を5タップ
で打ち切ったと仮定すると、相関行列は5×5のサイズ
の行列計算をするだけでよい。相関行列Hf tfを計算
した後、Pa tf tfaを計算する。このとき「インパ
ルス応答の打ち切り次数がピッチ周期の半分以下」の条
件のもとでは、非常に簡単な処理でHf tfからPa tf
tfaが求められる。「インパルス応答の打ち切り次
数がピッチ周期の半分以下」の場合とは、例えば、ピッ
チ周期が20サンプル(8kHzサンプリングの場合に
は400Hzに相当)のときに、インパルス応答の打ち
切りの次数が10次(10タップ)以下の場合に相当す
る。
In equation (4), the impulse response
By shortening the cutting order, the correlation matrix H f tHfThe size of the non
Can always be smaller. For example, 5 taps on the impulse response
If the correlation matrix is assumed to be truncated, the correlation matrix has a size of 5 × 5.
It is only necessary to calculate the matrix. Correlation matrix Hf tHfCalculate
After that, Pa tHf tHfPaIs calculated. At this time,
The censored order of the lus response is less than half the pitch period. "
Under the circumstances, very simple processingf tHfTo Pa tHf
tHfPaIs required. "Truncation of impulse response
The number is less than half the pitch period ''
Cycle is 20 samples (8 kHz sampling
Is equivalent to 400 Hz).
Corresponds to the case where the order of cutting is 10th order (10 taps) or less
You.

【0038】人間のピッチ周波数は、高くても400H
z以下と言われており、例えばインパルス応答を5タッ
プで打ち切ることにすると、常にこの条件を満たす。イ
ンパルス応答の打ち切り次数は、3タップ程度までは再
生音の品質劣化に与える影響は小さいため、再生音の品
質と演算処理量の観点から、3〜10タップ程度に設定
するとよい。
The human pitch frequency is at most 400H
It is said to be equal to or less than z. For example, if the impulse response is terminated by 5 taps, this condition is always satisfied. The truncation order of the impulse response has a small effect on the quality degradation of the reproduced sound up to about 3 taps, so it is preferable to set the order to about 3 to 10 taps from the viewpoint of the quality of the reproduced sound and the amount of arithmetic processing.

【0039】図1に、Pa tf tfaがHf tfから簡
単な処理で計算できることを示す模式図を示す。この図
は、仮にフレーム長が20サンプル、ピッチ周期が12
サンプル、インパルス応答の打ち切り次数を5とした場
合の、行列Pa tf tfaの例である。実際には、本発
明を適用すると効果が大きいのは、フレーム長が例えば
80点といった長い場合であり、前述のように人間のピ
ッチ周波数が400Hzを越えることはないので、実音
声でピッチ周期が12サンプルになることもない。した
がって、図1の例は実際に本発明を適用するときの例と
は条件が異なるが、図をわかりやすく簡略化して説明を
容易にするために上記の条件のもとでの例を示した。ま
た、行列Pa tf tfaは常に対称行列であるため、右
上の三角行列部分は省略した。i行j列の値はj行i列
の値と同じである。要素の記号が同じところは値が同じ
になることを示す。例えば、m34と表記してある要素は
すべて同じ値をとる。この行列の特徴を以下に列挙す
る。
[0039] FIG. 1 shows a schematic diagram showing that P a t H f t H f P a can be calculated by a simple process from H f t H f. This figure assumes that the frame length is 20 samples and the pitch period is 12
Samples, in the case of a 5 to truncation order of the impulse response is an example of a matrix P a t H f t H f P a. Actually, when the present invention is applied, the effect is great when the frame length is as long as 80 points, for example, and as described above, the human pitch frequency does not exceed 400 Hz. Not even 12 samples. Therefore, the example of FIG. 1 has different conditions from the example when the present invention is actually applied. However, the example under the above conditions is shown in order to simplify the drawing and to simplify the description for easy understanding. . Further, the matrix P a t H f t H f P a is which is always a symmetric matrix, triangular matrix portion of the upper right are omitted. The value at the i-th row and the j-th column is the same as the value at the j-th row and the i-th column. The same symbol indicates that the value is the same. For example, elements are denoted with m 34 all have the same value. The features of this matrix are listed below.

【0040】特徴1:左上から右下にかけて帯状になっ
ており、帯と帯の間の要素は値が0である。 特徴2:帯を左もしくは右にピッチ周期分シフトする
と、値が完全に一致する。 特徴3:mijで表記される部分に関して言えば、0≦i
≦4、i≦j≦4のみ値が独立で、それ以外はmi4(0
≦i≦4)の値が斜めに並んでいるだけである。kij
表記される部分についても同様である。 特徴4:mijとkijには密接な関係があって、 kij=mij+m4-(j-i),4 (0≦i≦4,i≦j≦
4) である。上記特徴1〜4を利用すれば、打ち切ったイン
パルス応答の相関行列H f tf、すなわち5×5の行列
ij(0≦i≦4,i≦j≦4)のみを計算すれば、P
a tf tfaがHf tfから簡単に変換できることがわ
かる。
Feature 1: Band-like from upper left to lower right
And the elements between the bands have a value of zero. Feature 2: Shift the band left or right by the pitch period.
And the values match exactly. Feature 3: mijIn terms of the portion represented by, 0 ≦ i
≦ 4, i ≦ j ≦ 4, the values are independent, otherwise mi4(0
≦ i ≦ 4) are merely arranged diagonally. kijso
The same applies to the portions described. Feature 4: mijAnd kijHave a close relationship with kij= Mij+ M4- (ji), 4 (0 ≦ i ≦ 4, i ≦ j ≦
4) If you use the above features 1-4,
Correlation matrix H of pulse response f tHf, Ie a 5 × 5 matrix
mijBy calculating only (0 ≦ i ≦ 4, i ≦ j ≦ 4), P
a tHf tHfPaIs Hf tHfIt can be easily converted from
Call

【0041】図2は、行列の規模を少し大きくして、フ
レーム長がピッチ長の2倍よりも大きい場合を模式的に
示した図である。図2におけるフレーム長は40サンプ
ル、ピッチ周期は18サンプル、インパルス応答の打ち
切りは5タップを仮定している。図2でも図1と同様に
対称行列のため、右上の三角行列部分は省略している。
また、通常、行列を表記するときには、インデックスは
左から右に向かって大きくなり、上から下に向かって大
きくなるように表記するが、行列の性質上、説明をわか
りやすくするために、右下から上と左ヘインデックスが
大きくなるように表記している。この行列のi行j列の
要素を便宜上、φijで表すこととする。
FIG. 2 is a diagram schematically showing a case where the scale of the matrix is slightly increased and the frame length is larger than twice the pitch length. In FIG. 2, it is assumed that the frame length is 40 samples, the pitch period is 18 samples, and the cutoff of the impulse response is 5 taps. In FIG. 2, the triangular matrix portion at the upper right is omitted because it is a symmetric matrix similarly to FIG.
Also, when writing a matrix, the index is usually written such that it grows from left to right, and grows from top to bottom. The index is written so that the index becomes larger from the top to the left. The element at the i-th row and the j-th column of this matrix is represented by φ ij for convenience.

【0042】図2の例でも、上記特徴1〜4があてはま
る。この例では、フレーム長がピッチ周期の2倍より大
きく3倍よりも小さいので、行列の帯は3本できてお
り、縦縞で表記する帯と帯の間のエリアは値が0にな
る。また、帯を左または右にピッチ周期の整数倍シフト
すると値は完全に一致する。例えば、φ4,20=φ4,38
ある。斜めの格子縞で表す領域、例えば、φij(18≦
i≦22,i≦j≦22)やφij(36≦i≦39,i
≦j≦39)は、右斜線で示す部分行列φij(0≦i≦
4、i≦j≦4)から前記特徴4の法則およびその拡張
から簡単に計算できる。例えば、 φ18,18=φ0,0+φ4,4 φ20,21=φ2,3+φ3,4 φ36,38=φ0,2+φ20,22=φ0,2+2×φ2,4 となる。ここで注意することは、ピッチのn周期目以降
の領域、本例ではφij(36≦i≦39,i≦j≦3
9)が3周期目に相当するが、この場合には後ろの項が
n−1倍(本例では3−1=2倍)になる。フレームが
長くてピッチ周期が短い場合など、4周期目以上になる
ときも同様にn−1倍する。
The above features 1 to 4 also apply to the example of FIG. In this example, since the frame length is more than twice and less than three times the pitch period, three bands of the matrix are formed, and the value between the bands expressed by vertical stripes is 0. When the band is shifted to the left or right by an integral multiple of the pitch period, the values completely match. For example, a φ 4,20 = φ 4,38. A region represented by an oblique lattice pattern, for example, φ ij (18 ≦
i ≦ 22, i ≦ j ≦ 22) and φ ij (36 ≦ i ≦ 39, i
≦ j ≦ 39) is a submatrix φ ij (0 ≦ i ≦
4, i ≦ j ≦ 4), it can be easily calculated from the law of the feature 4 and its extension. For example, φ 18,18 = φ 0,0 + φ 4,4 φ 20,21 = φ 2,3 + φ 3,4 φ 36,38 = φ 0,2 + φ 20,22 = φ 0,2 + 2 × φ 2 , 4 . It should be noted here that the area after the nth cycle of the pitch, in this example, φ ij (36 ≦ i ≦ 39, i ≦ j ≦ 3
9) corresponds to the third cycle. In this case, the following term is n-1 times (3-1 = 2 times in this example). Similarly, when the pitch is longer than the fourth cycle, such as when the frame is long and the pitch cycle is short, it is similarly multiplied by n-1.

【0043】これらの特徴を利用すれば、距離計算のた
めの(4)式の値を非常に少ない演算量で求めることが
可能になり、従来、例えばフレーム長が80サンプルの
場合に、80×80の行列計算が必要であったものが、
例えば5×5の行列計算と、簡単な行列の変換処理で実
現できることになる。図1,図2では説明をわかりやす
くするため行列の要素を全部表示しているが、実際には
例えば5×5の行列のみをメモリに記憶しておき、
(4)式の分母を展開して、5×5の行列の要素のみで
表現すれば、行列を記憶するためのメモリ領域も大幅に
減らすことができる。
If these features are used, it becomes possible to obtain the value of equation (4) for calculating the distance with a very small amount of calculation. Conventionally, for example, when the frame length is 80 samples, the value of 80 × What required 80 matrix calculations,
For example, it can be realized by 5 × 5 matrix calculation and simple matrix conversion processing. In FIGS. 1 and 2, all elements of the matrix are displayed for easy understanding, but actually, for example, only a 5 × 5 matrix is stored in the memory,
If the denominator of equation (4) is expanded and expressed using only elements of a 5 × 5 matrix, the memory area for storing the matrix can be significantly reduced.

【0044】ただし、分母を展開すると、従来法では1
回のテーブル(行列)参照で済む処理が、式の展開によ
って項が増えるため、相関行列を計算するための処理量
は大幅に削減できるけれども、分母の計算のための演算
回数は若干増加する。5×5などのように、極端にメモ
リ領域を少なくする必要がなければ、例えば5×(フレ
ーム長)のメモリ領域を確保し、行列の値を代入してお
けば、適度に少ないメモリ量と、非常に少ない演算量を
両立することができる。例えば、図2において、φ
ij(0≦i≦39,36≦j≦40)の値のみを記憶す
る。このときフレームよりも長い部分(j=40)につ
いては、フレームを延長したものとみなして計算する。
行列の他の要素(例えば、0≦i≦39,0≦j≦3
5)は記憶したメモリ領域の参照で代用することができ
る。
However, when the denominator is expanded, the conventional method uses 1
Since the number of terms is increased by the expansion of the expression in the processing that only needs to refer to the table (matrix) twice, the processing amount for calculating the correlation matrix can be greatly reduced, but the number of operations for calculating the denominator slightly increases. If it is not necessary to extremely reduce the memory area, such as 5 × 5, for example, a memory area of 5 × (frame length) is secured and the value of the matrix is substituted. , A very small amount of calculation can be achieved. For example, in FIG.
Only the value of ij (0 ≦ i ≦ 39, 36 ≦ j ≦ 40) is stored. At this time, the portion longer than the frame (j = 40) is calculated assuming that the frame is extended.
Other elements of the matrix (eg, 0 ≦ i ≦ 39, 0 ≦ j ≦ 3
5) can be substituted by referring to the stored memory area.

【0045】図3に、本発明による高速な歪み計算方法
の構成例を示す。まず参照音声xrは量子化された(復
号された)合成フィルタ係数による合成フィルタの逆フ
ィルタ(合成逆フィルタ)8−3を通り、理想の(量子
化しない)駆動音源ベクトルeに変換される。有限タッ
プ長FIR型聴覚重み付き合成フィルタ係数算出部8−
1では、合成フィルタと聴覚重みフィルタを合わせた聴
覚重みつき合成フィルタのインパルス応答を求め、ピッ
チ周期の半分以下の有限タップ長、例えば5タップでイ
ンパルス応答を打ち切る。ここで得られたフィルタ係数
を使ったFIR型合成フィルタに、理想の駆動音源ベク
トルeを通し、打ち切り歪みが重畳されたターゲット音
声xfを得る。
FIG. 3 shows a configuration example of a high-speed distortion calculation method according to the present invention. First reference speech x r is converted to quantized inverse filter of the synthesis filter by (decoded) synthesis filter coefficients as a (synthetic inverted filter) 8-3, ideal (not quantized) excitation vector e . Finite tap length FIR type auditory weighted synthesis filter coefficient calculator 8-
In step 1, the impulse response of a perceptually weighted synthesis filter obtained by combining the synthesis filter and the perceptual weight filter is obtained, and the impulse response is terminated at a finite tap length equal to or less than half the pitch period, for example, 5 taps. The FIR type synthesis filter using filter coefficients obtained here, through the ideal excitation vector e, obtain the target speech x f where truncation distortion is superimposed.

【0046】打ち切られたインパルス応答は、ピッチ周
期化フィルタ8−2で周期化され、畳み込み部8−4に
送られる。このときのピッチ周期化は、標本化関数を用
いて非整数サンプル周期で行っても良いし、整数サンプ
ル点に近似してもよいが、非整数サンプル周期のままの
ほうが再生音声の品質がよい。畳み込み部8−4と距離
尺度分子計算部8−9で、(4)式の分子が計算され
る。
The truncated impulse response is periodicized by the pitch periodicizing filter 8-2 and sent to the convolution unit 8-4. The pitch period at this time may be performed at a non-integer sample period using a sampling function or may be approximated to an integer sample point, but the quality of the reproduced sound is better when the non-integer sample period is maintained. . The convolution unit 8-4 and the distance scale numerator calculation unit 8-9 calculate the numerator of the equation (4).

【0047】一方、打ち切られたインパルス応答は相関
行列計算部8−5に送られ、相関行列Hf tfが計算さ
れる。この相関行列は、例えば5タップでインパルス応
答を打ち切った場合には、5×5の行列を計算するだけ
でよい。ピッチ周期化相関行列変換部8−7では、周期
符号によって指定されるピッチ周期を整数サンプル周期
に近似し、前述の変換方法によってPa tf tfaを計
算する。このとき、P a tf tfaは本来(フレーム
長)×(フレーム長)、例えば80×80の行列である
が、前述の特徴があるため、Pa tf tfaの一部分、
例えば80×5の部分行列のみをメモリに記憶し、記憶
した部分を参照することによって(フレーム長)×(フ
レーム長)の行列を参照することと同等の結果が得ら
れ、著しい処理量とメモリ量の削減が可能となる。
On the other hand, the truncated impulse response is
Is sent to the matrix calculation unit 8-5, and the correlation matrix Hf tHfIs calculated
It is. The correlation matrix is, for example, an impulse response with 5 taps.
If you censor the answer, just calculate the 5x5 matrix
Is fine. In the pitch period correlation matrix conversion unit 8-7, the period
The pitch period specified by the sign is an integer sample period
, And Pa tHf tHfPaTotal
Calculate. At this time, P a tHf tHfPaIs originally (frame
Length) × (frame length), for example, an 80 × 80 matrix
However, because of the aforementioned characteristics, Pa tHf tHfPaPart of
For example, only the 80 × 5 sub-matrix is stored in the memory and stored.
(Frame length) x (file
Is equivalent to referencing the matrix of
As a result, the amount of processing and the amount of memory can be significantly reduced.

【0048】なお、前述のように、(4)式の分母を展
開して計算すれば、Hf tfを参照するだけで、Pa tf
tfaの参照と同等の結果が得られるため、ピッチ周
期化相間行列変換部8−7を省略することもできる。再
生信号パワー(分母)計算部8−8では、行列Pa tf t
faまたはHf tfを使って(4)式の分母vr ta t
f tfar'すなわちピッチ周期化の周期を整数サン
プル値で近似した再生信号のパワーを計算する。なお、
固定符号帳として振幅が1の時系列パルスを用いる場合
には、行列Pa tf tfaまたはHf tfの要素を参照
して、読み出した要素の値を加算する簡単な処理で分母
の値を計算できる。
As described above, the denominator of equation (4) is
Open and calculate, Hf tHfJust by referring toa tHf
tHfPaTo obtain the same result as the reference
The period-to-phase matrix conversion unit 8-7 may be omitted. Again
In the raw signal power (denominator) calculator 8-8, the matrix Pa tHf t
HfPaOr Hf tHfAnd the denominator v of equation (4)r tPa t
Hf tHfPavr 'In other words, the pitch period
The power of the reproduced signal approximated by the pull value is calculated. In addition,
When a time series pulse with an amplitude of 1 is used as a fixed codebook
Contains the matrix Pa tHf tHfPaOr Hf tHfSee elements of
And add the value of the read element to the denominator by a simple process.
Can be calculated.

【0049】振幅が1でない実数値をとる場合でも、パ
ルス型の駆動方法で、固定符号ベクトルvrのほとんど
のサンプル位置で値が0、少数のサンプル位置で0でな
い値を持つときには、本発明の方法を使って、非常に高
速な距離計算をすることができる。距離計算部8−10
では、計算された分子と分母の値から、(4)式の値を
計算し、歪みを求める。このときの歪みは、分母のピッ
チ周期化行列を整数サンプル周期に近似しているため、
本来の歪みの近似値であるが、分母のみを整数サンプル
周期で近似する(分子は近似しない)場合には、近似に
よる再生音の品質劣化はほとんど生じない。
Even when the real value whose amplitude is not 1 is taken, when the pulse-type driving method has a value of 0 at most sample positions of the fixed code vector v r and a non-zero value at a small number of sample positions, the present invention Very fast distance calculations can be performed using the method. Distance calculator 8-10
Then, the value of equation (4) is calculated from the calculated numerator and denominator values to obtain the distortion. Since the distortion at this time approximates the pitch period matrix of the denominator to the integer sample period,
Although it is an approximate value of the original distortion, if only the denominator is approximated by an integer sample period (the numerator is not approximated), the quality of the reproduced sound due to the approximation hardly deteriorates.

【0050】以上、この発明の実施形態を図面を参照し
て詳述してきたが、具体的な構成はこの実施形態に限ら
れるものではなく、この発明の要旨を逸脱しない範囲の
設計の変更等があってもこの発明に含まれる。
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and a design change or the like may be made without departing from the gist of the present invention. Even if there is, it is included in the present invention.

【0051】本発明を適用して4kbit/sの音声符
号化を設計し、コンピュータプログラムの形で実現し
た。サンプリング周波数は8kHz、線形予測のフレー
ム長は20ミリ秒(160サンプル)、駆動音源ベクト
ルのフレーム長は10ミリ秒(80サンプル)、ピッチ
周期を探索する際の許容範囲の下限は18サンプル、イ
ンパルス応答の打ち切り次数は6次とした。固定符号帳
の構成としては、振幅が1のパルス列を用いた。ピッチ
周期を非整数サンプル数で表現する場合の解像度は1/
3サンプル精度とした。なお、今回は効果を確認するた
めにコンピュータプログラムの形で実現したが、信号処
理用のプロセッサに実装したり、専用のハードウェアの
形で実現してもよい。
By applying the present invention, 4 kbit / s speech coding was designed and realized in the form of a computer program. The sampling frequency is 8 kHz, the frame length of the linear prediction is 20 milliseconds (160 samples), the frame length of the driving sound source vector is 10 milliseconds (80 samples), the lower limit of the allowable range when searching for the pitch period is 18 samples, and the impulse The response truncation order was set to 6. As the configuration of the fixed codebook, a pulse train having an amplitude of 1 was used. When the pitch period is expressed by a non-integer number of samples, the resolution is 1 /
Accuracy of 3 samples. In this case, the present embodiment is implemented in the form of a computer program to confirm the effect, but may be implemented in a signal processing processor or in the form of dedicated hardware.

【0052】符号化にかかる処理時間を調べた結果、普
及型パソコンで十分に実時間処理が可能であった。ま
た、再生音を実際に聴いた場合の主観的品質を調べた結
果、ITU−T G.726(32kbit/sのAD
PCM)と同等の品質であった。したがって、G.72
6方式と比べると、同等の品質が1/8のビットレート
で実現できたことになる。また、携帯電話で利用されて
いるビットレートが3.45kbit/sのPSI−C
ELP方式と比較すると、より高い品質が1/4以下の
処理量で実現できたことになる。このように、本発明を
利用した場合に、非常に少ない処理量と少ないメモリ量
で、高品質な音声符号化を実現でき、近似計算に伴う品
質の劣化は非常に少ないことが確認された。
As a result of examining the processing time required for encoding, it was found that real-time processing could be sufficiently performed by a popular personal computer. In addition, as a result of examining the subjective quality when the reproduced sound is actually heard, ITU-TG. 726 (32 kbit / s AD
PCM). Therefore, G. 72
Compared to the 6 system, the same quality can be realized at a bit rate of 1/8. Also, the PSI-C bit rate used in mobile phones is 3.45 kbit / s.
Compared to the ELP method, higher quality can be realized with a processing amount of 1/4 or less. As described above, it has been confirmed that when the present invention is used, high-quality speech coding can be realized with a very small amount of processing and a small amount of memory, and the quality deterioration due to the approximate calculation is very small.

【0053】なお、本発明は再生音の品質劣化への影響
が非常に少ない、歪みの近似計算方法を実現するもので
あるが、近似でない歪みを計算したい場合には、本発明
による方法を用いて、歪みの近似値が小さい順((4)
式の値の大きい順)にいくつかの候補に絞り、それらの
各々の候補について近似でない歪みを計算して最終的に
1つのコードベクトルを決定する方法も可能である。こ
のような二段階選抜で最適なものを選択する場合の一段
階目は予備選択と呼ばれる。本発明は予備選択のための
方法としても有効である。
The present invention realizes an approximate calculation method of distortion which has very little influence on the quality deterioration of reproduced sound. However, when it is desired to calculate a non-approximate distortion, the method according to the present invention is used. And the order in which the approximate value of distortion is small ((4)
It is also possible to narrow down to several candidates (in the order of larger values of the equation), calculate non-approximate distortion for each of those candidates, and finally determine one code vector. The first step in selecting an optimum one in such two-step selection is called preliminary selection. The present invention is also effective as a method for preliminary selection.

【0054】[0054]

【発明の効果】本発明によれば、低いビットレート、少
ないメモリ量、少ない演算量で、高品質な再生音声を得
ることができる。
According to the present invention, high-quality reproduced sound can be obtained with a low bit rate, a small amount of memory, and a small amount of computation.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明において用いられるピッチ周期化相関
行列Pa tf tfaの特性を説明する模式図である。
1 is a schematic view for explaining the characteristics of the pitch period of the correlation matrix used in the invention P a t H f t H f P a.

【図2】 本発明において用いられるピッチ周期化相関
行列Pa tf tfaの特性を説明する模式図であり、図
1をより一般化して説明する図である。
Figure 2 is a schematic diagram for explaining the characteristics of the pitch period of the correlation matrix P a t H f t H f P a to be used in the present invention, is a diagram for explaining in more generalized to FIG.

【図3】 本発明を用いて高速に歪み計算を行う装置の
構成例を説明するブロック図である。
FIG. 3 is a block diagram illustrating a configuration example of a device that performs high-speed distortion calculation using the present invention.

【図4】 従来のCELP型音声符号化装置の構成例を
説明するブロック図である。
FIG. 4 is a block diagram illustrating a configuration example of a conventional CELP-type speech encoding device.

【図5】 CELP型音声符号化装置における固定符号
帳探索装置の構成例を説明するブロック図である。
FIG. 5 is a block diagram illustrating a configuration example of a fixed codebook search device in a CELP-type speech coding device.

【図6】 合成歪みを計算する装置の構成例を説明する
ブロック図である。
FIG. 6 is a block diagram illustrating a configuration example of an apparatus that calculates a composite distortion.

【図7】 インパルス応答を用いて歪み計算を行う装置
の構成例を説明するブロック図である。
FIG. 7 is a block diagram illustrating a configuration example of a device that performs distortion calculation using an impulse response.

【図8】 本発明者等が既に出願した方法で、インパル
ス応答の打ち切りとピッチ逆フィルタを用いる高速な歪
み計算装置の構成例を説明するブロック図である。
FIG. 8 is a block diagram illustrating an example of a configuration of a high-speed distortion calculation device that uses the method already applied for by the present inventors to terminate an impulse response and use a pitch inverse filter.

【符号の説明】[Explanation of symbols]

8−1……有限タップ長FIR型聴覚重みつき合成フィ
ルタ係数算出部 8−2……ピッチ周期化フィルタ 8−3……合成逆フィルタ 8−4……畳み込み部 8−5……相関行列計算部 8−6……固定符号帳 8−7……ピッチ周期化相関行列変換部 8−8……再生信号パワー(分母)計算部 8−9……距離尺度分子計算部 8−10……距離尺度計算部 8−11……FIR型合成フィルタ
8-1 ... Finite tap length FIR type auditory weighted synthesis filter coefficient calculation unit 8-2 ... Pitch periodicization filter 8-3 ... Synthesis inverse filter 8-4 ... Convolution unit 8-5 ... Correlation matrix calculation Unit 8-6: Fixed codebook 8-7: Pitch periodic correlation matrix conversion unit 8-8: Reproduction signal power (denominator) calculation unit 8-9: Distance scale numerator calculation unit 8-10: Distance Scale calculator 8-11 FIR type synthesis filter

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/20 H03M 7/30 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continued on the front page (58) Fields surveyed (Int. Cl. 6 , DB name) G10L 3/00-9/20 H03M 7/30 JICST file (JOIS)

Claims (15)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 符号帳から取り出した時系列ベクトル
を、音声の基本周期に対応する周期で周期化したベクト
ルを用いて作成した駆動音源ベクトルにより、合成フィ
ルタを駆動して音響信号を再生し、 目標となる音響信号と、上記再生された音響信号の間の
歪みが最小または最小に準ずるような駆動音源ベクトル
を決定する符号化方法において、 上記歪みを計算する過程で、 周期化の周期化ゲインを1に設定し、 周期化のための周期を整数サンプル値で近似し、 合成フィルタまたは聴覚重みを考慮した合成フィルタの
インパルス応答を求め、 上記インパルス応答を周期化の周期の2分の1以下の長
さで打ち切り、 上記打ち切ったインパルス応答を用いてインパルス応答
行列の相関行列を計算し、 周期化を上記整数サンプル値による近似処理で置き換え
ることを前提とし、上記打ち切ったインパルス応答より
計算されたインパルス応答行列の相関行列を用いて、再
生される音響信号のパワーの近似値を計算することを特
徴とする音響信号の符号化方法。
An audio signal is reproduced by driving a synthesis filter by using a drive sound source vector created by using a time-series vector extracted from a codebook using a vector that is periodicized at a cycle corresponding to a basic cycle of speech, In a coding method for determining a driving excitation vector such that a distortion between a target audio signal and the reproduced audio signal is minimum or similar to the minimum, a periodical gain of periodicization is included in a process of calculating the distortion. Is set to 1 and the period for the periodization is approximated by an integer sample value, and the impulse response of the synthesis filter or the synthesis filter in consideration of the auditory weight is obtained. Calculate the correlation matrix of the impulse response matrix using the truncated impulse response. And an approximate value of the power of the reproduced audio signal is calculated using the correlation matrix of the impulse response matrix calculated from the truncated impulse response. .
【請求項2】 請求項1に記載の音響信号の符号化方法
において、 目標となる音響信号に合成フィルタの逆フィルタをかけ
た信号に、上記打ち切ったインパルス応答を係数とする
FIR型フィルタをかけて、インパルス応答の打ち切り
歪みが重畳された目標音響信号を作成し、この打ち切り
歪みが重畳された目標音響信号を新たな目標音響信号と
みなして駆動音源ベクトルを決定することを特徴とする
音響信号の符号化方法。
2. The audio signal encoding method according to claim 1, wherein a signal obtained by subjecting a target audio signal to an inverse filter of a synthesis filter is subjected to an FIR filter having a coefficient of the truncated impulse response. Generating a target sound signal on which the truncation distortion of the impulse response is superimposed, and determining the driving sound source vector by regarding the target sound signal on which the truncation distortion is superimposed as a new target sound signal. Encoding method.
【請求項3】 請求項2に記載の音響信号の符号化方法
において、 インパルス応答の打ち切り次数を3〜10タップ程度に
短く設定することを特徴とする音響信号の符号化方法。
3. The audio signal encoding method according to claim 2, wherein the truncation order of the impulse response is set as short as about 3 to 10 taps.
【請求項4】 請求項1から請求項3の何れかに記載の
音響信号の符号化方法において、 ピッチ周期化相関行列が、打ち切ったインパルス応答よ
り計算されたインパルス応答行列の相関行列のみから算
出できる特徴を利用して、 再生信号パワーの計算式を、打ち切ったインパルス応答
より計算されたインパルス応答行列の相関行列の要素の
みで表現して、 打ち切ったインパルス応答より計算されたインパルス応
答行列の相関行列の要素を参照しながら再生信号のパワ
ーを計算することを特徴とする音響信号の符号化方法。
4. The audio signal encoding method according to claim 1, wherein the pitch period correlation matrix is calculated only from the correlation matrix of the impulse response matrix calculated from the truncated impulse response. Using the features that can be used, the expression of the reproduced signal power is expressed only by the elements of the correlation matrix of the impulse response matrix calculated from the truncated impulse response, and the correlation of the impulse response matrix calculated from the truncated impulse response is calculated. A method for encoding an audio signal, comprising calculating the power of a reproduction signal while referring to elements of a matrix.
【請求項5】 請求項1から請求項3の何れかに記載の
音響信号の符号化方法において、 ピッチ周期化相関行列の要素が、周期化の周期分ずれた
位置で同じ値をとる、すなわち行または列を周期分シフ
トした位置で値が一致するという特徴を利用して、 (フレームまたはサブフレーム長)×(インパルス応答
の打ち切り次数)サイズの行列をメモリに蓄え、 ピッチ周期化相関行列の参照を、上記メモリの参照によ
って行うことを特徴とする音響信号の符号化方法。
5. The audio signal encoding method according to claim 1, wherein the elements of the pitch-periodic correlation matrix have the same value at positions shifted by the period of the period. Utilizing the feature that the values match at the position where the row or column is shifted by the period, the matrix of (frame or subframe length) x (the truncation order of the impulse response) is stored in the memory, and the pitch period correlation matrix A method for encoding an acoustic signal, wherein the reference is performed by referring to the memory.
【請求項6】 符号帳から取り出した時系列ベクトル
を、音声の基本周期に対応する周期で周期化したベクト
ルを用いて作成した駆動音源ベクトルにより、合成フィ
ルタを駆動して音響信号を再生し、 目標となる音響信号と、上記再生された音響信号の間の
歪みが最小または最小に準ずるような駆動音源ベクトル
を決定する符号化装置において、 上記歪みを計算する歪計算手段は、 周期化の周期化ゲインを1に設定する設定手段と、 周期化のための周期を整数サンプル値で近似する周期近
似手段と、 合成フィルタまたは聴覚重みを考慮した合成フィルタの
インパルス応答を求める応答手段と、 上記インパルス応答を周期化の周期の2分の1以下の長
さで打ち切る打切手段と、 上記打ち切ったインパルス応答を用いてインパルス応答
行列の相関行列を計算する相関行列計算手段と、 周期化を上記整数サンプル値による近似処理で置き換え
ることを前提とし、上記打ち切ったインパルス応答より
計算されたインパルス応答行列の相関行列を用いて、再
生される音響信号のパワーの近似値を計算する音響信号
近似手段とを具備することを特徴とする音響信号の符号
化装置。
6. A sound filter is reproduced by driving a synthesis filter by using a driving sound source vector created by using a time-series vector extracted from a codebook using a vector that is periodicized at a cycle corresponding to a basic cycle of speech, In a coding apparatus for determining a drive excitation vector such that a distortion between a target audio signal and the reproduced audio signal is minimum or similar to the minimum, the distortion calculation means for calculating the distortion includes: Setting means for setting the quantization gain to 1, period approximation means for approximating the period for the periodization with an integer sampled value, response means for obtaining an impulse response of a synthesis filter or a synthesis filter in consideration of auditory weights, Truncating means for truncating the response with a length equal to or less than half the period of the periodicization, and using the truncated impulse response to form an impulse response matrix A correlation matrix calculating means for calculating the correlation matrix, and the periodicity is replaced by an approximation process using the integer sample values, and the correlation matrix is reproduced using the correlation matrix of the impulse response matrix calculated from the truncated impulse response. A sound signal approximating unit for calculating an approximate value of the power of the sound signal.
【請求項7】 請求項6に記載の音響信号の符号化装置
において、 目標となる音響信号に合成フィルタの逆フィルタをかけ
た信号に、上記打ち切ったインパルス応答を係数とする
FIR型フィルタをかけて、インパルス応答の打ち切り
歪みが重畳された目標音響信号を作成し、この打ち切り
歪みが重畳された目標音響信号を新たな目標音響信号と
みなして駆動音源ベクトルを決定する駆動音源ベクトル
決定手段を具備することを特徴とする音響信号の符号化
装置。
7. An audio signal encoding apparatus according to claim 6, wherein a signal obtained by subjecting a target audio signal to an inverse filter of a synthesis filter is subjected to an FIR filter using the truncated impulse response as a coefficient. A driving sound source vector determining unit that determines a driving sound source vector by generating a target sound signal on which the truncation distortion of the impulse response is superimposed, and regards the target sound signal on which the truncation distortion is superimposed as a new target sound signal. A coding device for an audio signal.
【請求項8】 請求項7に記載の音響信号の符号化装置
において、 インパルス応答の打ち切り次数を3〜10タップ程度に
短く設定することを特徴とする音響信号の符号化装置。
8. The audio signal encoding apparatus according to claim 7, wherein the truncation order of the impulse response is set as short as about 3 to 10 taps.
【請求項9】 請求項6から請求項8の何れかに記載の
音響信号の符号化装置において、 前記音響信号近似手段は、 ピッチ周期化相関行列が、打ち切ったインパルス応答よ
り計算されたインパルス応答行列の相関行列のみから算
出できる特徴を利用して、 再生信号パワーの計算式を、打ち切ったインパルス応答
より計算されたインパルス応答行列の相関行列の要素の
みで表現して、 打ち切ったインパルス応答より計算されたインパルス応
答行列の相関行列の要素を参照しながら再生信号のパワ
ーを計算することを特徴とする音響信号の符号化装置。
9. The audio signal encoding device according to claim 6, wherein said audio signal approximation means includes an impulse response in which a pitch periodic correlation matrix is calculated from the truncated impulse response. Using the features that can be calculated only from the correlation matrix of the matrix, the expression of the reproduced signal power is expressed only by the elements of the correlation matrix of the impulse response matrix calculated from the truncated impulse response, and calculated from the truncated impulse response An audio signal encoding apparatus, wherein the power of a reproduced signal is calculated with reference to the elements of the correlation matrix of the impulse response matrix.
【請求項10】 請求項6から請求項8の何れかに記載
の音響信号の符号化装置において、 前記音響信号近似手段は、 ピッチ周期化相関行列の要素が、周期化の周期分ずれた
位置で同じ値をとる、すなわち行または列を周期分シフ
トした位置で値が一致するという特徴を利用して、 (フレームまたはサブフレーム長)×(インパルス応答
の打ち切り次数)サイズの行列をメモリに蓄え、 ピッチ周期化相関行列の参照を、上記メモリの参照によ
って行うことを特徴とする音響信号の符号化装置。
10. The audio signal encoding apparatus according to claim 6, wherein the audio signal approximation unit includes a position in which an element of a pitch periodic correlation matrix is shifted by a period of the period. By taking advantage of the feature that takes the same value in, that is, the value matches at the position where the row or column is shifted by the period, a matrix of (frame or sub-frame length) x (discontinuation order of impulse response) is stored in the memory. An audio signal encoding apparatus, wherein reference to a pitch period correlation matrix is performed by referring to the memory.
【請求項11】 コンピュータを、 符号帳から取り出した時系列ベクトルを、音声の基本周
期に対応する周期で周期化したベクトルを用いて作成し
た駆動音源ベクトルにより、合成フィルタを駆動して音
響信号を再生し、 目標となる音響信号と、上記再生された音響信号の間の
歪みが最小または最小に準ずるような駆動音源ベクトル
を決定する符号化装置として機能させるためのプログラ
ムを記録した媒体において、 上記歪みを計算する過程で、 コンピュータを、 周期化の周期化ゲインを1に設定する設定手段と、 周期化のための周期を整数サンプル値で近似する周期近
似手段と、 合成フィルタまたは聴覚重みを考慮した合成フィルタの
インパルス応答を求める応答手段と、 上記インパルス応答を周期化の周期の2分の1以下の長
さで打ち切る打切手段と、 上記打ち切ったインパルス応答を用いてインパルス応答
行列の相関行列を計算する相関行列計算手段と、 周期化を上記整数サンプル値による近似処理で置き換え
ることを前提とし、上記打ち切ったインパルス応答より
計算されたインパルス応答行列の相関行列を用いて、再
生される音響信号のパワーの近似値を計算する音響信号
近似手段ととして機能させるためのプログラムを記録し
た媒体。
11. A computer generates a time series vector extracted from a codebook using a driving sound source vector created by using a vector that has been periodicized at a period corresponding to a basic period of speech, and drives a synthesis filter to generate an acoustic signal. A medium in which a program for reproducing and functioning as a coding apparatus for determining a target excitation signal and a driving excitation vector such that a distortion between the reproduced audio signal is minimum or similar to the minimum, In the process of calculating the distortion, the computer sets the periodic gain of the periodicization to 1, a period approximating unit that approximates the period for the periodicization by an integer sample value, and considers a synthesis filter or an auditory weight. Response means for obtaining the impulse response of the synthesized filter, and striking the impulse response with a length equal to or less than half the period of the periodicization. A truncating means, a correlation matrix calculating means for calculating a correlation matrix of an impulse response matrix using the truncated impulse response, and the truncated impulse response on the assumption that the periodicization is replaced by an approximation process using the integer sampled values. A medium on which is recorded a program for functioning as acoustic signal approximating means for calculating an approximate value of the power of a reproduced acoustic signal using the correlation matrix of the impulse response matrix calculated as above.
【請求項12】 請求項11に記載の記録媒体におい
て、 コンピュータを、 目標となる音響信号に合成フィルタの逆フィルタをかけ
た信号に、上記打ち切ったインパルス応答を係数とする
FIR型フィルタをかけて、インパルス応答の打ち切り
歪みが重畳された目標音響信号を作成し、この打ち切り
歪みが重畳された目標音響信号を新たな目標音響信号と
みなして駆動音源ベクトルを決定する駆動音源ベクトル
決定手段として機能させるためのプログラムを記録した
媒体。
12. The recording medium according to claim 11, wherein the computer applies a FIR filter having a coefficient of the truncated impulse response to a signal obtained by applying an inverse filter of a synthesis filter to a target acoustic signal. A target sound signal on which the truncation distortion of the impulse response is superimposed, and the target sound signal on which the truncation distortion is superimposed is regarded as a new target sound signal to function as a driving sound source vector determining means for determining a driving sound source vector. Recording a program for the computer.
【請求項13】 請求項12に記載の記録媒体におい
て、 インパルス応答の打ち切り次数を3〜10タップ程度に
短く設定することを特徴とする記録媒体。
13. The recording medium according to claim 12, wherein the cutoff order of the impulse response is set to be as short as about 3 to 10 taps.
【請求項14】 請求項11から請求項13の何れかに
記載の記録媒体において、 前記音響信号近似手段は、 ピッチ周期化相関行列が、打ち切ったインパルス応答よ
り計算されたインパルス応答行列の相関行列のみから算
出できる特徴を利用して、 再生信号パワーの計算式を、打ち切ったインパルス応答
より計算されたインパルス応答行列の相関行列の要素の
みで表現して、 打ち切ったインパルス応答より計算されたインパルス応
答行列の相関行列の要素を参照しながら再生信号のパワ
ーを計算することを特徴とする記録媒体。
14. The recording medium according to claim 11, wherein said acoustic signal approximation means comprises: a correlation matrix of an impulse response matrix in which a pitch periodic correlation matrix is calculated from a truncated impulse response. Using the features that can be calculated from only the impulse response calculated from the truncated impulse response, the expression of the reproduction signal power is expressed using only the elements of the correlation matrix of the impulse response matrix calculated from the truncated impulse response. A recording medium for calculating the power of a reproduction signal while referring to elements of a correlation matrix of a matrix.
【請求項15】 請求項11から請求項13の何れかに
記載の記録媒体において、 前記音響信号近似手段は、 ピッチ周期化相関行列の要素が、周期化の周期分ずれた
位置で同じ値をとる、すなわち行または列を周期分シフ
トした位置で値が一致するという特徴を利用して、 (フレームまたはサブフレーム長)×(インパルス応答
の打ち切り次数)サイズの行列をメモリに蓄え、 ピッチ周期化相関行列の参照を、上記メモリの参照によ
って行うことを特徴とする記録媒体。
15. The recording medium according to claim 11, wherein the acoustic signal approximation unit sets the elements of the pitch periodic correlation matrix to have the same value at a position shifted by the period of the period. Taking advantage of the feature that values match at positions where rows or columns are shifted by a period, a matrix of (frame or subframe length) × (discontinuation order of impulse response) size is stored in memory, and pitch periodization is performed. A recording medium characterized in that reference of a correlation matrix is performed by referring to the memory.
JP10129236A 1998-05-12 1998-05-12 High-speed encoding method and apparatus for speech and audio signals and recording medium Expired - Fee Related JP2947788B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10129236A JP2947788B1 (en) 1998-05-12 1998-05-12 High-speed encoding method and apparatus for speech and audio signals and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10129236A JP2947788B1 (en) 1998-05-12 1998-05-12 High-speed encoding method and apparatus for speech and audio signals and recording medium

Publications (2)

Publication Number Publication Date
JP2947788B1 true JP2947788B1 (en) 1999-09-13
JPH11327599A JPH11327599A (en) 1999-11-26

Family

ID=15004555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10129236A Expired - Fee Related JP2947788B1 (en) 1998-05-12 1998-05-12 High-speed encoding method and apparatus for speech and audio signals and recording medium

Country Status (1)

Country Link
JP (1) JP2947788B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3285253B1 (en) 2011-01-14 2020-08-12 III Holdings 12, LLC Method for coding a speech/sound signal
JP6089878B2 (en) 2013-03-28 2017-03-08 富士通株式会社 Orthogonal transformation device, orthogonal transformation method, computer program for orthogonal transformation, and audio decoding device

Also Published As

Publication number Publication date
JPH11327599A (en) 1999-11-26

Similar Documents

Publication Publication Date Title
JPH06222797A (en) Voice encoding system
WO2002043052A1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
JP3582589B2 (en) Speech coding apparatus and speech decoding apparatus
JPH0944195A (en) Voice encoding device
JP3095133B2 (en) Acoustic signal coding method
JPH04344699A (en) Voice encoding and decoding method
JP3308764B2 (en) Audio coding device
JP3353852B2 (en) Audio encoding method
JP2947788B1 (en) High-speed encoding method and apparatus for speech and audio signals and recording medium
JP3148778B2 (en) Audio encoding method
JP2003044099A (en) Pitch cycle search range setting device and pitch cycle searching device
JPH0854898A (en) Voice coding device
JP3583945B2 (en) Audio coding method
JP3916934B2 (en) Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus
JP2943983B1 (en) Audio signal encoding method and decoding method, program recording medium therefor, and codebook used therefor
JP3299099B2 (en) Audio coding device
JP3144284B2 (en) Audio coding device
JP3153075B2 (en) Audio coding device
JPH0519795A (en) Excitation signal encoding and decoding method for voice
JP3192051B2 (en) Audio coding device
JPH08320700A (en) Sound coding device
JPH02280200A (en) Voice coding and decoding system
JP3024467B2 (en) Audio coding device
JP3192999B2 (en) Voice coding method and voice coding method
JP2000029499A (en) Voice coder and voice encoding and decoding apparatus

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080702

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees