JP3305338B2 - Pitch frequency codec - Google Patents
Pitch frequency codecInfo
- Publication number
- JP3305338B2 JP3305338B2 JP41318690A JP41318690A JP3305338B2 JP 3305338 B2 JP3305338 B2 JP 3305338B2 JP 41318690 A JP41318690 A JP 41318690A JP 41318690 A JP41318690 A JP 41318690A JP 3305338 B2 JP3305338 B2 JP 3305338B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch frequency
- pitch
- vector
- frequency vector
- codeword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】[0001]
【産業上の利用分野】この発明は音声信号をデジタル伝
送あるいは蓄積するときに用いられる音声符号化復号化
装置内の音声のピッチ周波数符号化復号化器に関し、特
に符号化部の改良に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice pitch frequency code decoder in a voice codec used for digitally transmitting or storing a voice signal, and more particularly to an improvement in a coding unit. is there.
【0002】[0002]
【従来の技術】入力音声信号を一定時間の分析フレーム
毎に分析して得られるピッチ周波数を少ない情報量で符
号化する際に、セグメント(連続する複数のフレームの
かたまり)を音韻上の連続性によって決定し、そのセグ
メント内の複数のピッチ周波数をセグメント長(セグメ
ント内のフレーム数)等の関数で近似する方法が知られ
ており、例えば文献“A SEGMENT VOCODER AT 150 B/S"
S.Roucos ,R.Schwarts,J.Makhoul Proc.ICASSP-83 ,
pp.61-64,(1983)により報告されている。2. Description of the Related Art When encoding a pitch frequency obtained by analyzing an input speech signal for each analysis frame of a fixed time with a small amount of information, a segment (a group of a plurality of continuous frames) is subjected to phonological continuity. And a method of approximating a plurality of pitch frequencies in the segment by a function such as a segment length (the number of frames in the segment) is known. For example, the document “A SEGMENT VOCODER AT 150 B / S”
S.Roucos, R.Schwarts, J.Makhoul Proc.ICASSP-83,
pp. 61-64, (1983).
【0003】図3は上記文献に基づいた従来のピッチ周
波数符号化復号化器の構成を示すブロック図である。図
3において、51は入力音声信号を一定時間毎に分析し
て得られたピッチ周波数を複数個まとめたピッチ周波数
ベクトルを1単位として符号化し符号化結果を出力する
符号化部、52は符号化部51より出力された符号化結
果からピッチ周波数を復号化する復号化部である。符号
化部51は、ピッチ周波数蓄積手段2、適応量子化手段
26、及び差分逆量子化手段28を備えている。復号化
部52は適応逆量子化手段30を有している。上記各手
段の詳細については次の動作説明において述べる。FIG. 3 is a block diagram showing a configuration of a conventional pitch frequency encoding / decoding device based on the above-mentioned document. In FIG. 3, reference numeral 51 denotes an encoding unit that encodes a pitch frequency vector obtained by analyzing a plurality of pitch frequencies obtained by analyzing an input audio signal at regular intervals as one unit and outputs an encoding result, and 52 denotes an encoding unit. The decoding unit decodes the pitch frequency from the encoding result output from the unit 51. The encoding unit 51 includes the pitch frequency storage unit 2, the adaptive quantization unit 26, and the difference inverse quantization unit 28. The decoding unit 52 has the adaptive inverse quantization means 30. The details of each of the above means will be described in the following operation description.
【0004】次に動作について説明する。ピッチ周波数
蓄積手段2は、音韻の連続性により決定されたセグメン
トのセグメント長25(セグメント長をLとする)が入
力され、L個のピッチ周波数を蓄積し、このL個のピッ
チ周波数で構成されるピッチ周波数ベクトル5を出力す
る。適応量子化手段26は、図4に示すように、入力さ
れたピッチ周波数ベクトル5を、現在のセグメントより
1つ前のセグメントの最終フレームのピッチ周波数29
(以後、前ピッチ周波数と呼ぶ)と現セグメントの最終
フレーム上に仮定したピッチ周波数を結ぶ直線で近似し
た場合に誤差が最小となる最終フレーム上のピッチ周波
数を求め、このピッチ周波数と前ピッチ周波数29の差
分を量子化し、これを差分量子化結果27として出力す
る。差分逆量子化手段28は、差分量子化結果27より
差分を求め、この差分と差分逆量子化手段28内に保持
していた前ピッチ周波数を足すことにより逆量子化後の
Lフレーム目のピッチ周波数を求め、これを新たな前ピ
ッチ周波数29として出力し、またこの値を保持してお
く。Next, the operation will be described. The pitch frequency accumulating means 2 receives the segment length 25 (segment length is L) of the segment determined by the continuity of phonemes, accumulates L pitch frequencies, and is composed of the L pitch frequencies. The pitch frequency vector 5 is output. As shown in FIG. 4, the adaptive quantization means 26 converts the input pitch frequency vector 5 into the pitch frequency 29 of the last frame of the segment one before the current segment.
(Hereinafter referred to as the previous pitch frequency) and the pitch frequency on the final frame at which the error is minimized when approximated by a straight line connecting the pitch frequency assumed on the final frame of the current segment. The difference of 29 is quantized, and this is output as a difference quantization result 27. The difference inverse quantization means 28 obtains a difference from the difference quantization result 27, and adds the difference and the previous pitch frequency held in the difference inverse quantization means 28 to obtain the pitch of the L-th frame after the inverse quantization. A frequency is obtained, and this is output as a new front pitch frequency 29, and this value is held.
【0005】適応逆量子化手段30は、符号化部51よ
り出力された差分量子化結果27より差分を求め、この
差分と符号化部51より出力されたセグメント長25
(長さL)及び予め保持してある前ピッチ周波数よりL
個のピッチ周波数を求め、出力ピッチ周波数系列24と
して出力し、また、最終フレームのピッチ周波数を新た
な前ピッチ周波数として保持しておく。[0005] The adaptive inverse quantization means 30 obtains a difference from the difference quantization result 27 output from the encoding section 51, and calculates the difference and the segment length 25 output from the encoding section 51.
(Length L) and L from the previously held pre-pitch frequency
The pitch frequencies are obtained and output as an output pitch frequency sequence 24, and the pitch frequency of the last frame is held as a new previous pitch frequency.
【0006】[0006]
【発明が解決しようとする課題】上述したように従来の
ピッチ周波数符号化復号化器ではピッチ周波数を符号化
する際に、音韻の連続性で決定されたセグメント内の複
数のピッチ周波数を直線で近似しているので、復号化さ
れたピッチ周波数の系列が音韻の変化と独立して現れる
入力音声のピッチ周波数の複雑な時間変化に追従でき
ず、入力音声のイントネーションが大きく損なわれてし
まうという問題点があった。As described above, in the conventional pitch frequency encoding / decoding apparatus, when encoding a pitch frequency, a plurality of pitch frequencies in a segment determined by the continuity of phonemes are represented by straight lines. Due to the approximation, the decoded pitch frequency sequence cannot follow the complicated time change of the pitch frequency of the input voice that appears independently of the phoneme change, and the intonation of the input voice is greatly impaired. There was a point.
【0007】この発明は上記のような問題点を解決する
ためになされたもので、入力音声信号のピッチ周波数系
列をベクトル量子化することにより、ピッチ周波数系列
の複雑な時間変化を保存したピッチ周波数の符号化を極
めて低いビットレートで行なうことができるピッチ周波
数符号化復号化器を提供することを目的とする。SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and is directed to a pitch frequency system for an input voice signal.
By vector quantizing the columns, the pitch frequency sequence
And to provide a pitch frequency coding decoder capable and rows of TURMERIC at very low bit rate coding of the pitch frequency stored complex time variation of.
【0008】[0008]
【課題を解決するための手段】この発明に係るピッチ周
波数符号化復号化器は、有限M個のピッチ周波数ベクト
ル符号語から成る符号帳8と、入力された音声信号のピ
ッチ周波数系列を蓄積するピッチ周波数蓄積手段2と、
このピッチ周波数蓄積手段2に蓄積されたピッチ周波数
系列の極小点を基準にしてピッチ周波数ベクトルを構成
するピッチ周波数ベクトル構成手段4と、このピッチ周
波数ベクトル手段4で構成されたピッチ周波数ベクトル
と上記符号帳8内のピッチ周波数ベクトル符号語との距
離を算出する距離算出手段6と、この距離算出手段6で
算出された距離を用いて上記符号帳8内のM個のピッチ
周波数ベクトル符号語より最適ピッチ周波数ベクトル符
号語を選択しその最適ピッチ周波数ベクトル符号語をピ
ッチ周波数ベクトルの符号化結果として出力する最適符
号語選択手段11とを符号化部41に設けたものであ
る。また、上記ピッチ周波数蓄積手 段2に蓄積された
ピッチ周波数系列の先頭のピッチ周波数からピッチ周波
数の時間変動において特徴的な最初の点までのピッチ周
波数をピッチ周波数ベクトルの初期候補とし、このピッ
チ周波数ベクトルと上記最適符号語選択手段11から出
力された最適ピッチ周波数ベクトル符号語との間の歪が
所定値を超えない条件内でピッチ周波数ベクトル長が最
大となるピッチ周波数ベクトルを探索し構成する機能を
持った上記ピッチ周波数ベクトル構成手段4を備えたも
のである。A pitch frequency coding / decoding device according to the present invention accumulates a codebook 8 composed of finite M pitch frequency vector codewords and a pitch frequency sequence of an input speech signal. Pitch frequency storage means 2,
Pitch frequency vector constructing means 4 for constructing a pitch frequency vector with reference to the minimum point of the pitch frequency sequence accumulated in the pitch frequency accumulating means 2, a pitch frequency vector constituted by the pitch frequency vector means 4, Distance calculating means 6 for calculating a distance from the pitch frequency vector codeword in the book 8, and the distance calculated by the distance calculating means 6 is used to optimize the M pitch frequency vector codewords in the codebook 8. der one provided the best codeword selecting means 11 outputs the optimal pitch frequency vector code word select pitch frequency vector code word as coding result of the pitch frequency vector to the encoding unit 41
You. Further, the pitch frequency from the beginning of the pitch frequency of the stored pitch frequency sequence to the pitch frequency accumulation hand stage 2 to the first point characteristic in the time variation of the pitch frequency as the initial candidate pitch frequency vector, the pitch frequency A function of searching for and configuring a pitch frequency vector having a maximum pitch frequency vector length within a condition that distortion between the vector and the optimal pitch frequency vector codeword output from the optimal codeword selecting means 11 does not exceed a predetermined value. The pitch frequency vector constructing means 4 having the above.
【0009】[0009]
【作用】ピッチ周波数ベクトル構成手段4は、ピッチ周
波数蓄積手段2に蓄積されたピッチ周波数系列の例えば
先頭のピッチ周波数からピッチ周波数の時間変動におい
て特徴的な最初の点までのピッチ周波数をピッチ周波数
ベクトルの初期候補とし、このピッチ周波数ベクトルと
最適符号語選択手段11から出力された最適ピッチ周波
数ベクトル符号語との間の歪が所定値を超えない条件内
でピッチ周波数ベクトル長が最大となるピッチ周波数ベ
クトルを探索し構成する。距離算出手段6は、ピッチ周
波数ベクトル構成手段4で構成されたピッチ周波数ベク
トルと符号帳8内のピッチ周波数ベクトル符号語との距
離を算出する。最適符号語選択手段11は、距離算出手
段6で算出された距離を用いて符号帳8内のM個のピッ
チ周波数ベクトル符号語より最適ピッチ周波数ベクトル
符号語を選択し、その最適ピッチ周波数ベクトル符号語
をピッチ周波数ベクトルの符号化結果として出力する。[Action] pitch frequency vector forming means 4, the pitch frequency from e.g. <br/> beginning of the pitch frequency of the pitch frequency sequences stored in the pitch frequency storage unit 2 to the first point characteristic in the time variation of the pitch frequency Is used as an initial candidate of the pitch frequency vector, and the pitch frequency vector length is maximized within a condition that the distortion between the pitch frequency vector and the optimal pitch frequency vector codeword output from the optimal codeword selecting means 11 does not exceed a predetermined value. A pitch frequency vector is searched for and configured. The distance calculating means 6 calculates the distance between the pitch frequency vector formed by the pitch frequency vector forming means 4 and the pitch frequency vector codeword in the codebook 8. The optimal codeword selecting means 11 selects an optimal pitch frequency vector codeword from the M pitch frequency vector codewords in the codebook 8 using the distance calculated by the distance calculating means 6, and selects the optimal pitch frequency vector code. The word is output as an encoding result of the pitch frequency vector.
【0010】[0010]
【実施例】図1はこの発明の一実施例に係るピッチ周波
数符号化復号化器の構成を示すブロック図である。図1
において、41は入力音声信号を一定時間毎に分析して
得られたピッチ周波数を複数個まとめたピッチ周波数ベ
クトルを1単位として符号化し符号化結果を出力する符
号化部、42は符号化部41より出力された符号化結果
からピッチ周波数を復号化する復合化部である。符号化
部41において、8は有限M個のピッチ周波数ベクトル
符号語から成る符号帳、2は入力された音声信号のピッ
チ周波数系列を蓄積するピッチ周波数蓄積手段、4はピ
ッチ周波数蓄積手段2に蓄積されたピッチ周波数系列か
らピッチ周波数ベクトルを構成するピッチ周波数ベクト
ル構成手段、6はピッチ周波数ベクトル構成手段4で構
成されたピッチ周波数ベクトルと符号帳8内のピッチ周
波数ベクトル符号語との距離を算出する距離算出手段、
11は距離算出手段6で算出された距離を用いて符号帳
8内のM個のピッチ周波数ベクトル符号語より最適ピッ
チ周波数ベクトル符号語を選択しその最適ピッチ周波数
ベクトル符号語をピッチ周波数ベクトルの符号化結果と
して出力する最適符号語選択手段、17はピッチ周波数
ベクトル構成手段4からの平均ピッチ周波数を量子化す
る平均ピッチ周波数量子化手段である。復号化部42に
おいて、21は有限M個のピッチ周波数ベクトル符号語
から成る符号帳、11は上記最適符号語選択手段11の
出力を逆量子化する逆量子化手段、22は上記平均ピッ
チ周波数量子化手段17の出力を逆量子化する平均ピッ
チ周波数逆量子化手段である。FIG. 1 is a block diagram showing a configuration of a pitch frequency coder / decoder according to an embodiment of the present invention. FIG.
, 41 is an encoding unit that encodes a pitch frequency vector obtained by analyzing a plurality of pitch frequencies obtained by analyzing the input audio signal at regular intervals as one unit and outputs an encoding result, and 42 denotes an encoding unit 41 The decoding unit decodes the pitch frequency from the encoding result output from the decoding unit. In the encoding unit 41, reference numeral 8 denotes a codebook composed of finite M pitch frequency vector codewords, reference numeral 2 denotes a pitch frequency storage unit for storing a pitch frequency sequence of an input speech signal, and reference numeral 4 denotes a pitch frequency storage unit Pitch frequency vector constructing means 6 for constructing a pitch frequency vector from the pitch frequency sequence obtained, calculates the distance between the pitch frequency vector constructed by the pitch frequency vector constructing means 4 and the pitch frequency vector codeword in the codebook 8. Distance calculation means,
Numeral 11 selects the optimum pitch frequency vector codeword from the M pitch frequency vector codewords in the codebook 8 using the distance calculated by the distance calculation means 6, and converts the optimum pitch frequency vector codeword into a code of the pitch frequency vector. The optimum codeword selecting means 17 for outputting as a result of quantization is an average pitch frequency quantizing means for quantizing the average pitch frequency from the pitch frequency vector constructing means 4. In the decoding unit 42, reference numeral 21 denotes a codebook composed of finite M pitch frequency vector codewords, 11 denotes inverse quantization means for inversely quantizing the output of the optimal codeword selection means 11, and 22 denotes the average pitch frequency quantization code. This is an average pitch frequency inverse quantization means for inversely quantizing the output of the quantization means 17.
【0011】次にこの実施例の動作について説明する。
ピッチ周波数蓄積手段2には有限K個のピッチ周波数1
が入力される。ピッチ周波数系列は、一般に、単語のア
クセント位置にピークを持つへの字型の形状の連鎖で表
すことができる。このようなピッチ周波数系列に特徴的
な形状を抽出し、これをベクトル量子化することで、量
子化効率を上げることができる。このために、ピッチ周
波数ベクトル構成手段4は、ピッチ周波数蓄積手段2か
らピッチ周波数系列3を読み込み、ピッチ周波数系列の
極小点でセグメンテー ションを行いN次元のピッチ
周波数ベクトルを構成し、ピッチ周波数ベクトル5とし
て出力する。図2はピッチ周波数ベクトル構成手段4の
動作を説明した説明図で、ピッチ周波数蓄積手段2に蓄
積されているK個のピッチ周波数をセグメンテーション
するために、図2(a)に示すように、例えば、ピッチ
周波数系列の最初の極小点Nを探索し、第1フレームか
らこの極小点Nの第Nフレームまでを1つのセグメント
とし、そのセグメント内の平均ピッチ周波数で正規化さ
れたN個のピッチ周波数から成るピッチ周波数ベクトル
を構成し、平均ピッチ周波数16とピッチ周波数ベクト
ル5として出力する。次に距離算出手段6は、ピッチ周
波数ベクトル5の次元数と符号語の次元数が一致するよ
うにピッチ周波数ベクトル5を線形圧縮伸長し、次元数
が正規化されたピッチ周波数ベクトルを求める。次に距
離算出手段6は有限M個のピッチ周波数ベクトル符号語
から成る符号帳8から切り替えスイッチ7を介して順次
ピッチ周波数ベクトル符号語を読みだし、このピッチ周
波数ベクトル符号語と次元数が正規化されたピッチ周波
数ベクトルの間の距離(例えばユークリッド距離)を計
算し、その距離9とそれに対応するピッチ周波数ベクト
ル符号語の番号10を出力する。最適符号語選択手段1
1では、距離9の中で最小の距離を求め、これを最小距
離12とし、このときのピッチ周波数ベクトル5のベク
トル次元長13と共にピッチ周波数ベクトル構成手段4
に出力する。また、このときのピッチ周波数ベクトル符
号語番号10及びベクトル次元長13を保持しておく。Next, the operation of this embodiment will be described.
The pitch frequency storage means 2 has finite K pitch frequencies 1
Is entered. A pitch frequency sequence can be generally represented by a chain of a cross shape having a peak at the accent position of a word. By extracting a characteristic shape of such a pitch frequency sequence and performing vector quantization on the extracted shape, the quantization efficiency can be increased. For this purpose, the pitch frequency vector constructing means 4 reads the pitch frequency sequence 3 from the pitch frequency accumulating means 2 and performs segmentation at the minimum point of the pitch frequency sequence to form an N-dimensional pitch frequency vector. Output as FIG. 2 is an explanatory diagram for explaining the operation of the pitch frequency vector constructing means 4. In order to segment the K pitch frequencies accumulated in the pitch frequency accumulating means 2, as shown in FIG. , The first minimum point N of the pitch frequency sequence is searched, and from the first frame to the Nth frame of this minimum point N is defined as one segment, and N pitch frequencies normalized by the average pitch frequency in the segment , And output them as an average pitch frequency 16 and a pitch frequency vector 5. Next, the distance calculation means 6 linearly compresses and expands the pitch frequency vector 5 so that the dimension number of the pitch frequency vector 5 matches the dimension number of the code word, and obtains a pitch frequency vector in which the dimension number is normalized. Next, the distance calculating means 6 sequentially reads out the pitch frequency vector codewords from the codebook 8 composed of finite M pitch frequency vector codewords via the changeover switch 7 and normalizes the pitch frequency vector codewords and the number of dimensions. The distance (for example, the Euclidean distance) between the pitch frequency vectors calculated is calculated, and the distance 9 and the corresponding pitch frequency vector codeword number 10 are output. Optimal codeword selection means 1
In step 1, the minimum distance among the distances 9 is obtained, and the minimum distance is determined as the minimum distance 12. The pitch frequency vector constructing means 4 together with the vector dimension length 13 of the pitch frequency vector 5 at this time is used.
Output to Further, the pitch frequency vector codeword number 10 and the vector dimension length 13 at this time are held.
【0012】次にピッチ周波数ベクトル構成手段4で
は、最小距離12が予め定められた閾値より小さい場合
は、図2(b)に示すように第Nフレームから最終の第
Kフレームまでの区間の最初の極小点N’を求め、第1
フレームから第N’フレームまでのピッチ周波数でピッ
チ周波数ベクトルを構成し、これを第1フレームから第
N’フレームまでの平均ピッチ周波数で正規化した後、
ピッチ周波数ベクトル5として出力する。次に、距離計
算手段6、符号帳8、及び最適符号語選択手段11を通
じて、新たに構成されたベクトル次元長13のピッチ周
波数ベクトルでの最小距離12を求める。この最小距離
12が閾値より小さい場合は最適符号語選択手段11で
は保持していたピッチ周波数ベクトル符号語番号10と
ベクトル次元長13の値を更新し、ピッチ周波数ベクト
ル構成手段4でN’以後のフレームにおいて極小点を探
索し新たなピッチ周波数ベクトルを構成するという操作
を繰り返す。Next, when the minimum distance 12 is smaller than a predetermined threshold value, the pitch frequency vector constructing means 4 sets the start of the section from the Nth frame to the last Kth frame as shown in FIG. The minimum point N ′ of
After constructing a pitch frequency vector with the pitch frequency from the frame to the N'th frame and normalizing this with the average pitch frequency from the first frame to the N'th frame,
Output as pitch frequency vector 5. Next, the minimum distance 12 in the pitch frequency vector of the newly configured vector dimension length 13 is obtained through the distance calculation means 6, codebook 8, and optimum codeword selection means 11. If the minimum distance 12 is smaller than the threshold value, the optimal codeword selecting means 11 updates the values of the pitch frequency vector codeword number 10 and the vector dimension length 13 held by the optimal codeword selecting means 11, and the pitch frequency vector constructing means 4 updates the values after N '. The operation of searching for the minimum point in the frame and forming a new pitch frequency vector is repeated.
【0013】最適符号語選択手段11が求める最小距離
12が予め定められた閾値より大きい場合、または、ピ
ッチ周波数ベクトル構成手段4において極小点N’が検
出されない場合は、最適符号語選択手段11は、最適符
号語選択手段11内に保持されているピッチ周波数ベク
トル符号語番号を最適符号語番号14とし、そのときの
ベクトル次元長15と共に外部へ出力する。平均ピッチ
周波数量子化手段17は平均ピッチ周波数16を例えば
線形量子化し平均ピッチ周波数符号語18を出力する。If the minimum distance 12 determined by the optimal codeword selecting means 11 is larger than a predetermined threshold value, or if the minimum point N 'is not detected by the pitch frequency vector constructing means 4, the optimal codeword selecting means 11 The pitch frequency vector code word number held in the optimum code word selecting means 11 is set as the optimum code word number 14, and is output to the outside together with the vector dimension length 15 at that time. The average pitch frequency quantization means 17 linearly quantizes the average pitch frequency 16, for example, and outputs an average pitch frequency codeword 18.
【0014】平均ピッチ周波数逆量子化手段22では平
均ピッチ周波数符号語18より平均ピッチ周波数23を
求める。逆量子化手段19では、最適符号語番号14に
より指定されるピッチ周波数ベクトル符号語を切り替え
スイッチ20を介して符号帳21から読みだし、読みだ
したピッチ周波数ベクトルへ符号語の各次元のサンプル
値に平均ピッチ周波数23を掛け、また、ベクトル次元
帳15と一致するようにこれを線形圧縮伸長し、出力ピ
ッチ周波数系列24として出力する。The average pitch frequency inverse quantization means 22 determines the average pitch frequency 23 from the average pitch frequency codeword 18. In the inverse quantization means 19, the pitch frequency vector code word specified by the optimum code word number 14 is read out from the codebook 21 via the switch 20, and the sample value of each dimension of the code word is converted into the read pitch frequency vector. Is multiplied by the average pitch frequency 23, and is linearly compressed and expanded so as to match the vector dimension book 15, and is output as an output pitch frequency sequence 24.
【0015】なお、実施例では、ピッチ周波数の極小点
をセグメント境界として用いてピッチ周波数ベクトルを
構成したが、ピッチ周波数の極大点や、変化率の極小
点、極大点、これらの点の組み合わせ、1フレームずつ
の増減等により、セグメント長がより長く、入力ピッチ
周波数系列に対する量子化歪がより小さいという基準に
おいて最適なセグメントの決定を行うことも可能であ
る。In the embodiment, the pitch frequency vector is formed by using the minimum point of the pitch frequency as the segment boundary. However, the maximum point of the pitch frequency, the minimum point of the change rate, the maximum point, a combination of these points, By increasing or decreasing one frame at a time, it is possible to determine an optimal segment on the basis that the segment length is longer and the quantization distortion for the input pitch frequency sequence is smaller.
【0016】[0016]
【発明の効果】以上のように本発明によれば、ピッチ周
波数構成手段により、ピッチ周波数系列の極小点を基準
にしてピッチ周波数ベクトルを生成し、ベクトル量子化
するようにしたので、ピッチ周波数の時間変化を保存し
たピッチ周波数の符号化が極めて低いビットレートで行
なえ、これにより最も入力音声のピッチ周波数の複雑な
時間変化にも追従でき、したがって入力音声のイントネ
ーションを損なうことが抑えられ、性能が向上するとい
う効果が得られる。また、請求項2に係る発明によれ
ば、符号化歪みが所定値を超えない条件下で伝送情報量
を最小限に低減することができるという効果も得られ
る。 As described above, according to the present invention, the pitch circumference
Based on the minimum point of the pitch frequency series by the wave number configuration means
, The pitch frequency vector is generated, and the vector quantization is performed, so that the pitch frequency encoding that preserves the time change of the pitch frequency can be performed at an extremely low bit rate, and thereby, the pitch of the input voice is the most. It is possible to follow a complicated time change of the frequency, so that the intonation of the input voice is prevented from being impaired and the performance is improved. Further, according to the invention of claim 2,
If the coding distortion does not exceed the predetermined value,
Can be reduced to a minimum.
You.
【図1】この発明の一実施例に係るピッチ周波数符号化
復号化器の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a pitch frequency encoding / decoding device according to an embodiment of the present invention.
【図2】この実施例におけるピッチ周波数ベクトル構成
手段の動作を説明するための図である。FIG. 2 is a diagram for explaining an operation of a pitch frequency vector forming unit in the embodiment.
【図3】従来のピッチ周波数符号化復号化器の構成を示
すブロック図である。FIG. 3 is a block diagram showing a configuration of a conventional pitch frequency encoding / decoding device.
【図4】この従来例における適応量子化手段の動作を説
明するための図である。FIG. 4 is a diagram for explaining the operation of an adaptive quantization means in this conventional example.
2 ピッチ周波数蓄積手段 4 ピッチ周波数ベクトル構成手段 6 距離算出手段 8 符号帳 11 最適符号語選択手段 17 平均ピッチ周波数量子化手段 41 符号化部 42 復号化部 2 Pitch frequency storage means 4 Pitch frequency vector construction means 6 Distance calculation means 8 Codebook 11 Optimal codeword selection means 17 Average pitch frequency quantization means 41 Encoding unit 42 Decoding unit
Claims (2)
られたピッチ周波数を複数個まとめて得られるピッチ周
波数ベクトルを1単位として符号化し、この符号化結果
を出力する符号化部と、この符号化部より出力された符
号化結果からピッチ周波数を復号化する復号化部とから
成るピッチ周波数符号化復号化器において、有限M個の
ピッチ周波数ベクトル符号語から成る符号帳と、入力さ
れた音声信号のピッチ周波数系列を蓄積するピッチ周波
数蓄積手段と、このピッチ周波数蓄積手段に蓄積された
ピッチ周波数系列の極小点を基準にしてピッチ周波数ベ
クトルを構成するピッチ周波数ベクトル構成手段と、こ
のピッチ周波数ベクトル構成手段で構成されたピッチ周
波数ベクトルと上記符号帳内のピッチ周波数ベクトル符
号語との距離を算出する距離算出手段と、この距離算出
手段で算出された距離を用いて上記符号帳内のM個のピ
ッチ周波数ベクトル符号語より最適ピッチ周波数ベクト
ル符号語を選択しその最適ピッチ周波数ベクトル符号語
をピッチ周波数ベクトルの符号化結果として出力する最
適符号語選択手段とを設けたことを特徴とするピッチ周
波数符号化復号化器。 An encoding unit that encodes a pitch frequency vector obtained by analyzing a plurality of pitch frequencies obtained by analyzing an input audio signal at regular intervals as one unit, and outputs the encoding result; In a pitch frequency coding decoder comprising a decoding unit for decoding a pitch frequency from the coding result output from the coding unit, a code book comprising finite M pitch frequency vector codewords is inputted. Pitch frequency accumulating means for accumulating a pitch frequency sequence of the voice signal, pitch frequency vector constructing means for constructing a pitch frequency vector based on a minimum point of the pitch frequency sequence accumulated in the pitch frequency accumulating means, Calculate the distance between the pitch frequency vector configured by the frequency vector configuration means and the pitch frequency vector codeword in the codebook Using the distance calculated by the distance calculating means, and selecting the optimum pitch frequency vector codeword from the M pitch frequency vector codewords in the codebook, and selecting the optimum pitch frequency vector codeword by pitch. pitch circumference, characterized in that a and optimal codeword selecting means for outputting as a coded result of the frequency vectors
Wave number coder / decoder.
周波数蓄積手段に蓄積されたピッチ周波数系列の先頭のThe first of the pitch frequency series stored in the frequency storage means
ピッチ周波数から、ピッチ周波数の時間変動において特From pitch frequency to time variation of pitch frequency
徴的な最初の点までのピッチ周波数をピッチ周波数ベクThe pitch frequency up to the characteristic first point
トルの初期候補 とし、このピッチ周波数ベクトルと最The pitch frequency vector and the maximum
適符号語選択手段から出力された最適ピッチ周波数ベクOptimal pitch frequency vector output from suitable codeword selection means
トル符号語との間の歪が所定値を超えない条件内でピッWithin a condition that the distortion between the
チ周波数ベクトル長が最大となるピッチ周波数ベクトルPitch frequency vector that maximizes the maximum frequency vector length
を探索し構成することを特徴とする請求項1のピッチ周2. The pitch circumference according to claim 1, wherein
波数符号化復号化器。Wave number coder / decoder.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP41318690A JP3305338B2 (en) | 1990-12-21 | 1990-12-21 | Pitch frequency codec |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP41318690A JP3305338B2 (en) | 1990-12-21 | 1990-12-21 | Pitch frequency codec |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04220700A JPH04220700A (en) | 1992-08-11 |
JP3305338B2 true JP3305338B2 (en) | 2002-07-22 |
Family
ID=18521872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP41318690A Expired - Fee Related JP3305338B2 (en) | 1990-12-21 | 1990-12-21 | Pitch frequency codec |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3305338B2 (en) |
-
1990
- 1990-12-21 JP JP41318690A patent/JP3305338B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH04220700A (en) | 1992-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5012518A (en) | Low-bit-rate speech coder using LPC data reduction processing | |
US4625286A (en) | Time encoding of LPC roots | |
US5819213A (en) | Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks | |
JP4005154B2 (en) | Speech decoding method and apparatus | |
US5627939A (en) | Speech recognition system and method employing data compression | |
US4975956A (en) | Low-bit-rate speech coder using LPC data reduction processing | |
JP3680380B2 (en) | Speech coding method and apparatus | |
US7392179B2 (en) | LPC vector quantization apparatus | |
JP3114197B2 (en) | Voice parameter coding method | |
US20020111800A1 (en) | Voice encoding and voice decoding apparatus | |
KR20060129417A (en) | Dimensional vector and variable resolution quantization | |
JPH0683400A (en) | Speech-message processing method | |
JPH09127991A (en) | Voice coding method, device therefor, voice decoding method, and device therefor | |
JPH1091194A (en) | Method of voice decoding and device therefor | |
JPH08272395A (en) | Voice encoding device | |
JPH10214100A (en) | Voice synthesizing method | |
US6611797B1 (en) | Speech coding/decoding method and apparatus | |
US5797119A (en) | Comb filter speech coding with preselected excitation code vectors | |
US7039584B2 (en) | Method for the encoding of prosody for a speech encoder working at very low bit rates | |
KR100323487B1 (en) | Burst here Linear prediction | |
JP3305338B2 (en) | Pitch frequency codec | |
KR20010075134A (en) | Linear predictive analysis-by-synthesis encoding method and encoder | |
JP2538450B2 (en) | Speech excitation signal encoding / decoding method | |
EP0483882B1 (en) | Speech parameter encoding method capable of transmitting a spectrum parameter with a reduced number of bits | |
JP3916934B2 (en) | Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |