JP3353852B2 - Audio encoding method - Google Patents

Audio encoding method

Info

Publication number
JP3353852B2
JP3353852B2 JP01840694A JP1840694A JP3353852B2 JP 3353852 B2 JP3353852 B2 JP 3353852B2 JP 01840694 A JP01840694 A JP 01840694A JP 1840694 A JP1840694 A JP 1840694A JP 3353852 B2 JP3353852 B2 JP 3353852B2
Authority
JP
Japan
Prior art keywords
speech
extracted
pitch
vector
encoding method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP01840694A
Other languages
Japanese (ja)
Other versions
JPH07225599A (en
Inventor
仲 大室
一則 間野
健弘 守谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP01840694A priority Critical patent/JP3353852B2/en
Publication of JPH07225599A publication Critical patent/JPH07225599A/en
Application granted granted Critical
Publication of JP3353852B2 publication Critical patent/JP3353852B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は、音声の符号化方法に
関し、特に、楽音を含む音声のスペクトル包絡特性を表
すフィルタを音源ベクトルにより駆動して音声を合成す
る予測符号化方法により、音声の信号系列を少ない情報
量によりディジタル符号化する高能率音声符号化方法に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech encoding method, and more particularly to a speech encoding method, in which a filter representing a spectral envelope characteristic of speech including a musical tone is driven by a sound source vector to synthesize speech. The present invention relates to a high-efficiency speech coding method for digitally coding a signal sequence with a small amount of information.

【0002】[0002]

【従来の技術】ディジタル移動体通信において、電波を
効率的に利用したり、音声或は音楽を蓄積したりするサ
ービスをする際に記憶媒体を効率的に利用するために高
能率音声符号化方法が使用されている。現在、音声を高
能率に符号化する方法として、原音声をフレームと呼ば
れる5〜50ms程度の一定間隔の区間に分割し、その
1フレームの音声を周波数スペクトルの包絡特性を表す
線形フィルタの特性と、そのフィルタを駆動する駆動音
源信号の2つの情報に分離し、それぞれの情報を符号化
する手法が提案されている。この手法において、駆動音
源信号を符号化する方法として、音声のピッチ周期(基
本周波数)に対応すると考えられる周期成分と、それ以
外の成分に分離して符号化する方法が知られている。こ
の駆動音源情報の符号化方法の例として、符号駆動線形
予測符号化方法(Code-Excited Linear Prediction:CEL
P )がある。この符号駆動線形予測符号化方法(CELP
)の詳細は、文献M.R.Schroeder and B.S.Atal, “Cod
e-Excited Linear Prediction(CELP):High Quality Spe
ech at Very Low Bit Rates",IEEE Proc.ICASSP-85,pp.
937-940,1985 に記載されている。
2. Description of the Related Art In a digital mobile communication system, a high-efficiency voice encoding method is used to efficiently use a storage medium in a service of efficiently using radio waves or storing voice or music. Is used. At present, as a method for efficiently encoding speech, an original speech is divided into sections called frames, which are arranged at regular intervals of about 5 to 50 ms, and the speech of one frame is divided into a characteristic of a linear filter that represents an envelope characteristic of a frequency spectrum. A method has been proposed in which the information is separated into two pieces of information of a driving sound source signal for driving the filter, and each piece of information is encoded. In this method, as a method of encoding a drive excitation signal, a method of separating and encoding a periodic component considered to correspond to a pitch period (fundamental frequency) of a voice and other components is known. Code-Excited Linear Prediction (CEL) is an example of an encoding method of the driving excitation information.
P). This code-driven linear prediction coding method (CELP
) Are described in MRSchroeder and BSAtal, “Cod
e-Excited Linear Prediction (CELP): High Quality Spe
ech at Very Low Bit Rates ", IEEE Proc. ICASSP-85, pp.
937-940,1985.

【0003】図1を参照して上述の符号化方法を説明す
る。入力端子1に入力された原音声について、線形予測
分析部2において、原音声の周波数スペクトル包絡特性
を表す線形予測パラメータが計算される。得られた線形
予測パラメータは線形予測パラメータ符号化部3におい
て符号化され、線形予測パラメータ復号化部4に送られ
る。線形予測パラメータ復号化部4においては、受信し
た符号からフィルタ係数を再生し、これを合成フィルタ
5に送り込む。なお、線形予測分析の詳細および線形予
測パラメータの符号化については、例えば古井貞煕著
“ディジタル音声処理”(東海大学出版会)に記載され
ている。ここで、線形予測分析分、線形予測パラメータ
符号化部、線形予測パラメータ復号化部および合成フィ
ルタは非線形なものに置き換えることができる。
[0003] The above encoding method will be described with reference to FIG. For the original speech input to the input terminal 1, the linear prediction analysis unit 2 calculates a linear prediction parameter representing the frequency spectrum envelope characteristic of the original speech. The obtained linear prediction parameters are encoded by the linear prediction parameter encoding unit 3 and sent to the linear prediction parameter decoding unit 4. The linear prediction parameter decoding unit 4 reproduces a filter coefficient from the received code and sends it to the synthesis filter 5. The details of the linear prediction analysis and the encoding of the linear prediction parameters are described in, for example, "Digital Speech Processing" by Sadahiro Furui (Tokai University Press). Here, the linear prediction analysis, the linear prediction parameter encoding unit, the linear prediction parameter decoding unit, and the synthesis filter can be replaced with non-linear ones.

【0004】適応符号帳7からは、バッファに記憶され
た直前の過去の駆動音源ベクトルである既に量子化され
た直前の1〜数フレーム分の駆動音源ベクトルを或る周
期に相当する長さで切り出し、その切り出したベクトル
をフレームの長さになるまで繰り返すことにより音声の
周期成分に対応する時系列ベクトルの候補が出力され
る。
[0004] From the adaptive codebook 7, the immediately preceding past drive excitation vector stored in the buffer and corresponding to one to several frames of the immediately preceding drive excitation vector having a length corresponding to a certain period. By clipping and repeating the clipped vector until the length of the frame is reached, a time-series vector candidate corresponding to the periodic component of the voice is output.

【0005】雑音符号帳8からは、音声の非周期成分に
対応する1フレーム分の長さの時系列符号ベクトルの候
補が出力される。これらの候補として、入力音声とは独
立に符号化のためのビット数に応じて予め指定された数
の候補ベクトルが記憶されている。適応符号帳7から出
力された時系列ベクトルの候補は乗算部9において重み
符号帳11に記憶される重み作成部において作成された
重みが乗算される。一方、雑音符号帳8から出力された
時系列ベクトルの候補は、乗算部10において重み符号
帳11に記憶される重み作成部において作成された重み
が乗算される。乗算部9における乗算結果および乗算部
10における乗算結果は加算部12において加算されて
駆動音源ベクトルの候補となる。
[0005] From the noise codebook 8, candidates for a time-series code vector having a length of one frame corresponding to a non-periodic component of speech are output. As these candidates, a predetermined number of candidate vectors according to the number of bits for encoding are stored independently of the input speech. The time series vector candidates output from the adaptive codebook 7 are multiplied by the weight created by the weight creating unit stored in the weighting codebook 11 by the multiplier 9. On the other hand, the time series vector candidates output from the noise codebook 8 are multiplied by the weight created by the weight creation unit stored in the weight codebook 11 by the multiplier 10. The result of the multiplication in the multiplication unit 9 and the result of the multiplication in the multiplication unit 10 are added in the addition unit 12 to be candidates for the drive excitation vector.

【0006】合成フィルタ5は、線形予測パラメータ復
号化部4の出力をフィルタ係数とする線形フィルタであ
り、加算部12の出力である駆動音源ベクトル候補を入
力として再生音声の候補を出力する。合成フィルタ5の
次数、即ち線形予測分析の次数は、一般に10〜16次
程度とされる場合が多い。なお、上述した通り、合成フ
ィルタ5は非線形フィルタとすることができる。
[0006] The synthesis filter 5 is a linear filter using the output of the linear prediction parameter decoding unit 4 as a filter coefficient, and outputs a candidate of a driving sound source vector which is an output of the addition unit 12 and outputs a candidate of a reproduced voice. In general, the order of the synthesis filter 5, that is, the order of the linear prediction analysis, is generally about 10 to 16 order. As described above, the synthesis filter 5 can be a non-linear filter.

【0007】歪み計算部6においては、合成フィルタ5
の出力である再生音声の候補と入力音声との間の歪みを
計算する。この歪みの計算は、例えば聴覚重み付けの様
な合成フィルタの係数或は量子化していない線形予測係
数を考慮して行なうことが多い。符号帳検索制御部13
においては、合成フィルタ5から供給される再生音声候
補と入力端子1に入力された入力音声との間の歪みが最
小となる様な周期符号、雑音符号および重み符号を選択
し、そのフレームにおける駆動音源ベクトルを決定す
る。
[0007] In the distortion calculator 6, the synthesis filter 5
Calculate the distortion between the input sound and the reproduced sound candidate which is the output of. The calculation of the distortion is often performed in consideration of, for example, a coefficient of a synthesis filter such as auditory weighting or an unquantized linear prediction coefficient. Codebook search control unit 13
In, a cyclic code, a noise code, and a weight code are selected such that distortion between the reproduced sound candidate supplied from the synthesis filter 5 and the input sound input to the input terminal 1 is minimized, and the driving in the frame is selected. Determine the sound source vector.

【0008】符号帳検索制御部13において決定された
周期符号、雑音符号、重み符号および線形予測パラメー
タ符号化部3の出力である線形予測パラメータ符号は、
符号送出部14に送られ、これらの利用の形態に応じて
記憶されるか、或は受信側へ送信される。以上の方法は
代表的な符号駆動線形予測符号化方法であるが、より少
ない演算量およびメモリ量を使用してより高品質な符号
化を行なう方法として、ピッチ同期励振源符号駆動線形
予測符号化(PSI-CELP:Pitch Synchronous Innovation-
CELP) 方法が提案されている。この符号化方法について
の詳細は、例えば「文献:間野,守谷,三樹,大室,
“自動車電話用ハーフレート音声コーデックの検討”,
信学技報,SP-92-133(1933) 」、「大矢,須田,三木,
“Pitch SynchronousInnovation CELP(PSI-CELP)-PDC
ハーフレート音声CODEC-",信学技報,RCS93-78(1993)」
に記載されている。
The cyclic code, the noise code, the weight code, and the linear prediction parameter code output from the linear prediction parameter encoding unit 3 determined by the codebook search control unit 13 are as follows:
It is sent to the code sending unit 14 and stored according to the form of use, or sent to the receiving side. The above method is a typical code-driven linear predictive coding method. As a method of performing higher quality coding using a smaller amount of operation and less memory, pitch-driven excitation source code-driven linear predictive coding is used. (PSI-CELP: Pitch Synchronous Innovation-
CELP) method has been proposed. For details of this encoding method, see, for example, “Literature: Mano, Moriya, Miki, Omuro,
“Study of Half Rate Speech Codec for Car Phone”,
IEICE Technical Report, SP-92-133 (1933) "," Oya, Suda, Miki,
“Pitch SynchronousInnovation CELP (PSI-CELP) -PDC
Half-rate speech CODEC- ", IEICE Technical Report, RCS93-78 (1993)"
It is described in.

【0009】図2を参照してピッチ同期励振源符号駆動
線形予測符号化方法を説明する。入力端子1に入力され
た原音声について、線形予測分析部2において、原音声
の周波数スペクトル包絡特性を表す線形予測パラメータ
が計算される。得られた線形予測パラメータは、線形予
測パラメータ符号化部3において符号化されて線形予測
パラメータ復号化部4に送られる。線形予測パラメータ
復号化部4は、受信した符号からフィルタ係数を再生
し、これを合成フィルタ5に送り込む。このとき、線形
予測パラメータの符号化は、過去のフレームにおける予
測パラメータの再生値或は伝送符号との間の相関を使用
して符号化すると能率がよい。例えば過去の複数のフレ
ームにおける予測パラメータの再生値(或はベクトル)
の線形結合との間の差分(値或はベクトル)を伝送する
自己回帰型の予測符号化、過去の複数フレームにおける
予測パラメータの伝送符号(値或はベクトル)の線形結
合との間の差分(値或はベクトル)を伝送する移動平均
型の予測符号化と使用すると好適である。
A description will now be given, with reference to FIG. 2, of a pitch synchronous excitation source code driving linear prediction encoding method. For the original speech input to the input terminal 1, the linear prediction analysis unit 2 calculates a linear prediction parameter representing the frequency spectrum envelope characteristic of the original speech. The obtained linear prediction parameters are encoded by the linear prediction parameter encoding unit 3 and sent to the linear prediction parameter decoding unit 4. The linear prediction parameter decoding unit 4 reproduces a filter coefficient from the received code, and sends it to the synthesis filter 5. At this time, it is efficient to encode the linear prediction parameter by using the correlation between the reproduced value of the prediction parameter in the past frame or the transmission code. For example, the reproduction value (or vector) of the prediction parameter in a plurality of past frames
Auto-regressive predictive coding that transmits a difference (value or vector) between the linear combination of the prediction parameter and a difference (linear difference) between the transmission code (value or vector) of the prediction parameter in a plurality of past frames. (Value or vector) is preferably used with the moving average type predictive coding.

【0010】適応符号帳71からは、バッファに記憶さ
れた直前の過去の駆動音源ベクトルである既に量子化さ
れた直前の1〜数フレーム分の駆動音源ベクトルを或る
周期に相当する長さで切り出し、その切り出したベクト
ルをフレームの長さになるまで繰り返すことにより、音
声の周期成分に対応する時系列ベクトルの候補が出力さ
れる。固定符号帳72からは、音声の非周期成分に対応
する1フレーム分の長さの時系列符号ベクトルの候補が
出力される。適応符号帳71と固定符号帳72とは、現
在のフレームにおいて入力音声と合成音声の歪みが最小
になる様に、適応的に切り換えて使用される。
From the adaptive codebook 71, one or several frames of the immediately preceding drive excitation vector, which is the immediately preceding drive excitation vector stored in the buffer, having a length corresponding to a certain period. By clipping and repeating the clipped vector until the length of the frame is reached, a time-series vector candidate corresponding to the periodic component of the voice is output. From the fixed codebook 72, a time-series code vector candidate having a length of one frame corresponding to the non-periodic component of speech is output. The adaptive codebook 71 and the fixed codebook 72 are used by being adaptively switched so that the distortion of the input speech and the synthesized speech in the current frame is minimized.

【0011】以上の方法においては、雑音符号帳は複数
用意される。各雑音符号帳81および82からは、音声
の非周期成分に対応する1フレーム分の長さの時系列符
号ベクトルの候補が出力され、これらの候補はピッチ周
期化部21および22において適応符号帳71のピッチ
に対応する周期により周期化される。このとき、適応符
号帳71の代わりに固定符号帳72が選択された場合は
周期化処理を行なわない。また、雑音符号帳81および
82から出力される候補のすべてを周期化するのではな
く、その一部の候補のみを周期化する様にしてもよい。
周期化処理を施された各ベクトル候補は加算部23にお
いて加算され、雑音符号ベクトル候補となる。
In the above method, a plurality of random codebooks are prepared. Each of the noise codebooks 81 and 82 outputs a time-series code vector candidate having a length of one frame corresponding to the non-periodic component of the voice. It is cycled by a cycle corresponding to a pitch of 71. At this time, if the fixed codebook 72 is selected instead of the adaptive codebook 71, the periodic processing is not performed. Also, instead of periodicizing all of the candidates output from the random codebooks 81 and 82, only some of the candidates may be periodicized.
Each of the vector candidates subjected to the periodization processing is added in the adding unit 23 to become a noise code vector candidate.

【0012】適応符号帳71或は固定符号帳72から出
力された時系列ベクトルの候補は、乗算部9において重
み符号帳11に記憶される重み作成部において作成され
た重みが乗算される。一方、周期化処理を施された雑音
ベクトル候補は、加算部23において加算された後に乗
算部10において重み符号帳11に記憶される重み作成
部において作成された重みが乗算される。これら乗算部
9における乗算結果および乗算部10における乗算結果
は、加算部12において加算されて駆動音源ベクトルの
候補となる。このとき、重みの符号化には、ベクトル量
子化の手法を使用すると能率がよい。
The time series vector candidates output from the adaptive codebook 71 or the fixed codebook 72 are multiplied by the weight created by the weight creating unit stored in the weighting codebook 11 by the multiplier 9. On the other hand, the noise vector candidates that have been subjected to the periodic processing are added by the adding unit 23 and then multiplied by the weight created by the weight creating unit stored in the weight codebook 11 by the multiplier 10. The result of the multiplication in the multiplication unit 9 and the result of the multiplication in the multiplication unit 10 are added in the addition unit 12 to be candidates for the drive excitation vector. At this time, it is efficient to use a vector quantization technique for weight coding.

【0013】合成フィルタ5は、線形予測パラメータ復
号化部4の出力をフィルタ係数とする線形フィルタであ
り、加算部12の出力である駆動音源ベクトル候補を入
力として再生音声の候補を出力する。合成フィルタ5の
次数、即ち線形予測分析の次数は一般に10〜16次と
されることが多い。なお、上述した通り、合成フィルタ
は非線形なフィルタとすることができる。
The synthesis filter 5 is a linear filter that uses the output of the linear prediction parameter decoding unit 4 as a filter coefficient, and outputs a candidate of a reproduced sound source with a driving excitation vector candidate output from the addition unit 12 as an input. In general, the order of the synthesis filter 5, that is, the order of the linear prediction analysis, is generally 10 to 16 order. As described above, the synthesis filter can be a non-linear filter.

【0014】歪み計算部6においては、合成フィルタ5
の出力である再生音声の候補と入力端子1に入力される
入力音声との間の歪みを計算する。この歪みの計算は、
聴覚重み付けの様な合成フィルタの係数または量子化し
ていない線形予測係数を考慮に入れて行なうことが多
い。符号帳検索制御部13においては、各再生音声候補
と入力音声との間の歪みが最小となる様な周期符号或は
固定符号、各雑音符号帳の雑音符号および重み符号を選
択し、そのフレームにおける駆動音源ベクトルを決定す
る。
In the distortion calculator 6, the synthesis filter 5
Then, the distortion between the reproduced voice candidate output as the input voice and the input voice input to the input terminal 1 is calculated. The calculation of this distortion is
Often, this is done taking into account the coefficients of the synthesis filter, such as auditory weighting, or unquantized linear prediction coefficients. The codebook search control unit 13 selects a periodic code or fixed code that minimizes the distortion between each reproduced speech candidate and the input speech, a noise code and a weight code of each noise codebook, and selects the frame. Is determined.

【0015】符号帳検索制御部13において決定された
周期符号或は固定符号、雑音符号、重み符号、および線
形予測パラメータ符号化部4の出力である線形予測パラ
メータ符号は、符号送出部14に送られ、利用の形態に
応じて記憶されるか、或は受信側へ送信される。
The periodic code or fixed code, noise code, weight code, and linear prediction parameter code output from the linear prediction parameter coding unit 4 determined by the codebook search control unit 13 are transmitted to a code transmitting unit 14. And stored according to the form of use or transmitted to the receiving side.

【0016】[0016]

【発明が解決しようとする課題】音声は時々刻々に特徴
が変化する非定常的な信号であり、時々刻々の特徴によ
り符号化に必要とされる情報量は異なる。必要とされる
情報量が時々刻々に異なる場合、上述の通りの従来の予
測符号化方法の様に、或る一つのモデルおよび一定のビ
ットレートにより符号化することは、信号系列をより少
ない情報量によりディジタル符号化する上において能率
上好ましくない。また、トータルの情報量が制限されて
いる場合は、品質が劣化するに到る。
Speech is a non-stationary signal whose characteristics change every moment, and the amount of information required for encoding differs depending on each moment. If the amount of information required varies from moment to moment, encoding with one model and a constant bit rate, as in the conventional predictive encoding method described above, can reduce the signal sequence to less information. It is not preferable in terms of efficiency in digitally encoding the amount. If the total amount of information is limited, the quality is degraded.

【0017】この発明は、時々刻々に変化する音声の特
徴に対応して符号化方法およびビットレートの双方を切
り換えることにより、高い品質を保持したまま少ない情
報量により音声をディジタル符号化する音声の符号化方
法を提供するものである。
According to the present invention, by switching both the encoding method and the bit rate in accordance with the characteristics of speech which change from moment to moment, the speech of which speech is digitally encoded with a small amount of information while maintaining high quality is maintained. The present invention provides an encoding method.

【0018】[0018]

【課題を解決するための手段】請求項1:適応符号帳か
らフレーム単位毎に或はサブフレーム単位毎に取り出し
た過去の駆動音源ベクトルをピッチ周期に対応する周期
により繰り返して作成した時系列ベクトル、雑音符号帳
から取り出した時系列ベクトル、或はこれらの双方の時
系列ベクトルによりフィルタを駆動して楽音を含む音声
を再生することによる入力音声を符号化する音声の符号
化方法において、入力音声を符号化するに先だって、そ
のフレーム区間或はサブフレーム区間の特徴を抽出し、
抽出された特徴に対応した符号化方法およびビットレー
トを選択符号化し、入力音声の特徴抽出に際して有声音
であると判断された音声区間について、適応符号帳から
取り出した過去の駆動音源ベクトルをピッチ周期に対応
する周期により繰り返して作成した時系列ベクトルと、
雑音符号帳から取り出した時系列ベクトルを適応符号帳
のピッチ周期に対応する周期により周期化した時系列ベ
クトルとによりフィルタを駆動して音声を再生する符号
化方法を使用し、当該音声区間が定常的であると判断さ
れたフレーム或いはサブフレームについて適応符号帳の
ピッチ周期を過去のピッチ周期の定数倍或は定数分の1
倍に微小変化分を加減算して表現し、過去のピッチ周期
の定数倍或は定数分の1倍に加減算する微小変化分の量
子化幅を、変化分が小さいときは狭く、変化分が大きい
ときは広くとって表現する音声の符号化方法を構成し
た。
Means for Solving the Problems Claim 1: A time series vector which is generated by repeatedly retrieving past excitation vectors extracted from the adaptive codebook for each frame or for each subframe at a cycle corresponding to the pitch cycle. A time-series vector extracted from a noise codebook, or both of these time-series vectors, a filter is driven to reproduce an audio including a musical tone, thereby encoding an input audio. Prior to encoding, the features of the frame section or subframe section are extracted,
The encoding method and bit rate corresponding to the extracted features are selectively encoded, and the past driving excitation vector extracted from the adaptive codebook is pitch-performed for the speech section determined to be voiced when extracting the features of the input speech. A time series vector repeatedly created with a cycle corresponding to
A time series vector extracted from the noise codebook is used as a time series vector periodicized by a period corresponding to the pitch period of the adaptive codebook. The pitch period of the adaptive codebook for a frame or subframe determined to be a target is determined to be a constant multiple of the past pitch period or a fraction of a constant.
The variation width is expressed by adding and subtracting a minute change to twice, and the quantization width of the minute change to be added or subtracted to a constant multiple of the past pitch period or one-fold of the constant is narrow when the change is small and large when the change is small. At times, a speech encoding method that is widely expressed is constructed.

【0019】そして、請求項2:適応符号帳からフレー
ム単位毎に或はサブフレーム単位毎に取り出した過去の
駆動音源ベクトルをピッチ周期に対応する周期により繰
り返して作成した時系列ベクトル、雑音符号帳から取り
出した時系列ベクトル、或はこれらの双方の時系列ベク
トルによりフィルタを駆動して楽音を含む音声を再生す
ることによる入力音声を符号化する音声の符号化方法に
おいて、入力音声を符号化するに先だって、そのフレー
ム区間或はサブフレーム区間の特徴を抽出し、抽出され
た特徴に対応した符号化方法およびビットレートを選択
符号化し、入力音声の特徴抽出に際して有声音であると
判断された音声区間について、適応符号帳から取り出し
た過去の駆動音源ベクトルをピッチ周期に対応する周期
により繰り返して作成した時系列ベクトルと、雑音符号
帳から取り出した時系列ベクトルを適応符号帳のピッチ
周期に対応する周期により周期化した時系列ベクトルと
によりフィルタを駆動して音声を再生する符号化方法を
使用し、当該音声区間が定常的であると判断されたフレ
ーム或いはサブフレームについて、適応符号帳のピッチ
周期を過去のピッチ周期の定数倍或は定数分の1倍に微
小変化分を加減算して表現し、過去のピッチ周期の定数
倍或は定数分の1倍に加減算する微小変化分の量子化幅
を、1倍のときの量子化幅より広くとって表現する音声
の符号化方法を構成した。
In addition, the present invention provides a time series vector and a noise codebook which are created by repeating past driving excitation vectors extracted from the adaptive codebook for each frame or for each subframe in a cycle corresponding to a pitch cycle. In the speech encoding method for encoding the input speech by driving the filter by using the time series vector extracted from the or both time series vectors and reproducing the speech including the musical tone, the input speech is encoded. Prior to this, the feature of the frame section or sub-frame section is extracted, the encoding method and bit rate corresponding to the extracted feature are selectively encoded, and the speech determined to be voiced when the feature of the input speech is extracted. For the interval, the past driving excitation vector extracted from the adaptive codebook is repeated at a cycle corresponding to the pitch cycle. Uses an encoding method that reproduces audio by driving a filter using the time series vector generated from the noise code book and a time series vector obtained by cycling the time series vector extracted from the noise codebook with a cycle corresponding to the pitch cycle of the adaptive codebook. Then, for a frame or subframe in which the speech section is determined to be stationary, the pitch cycle of the adaptive codebook is expressed by adding or subtracting a minute change to a constant multiple or a constant fraction of the past pitch cycle. Then, a speech encoding method is described in which a quantization width of a minute change to be added or subtracted to a constant multiple of the past pitch period or a fraction of the constant is taken to be wider than the quantization width at the time of one. .

【0020】また、請求項3:請求項1に記載される音
声の符号化方法において、過去のピッチ周期の定数倍或
は定数分の1倍に加減算する微小変化分の量子化幅を、
1倍のときの量子化幅より広くとって表現する音声の符
号化方法を構成した。
In a third aspect of the present invention, in the speech encoding method according to the first aspect, a quantization width of a minute change to be added or subtracted to a constant multiple of the past pitch period or a constant multiple thereof is set as:
A speech encoding method is described which is expressed by being wider than the quantization width of 1 time.

【0021】更に、請求項4:請求項1ないし請求項3
に記載される音声の符号化方法において、当該音声区間
が定常的であると判断されたフレーム或いはサブフレー
ムについて、スペクトルパラメータ或は利得符号ベクト
ル或は雑音符号ベクトル或はこれらのすべてに割り当て
られるビット数を、有声音であって定常的ではないと判
断されるフレーム或はサブフレームにおいて割り当てら
れるビット数よりも少なく割り当てる音声の符号化方法
を構成した。
Further, claim 4: claims 1 to 3
In the speech coding method described in the above, for a frame or a subframe in which the speech section is determined to be stationary, a spectrum parameter, a gain code vector, a noise code vector, or bits allocated to all of them. A speech encoding method is provided in which the number is assigned less than the number of bits assigned in a frame or subframe that is determined to be voiced and not stationary.

【0022】また、請求項5:請求項1ないし請求項4
に記載される音声の符号化方法において、隣接するフレ
ーム或はサブフレーム間の、符号化に先だって抽出した
か或は量子化された、ピッチおよびパワおよびスペクト
ルの変化分が予め設定された閾値よりも小であることを
以て当該音声区間は定常的であると判断する音声の符号
化方法を構成した。
Claim 5: Claims 1 to 4
In the speech encoding method described in the above, between adjacent frames or sub-frames, extracted or quantized prior to encoding, the change in pitch and power and the spectrum is more than a predetermined threshold Therefore, a speech encoding method for judging that the speech section is stationary because of its small size is constructed.

【0023】[0023]

【実施例】この発明の実施例を図を参照して説明する。
図3は入力された音声の特徴を分析して、いくつかのパ
ターン(モード)に分類し、これらのパターンに対応し
て符号化方法を切り換える方法を説明する図である。図
3は4モードの例を示す。入力端子1に入力された原音
声は、先ず音声特徴分析部20に送られ、ここにおいて
音声の特徴を示す種々のパラメータが計算される。この
パラメータの代表的な例としては、音声パワ、変形相関
関数の最大値、変形相関関数が最大となる遅れ時間(オ
ープンループピッチ)、スペクトル変化量がある。これ
ら計算されたパラメータはモード決定部40に送られ
る。モード決定部40においては、これらのオープンル
ープにより求めた特徴パラメータと、バッファ部50に
記憶される過去のフレームにおける量子化パラメータ例
えば前フレームの適応符号帳のピッチ周期、合成音声の
パワ、前フレームが属したモードを使用し、現在のフレ
ームの音声が予め決められたモードの内の何れのモード
に属するかを決定し、決定結果に基づいて切り替えスイ
ッチ41および42を切り替えて符号化部31ないし3
4の何れかを選択する。
An embodiment of the present invention will be described with reference to the drawings.
FIG. 3 is a diagram for explaining a method of analyzing the characteristics of the input speech, classifying it into several patterns (modes), and switching the encoding method according to these patterns. FIG. 3 shows an example of the four modes. The original speech input to the input terminal 1 is first sent to the speech feature analysis unit 20, where various parameters indicating the features of the speech are calculated. Representative examples of this parameter include voice power, the maximum value of the modified correlation function, the delay time (open loop pitch) at which the modified correlation function is maximized, and the amount of spectrum change. These calculated parameters are sent to the mode determination unit 40. In the mode determination unit 40, the characteristic parameters obtained by these open loops and the quantization parameters in the past frame stored in the buffer unit 50, such as the pitch period of the adaptive codebook of the previous frame, the power of the synthesized voice, the previous frame Is determined, to which of the predetermined modes the voice of the current frame belongs is determined, and based on the determination result, the changeover switches 41 and 42 are switched and the encoding units 31 to 3
Select one of 4

【0024】図4は4モードの場合の音声区間のモード
分類の仕方を説明するフローチャートを示す。先ず、入
力されたパラメータから、フレーム毎に音声区間である
か或は非音声区間であるかを判定する。これには通常音
声パワに着目して判定する。或る閾値を決め、パワがこ
れより大きいときは音声区間であり、これ以下のときは
非音声区間であると判定する。この方法により判定され
る音声/非音声の区別は音声学的な意味において厳密で
ある必要はない。非音声用のモードにより符号化したと
き、品質の劣化が生じない範囲の分類精度であればよ
い。パワの閾値は通常は入力音声の振幅が16ビットに
より量子化されているものとして、1サンプルあたりの
平均パワが数百から1万程度の値のものを使用する。
FIG. 4 is a flowchart for explaining a method of classifying voice sections in the case of four modes. First, it is determined from each of the input parameters whether each frame is a voice section or a non-voice section. This is determined by paying attention to the normal audio power. A certain threshold is determined, and when the power is larger than this, it is determined that the voice section is used, and when the power is less than this, it is determined that the voice section is not used. The distinction between speech and non-speech determined by this method need not be strict in a phonetic sense. It is sufficient that the classification accuracy is within a range in which the quality does not deteriorate when encoded in the non-voice mode. Normally, the threshold value of the power is such that the amplitude of the input voice is quantized by 16 bits and the average power per sample is a value of several hundreds to about 10,000.

【0025】次に、音声区間であると判定されたフレー
ムについて、有声音であるか、或は無声音であるかを判
定する。通常この判定は、音声パワと変形相関関数の最
大値を使用して行い、音声パワが或る値、例えば1サン
プルあたりの平均パワが数万〜十万以下であり且つ変形
相関関数の最大値が或る閾値、例えば0.1〜0.3以
下の場合は無声音であると判定する。それ以外の場合
は、有声音であると判定する。この場合も判定は音声学
的に厳密なものである必要はなく、品質の劣化につなが
らなければよい。
Next, it is determined whether the frame determined to be a voice section is a voiced sound or an unvoiced sound. Usually, this determination is made using the maximum value of the audio power and the modified correlation function, and the audio power is a certain value, for example, the average power per sample is tens of thousands to 100,000 or less and the maximum value of the modified correlation function Is less than a certain threshold, for example, 0.1 to 0.3, it is determined that the sound is unvoiced. Otherwise, it is determined that the sound is voiced. In this case as well, the judgment need not be strictly phonetically, and it is sufficient that the judgment does not lead to deterioration in quality.

【0026】更に、有声と判定された音声区間につい
て、過渡部であるか、或は定常部であるかを判定する。
この判定は、隣接するフレーム間の特徴量の変化分を調
べ、変化が少なければ定常部であり、大きければ過渡部
(非定常)であると判断する。例えば、オープンループ
ピッチの変化量を調べる。過去のフレームにおける適応
符号帳のピッチ周期と、現在のフレームのオープンルー
プピッチの変化分を調べて、変化量が或る閾値を超えて
いるか否かを判断する。通常、CELP系の符号化方法
においては、適応符号帳のピッチ周期は倍ピッチ或は半
ピッチの様な整数倍或は整数分の1の値をとることも多
く、整数倍或は整数分の1倍した値からの変化量が少な
ければ定常と判断してもよい。閾値の例としては、1割
〜2割程度の変化以内とするとよい。PSI−CELP
タイプの符号化方法の様に、適応符号帳と固定符号帳を
切り換えて使用する場合であって、前フレームにおいて
固定符号帳が選択された場合は、ピッチの変化量は大き
いと判断してもよい。ピッチの変化量の他、パワの変化
量或は前フレームの合成音声のパワと現在の入力音声パ
ワの比が閾値例えば1.2倍〜2.0倍以下であるこ
と、前フレームと現在のフレームとの間のスペクトル変
化量が閾値例えば3dB〜10dB以下であることを調
べ、定常であると判断するとよい。
Further, it is determined whether the voice section determined to be voiced is a transient section or a stationary section.
In this determination, the amount of change in the feature amount between adjacent frames is checked, and if the change is small, it is determined that the frame is a stationary portion, and if the change is large, it is determined that the frame is a transient portion (unsteady). For example, the change amount of the open loop pitch is checked. A change in the pitch cycle of the adaptive codebook in the past frame and a change in the open loop pitch of the current frame are checked to determine whether or not the change exceeds a certain threshold. In general, in a coding method of the CELP system, the pitch period of the adaptive codebook often takes a value of an integral multiple or a fraction of an integer, such as a double pitch or a half pitch. If the amount of change from the multiplied value is small, it may be determined to be steady. As an example of the threshold value, it is preferable that the change is within about 10% to 20%. PSI-CELP
In the case where the adaptive codebook and the fixed codebook are switched and used as in the case of the type coding method, and when the fixed codebook is selected in the previous frame, even if it is determined that the amount of change in the pitch is large, Good. In addition to the pitch change amount, the power change amount or the ratio of the power of the synthesized voice of the previous frame to the current input voice power is a threshold value, for example, 1.2 to 2.0 times or less. It may be determined that the spectrum change amount between the frame and the frame is a threshold value, for example, 3 dB to 10 dB or less, and it is determined that the frame is stationary.

【0027】以上において、音声区間を4つのモードに
分類する例を示したが、モード数は2或は8その他、任
意の数とすることができる。そして、非音声と無声音と
は同一分類として取扱い、過渡部と定常部の分類を更に
細かく、例えばピッチは定常であるが、パワは過渡的で
あるという様な分類とすることができる。また、有声音
について定常部と過渡部とを同一分類として取扱うこと
もできる。 この様に音声区間を分類した後、符号化部
を切り換えて符号化する。
In the above, an example in which the voice section is classified into four modes has been described. However, the number of modes can be set to 2 or 8, or any other number. The non-speech and the unvoiced sound are treated as the same classification, and the classification of the transient part and the stationary part is more detailed. For example, the classification is such that the pitch is stationary but the power is transient. Further, for voiced sounds, the stationary part and the transient part can be treated as the same classification. After the speech sections are classified in this way, the encoding section is switched to perform encoding.

【0028】次に、それぞれの音声区間に適用する符号
化モデルの例を示す。 非音声或は無声音の符号化方法を図5を参照して説
明する。図4におけるモード1およびモード2に対応す
るこれら非音声或は無声音の区間においては、音声のピ
ッチに相当する周期成分がないので、適応符号帳は使用
せず、雑音符号帳8と重み符号の記憶される重み符号帳
11のみにより駆動音源を生成する。そして、これらの
音声区間においては、波形の歪みに対して聴覚的な歪み
の感度が著しく低いので、有声音区間と比較して少ない
ビット数を雑音符号帳8および重み符号帳11、線形予
測パラメータに割り当てることができる。
Next, an example of a coding model applied to each voice section will be described. An encoding method of non-voice or unvoiced sound will be described with reference to FIG. In these sections of unvoiced or unvoiced sounds corresponding to mode 1 and mode 2 in FIG. 4, there is no periodic component corresponding to the pitch of the voice, so the adaptive codebook is not used, and the noise codebook 8 and the weight code are not used. A driving excitation is generated only by the stored weight codebook 11. In these speech sections, the sensitivity of the auditory distortion to the waveform distortion is extremely low, so that the number of bits smaller than that in the voiced section is reduced by the noise codebook 8 and the weighting codebook 11, the linear prediction parameter. Can be assigned to

【0029】 モード3に対応する有声音の過渡部に
ついては、音声を符号化するのに最も多くのビット数を
必要とする。そこで、この音声区間においては、例えば
上述した図2に示されるPSI−CELP符号化方法の
様な高能率の符号化方法を使用すると好適である。
一方、モード4に対応する有声音の定常部については、
聴覚的に重要ではあるが、音声信号の時間変化が少ない
ので、CELP系符号化方法の様な予測符号化方法の場
合は、情報量は比較的に少なくても良好な品質を維持す
ることができる。この区間の符号化方法を図6に示す。
先ず、ピッチ周波数の変化はゆるやかであるから適応符
号帳70の周期符号は過渡部よりも少ないビット数を割
り当てて、差分符号化とすることができる。差分周期符
号は、差分周期符号復号部80において絶対ピッチ周期
に変換され、適応符号帳70に送られる。適応符号帳7
0においてはこのピッチ周期に基づいて適応符号ベクト
ルの候補を作成する。図7は差分周期符号復号部80の
内部構成を示す。図7において、差分周期符号は差分周
期符号変換部83において、前フレーム適応符号ピッチ
周期に乗ずる倍率と微小変動分に変換される。倍率は1
倍のみでも差し支えないが、上述した通り、CELP系
符号化方法の適応符号ピッチは、容易に整数倍となるこ
とがあるので、1以外の整数倍或は整数分の1倍を用意
して品質の劣化を少なくすることができる。どの様な倍
率と微小変動分の組を用意すべきかは、割り当てビット
数によるが、例えば5ビットで32コードが使える場合
は、倍率2倍と1/2倍のときはそれぞれ5コードづつ
を用意する。このとき、微小変化分は、前フレームのピ
ッチ周期に倍率を乗じた値からの変化分を等間隔に量子
化してもよいが、まれに生じる大きな変化にもビット数
を増やすことなく効率的に対応するには、前フレームの
ピッチ周期に倍率を乗じた値に近い周期は量子化幅を細
かく、前フレームのピッチ周期に倍率を乗じた値からの
変化が大きい部分については、量子化幅を広くとるとよ
い。同様に、整数倍に割り当てられた微小変動用のコー
ドが少ない場合は、これらの量子化幅も広くとると効率
的である。
For voiced transients corresponding to mode 3, the most bits are required to encode the speech. Therefore, in this voice section, it is preferable to use a high-efficiency encoding method such as the PSI-CELP encoding method shown in FIG. 2 described above.
On the other hand, for the stationary part of the voiced sound corresponding to mode 4,
Although it is perceptually important, the temporal change of the audio signal is small. Therefore, in the case of a predictive coding method such as a CELP-based coding method, good quality can be maintained even if the amount of information is relatively small. it can. FIG. 6 shows an encoding method for this section.
First, since the change of the pitch frequency is gradual, the periodic code of the adaptive codebook 70 can be assigned a smaller number of bits than the transient part, and can be subjected to differential coding. The differential periodic code is converted into an absolute pitch period in a differential periodic code decoding unit 80 and sent to the adaptive codebook 70. Adaptive codebook 7
At 0, adaptive code vector candidates are created based on this pitch period. FIG. 7 shows the internal configuration of the differential periodic code decoding unit 80. In FIG. 7, the difference cycle code is converted by a difference cycle code conversion unit 83 into a multiplication factor and a minute variation multiplied by the preceding frame adaptive code pitch cycle. Magnification is 1
As mentioned above, the adaptive code pitch of the CELP-based coding method can easily become an integer multiple as described above, so that an integer multiple other than 1 or a multiple of an integer is prepared. Degradation can be reduced. What kind of magnification and minute variation should be prepared depends on the number of allocated bits. For example, when 5 bits and 32 codes can be used, 5 codes are prepared for 2 times and 1/2 times respectively. I do. At this time, the minute change may be quantized at regular intervals from the value obtained by multiplying the pitch period of the previous frame by the magnification, but even a rarely large change can be efficiently performed without increasing the number of bits. To cope with this, the period close to the value obtained by multiplying the pitch period of the previous frame by the magnification is finer in the quantization width. You should take it widely. Similarly, when there are few codes for minute fluctuations assigned to integral multiples, it is efficient to increase the quantization width.

【0030】 図8を参照して有声音定常部の符号化
方法の他の例を説明する。有声音定常部においては、ピ
ッチだけではなく、音声全体の変化も少ないので、適応
符号周期の差分符号化の他に、雑音符号帳81、重み符
号帳11、線形予測パラメータに対するビット割り当て
も削減することができる。特に、PSI−CELP型の
符号化方法の場合は、複数チャンネルある雑音符号帳の
内の一方である雑音符号帳81のみを使用することによ
りビット数を削減することができる。実験の結果、適応
符号ピッチの差分符号化と、線形予測パラメータに割り
当てるビット数の削減をしても、聴覚的には殆ど品質の
劣化は観察されず、重み符号帳のビット数を削減しても
劣化は僅かであった。
With reference to FIG. 8, another example of the coding method of the voiced stationary part will be described. In the voiced sound stationary section, not only the pitch but also the change of the entire voice is small, so that the bit allocation to the noise codebook 81, the weighted codebook 11, and the linear prediction parameter is also reduced in addition to the differential coding of the adaptive code period. be able to. In particular, in the case of the PSI-CELP type encoding method, the number of bits can be reduced by using only the noise codebook 81 which is one of the noise codebooks having a plurality of channels. As a result of the experiment, even if the difference coding of the adaptive code pitch and the reduction of the number of bits allocated to the linear prediction parameters are performed, almost no deterioration in quality is observed perceptually, and the number of bits of the weight codebook is reduced. Also, the deterioration was slight.

【0031】以上の方法において、PSI−CELPを
基本としたときの、各モードにおける各符号帳に割り当
てるビット数の一例を表1に示した。なお、サブフレー
ム長は10ミリ秒、分数表記の欄は、分母数のサブフレ
ームを一括して分子数ビットで符号化することを表す。
モード1のパワの符号化に関しては、4サブフレームと
もモード1であった場合のみ、4サブフレームあたり3
ビットにより符号化するものとする。それ以外は7/4
ビットとする。
Table 1 shows an example of the number of bits allocated to each codebook in each mode when the above method is based on PSI-CELP. Note that the subframe length is 10 milliseconds, and the fraction notation column indicates that subframes of the denominator are collectively encoded with numerator bits.
Regarding the encoding of the power of mode 1, only when all four sub-frames are in mode 1, 3
It shall be encoded by bits. 7/4 otherwise
Bit.

【0032】[0032]

【表1】 以上の方法は、CELP、PSI−CELP系の符号化
方法以外の予測符号化方法全般に適用することができ
る。
[Table 1] The above method can be applied to all predictive coding methods other than the CELP and PSI-CELP coding methods.

【0033】[0033]

【発明の効果】以上の通りであって、この発明は、入力
された音声の特徴を分析していくつかのパターン(モー
ド)に分類し、それぞれのモードに適した符号化モデル
と聴覚的な品質を維持する必要最小限の情報量により符
号化することにより、高い品質を保持したまま、平均の
ビットレート或は蓄積のための全メモリ量を従来の符号
化方法と比較して低減することができる。
As described above, according to the present invention, the characteristics of the input speech are analyzed and classified into several patterns (modes). By encoding with the minimum amount of information required to maintain quality, the average bit rate or the total amount of memory for storage can be reduced compared to conventional encoding methods while maintaining high quality. Can be.

【0034】計算機によるシミュレーションおよび一般
人による主観評価実験の結果、平均ビットレート2.1
42kbit/sで、ビットレート3.45kbit/s のPD
Cハーフレート標準PSI−CELP方式と比較して等
価Q値が僅かに約1dB低下し、平均ビットレート2.
218kbit/s においては、PDC標準とほぼ同等の品
質が得られ、この発明の有効性が確認された。そして、
CELP系符号化方法の適応符号ピッチは、容易に整数
倍となることがある。一般に、音声の定常部分において
はピッチ周期の変化が少ないので、基本的にはピッチ周
期は前フレームとの間の差分量子化によっても符号化品
質は顕著に劣化することはない。しかし、CELP系符
号化において使用される「適応符号帳のピッチ周期」に
おいては、必ずしも音響現象としての基本周期に一致し
ているとはいえない。例えば、基本周波数の整数倍の周
波数成分がピッチ成分と判定されることがまれにある。
これに起因して、単純な差分量子化を行うと品質の劣化
を伴うことがある。ここで、当該音声区間が定常的であ
ると判断されたフレーム或いはサブフレームについて、
適応符号帳のピッチ周期を過去のピッチ周期の定数倍或
は定数分の1倍した値に微小変化分を加減算したものを
用意し、過去のピッチ周期の定数倍或は定数分の1倍に
加減算する微小変化分の量子化幅を変化分が小さいとき
は狭く、変化分が大きいときは広くとって表現すること
により、品質の劣化を少なくすることができる。即ち、
微小変化分は、前フレームのピッチ周期に倍率を乗じた
値からの変化分を等間隔に量子化してもよいが、前フレ
ームのピッチ周期に倍率を乗じた値に近い周期は量子化
幅を細かく、前フレームのピッチ周期に倍率を乗じた値
からの変化が大きい部分については、量子化幅を広くと
ることにより、まれに生ずるピッチ周期の大きな変化に
もビット数を増やすことなく効率的に対応することがで
きる。
As a result of the simulation by the computer and the subjective evaluation experiment by the general public, the average bit rate 2.1
PD with 42 kbit / s and bit rate of 3.45 kbit / s
Compared with the C half-rate standard PSI-CELP system, the equivalent Q value is reduced by about 1 dB, and the average bit rate is 2.
At 218 kbit / s, almost the same quality as the PDC standard was obtained, and the effectiveness of the present invention was confirmed. And
The adaptive code pitch of the CELP coding method can easily be an integral multiple. Generally, since the pitch period does not change much in the stationary portion of speech, basically, the coding quality of the pitch period is not significantly degraded by the difference quantization from the previous frame. However, the “pitch period of the adaptive codebook” used in CELP coding does not always match the basic period as an acoustic phenomenon. For example, a frequency component that is an integral multiple of the fundamental frequency is rarely determined as a pitch component.
Due to this, when simple differential quantization is performed, quality may be deteriorated. Here, for a frame or a subframe in which the voice section is determined to be stationary,
A value obtained by adding or subtracting a minute change from a value obtained by multiplying the pitch period of the adaptive codebook by a constant multiple or a constant multiple of the past pitch period is prepared. By expressing the quantization width of the minute change to be added or subtracted as narrow when the change is small and wide when the change is large, it is possible to reduce the deterioration of quality. That is,
The minute change may be quantized at equal intervals from the change from the value obtained by multiplying the pitch cycle of the previous frame by the magnification.However, a cycle close to the value obtained by multiplying the pitch cycle of the previous frame by the magnification has the quantization width. Finely, for the part where the change from the value obtained by multiplying the pitch cycle of the previous frame by the magnification is large, by increasing the quantization width, even a rarely large change in the pitch cycle can be efficiently performed without increasing the number of bits. Can respond.

【図面の簡単な説明】[Brief description of the drawings]

【図1】CELP符号化方法を説明する図。FIG. 1 is a view for explaining a CELP encoding method.

【図2】PSI−CELP符号化方法を説明する図。FIG. 2 is a view for explaining a PSI-CELP encoding method.

【図3】この発明のモード切り換え符号化方法を説明す
る図。
FIG. 3 is a diagram illustrating a mode switching encoding method according to the present invention.

【図4】音声区間のモード分類の仕方を説明するフロー
チャート。
FIG. 4 is a flowchart for explaining how to classify modes in a voice section;

【図5】非音声、無声音の符号化方法を説明する図。FIG. 5 is a diagram illustrating an encoding method of non-voice and unvoiced sounds.

【図6】有声音定常部の符号化方法を説明する図。FIG. 6 is a view for explaining an encoding method of a voiced sound stationary unit.

【図7】差分周期符号復号部を説明する図。FIG. 7 is a diagram illustrating a differential periodic code decoding unit.

【図8】有声音定常部の符号化方法の他の例を説明する
図。
FIG. 8 is a view for explaining another example of the coding method of the voiced sound stationary unit.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−19795(JP,A) 特開 平5−19796(JP,A) 特開 平5−165500(JP,A) 特開 平5−265496(JP,A) 特開 平5−289696(JP,A) 特開 平6−12098(JP,A) 特開 平7−36495(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 H03M 7/30 H04B 14/04 ────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-5-19795 (JP, A) JP-A-5-19796 (JP, A) JP-A-5-165500 (JP, A) JP-A-5-19795 265496 (JP, A) JP-A-5-289696 (JP, A) JP-A-6-12098 (JP, A) JP-A-7-36495 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 19/00-19/14 H03M 7/30 H04B 14/04

Claims (5)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 適応符号帳からフレーム単位毎に或はサ
ブフレーム単位毎に取り出した過去の駆動音源ベクトル
をピッチ周期に対応する周期により繰り返して作成した
時系列ベクトル、雑音符号帳から取り出した時系列ベク
トル、或はこれらの双方の時系列ベクトルによりフィル
タを駆動して楽音を含む音声を再生することによる入力
音声を符号化する音声の符号化方法において、 入力音声を符号化するに先だって、そのフレーム区間或
はサブフレーム区間の特徴を抽出し、 抽出された特徴に対応した符号化方法およびビットレー
トを選択符号化し、 入力音声の特徴抽出に際して有声音であると判断された
音声区間について、適応符号帳から取り出した過去の駆
動音源ベクトルをピッチ周期に対応する周期により繰り
返して作成した時系列ベクトルと、雑音符号帳から取り
出した時系列ベクトルを適応符号帳のピッチ周期に対応
する周期により周期化した時系列ベクトルとによりフィ
ルタを駆動して音声を再生する符号化方法を使用し、 当該音声区間が定常的であると判断されたフレーム或い
はサブフレームについて、適応符号帳のピッチ周期を過
去のピッチ周期の定数倍或は定数分の1倍に微小変化分
を加減算して表現し、 過去のピッチ周期の定数倍或は定数分の1倍に加減算す
る微小変化分の量子化幅を、変化分が小さいときは狭
く、変化分が大きいときは広くとって表現することを特
徴とする音声の符号化方法。
1. A time-series vector generated by repeating a past excitation vector extracted from an adaptive codebook for each frame or for each subframe at a cycle corresponding to a pitch cycle, and extracted from a noise codebook. In a speech encoding method for encoding an input speech by driving a filter with a sequence vector or both of these time-series vectors to reproduce a speech including a musical tone, prior to encoding the input speech, The feature of the frame section or the sub-frame section is extracted, the encoding method and bit rate corresponding to the extracted feature are selectively encoded, and the speech section determined to be voiced when the feature of the input speech is extracted is adapted. A time-series vector created by repeating past driving excitation vectors extracted from the codebook with a cycle corresponding to the pitch cycle And a time series vector obtained by periodicizing the time series vector extracted from the noise codebook with a period corresponding to the pitch period of the adaptive codebook, by using a coding method of driving a filter to reproduce the sound. For frames or subframes whose section is determined to be stationary, the pitch cycle of the adaptive codebook is expressed by adding or subtracting a minute change to a constant multiple or a constant fraction of the past pitch cycle, The audio is characterized in that the quantization width of a minute change to be added or subtracted to a constant multiple of the pitch period or one-fold of the constant is narrow when the change is small and wide when the change is large. Encoding method.
【請求項2】 適応符号帳からフレーム単位毎に或はサ
ブフレーム単位毎に取り出した過去の駆動音源ベクトル
をピッチ周期に対応する周期により繰り返して作成した
時系列ベクトル、雑音符号帳から取り出した時系列ベク
トル、或はこれらの双方の時系列ベクトルによりフィル
タを駆動して楽音を含む音声を再生することによる入力
音声を符号化する音声の符号化方法において、 入力音声を符号化するに先だって、そのフレーム区間或
はサブフレーム区間の特徴を抽出し、 抽出された特徴に対応した符号化方法およびビットレー
トを選択符号化し、 入力音声の特徴抽出に際して有声音であると判断された
音声区間について、適応符号帳から取り出した過去の駆
動音源ベクトルをピッチ周期に対応する周期により繰り
返して作成した時系列ベクトルと、雑音符号帳から取り
出した時系列ベクトルを適応符号帳のピッチ周期に対応
する周期により周期化した時系列ベクトルとによりフィ
ルタを駆動して音声を再生する符号化方法を使用し、 当該音声区間が定常的であると判断されたフレーム或い
はサブフレームについて、適応符号帳のピッチ周期を過
去のピッチ周期の定数倍或は定数分の1倍に微小変化分
を加減算して表現し、 過去のピッチ周期の定数倍或は定数分の1倍に加減算す
る微小変化分の量子化幅を、1倍のときの量子化幅より
広くとって表現することを特徴とする音声の符号化方
法。
2. A time-series vector generated by repeating a past excitation vector extracted from an adaptive codebook for each frame or for each subframe at a cycle corresponding to a pitch cycle, and extracted from a noise codebook. In a speech encoding method for encoding an input speech by driving a filter with a sequence vector or both of these time-series vectors to reproduce a speech including a musical tone, prior to encoding the input speech, The features of the frame section or sub-frame section are extracted, the encoding method and bit rate corresponding to the extracted features are selectively encoded, and the speech section determined to be voiced during the feature extraction of the input speech is adapted. A time-series vector created by repeating past driving excitation vectors extracted from the codebook with a cycle corresponding to the pitch cycle And a time series vector obtained by periodicizing the time series vector extracted from the noise codebook with a period corresponding to the pitch period of the adaptive codebook, by using a coding method of driving a filter to reproduce the sound. For frames or subframes whose section is determined to be stationary, the pitch cycle of the adaptive codebook is expressed by adding or subtracting a minute change to a constant multiple or a constant fraction of the past pitch cycle, A speech encoding method characterized in that a quantization width of a minute change to be added or subtracted to a constant multiple of the pitch period or a constant multiple thereof is expressed as being wider than the quantization width when the pitch is one.
【請求項3】 請求項1に記載される音声の符号化方法
において、 過去のピッチ周期の定数倍或は定数分の1倍に加減算す
る微小変化分の量子化幅を、1倍のときの量子化幅より
広くとって表現することを特徴とする音声の符号化方
法。
3. The speech encoding method according to claim 1, wherein a quantization width of a minute change to be added or subtracted to a constant multiple of the past pitch period or a constant multiple thereof is set to one. A speech encoding method characterized by being represented by being wider than a quantization width.
【請求項4】 請求項1ないし請求項3に記載される音
声の符号化方法において、 当該音声区間が定常的であると判断されたフレーム或い
はサブフレームについて、スペクトルパラメータ或は利
得符号ベクトル或は雑音符号ベクトル或はこれらのすべ
てに割り当てられるビット数を、有声音であって定常的
ではないと判断されるフレーム或はサブフレームにおい
て割り当てられるビット数よりも少なく割り当てること
を特徴とする音声の符号化方法。
4. The speech encoding method according to claim 1, wherein a spectrum parameter or a gain code vector or a gain code vector is determined for a frame or a subframe in which the speech section is determined to be stationary. A noise code vector or a code for speech characterized in that the number of bits allocated to all of them is less than the number of bits allocated in a frame or a subframe that is voiced and determined to be non-stationary. Method.
【請求項5】 請求項1ないし請求項4に記載される音
声の符号化方法において、 隣接するフレーム或はサブフレーム間の、符号化に先だ
って抽出したか或は量子化された、ピッチおよびパワお
よびスペクトルの変化分が予め設定された閾値よりも小
であることを以て当該音声区間は定常的であると判断す
ることを特徴とする音声の符号化方法。
5. A speech encoding method according to claim 1, wherein a pitch and a power between adjacent frames or sub-frames are extracted or quantized prior to encoding. And determining that the voice section is stationary based on a change in the spectrum being smaller than a preset threshold value.
JP01840694A 1994-02-15 1994-02-15 Audio encoding method Expired - Lifetime JP3353852B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01840694A JP3353852B2 (en) 1994-02-15 1994-02-15 Audio encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01840694A JP3353852B2 (en) 1994-02-15 1994-02-15 Audio encoding method

Publications (2)

Publication Number Publication Date
JPH07225599A JPH07225599A (en) 1995-08-22
JP3353852B2 true JP3353852B2 (en) 2002-12-03

Family

ID=11970796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01840694A Expired - Lifetime JP3353852B2 (en) 1994-02-15 1994-02-15 Audio encoding method

Country Status (1)

Country Link
JP (1) JP3353852B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3047761B2 (en) * 1995-01-30 2000-06-05 日本電気株式会社 Audio coding device
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
JP3888097B2 (en) 2001-08-02 2007-02-28 松下電器産業株式会社 Pitch cycle search range setting device, pitch cycle search device, decoding adaptive excitation vector generation device, speech coding device, speech decoding device, speech signal transmission device, speech signal reception device, mobile station device, and base station device
KR20110001130A (en) * 2009-06-29 2011-01-06 삼성전자주식회사 Apparatus and method for encoding and decoding audio signals using weighted linear prediction transform
JP5314771B2 (en) * 2010-01-08 2013-10-16 日本電信電話株式会社 Encoding method, decoding method, encoding device, decoding device, program, and recording medium
WO2012111512A1 (en) 2011-02-16 2012-08-23 日本電信電話株式会社 Encoding method, decoding method, encoding apparatus, decoding apparatus, program and recording medium

Also Published As

Publication number Publication date
JPH07225599A (en) 1995-08-22

Similar Documents

Publication Publication Date Title
KR100566713B1 (en) Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs
US8862463B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
TW497335B (en) Method and apparatus for variable rate coding of speech
JP3196595B2 (en) Audio coding device
JPH06222797A (en) Voice encoding system
JP2000267699A (en) Acoustic signal coding method and device therefor, program recording medium therefor, and acoustic signal decoding device
JP3180786B2 (en) Audio encoding method and audio encoding device
JPH08272395A (en) Voice encoding device
JP3582589B2 (en) Speech coding apparatus and speech decoding apparatus
JP3353852B2 (en) Audio encoding method
JPH05265496A (en) Speech encoding method with plural code books
JP3490324B2 (en) Acoustic signal encoding device, decoding device, these methods, and program recording medium
JP3916934B2 (en) Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus
JP3153075B2 (en) Audio coding device
JP3299099B2 (en) Audio coding device
JP3144284B2 (en) Audio coding device
JP3490325B2 (en) Audio signal encoding method and decoding method, and encoder and decoder thereof
JPH0519795A (en) Excitation signal encoding and decoding method for voice
JPH05232996A (en) Voice coding device
JP3024467B2 (en) Audio coding device
JP3192051B2 (en) Audio coding device
JP2002073097A (en) Celp type voice coding device and celp type voice decoding device as well as voice encoding method and voice decoding method
JPH0519796A (en) Excitation signal encoding and decoding method for voice
Drygajilo Speech Coding Techniques and Standards
JP2000029499A (en) Voice coder and voice encoding and decoding apparatus

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070927

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110927

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120927

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130927

Year of fee payment: 11

EXPY Cancellation because of completion of term