JP3006790B2 - Voice encoding / decoding method and apparatus - Google Patents
Voice encoding / decoding method and apparatusInfo
- Publication number
- JP3006790B2 JP3006790B2 JP63264441A JP26444188A JP3006790B2 JP 3006790 B2 JP3006790 B2 JP 3006790B2 JP 63264441 A JP63264441 A JP 63264441A JP 26444188 A JP26444188 A JP 26444188A JP 3006790 B2 JP3006790 B2 JP 3006790B2
- Authority
- JP
- Japan
- Prior art keywords
- code
- signal
- pitch
- parameter
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は音声信号を低いビットレートで効率的に符号
化、復号化するための音声符号化復号化方法及びその装
置に関する。Description: TECHNICAL FIELD The present invention relates to a speech encoding / decoding method and apparatus for encoding and decoding an audio signal efficiently at a low bit rate.
(従来の技術) 音声信号を低いビットレート、例えば16Kb/s程度以下
で伝送する方式としては、マルチパルス符号化法などが
知られている。これらは音源信号を複数個のパルスの組
合せ(マルチパルス)で表し、声道の特徴をデジタルフ
ィルタで表し、音源パルスの情報とフィルタの係数を、
一定時間区間(フレーム)毎に求めて伝送している。こ
の方法の詳細については、例えばアラセキ、オザワ、オ
ノ、オチアイ氏による“マルチパルス・エクサイテッド
・スピーチコーダー・ベイスト・オン・マキシマム・ク
ロスコリレイション・サーチ・アルゴリズム”(アイ・
イー・イー・イー グローバル・テレコミュニケイショ
ン‘83 講演番号23.3、文献1)(Araseki,Ozawa,Ono
and Cchial,“Multi−pulse Excited Speech Coder Bas
ed on Maximum Cross−correlation Search Algorith
m",(GLOBECOM 83,IEEE Global Telecommunication,23.
3,1983))に記載されている。この方法では、声道情報
と音源信号を分離してそれぞれ表現すること、および音
源信号を表現する手段として複数のパルス列の組合せ
(マルチパルス)を用いることにより、復号後に良好な
音声信号を出力する。ピッチの微細構造を表すピッチパ
ラメータを用いてピッチ予測を行なうことにより文献1
の方式の音質を改善するピッチ予測マルチパルス法につ
いては、特願昭58−139022(文献2)において説明され
ているので、ここでは第3図を用いて簡単に説明する。(Prior Art) As a method of transmitting an audio signal at a low bit rate, for example, about 16 Kb / s or less, a multi-pulse encoding method and the like are known. In these, the sound source signal is represented by a combination of a plurality of pulses (multi-pulse), the characteristics of the vocal tract are represented by a digital filter, and the information of the sound source pulse and the coefficient of the filter are represented by:
It is obtained and transmitted for each fixed time section (frame). For details of this method, see, for example, "Multipulse Excited Speechcoder Bastion on Maximum Cross-Correlation Search Algorithm" by Araceki, Ozawa, Ono, and Ochiai (I.
EE Global Telecommunication '83 Lecture number 23.3, Reference 1) (Araseki, Ozawa, Ono)
and Cchial, `` Multi-pulse Excited Speech Coder Bas
ed on Maximum Cross-correlation Search Algorith
m ", (GLOBECOM 83, IEEE Global Telecommunication, 23.
3,1983)). In this method, a good voice signal is output after decoding by separating and expressing the vocal tract information and the sound source signal, respectively, and using a combination (multi-pulse) of a plurality of pulse trains as means for expressing the sound source signal. . Reference 1 by performing pitch prediction using a pitch parameter representing a fine structure of pitch
Since the pitch prediction multi-pulse method for improving the sound quality of the above method is described in Japanese Patent Application No. 58-139022 (Reference 2), it will be briefly described here with reference to FIG.
図中の入力端子800からはフレーム毎に分割された区
間の音声信号が入力される。スペクトルパラメータ計算
部810では前記音声信号のスペクトルパラメータを衆知
の方法で求める。ピッチパラメータ計算部820では自己
相関法等の衆知の方法でピッチの微細構造を表すピッチ
パラメータを求める。これらの出力はそのまま伝送され
る以外にピッチ予測音源パルス計算部に入力される。ピ
ッチ予測音源パルス計算部830ではピッチを予測して音
源信号を表すマルチパルス列を求め出力するが、この方
法については前記文献2に述べられているのでここでは
説明を省略する。An audio signal of a section divided for each frame is input from an input terminal 800 in the figure. The spectrum parameter calculation unit 810 determines the spectrum parameter of the audio signal by a known method. The pitch parameter calculation unit 820 obtains a pitch parameter representing a fine structure of the pitch by a known method such as an autocorrelation method. These outputs are input to a pitch prediction excitation pulse calculation unit in addition to being transmitted as they are. The pitch prediction excitation pulse calculation unit 830 predicts the pitch and obtains and outputs a multi-pulse train representing the excitation signal. However, since this method is described in the above-mentioned document 2, its description is omitted here.
(発明が解決しようとする課題) しかしながら、前記文献1の従来法ではビットレート
が充分に高く音源パルスの数が充分なときは音質が良好
であったが、ビットレートを下げて行くと音質が低下し
ていた。特に、従来の方式においては、ピッチ周波数の
高い入力信号の場合、例えば女性の声を入力した場合に
は、再生音声が劣化するという欠点があった。これはピ
ッチ周波数が高い場合には、パルス計算のフレーム内に
多くのピッチ波形が含まれることになり、このピッチ波
形を良好に再生するためには、ピッチ周波数が低い話者
の場合と比べて、より多くの個数のマルチパルスを必要
とするという理由による。従ってこの理由から、音質を
低下させることなく伝送ビットレートを大幅に下げる、
すなわち1フレーム内のパルス数を大幅に減少させるこ
とが困難であった。(Problems to be Solved by the Invention) However, in the conventional method of Document 1, the sound quality is good when the bit rate is sufficiently high and the number of sound source pulses is sufficient, but as the bit rate is lowered, the sound quality is improved. Had declined. In particular, the conventional method has a drawback that, in the case of an input signal having a high pitch frequency, for example, when a female voice is input, the reproduced sound is deteriorated. This means that when the pitch frequency is high, many pitch waveforms are included in the frame of the pulse calculation, and in order to reproduce this pitch waveform well, compared to a speaker with a low pitch frequency, , Because more multi-pulses are required. Therefore, for this reason, the transmission bit rate is significantly reduced without lowering the sound quality.
That is, it has been difficult to significantly reduce the number of pulses in one frame.
一方、前記文献2の従来法では、ピッチ毎の相関に基
づきピッチパラメータを用いてピッチ予測を行なってい
るものの、大振幅音源信号、小振幅音源信号を問わず、
マルチパルスとピッチ予測とを用いて音源信号を表して
いた。しかるに大振幅音源信号はピッチ毎の相関が高い
と考えられるが、小振幅音源信号では相関はそれほど高
くないと考えられる。従って音質をさらに改善するため
には、音源信号を表すマルチパルス列の内、小振幅のマ
ルチパルス列あるいは小振幅の音源信号の役割が重要で
ある。このことは特に子音性の音声信号に対して重要で
ある。従来の方法では音源信号を表現するマルチパルス
列として、振幅が大きいものから順に、設定した個数の
みを求めて伝送していた。従って従来法では予め設定し
た情報量の上限により、充分な個数の小振幅のパルスを
求めることができず、音源信号の近似度が充分でなく、
再生音声の品質の点で限界があった。また、このことは
ビットレートが低いときに特に顕著であった。On the other hand, in the conventional method of Document 2, although pitch prediction is performed using a pitch parameter based on a correlation for each pitch, a large-amplitude excitation signal or a small-amplitude excitation signal is used.
The sound source signal is represented using multi-pulses and pitch prediction. However, a large-amplitude excitation signal is considered to have a high correlation for each pitch, but a small-amplitude excitation signal is considered to have a relatively low correlation. Therefore, in order to further improve the sound quality, the role of the small-amplitude multi-pulse train or the small-amplitude sound source signal among the multi-pulse trains representing the sound source signal is important. This is especially important for consonant audio signals. In the conventional method, as a multi-pulse train expressing a sound source signal, only a set number is obtained and transmitted in descending order of amplitude. Therefore, in the conventional method, a sufficient number of small-amplitude pulses cannot be obtained due to the preset upper limit of the information amount, and the approximation degree of the sound source signal is not sufficient.
There was a limit in the quality of reproduced sound. This was particularly remarkable when the bit rate was low.
本発明の目的は、比較的少ない演算量で、ビットレー
トが高いところでも、下げていっても従来よりも良好な
音声を再生することが可能である音声符号化復号化方式
およびその装置を提供することにある。An object of the present invention is to provide an audio encoding / decoding system and an apparatus therefor that are capable of reproducing sound better than before even when the bit rate is high or at a low bit rate with a relatively small amount of computation. Is to do.
(課題を解決するための手段) 本発明の音声符号化復号化方法は、離散的な音声信号
を入力し、前記音声信号のピッチ構造を表すピッチパラ
メータと前記音声信号のスペクトル包絡を表すスペクト
ルパラメータとを求め、前記音声信号を予め定められた
種類に分類し、前記種類に応じて前記音声信号の音源信
号をピッチ予測により求めたマルチパルス列を用いる
か、前記マルチパルス列に加えてコードブックの併用に
より性能が改善されるかいなかを判定し性能が改善され
る場合はコードブックと前記マルチパルス列との両者を
用いて前記音源信号を表して前記ピッチパラメータと前
記スペクトルパラメータと前記マルチパルスと前記コー
ドブックのインデクスと前記種類を伝送し、前記種類に
応じて前記コードブックと前記マルチパルス列と前記ピ
ッチパラメータとを用いて前記音声信号を表す合成音声
信号を出力することを特徴とする。(Means for Solving the Problems) In a speech encoding / decoding method according to the present invention, a discrete speech signal is input, and a pitch parameter representing a pitch structure of the speech signal and a spectrum parameter representing a spectrum envelope of the speech signal. Is determined, the audio signal is classified into a predetermined type, and a sound source signal of the audio signal is multi-pulse train obtained by pitch prediction according to the type, or a code book is used in addition to the multi-pulse train. It is determined whether or not the performance is improved, and if the performance is improved, the pitch parameter, the spectrum parameter, the multipulse, and the code are represented by using both a codebook and the multipulse train to represent the excitation signal. Transmitting the index of the book and the type, the codebook and the multi-pulse train according to the type And outputting a synthesized speech signal representing the speech signal using the pitch parameter and the pitch parameter.
本発明の音声符号化装置は、入力した離散的な音声信
号系列からピッチ構造を表すピッチパラメータを求めて
符号化するピッチパラメータ計算回路と、前記音声信号
の短時間スペクトル特性を表すスペクトルパラメータを
求めて符号化するスペクトルパラメータ計算回路と、前
記音声信号を予め定められた種類に分類する判別回路
と、前記判別回路の出力に応じて前記ピッチパラメータ
と前記スペクトルパラメータを用いて前記音声信号の音
源信号をピッチ予測により求めたマルチパルス列を用い
るか、前記マルチパルス列に加えてコードブックの併用
により性能が改善されるかどうか判定し性能が改善され
る場合はコードブックと前記マルチパルス列との両者を
用いて表して符号化する音源信号計算回路と、前記ピッ
チパラメータを表す符号と前記スペクトルパラメータを
表す符号と前記マルチパルス列を表す符号と前記コード
ブックのインデクスと前記判別回路の出力を組み合わせ
て出力するマルチプレクサ回路とを有する。A speech coding apparatus according to the present invention includes a pitch parameter calculation circuit that obtains and encodes a pitch parameter representing a pitch structure from an input discrete speech signal sequence, and a spectrum parameter that represents a short-time spectrum characteristic of the speech signal. A spectrum parameter calculation circuit for encoding the audio signal, a discrimination circuit for classifying the audio signal into a predetermined type, and a sound source signal of the audio signal using the pitch parameter and the spectrum parameter according to an output of the discrimination circuit. Use a multi-pulse train obtained by pitch prediction, or determine whether the performance is improved by using a codebook in addition to the multi-pulse train, and if the performance is improved, use both the codebook and the multi-pulse train. An excitation signal calculation circuit for expressing and encoding the pitch parameter; And a multiplexer circuit for combining an output for outputting the index and the discrimination circuit of code and the codebook represents the sign and the multi-pulse train representing the spectrum parameter.
本発明の音声復号化装置は、上記音声符号化装置の出
力信号を伝送路を介して受け、前記音声信号を復元する
音声復号化装置であって、音源信号を表す音源マルチパ
ルス列を表す符号と音声信号のピッチの微細構造を表す
ピッチパラメータを表す符号と前記音声信号の短時間ス
ペクトル特性を表すスペクトルパラメータを表す符号と
音源信号を表す符号と判別符号と音源判別回路の出力符
号を入力して分離し復号化するデマルチプレクサ回路
と、前記復号化された音源装置のうち音源判別回路の出
力符号に応じてマルチパルス列を復元し前記復号化され
たピッチパラメータを用いてピッチを再生した音源信号
を求めるピッチ再生回路と、判別符号と音源判別回路の
出力符号に応じて複数種類のコードブックから一種類を
選択するかまたはマルチパルスを用いて前記ピッチ再生
回路の出力を用いて駆動音源信号を復元する音源信号復
元回路と、前記復元された駆動音源信号または前記再生
された音源信号と前記復号されたスペクトルパラメータ
を用いて音声信号を合成するスペクトル包絡フィルタ回
路とを有する。An audio decoding device according to the present invention is an audio decoding device that receives an output signal of the audio encoding device via a transmission path and restores the audio signal, and includes a code representing a sound source multi-pulse sequence representing a sound source signal. A code representing a pitch parameter representing a fine structure of a pitch of a speech signal, a code representing a spectrum parameter representing a short-time spectrum characteristic of the speech signal, a code representing a sound source signal, a discrimination code, and an output code of a sound source discrimination circuit are inputted. A demultiplexer circuit for separating and decoding, and a sound source signal obtained by restoring a multi-pulse train according to an output code of a sound source discriminating circuit in the decoded sound source device and reproducing a pitch by using the decoded pitch parameter. Depending on the desired pitch reproduction circuit, the discrimination code and the output code of the sound source discrimination circuit, one of a plurality of codebooks is selected or A sound source signal restoring circuit for restoring a driving sound source signal using an output of the pitch reproducing circuit by using a pulse; and a sound using the restored driving sound source signal or the reproduced sound source signal and the decoded spectrum parameter. And a spectrum envelope filter circuit for synthesizing signals.
(作用) 本発明は、前記文献2のピッチ予測マルチパルス符号
化法において、少ない伝送情報量で、音源信号を従来方
法よりも効率的に表現するために、フレーム毎の音声信
号を予め定められた種類、例えば母音部分、子音部分あ
るいは有声部分、無声部分に分類し、前記音声信号を表
すための音源信号を、母音あるいは有声部分ではピッチ
予測マルチパルス法で、子音あるいは無声部分ではピッ
チ予測マルチパルス法とコードブックとで表し、さらに
コードブックを用いる場合には、フレームより短いサブ
フレーム毎にコードブックにより一旦信号を再生して入
力信号と比較することにより、コードブックの使用によ
る特性の効果を判別し、特性の改善度が高い場合には、
そのサブフレームでコードブックの使用を行なう。一
方、改善度が低い場合はそのサブフレームでのコードブ
ックの使用をやめてピッチ予測マルチパルスのみを用い
ピッチ予測マルチパルスの本数を増やすようにすること
を特徴としている。(Function) In the present invention, in the pitch prediction multi-pulse coding method of the document 2, in order to express a sound source signal more efficiently than a conventional method with a small amount of transmission information, an audio signal for each frame is predetermined. The sound source signal for representing the audio signal is classified into a vowel part, a consonant part or a voiced part, and an unvoiced part. In the case of using the pulse method and the codebook, and further using the codebook, the effect of the characteristics due to the use of the codebook is obtained by once reproducing the signal by the codebook for each subframe shorter than the frame and comparing the signal with the input signal. And if the degree of improvement in the characteristics is high,
The codebook is used in the subframe. On the other hand, when the degree of improvement is low, the use of a codebook in the subframe is stopped and the number of pitch prediction multipulses is increased using only pitch prediction multipulses.
ここで母音、子音部分の判別には、衆知の方法、例え
ばフレームのパワー、現フレームと前フレームとのパワ
ーの下、現フレームと前フレームとのスペクトルの変
化、ピッチ性などのパラメータを用いることができる。
一方、有声、無声部分の判別には、ピッチ性等のパラメ
ータを用いることができる。Here, vowels and consonants are discriminated using methods known in the art, for example, using parameters such as frame power, changes in the spectrum between the current frame and the previous frame under the power between the current frame and the previous frame, and pitch characteristics. Can be.
On the other hand, parameters such as pitch characteristics can be used for discriminating voiced and unvoiced portions.
また、選択したコードブックによる特性の効果の判別
には、例えば、コードブックを用いて合成フィルタを駆
動して再生した再生信号のパワーあるいはRMSと入力信
号のパワーあるいはRMSとの比や、後述の方法によりコ
ードブックのゲインの大きさを判別するなどの方法を用
いることができる。In addition, for determining the effect of the characteristic by the selected codebook, for example, the ratio of the power or RMS of the reproduced signal reproduced by driving the synthesis filter using the codebook to the power or RMS of the input signal, or Depending on the method, a method of determining the magnitude of the codebook gain can be used.
本発明の作用を第2図を用いて説明する。図中の入力
端子300からはフレーム毎に分割された区間の音声信号
x(n)が入力される。スペクトルパラメータ計算部31
0は現フレームの音声信号からスペクトルパラメータを
計算する。ピッチパラメータ計算部320はピッチの微細
構造を表すピッチパラメータを計算する。有声/無声判
別部305はピッチゲインを用いて現フレームが有声であ
るか無声であるかを判別し、有声/無声判別符号を出力
する。ピッチ予測音源パルス計算部330では前記判別信
号に応じてピッチ予測を用いて予め定められた本数だけ
音源パルスを求める。ピッチ予測を用いてマルチパルス
を求める方法は前記文献2を参照できる。スイッチ340
は現フレームが有声区間(または母音区間)である場合
は共に下側に接続され、マルチパルスを出力する。現フ
レームが無声区間(あるいは子音区間)である場合に
は、スイッチ340はまず共に上側に接続され、求められ
たマルチパルスは信号再生部350へ入力される。信号再
生部350では入力された音源パルス列、ピッチパラメー
タ、スペクトルパラメータを用いてピッチ再生フィル
タ、合成フィルタを駆動して合成音声信号x(n)を再
生する。減算器360では前記入力信号x(n)から合成
音声波形x(n)を減ずる。そしてこの残差信号e
(n)はコードブック選択部370へ入力される。コード
ブック選択部370では、フレーム区間をいくつかに分割
した小区間(例えば5msec.程度)の各々について、音源
信号の小振幅成分の特徴を表す小振幅の音源信号を計算
する。ここで、この小振幅音源信号はほぼランダムな位
相特性を有し、ほとんど雑音信号に近いと考えられる。
このような信号を非常に効率よく符号化するためには、
予め複数個作成した小振幅音源信号のコードブック(符
号帳)を用意して符号化するベクトル量子化の手法を用
いることができる。ベクトル量子化については、例えば
アール・エム・グレイ氏による“ベクトル・クォンタイ
ゼイション・フォー・スピーチ・コーディング・アンド
・リコグニション”(アメリカ音響学会誌 80,Q1,198
6,文献3)(R.M.Gray,“Vector quantization for spe
ech coding and recognition"(J.Acoust.Soc.America,
vol.80,Suppl.1,Q1,1986))に詳しいのでここでは説明
を略す。The operation of the present invention will be described with reference to FIG. An audio signal x (n) of a section divided for each frame is input from an input terminal 300 in the figure. Spectrum parameter calculator 31
0 calculates the spectral parameters from the audio signal of the current frame. The pitch parameter calculator 320 calculates a pitch parameter representing a fine structure of the pitch. Voiced / unvoiced discrimination section 305 determines whether the current frame is voiced or unvoiced using the pitch gain, and outputs a voiced / unvoiced discrimination code. The pitch prediction excitation pulse calculation section 330 obtains a predetermined number of excitation pulses using pitch prediction according to the discrimination signal. For a method of obtaining a multi-pulse using pitch prediction, reference can be made to Reference 2. Switch 340
When the current frame is a voiced section (or vowel section), both are connected to the lower side to output a multi-pulse. When the current frame is a voiceless section (or consonant section), the switches 340 are connected to the upper side first, and the obtained multipulse is input to the signal reproducing section 350. The signal reproducing unit 350 reproduces the synthesized speech signal x (n) by driving the pitch reproduction filter and the synthesis filter using the input sound source pulse train, pitch parameter, and spectrum parameter. The subtractor 360 subtracts the synthesized speech waveform x (n) from the input signal x (n). And this residual signal e
(N) is input to the codebook selection unit 370. The codebook selecting unit 370 calculates a small-amplitude sound source signal representing the characteristic of the small-amplitude component of the sound source signal for each of the small sections (for example, about 5 msec.) Obtained by dividing the frame section into several sections. Here, this small-amplitude sound source signal has almost random phase characteristics and is considered to be almost close to a noise signal.
In order to encode such a signal very efficiently,
A vector quantization technique of preparing and encoding a codebook (codebook) of a plurality of small amplitude excitation signals created in advance can be used. Regarding vector quantization, for example, “Vector Quantization for Speech Coding and Recognition” by Earl M. Gray (Journal of the Acoustical Society of America 80, Q1,198)
6, Reference 3) (RMGray, “Vector quantization for spe
ech coding and recognition "(J.Acoust.Soc.America,
vol.80, Suppl.1, Q1, 1986)).
以下で、コードブック選択部370の動作を説明する。
減算器360で再生信号x(n)を元の音声波形x(n)
から減じた結果生じる残差信号e(n)を、フレームよ
りも短い小区間に時間的に一様に分割し、コードブック
(符号帳)の中から1種類を入力として、ゲイン回路を
通してゲインを合わせた後、合成残差信号e(n)を合
成する。Hereinafter, the operation of the codebook selection unit 370 will be described.
The reproduced signal x (n) is converted to the original audio waveform x (n) by the subtractor 360.
, The residual signal e (n) resulting from the subtraction is uniformly divided in time into small sections shorter than the frame, and one of the codebooks (codebooks) is input, and the gain is passed through a gain circuit. After the combination, the combined residual signal e (n) is combined.
その後入力残差信号e(n)から合成残差信号e
(n)を減じ、この結果に重み付けを施して重み付け誤
差電力を得る。そして重み付け誤差電力を最小とするよ
うにコードブックの中から最適なコードを選び、そのイ
ンデクスとゲインを出力する。Then, from the input residual signal e (n), the combined residual signal e
(N) is subtracted, and the result is weighted to obtain a weighted error power. Then, an optimal code is selected from a code book so as to minimize the weighted error power, and the index and gain are output.
次に、小振幅音源信号をコードブックを用いて表現
し、コードブックを選択するための実際の方法につい
て、以下で式を用いて説明する。コードブックの選択方
法としては次式で定義される誤差電力Eを最小化するよ
うに計算する。Next, an actual method for expressing a small-amplitude sound source signal using a codebook and selecting the codebook will be described below using equations. As a codebook selection method, calculation is performed so as to minimize the error power E defined by the following equation.
ここで、e(n)は第2図のコードブック選択部370
の入力残差信号であり、gはゲイン、e(n)は選択さ
れた一種類のコードと合成フィルタによって再生した残
差信号である。w(n)は聴感を考えた重み付けフィル
タのインパルス応答を示す。(1)式をgについて最小
化すると(2)式の形となる。 Here, e (n) is the codebook selection unit 370 in FIG.
Is the input residual signal, g is the gain, and e (n) is the residual signal reproduced by the selected one type of code and the synthesis filter. w (n) indicates the impulse response of the weighting filter considering the sense of hearing. When the expression (1) is minimized with respect to g, the expression (2) is obtained.
ここで、 ew(n)=e(n)*w(n)=n(n)*h(n)*
w(n) (3a) ew(n)=e(n)*w(n) (3b) 記号*は畳み込みを表す。(2)式の分母はew(n)の
自己相関(厳密には共分散)、分子はew(n)とe
w(n)の相互器相関である。また(3a)式のn(n)
はレコードブック中の、選択された1種類のコードが表
す信号である。また、h(n)は合成フィルタのインパ
ルス応答を示す。 Here, e w (n) = e (n) * w (n) = n (n) * h (n) *
w (n) (3a) e w (n) = e (n) * w (n) (3b) The symbol * represents convolution. (2) the denominator autocorrelation e w (n) (strictly covariance), molecules and e w (n) e
w (n) is the cross-correlation. Also, n (n) in the equation (3a)
Is a signal represented by one selected code in the record book. H (n) indicates the impulse response of the synthesis filter.
このとき誤差電力Eは次式のように書けるので、 Eを最小化するコードブックは、(4)式第2項を最大
化、即ち|g|を最大化するように選択すればよい。At this time, the error power E can be written as the following equation. The codebook that minimizes E may be selected so as to maximize the second term of equation (4), that is, maximize | g |.
コードブックを選択するための計算量をさらに大幅に
削減するための方法としては、次のような構成も考えら
れる。音源信号を表すマルチパルス列は相互相関を用い
て探索する。この求め方は前記文献1,2等に等しいので
ここでは説明は省略するが、ピッチ予測音源パルス計算
部330において、ピッチ予測マルチパルス列を求めた後
の修正相互相関関数Φxh′を用いることにより、前述の
方法より大幅に演算量を削減した上で、コードブックを
選択することが可能となる。以下に示す方法ではコード
ブック選択の際に信号ew(n)を再生しなくてよいの
で、特性を前述の方法とほぼ同じに保ちながら演算量を
大幅に低減できる。以下に導出方法を説明する。まず、
Φxh′、ew(n)は次のように書くことができる。As a method for further greatly reducing the amount of calculation for selecting a codebook, the following configuration can be considered. The multipulse train representing the sound source signal is searched for using the cross-correlation. Since the method of obtaining is equal to the above-mentioned documents 1, 2 and the like, the description is omitted here.However, in the pitch prediction excitation pulse calculation unit 330, by using the modified cross-correlation function Φ xh 'after obtaining the pitch prediction multi-pulse train, In addition, the codebook can be selected after significantly reducing the calculation amount compared to the above-described method. In the method described below, the signal e w (n) does not need to be reproduced at the time of codebook selection, so that the amount of calculation can be greatly reduced while keeping the characteristics almost the same as in the above-described method. The derivation method will be described below. First,
Φ xh ′, e w (n) can be written as:
Φxh′=Σew(n)hw(n) (5) ew(n)=n(n)*hw(n) (6) (6)式を(2)式に代入し、(5)式を用いると、
次の様に変形が可能である。Φ xh '= Σe w (n) h w (n) (5) e w (n) = n (n) * h w (n) (6) Substituting equation (6) into equation (2), Using equation 5),
The following modifications are possible.
ここでΦxh′はピッチ予測によりマルチパルス列を求
めた後の相互相関関数、Rhh(0)は、スペクトル包絡
フィルタと重み付け回路の従属接続からなるフィルタの
インパルス応答の電力である。Rnn(0)はコードブッ
クのうちある1種類のコードを選択した場合の、前記コ
ードにより表される信号n(n)の電力である。(7)
式の分子はΦxh′と選択されたコードにより表される信
号n(n)との相互相関関数である。前述の(2)式と
同じように、コードブックは(7)式のgを最大化する
ものを選べばよい。 Here, Φ xh ′ is a cross-correlation function after obtaining a multi-pulse train by pitch prediction, and R hh (0) is power of an impulse response of a filter composed of a cascade connection of a spectrum envelope filter and a weighting circuit. R nn (0) is the power of the signal n (n) represented by the code when one type of code is selected from the code book. (7)
The numerator of the equation is the cross-correlation function between Φ xh 'and the signal n (n) represented by the selected code. As in the case of the above equation (2), the codebook may be selected so as to maximize g in the equation (7).
なお、コードブックは、大振幅のピッチ予測マルチパ
ルス列を予め定められた個数だけ求めた後の音源の残差
信号を用いて、予めトレーニングすることによって作成
してもよいし、例えばガウス性の統計的性質を持つよう
な雑音信号を位相特性を種々に変化させて複数個作成し
コードブックに格納しておいてもよい。後者の方法につ
いてはエム・アール・シュレーダー、ビー・エス・アタ
ール両氏による“コードエクサイテッド・リニア・プレ
ディクション(CELP):ハイ−クオレティ・スピーチ・
アット・ベリー・ロー・ビット・レイツ”(アイ・シー
・エー・エス・エス・ピー講演論文集、第1巻、講演番
号25.1.1、1985年文献4)(M.R.Shroeder and B.S.Ata
l:“Code−Excited linear prediction(CELP):high−
quality speech at very low bitrates,",Proc,I.C.A.
S.S.P.vol.1,paper No.25.1.1,March,1985)を参照する
ことができる。Note that the code book may be created by training in advance using residual signals of sound sources after obtaining a predetermined number of large-amplitude pitch prediction multi-pulse trains. A plurality of noise signals having characteristic characteristics may be created by changing the phase characteristics variously and stored in the codebook. The latter method is described by M. A. Schroeder and BS Atar in "Code Excited Linear Prediction (CELP): High-Quantity Speech.
At Very Low Bit Rates ”(I.C.S.S.S.P. Lectures, Volume 1, Lecture No. 25.1.1, 1985 Reference 4) (MRShroeder and BSAta
l: “Code-Excited linear prediction (CELP): high-
quality speech at very low bitrates, ", Proc, ICA
SSPvol.1, paper No. 25.1.1, March, 1985).
次にスイッチ385は、コードブックを選択する際には
上側に接続されており、コードブック及びゲインを小振
幅音源再生器372へ出力する。小振幅音源再生器372では
コードブック選択部370において選択されたコード及び
ゲインを用いて小振幅音源を再生する。Next, the switch 385 is connected to the upper side when selecting a codebook, and outputs the codebook and the gain to the small amplitude sound source reproducer 372. The small-amplitude sound source reproducer 372 reproduces a small-amplitude sound source using the code and the gain selected by the codebook selection unit 370.
以下、判別部380について説明する。 Hereinafter, the determination unit 380 will be described.
前記コードブックを用いて再生した信号e(n)と減
算器360の出力信号e(n)が時間分割回路によって小
区間再生信号と同じ長さに時間的に分割され、分割され
た単位でこれら2つの信号を比較し、現サブフレームの
音源信号を、コードブックを用いて表すことによる特性
の改善効果があるか判別する。判別の方法としては、前
述したように、例えばe(n)とe(n)とのパワーの
比やRMSの比などを用いることができる。The signal e (n) reproduced by using the code book and the output signal e (n) of the subtractor 360 are temporally divided by the time division circuit into the same length as the small section reproduced signal, and these are divided in divided units. By comparing the two signals, it is determined whether or not there is an effect of improving the characteristics by representing the excitation signal of the current subframe using a codebook. As described above, as described above, for example, the power ratio between e (n) and e (n), the RMS ratio, and the like can be used.
判別の結果、現サブフレームにコードブックが必要と
判別されればその判別符号を出力し、コードブック選択
部370とピッチ予測音現パルス計算部330、スイッチ340
へ信号を出力する。この信号により、スイッチ340は共
に下側に接続され、ピッチ予測音源パルス計算部330は
求められた音源パルス列を出力し、コードブック選択部
370ではインデクスとゲインを出力する。また現サブフ
レームにコードブックが不必要であると判定された場合
はその判別符号を出力し、コードブック選択部370とピ
ッチ予測音源パルス計算部330、スイッチ340へコードブ
ックを用いない形に音源信号を修正するよう信号を出力
する。この信号により、スイッチ340は共に下側に接続
され、ピッチ予測音源パルス計算部330は定められた本
数だけ音源パルス列を増やして求めてそれまでに求めら
れたマルチパルス列に加えて出力し、コードブック選択
部370では現サブフレームに対するコードブックのイン
デクスとゲインは出力しない。As a result of the determination, if it is determined that the codebook is necessary for the current subframe, the code is output, and the codebook selection unit 370, the pitch prediction sound current pulse calculation unit 330, and the switch 340 are output.
Output a signal to With this signal, the switches 340 are both connected to the lower side, and the pitch prediction excitation pulse calculation unit 330 outputs the obtained excitation pulse train, and the codebook selection unit
At 370, the index and gain are output. When it is determined that the codebook is unnecessary for the current subframe, the code is output to the codebook selection unit 370, the pitch prediction excitation pulse calculation unit 330, and the switch 340 without using the codebook. Output a signal to modify the signal. With this signal, the switches 340 are both connected to the lower side, and the pitch prediction sound source pulse calculation unit 330 increases the sound source pulse train by the determined number and outputs it in addition to the multi-pulse train obtained so far. Selection section 370 does not output the index and gain of the codebook for the current subframe.
送信側の伝送情報は、有声/無声判別符号、ピッチパ
ラメータ、スペクトルパラメータ、ピッチ予測したマル
チパルスの振幅、位置、前記判別部の出力である判別符
号と、用いるコードブックのインデクス、ゲインであ
る。The transmission information on the transmitting side is a voiced / unvoiced discrimination code, a pitch parameter, a spectrum parameter, an amplitude and a position of a multi-pulse whose pitch is predicted, a discrimination code output from the discrimination unit, and an index and a gain of a codebook to be used.
(実施例) 次に実施例を挙げ本発明を一層詳しく説明する。(Examples) Next, the present invention will be described in more detail by way of examples.
第1図は本発明の音声符号化装置および音声復号化装
置の一実例を示すブロック図であり、以下に本図を参照
してこれら装置および本発明の音声符号化復号化方法の
一実施例を説明する。FIG. 1 is a block diagram showing an example of a speech coding apparatus and a speech decoding apparatus according to the present invention. Referring to FIG. Will be described.
第1図の装置において、入力装置500から離散的な音
声信号x(n)を入力する。時間分割回路510は入力さ
れた音声信号を時間的に一様なフレーム毎(例えば20ms
ec.毎)に分割する。ピッチパラメータ計算回路515はピ
ッチ構造を表すピッチパラメータを計算する。計算方法
は前記文献2に示されているような方法を用いる。量子
化器516は前記求められたピッチパラメータを量子化す
る。逆量子化器518は、量子化した結果を用いて逆量子
化して出力する。スペクトルパラメータ計算回路520で
は前記分割した区間の音声信号のスペクトルを表すスペ
クトルパラメータを、衆知のLPC分析法によって求め
る。1, a discrete audio signal x (n) is input from an input device 500. The time division circuit 510 converts the input audio signal into temporally uniform frames (for example, 20 ms).
ec.). The pitch parameter calculation circuit 515 calculates a pitch parameter representing the pitch structure. As a calculation method, a method as shown in the aforementioned reference 2 is used. The quantizer 516 quantizes the obtained pitch parameter. The inverse quantizer 518 performs inverse quantization using the result of quantization and outputs the result. The spectrum parameter calculation circuit 520 obtains a spectrum parameter representing the spectrum of the audio signal in the divided section by a known LPC analysis method.
求められたスペクトルパラメータに対しては、スペク
トルパラメータ量子化器525において量子化を行う。量
子化の方法は、特願昭59−272435号(文献5)に示され
ているようなスラカー量子化や、あるいは前記文献4に
示されたベクトル量子化を行ってもよい。逆量子化器53
0は、量子化した結果を用いて逆量子化して出力する。
重み付け回路540は、逆量子化されたスペクトルパラメ
ータを用いて前記分割された音声信号に重み付けを行
う。重み付けの方法は、前記文献5の重み付け回路200
を参照することができる。インパルス応答計算回路550
は、逆量子化されたピッチパラメータと逆量子化された
スペクトルパラメータを用いてインパルス応答を計算す
る。具体的な方法は前記文献2を参照できる。自己相関
関数計算回路560は前記インパルス応答の自己相関関数
を計算し音源パルス計算回路580へ出力する。自己相関
関数の計算法は前記文献2の自己相関関数計算回路180
を参照することができる。相互相関関数計算回路570は
前記重み付けられた信号と前記インパルス応答との相互
相関関数を計算して音源パルス計算回路580へ出力す
る。具体的な方法は前記文献2を参照できる。The obtained spectral parameters are quantized by a spectral parameter quantizer 525. As a quantization method, slaker quantization as shown in Japanese Patent Application No. 59-272435 (Reference 5) or vector quantization as described in Reference 4 may be performed. Inverse quantizer 53
“0” is inversely quantized using the result of quantization and output.
The weighting circuit 540 weights the divided audio signal using the dequantized spectral parameters. The weighting method is described in the weighting circuit 200 of
Can be referred to. Impulse response calculation circuit 550
Calculates the impulse response using the inversely quantized pitch parameter and the inversely quantized spectral parameter. The specific method can be referred to the above-mentioned document 2. The autocorrelation function calculation circuit 560 calculates the autocorrelation function of the impulse response and outputs the calculated autocorrelation function to the sound source pulse calculation circuit 580. The calculation method of the autocorrelation function is based on the autocorrelation function calculation circuit 180 of the aforementioned reference 2.
Can be referred to. The cross-correlation function calculation circuit 570 calculates a cross-correlation function between the weighted signal and the impulse response, and outputs the result to the sound source pulse calculation circuit 580. The specific method can be referred to the above-mentioned document 2.
判別回路575では、現フレームが例えば母音区間であ
るか子音区間であるかを判別し、その結果を示す判別符
号を音源パルス計算回路580へ出力する。判別には前記
作用の項で示した通り例えばスペクトルの変化、パワ
ー、パワーの変化といった衆知のパラメータを用いるこ
とができる。The determination circuit 575 determines whether the current frame is, for example, a vowel section or a consonant section, and outputs a determination code indicating the result to the excitation pulse calculation circuit 580. For the discrimination, as shown in the section of the operation, for example, well-known parameters such as spectrum change, power, and power change can be used.
音源パルス計算回路580では、判別回路575の出力が母
音を示す符号である場合には、マルチパルスをピッチ予
測により、予め定められた個数(L1個)だけ求める。マ
ルチパルス列の計算方法については、前記文献2の音源
パルス計算回路210を参照することができる。When the output of the discrimination circuit 575 is a code indicating a vowel, the sound source pulse calculation circuit 580 obtains a predetermined number (L1) of multi-pulses by pitch prediction. For the calculation method of the multi-pulse train, reference can be made to the sound source pulse calculation circuit 210 of Reference 2.
判別回路575の出力が母音を示す符号である場合には
小振幅音源信号を計算することはせず、ここで音源信号
に関する計算を終了する。従って、この場合には量子化
器585、パルス発生器600、ピッチ再生フィルタ605、合
成フィルタ610、減算器615、小振幅音源計算回路620は
作動しない。If the output of the discrimination circuit 575 is a code indicating a vowel, the small amplitude excitation signal is not calculated, and the calculation for the excitation signal ends here. Therefore, in this case, the quantizer 585, the pulse generator 600, the pitch reproduction filter 605, the synthesis filter 610, the subtractor 615, and the small amplitude sound source calculation circuit 620 do not operate.
量子化器585は音源マルチパルス列を量子化して符号
を出力する。この出力は逆量子化器590によって逆量子
化され、パルス発生器600によってマルチパルスを発生
する。ピッチ再生フィルタ605では前記再生されたマル
チパルスと前記逆量子化器518によって逆量子化された
ピッチパラメータを入力としピッチを再生した音源信号
を出力する。前記音源信号と前記逆量子化器530から出
力されたスペクトルパラメータを合成フィルタ610に通
すことによって、前記音源パルスによる合成音声信号x
(n)が求まる。The quantizer 585 quantizes the source multipulse train and outputs a code. This output is inversely quantized by an inverse quantizer 590, and a multi-pulse is generated by a pulse generator 600. The pitch reproduction filter 605 receives the reproduced multi-pulse and the pitch parameter dequantized by the dequantizer 518 as inputs and outputs a sound source signal whose pitch has been reproduced. By passing the source signal and the spectral parameters output from the inverse quantizer 530 through a synthesis filter 610, a synthesized speech signal x by the source pulse
(N) is obtained.
判別回路575の出力が子音を示す場合には、前述の構
成によりL2個(L2<L1)のピッチ予測したマルチパルス
列を求め合成信号x(n)を求める。When the output of the discrimination circuit 575 indicates a consonant, the multi-pulse train of pitch prediction of L2 pieces (L2 <L1) is obtained by the above-described configuration to obtain the composite signal x (n).
さらに減算器615は、前記音声信号x(n)から合成
音声信号x(n)を減ずることによって、残差信号e
(n)に対して小振幅音源信号を計算する。Further, the subtractor 615 subtracts the synthesized audio signal x (n) from the audio signal x (n) to generate a residual signal e (n).
A small amplitude excitation signal is calculated for (n).
小振幅音源計算回路620では、前記作用の項で動作を
説明したように、フレームよりも短い区間に分割された
小区間(例えば5msec.)の小振幅音源信号を複数個のコ
ードブックを用いて表し、さらに小区間の合成信号e′
(n)を再生して前記残差信号e(n)と比較すること
によってコードブックが不必要であると判定された場合
にはコードブックを用いない形に小振幅音源計算回路の
出力を修正し、音源パルス計算回路580を用いてマルチ
パルスを予め定めた本数だけ増やす。As described in the operation section, the small-amplitude sound source calculation circuit 620 converts the small-amplitude sound source signal of a small section (for example, 5 msec.) Divided into sections shorter than a frame using a plurality of codebooks. And a composite signal e ′ of a small section
When it is determined that the codebook is unnecessary by reproducing (n) and comparing with the residual signal e (n), the output of the small-amplitude sound source calculation circuit is modified so that the codebook is not used. Then, the number of multi-pulses is increased by a predetermined number using the sound source pulse calculation circuit 580.
現フレームが母音区間であるか子音区間であるかを示
す符号、小振幅音源信号を表す判定符号とコードブック
のインデクスとゲイン、量子化器585の出力であるマル
チパルス列を量子化した符号、量子化器516の出力であ
るピッチパラメータを量子化した符号、さらに量子化器
525の出力であるスペクトルパラメータを量子化した符
号は、それぞれマルチプレクサ630の入力となる。ただ
し、現フレームが母音区間である場合には小振幅音源信
号を表すコードブックのインデクスとゲインまたは小区
間のマルチパルスの振幅と位置は入力とはならない。マ
ルチプレクサ630は以上の各符号を組み合わせて出力す
る。A code indicating whether the current frame is a vowel section or a consonant section, a determination code representing a small amplitude excitation signal, a codebook index and a gain, a code obtained by quantizing a multi-pulse train output from the quantizer 585, a quantum A code obtained by quantizing the pitch parameter output from the quantizer 516, and further a quantizer
The codes obtained by quantizing the spectral parameters output from the 525 are input to the multiplexer 630, respectively. However, when the current frame is a vowel section, the index and gain of the codebook representing the small-amplitude sound source signal or the amplitude and position of the multipulse in the small section are not input. The multiplexer 630 combines and outputs the above codes.
一方、受信側では、デマルチプレクサ710は、マルチ
パルス列の符号、ピッチパラメータの符号、スペクトル
パラメータの符号、現フレームが母音区間であるか子音
区間であるかを示す判別符号、現フレームが子音区間で
ある場合には判定符号と小振幅音源信号を表すインデク
ス及びゲインの符号を分離して出力する。音源パルス復
号器720はマルチパルスの振幅、位置を復号する。スペ
クトルパラメータ復号器750は、送信側の逆量子化器530
と同じ働きをする。小振幅音源復号器730は、送信側の
小振幅音源計算回路620と同一のコードブックを有して
おり、現フレームが子音区間であることを示す符号を受
信した場合には、判定符号に応じて、コードブックを用
いる部分では受信したインデクスを用いて小振幅音源信
号を表すコードを選択して出力する。ゲイン回路735
は、現フレームが子音区間であることを示す符号を受信
した場合に、判定符号に応じて受信したゲインの符号を
用いて小振幅音源信号の振幅を決定する。ピッチパラメ
ータ復号器745は送信側の逆量子化器518と同じ働きをす
る。パルス発生器725は判別符号と判定符号に応じて前
記マルチパルス列による音源信号を発生させる。ピッチ
再生フィルタ755は前記求められた音源信号と前記復号
されたピッチパラメータを入力としてピッチを再生した
合成音源信号を再生する。加算器740は前記ピッチを再
生した音源信号と、現フレームが子音区間であることを
示す符号を受信した場合にはゲイン回路735の出力信号
を加算して、駆動音源信号を求め、スペクトル包絡フィ
ルタ回路760を駆動する。合成フィルタ回路760では前記
駆動音源信号及び前記復号されたスペクトルパラメータ
を用いて合成音声波形を求めて出力する。On the other hand, on the receiving side, the demultiplexer 710 outputs a code of a multi-pulse train, a code of a pitch parameter, a code of a spectrum parameter, a determination code indicating whether the current frame is a vowel section or a consonant section, In some cases, the judgment code and the index and gain code representing the small amplitude excitation signal are separated and output. The excitation pulse decoder 720 decodes the amplitude and position of the multi-pulse. The spectrum parameter decoder 750 includes an inverse quantizer 530 on the transmission side.
Works the same as. The small-amplitude excitation decoder 730 has the same codebook as the small-amplitude excitation calculation circuit 620 on the transmission side, and receives a code indicating that the current frame is a consonant section, and responds to the determination code. In the part using the codebook, a code representing the small amplitude excitation signal is selected and output using the received index. Gain circuit 735
Determines the amplitude of the small-amplitude excitation signal using the code of the received gain according to the determination code when receiving a code indicating that the current frame is a consonant section. The pitch parameter decoder 745 performs the same function as the inverse quantizer 518 on the transmission side. The pulse generator 725 generates a sound source signal based on the multi-pulse train according to the determination code and the determination code. A pitch reproduction filter 755 reproduces a synthesized excitation signal whose pitch has been reproduced by using the obtained excitation signal and the decoded pitch parameter as inputs. The adder 740 adds the sound source signal obtained by regenerating the pitch and the output signal of the gain circuit 735 when receiving a code indicating that the current frame is a consonant section, obtains a driving sound source signal, and obtains a spectrum envelope filter. Drives the circuit 760. The synthesis filter circuit 760 obtains and outputs a synthesized speech waveform using the driving excitation signal and the decoded spectrum parameter.
以上述べた構成は本発明の一構成に過ぎず、種々の変
形も可能である。The configuration described above is only one configuration of the present invention, and various modifications are possible.
あるサブフレーム区間で小振幅音源信号が不要である
と判断された場合、音源パルス計算回路580でパルスを
予め定められた本数だけ増やして求めるが、パルスを求
めた後に、小振幅音源信号が必要なサブフレーム区間で
小振幅音源信号を求め直すようにすることもできる。If it is determined that a small-amplitude excitation signal is unnecessary in a certain subframe section, the excitation pulse calculation circuit 580 increases the number of pulses by a predetermined number, and then obtains the pulse. It is also possible to re-calculate the small-amplitude excitation signal in an appropriate subframe section.
小振幅音源信号を求めるための計算量をさらに大幅に
削減するためには、作用の項の(5)式から(7)式で
説明したように、ピッチ予測による大振幅マルチパルス
を求めた後の相互相関関数Φxh′を用いてコードブック
を選択するような構成とすることが可能である。このよ
うにすると、前記作用の項でも述べた通り、コードブッ
ク選択の際に信号ew(n)を再生しなくてよいので、第
1図に示した構成と比べて演算量を大幅に低減できる。In order to further reduce the amount of calculation for obtaining the small-amplitude sound source signal, as described in Equations (5) to (7) in the operation section, after calculating the large-amplitude multipulse by pitch prediction, A code book can be selected using the cross-correlation function Φ xh ′. As described above, the signal e w (n) does not need to be reproduced at the time of codebook selection, as described in the section of the operation, so that the amount of calculation is significantly reduced as compared with the configuration shown in FIG. it can.
また、子音部分に対しては、子音の性質(例えば破裂
性、摩擦性等)に応じて異なるコードブックを予め作成
しておき、これらを切り替えて使用してもよい。For the consonant part, different codebooks may be created in advance in accordance with the properties of the consonant (for example, burstiness, friction, etc.), and these may be switched and used.
また、マルチパルスの計算方法としては、前記文献1
に示した方法の他に、種々の衆知な方法を用いることが
できる。Further, as a method of calculating a multi-pulse,
Various known methods can be used in addition to the method shown in FIG.
また、スペクトルパラメータとしては、他の衆知なパ
ラメータ(線スペクトル対、ケプストラム、メルケプス
トラム、対数断面積比等)を用いることもできる。さら
に、スペクトルパラメータの量子化法としてはスカラー
量子化以外にもベクトル量子化等を用いることができ
る。ベクトル量子化については、前記文献3を参照でき
る。Further, other well-known parameters (a line spectrum pair, a cepstrum, a mel cepstrum, a logarithmic cross-sectional area ratio, etc.) can also be used as the spectrum parameter. Further, as a method of quantizing the spectrum parameter, vector quantization or the like can be used in addition to scalar quantization. Reference 3 can be referred to for the vector quantization.
また、フレーム長は一定としたが、音声信号の性質に
応じて可変としてもよい。Although the frame length is fixed, it may be variable according to the characteristics of the audio signal.
(発明の効果) 本発明によれば、従来例に比べ、音源心号を予め定め
られた種類(例えば母音部分、子音部分あるいは有声部
分、無声部分)に分類し、前記分類に応じて母音あるい
は有声部分では音源を比較的少ない個数のピッチ予測マ
ルチパルス列、子音あるいは無声部分においてはピッチ
予測したマルチパルス列のみならず音質改善にさらに効
果のある小振幅の音源信号をコードブックとして用いる
ことによって少ない伝送情報量で表すことができる。さ
らにまた、コードブックによる特性の改善効果が低い場
合にはコードブックを用いずマルチパルスの本数を増や
すことによってさらに音質を改善できるという効果があ
る。従って、従来法とビットレートを同一としても、母
音部分のみならず子音区間においても従来法よりもより
良好な再生音声信号を得ることができるという大きな効
果がある。さらに、この効果はビットレートを下げてい
った場合により顕著となる。(Effects of the Invention) According to the present invention, the sound source code is classified into predetermined types (for example, vowel parts, consonant parts or voiced parts, unvoiced parts) as compared with the conventional example, and vowels or In the voiced part, the sound source is transmitted by a relatively small number of pitch-predicted multi-pulse trains. It can be represented by the amount of information. Furthermore, when the effect of improving the characteristics by the codebook is low, there is an effect that the sound quality can be further improved by increasing the number of multi-pulses without using the codebook. Therefore, even if the bit rate is the same as that of the conventional method, there is a great effect that a better reproduced audio signal can be obtained not only in the vowel part but also in the consonant section as compared with the conventional method. Further, this effect becomes more remarkable when the bit rate is reduced.
第1図は本発明による音声符号化装置および音声復号化
装置の一実施例の構成を示すブロック図、第2図は本発
明の作用を示すブロック図、第3図はマルチパルス符号
化法の従来例を表すブロック図である。 500,300,800……入力端子、510……時間分割回路、515
……ピッチパラメータ計算回路、320,820……ピッチパ
ラメータ計算部、520……スペクトルパラメータ計算回
路、310,810……スペクトルパラメータ計算部、305……
有声/無声判別部、516,525,585……量子化器、518,53
0,590……逆量子化器、540……重み付け回路、550……
インパルス応答計算回路、560……自己相関関数計算回
路、570……相互相関関数計算回路、575……判別回路、
580……音源パルス計算回路、600,725……パルス発生
器、755,605……ピッチ再生フィルタ、610,760……スペ
クトル包絡フィルタ、620……小振幅音源計算回路、630
……マルチプレクサ、710……デマルチプレクサ、720…
…音源パルス復号器、730……小振幅音源復号器、740,3
75……加算器、745……ピッチパラメータ復号器、750…
…スペクトルパラメータ復号器、770……出力端子、810
……音源計算部、615,360……減算器、370……コードブ
ック選択部、735……ゲイン回路、340,385……スイッ
チ、380……比較判別部、330,830……ピッチ予測音源パ
ルス計算部、350……信号再生部。FIG. 1 is a block diagram showing the configuration of an embodiment of a speech encoding apparatus and speech decoding apparatus according to the present invention, FIG. 2 is a block diagram showing the operation of the present invention, and FIG. It is a block diagram showing the conventional example. 500, 300, 800 ... input terminal, 510 ... time division circuit, 515
…… Pitch parameter calculation circuit, 320,820… Pitch parameter calculation unit, 520 …… Spectrum parameter calculation circuit, 310,810 …… Spectrum parameter calculation unit, 305…
Voiced / unvoiced discriminator, 516, 525, 585… Quantizer, 518, 53
0,590 …… Dequantizer, 540 …… Weighting circuit, 550 ……
Impulse response calculation circuit, 560 ... autocorrelation function calculation circuit, 570 ... cross correlation function calculation circuit, 575 ... discriminator circuit,
580 …… Sound source pulse calculation circuit, 600,725 …… Pulse generator, 755,605 …… Pitch reproduction filter, 610,760 …… Spectral envelope filter, 620 …… Small amplitude sound source calculation circuit, 630
…… Multiplexer, 710 …… Demultiplexer, 720…
… Excitation pulse decoder, 730 …… Small amplitude excitation decoder, 740,3
75 …… Adder, 745 …… Pitch parameter decoder, 750…
... Spectral parameter decoder, 770 ... Output terminal, 810
... Sound source calculator, 615,360 ... Subtractor, 370 ... Codebook selector, 735 ... Gain circuit, 340,385 ... Switch, 380 ... Comparison / determination unit, 330,830 ... Pitch prediction sound source pulse calculator, 350 ... ... Signal playback unit.
Claims (3)
レームに分割し、前記音声信号のピッチ構造を表すピッ
チパラメータと前記音声信号のスペクトル包絡を表すス
ペクトルパラメータとを求め; 前記音声信号を予め定められた種類に分類して分類結果
を示す第1の判別符号を出力し; 前記分類結果が特定の種類を示している場合には、ピッ
チ予測により求めたマルチパルス列を用いて前記フレー
ムの前記音声信号の音源信号を表すのに比べて、前記マ
ルチパルス列とコードブックとを併用して前記音源信号
を表すと性能が改善されるか否かを判定し、この判定結
果を示す第2の判別符号を生成し、 性能が改善されるときはコードブックのインデックスと
前記マルチパルス列との両者を符号化し音源信号を表す
符号として出力し、 性能が改善されないときは、前記マルチパルス列を符号
化し前記音源信号を表す符号として出力し; 前記分類結果が特定の種類を示していない場合には、前
記マルチパルス列を符号化し前記音源信号を表す符号と
して出力し; 前記ピッチパラメータと前記スペクトルパラメータと前
記音源信号を表す符号と前記第1の判別符号と前記第2
の判別符号とを伝送し; 受信側では、 前記音源信号を表す符号と前記ピッチパラメータを表す
符号と前記スペクトルパラメータを表す符号と前記第1
の判別符号と前記第2の判別符号とを分離し; 前記音源信号を表す符号と前記ピッチパラメータを表す
符号と前記スペクトルパラメータを表す符号とを復号化
し; 復号化された音源信号のうちマルチパルス列を復元し、
復元されたマルチパルス列と復号化されたピッチパラメ
ータとを用いてピッチを再生した音源信号を求め; 前記第1の判別符号、前記第2の判別符号に基づいてコ
ードブックの使用の有無を判定し、コードブック使用有
の場合には、前記ピッチを再生した音源信号と前記復号
化された音源信号に含まれる前記コードブックのインデ
ックスとを用いて駆動音源信号を復元し、コードブック
使用無の場合には、前記ピッチを再生した音源信号を駆
動音源信号として復元し; 前記復元された駆動音源信号と前記復号化されたスペク
トルパラメータとを用いて前記音声信号を出力する; ことを特徴とする音声符号化復号化方法。1. A transmitting side receives a discrete voice signal, divides the signal into frames of a predetermined time length, and generates a pitch parameter representing a pitch structure of the voice signal and a spectrum representing a spectrum envelope of the voice signal. Determining a parameter; classifying the audio signal into a predetermined type and outputting a first discriminating code indicating a classification result; if the classification result indicates a specific type, calculating by pitch prediction It is determined whether or not performance is improved by representing the sound source signal by using the multi-pulse train and the codebook together, as compared with representing the sound source signal of the audio signal of the frame using the multi-pulse train. Generating a second discriminant code indicating the result of the judgment, and when the performance is improved, both the codebook index and the multi-pulse train are encoded to represent the excitation signal When the performance is not improved, the multi-pulse sequence is encoded and output as a code representing the excitation signal. When the classification result does not indicate a specific type, the multi-pulse sequence is encoded and Outputting as a code representing an excitation signal; the pitch parameter, the spectrum parameter, a code representing the excitation signal, the first discrimination code, and the second
On the receiving side, a code representing the excitation signal, a code representing the pitch parameter, a code representing the spectrum parameter, and the first
And a second identification code; a code representing the excitation signal, a code representing the pitch parameter, and a code representing the spectrum parameter are decoded; a multi-pulse train of the decoded excitation signal And restore
A sound source signal whose pitch has been reproduced is obtained using the restored multi-pulse train and the decoded pitch parameter. It is determined whether a codebook is used based on the first discrimination code and the second discrimination code. In the case where the codebook is used, the driving excitation signal is restored using the excitation signal reproduced from the pitch and the index of the codebook included in the decoded excitation signal, and the codebook is not used. Wherein the sound source signal obtained by reproducing the pitch is restored as a drive sound source signal; and the sound signal is output using the restored drive sound signal and the decoded spectrum parameter. Encoding / decoding method.
を表すピッチパラメータを求めて符号化するピッチパラ
メータ計算回路と; 前記音声信号の短時間スペクトル特性を表すスペクトル
パラメータを求めて符号化するスペクトルパラメータ計
算回路と; 前記音声信号を予め定められた種類に分類し、その結果
を示す第1の判別符号を出力する判別回路と; 前記第1の判別符号が特定の種類を示している場合に
は、前記ピッチパラメータと前記スペクトルパラメータ
を用いたピッチ予測により求めたマルチパルス列を用い
て前記音声信号の音源信号を表すのに比べて、前記マル
チパルス列に加えてコードブックを併用して前記音源信
号を表すことにより性能が改善されるかどうかを判定し
てその判定結果を示す第2の判別符号を出力し、 性能が改善されるときは、コードブックのインデックス
と前記マルチパルス列との両者を符号化し前記音源信号
を表す符号として出力し、 性能が改善されないときは、前記マルチパルス列を符号
化し前記音源信号を表す符号として出力し、 前記第1の判別符号が特定の種類を示していない場合に
は、前記マルチパルス列を符号化し前記音声信号の音源
信号を表す符号として出力する音源信号計算回路と; 前記ピッチパラメータを表す符号と前記スペクトルパラ
メータを表す符号と、前記音源信号を表す符号と前記第
1の判別符号と前記第2の判別符号とを組み合わせて出
力するマルチプレクサ回路; とを有することを特徴とする音声符号化装置。2. A pitch parameter calculation circuit for obtaining and encoding a pitch parameter representing a pitch structure from an input discrete speech signal; and a spectrum for acquiring and encoding a spectrum parameter representing a short-time spectrum characteristic of the speech signal. A parameter calculation circuit; a classification circuit that classifies the audio signal into a predetermined type and outputs a first determination code indicating the result; and a case where the first determination code indicates a specific type. Compared with representing the sound source signal of the audio signal using a multi-pulse sequence obtained by pitch prediction using the pitch parameter and the spectral parameter, the sound source signal using a codebook in addition to the multi-pulse sequence And whether or not the performance is improved by expressing is output, and a second determination code indicating the determination result is output. If the performance is improved, both the codebook index and the multi-pulse train are coded and output as a code representing the excitation signal. If the performance is not improved, the multi-pulse train is coded to represent the excitation signal. A sound source signal calculation circuit that outputs the code as a code, and when the first discrimination code does not indicate a specific type, encodes the multi-pulse train and outputs the code as a code representing a sound source signal of the audio signal; And a multiplexer circuit for combining and outputting a code representing the spectrum parameter, a code representing the excitation signal, the first discrimination code, and the second discrimination code. Encoding device.
を伝送路を介して受け、前記音声信号を復元する音声復
号化装置であり、 前記音源信号を表す符号と前記ピッチパラメータを表す
符号と前記スペクトルパラメータを表す符号と前記第1
の判別符号と前記第2の判別符号とを入力して分離する
デマルチプレクサ回路と; 前記デマルチプレクサ回路により分離された前記音源信
号を表す符号と前記ピッチパラメータを表す符号と前記
スペクトルパラメータを表す符号とを復号化する復号化
回路と; 復号化された音源信号のうちマルチパルス列を復元し、
復元されたマルチパルス列と復号されたピッチパラメー
タを用いてピッチを再生した音源信号を求めるピッチ再
生回路と; 前記第1の判別符号、前記第2の判別符号に基づいてコ
ードブックの使用の有無を判定し、コードブック使用有
の場合には、前記コードブックのインデックスと前記ピ
ッチ再生回路の出力を用いて駆動音源信号を復元し、コ
ードブック使用無の場合には、前記ピッチを再生した音
源信号を駆動音源信号として復元する駆動音源信号復元
回路と; 前記復元された駆動音源信号と前記復号化されたスペク
トルパラメータとを用いて前記音声信号を合成する合成
フィルタ回路; とを有することを特徴とする音声復号化装置。3. A speech decoding device for receiving an output code of the speech encoding device according to claim 2 via a transmission line and restoring the speech signal, wherein the code represents the excitation signal and the pitch parameter. A code, a code representing the spectral parameter, and the first
And a demultiplexer circuit that receives and discriminates the discrimination code and the second discrimination code from each other; a code indicating the excitation signal, a code indicating the pitch parameter, and a code indicating the spectrum parameter separated by the demultiplexer circuit. And a decoding circuit for decoding the sound source signal;
A pitch reproduction circuit for obtaining an excitation signal whose pitch has been reproduced using the restored multi-pulse train and the decoded pitch parameter; and determining whether a codebook is used based on the first discrimination code and the second discrimination code. Judgment, when the codebook is used, the drive excitation signal is restored using the codebook index and the output of the pitch reproduction circuit, and when the codebook is not used, the excitation signal reproduced from the pitch is used. A driving excitation signal restoring circuit for restoring as a driving excitation signal; and a synthesis filter circuit for synthesizing the audio signal using the restored driving excitation signal and the decoded spectrum parameter. Audio decoding device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63264441A JP3006790B2 (en) | 1988-10-20 | 1988-10-20 | Voice encoding / decoding method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63264441A JP3006790B2 (en) | 1988-10-20 | 1988-10-20 | Voice encoding / decoding method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH02139600A JPH02139600A (en) | 1990-05-29 |
JP3006790B2 true JP3006790B2 (en) | 2000-02-07 |
Family
ID=17403238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63264441A Expired - Fee Related JP3006790B2 (en) | 1988-10-20 | 1988-10-20 | Voice encoding / decoding method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3006790B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3089967B2 (en) * | 1995-01-17 | 2000-09-18 | 日本電気株式会社 | Audio coding device |
JP4807261B2 (en) * | 2007-01-09 | 2011-11-02 | ヤマハ株式会社 | Voice processing apparatus and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2615548B2 (en) * | 1985-08-13 | 1997-05-28 | 日本電気株式会社 | Highly efficient speech coding system and its device. |
JPS6337724A (en) * | 1986-07-31 | 1988-02-18 | Fujitsu Ltd | Coding transmitter |
JPS63127299A (en) * | 1986-11-17 | 1988-05-31 | 日本電気株式会社 | Voice signal encoding/decoding system and apparatus |
-
1988
- 1988-10-20 JP JP63264441A patent/JP3006790B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH02139600A (en) | 1990-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100566713B1 (en) | Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs | |
JP3180762B2 (en) | Audio encoding device and audio decoding device | |
JPH0353300A (en) | Sound encoding and decoding system | |
JPH02249000A (en) | Voice encoding system | |
JPH09152896A (en) | Sound path prediction coefficient encoding/decoding circuit, sound path prediction coefficient encoding circuit, sound path prediction coefficient decoding circuit, sound encoding device and sound decoding device | |
JP3582589B2 (en) | Speech coding apparatus and speech decoding apparatus | |
JP3266178B2 (en) | Audio coding device | |
JP3006790B2 (en) | Voice encoding / decoding method and apparatus | |
WO2000000963A1 (en) | Voice coder | |
JPH07225599A (en) | Method of encoding sound | |
JP3916934B2 (en) | Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus | |
JP3063087B2 (en) | Audio encoding / decoding device, audio encoding device, and audio decoding device | |
JP2797348B2 (en) | Audio encoding / decoding device | |
JP3319396B2 (en) | Speech encoder and speech encoder / decoder | |
JP3299099B2 (en) | Audio coding device | |
JP2001318698A (en) | Voice coder and voice decoder | |
KR0155798B1 (en) | Vocoder and the method thereof | |
JP2853170B2 (en) | Audio encoding / decoding system | |
JP2001142499A (en) | Speech encoding device and speech decoding device | |
JPH02160300A (en) | Voice encoding system | |
JP3092654B2 (en) | Signal encoding device | |
JPH0284700A (en) | Voice coding and decoding device | |
JP3736801B2 (en) | Speech decoding method and speech decoding apparatus | |
JPS60186899A (en) | Voice band signal encoding system and apparatus | |
JPH01258000A (en) | Voice signal encoding and decoding method, voice signal encoder, and voice signal decoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |