JP3428594B2 - Audio encoding device, audio decoding device, audio encoding method, and audio decoding method - Google Patents

Audio encoding device, audio decoding device, audio encoding method, and audio decoding method

Info

Publication number
JP3428594B2
JP3428594B2 JP2002030538A JP2002030538A JP3428594B2 JP 3428594 B2 JP3428594 B2 JP 3428594B2 JP 2002030538 A JP2002030538 A JP 2002030538A JP 2002030538 A JP2002030538 A JP 2002030538A JP 3428594 B2 JP3428594 B2 JP 3428594B2
Authority
JP
Japan
Prior art keywords
waveform
long
term prediction
basic waveform
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002030538A
Other languages
Japanese (ja)
Other versions
JP2002304200A (en
Inventor
利幸 森井
泰助 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2002030538A priority Critical patent/JP3428594B2/en
Publication of JP2002304200A publication Critical patent/JP2002304200A/en
Application granted granted Critical
Publication of JP3428594B2 publication Critical patent/JP3428594B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、ディジタル移動通
信のための音声コーデックや、各種機器の音声出力のた
めの音声合成器に使用される音声符号化・復号化装置に
関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice coding / decoding device used in a voice codec for digital mobile communication and a voice synthesizer for voice output of various devices.

【0002】[0002]

【従来の技術】ディジタル移動通信の分野においては、
加入者の増加に対応するために、より低ビットレートの
音声符号化法が求められており、各研究機関で研究開発
が行われている。そして、現在ではビットレート8kb
psまでが標準化されており、各研究機関は、4.8kbps
程度の低ビットレートに向って研究開発を行っている。
しかし、十分な性能を持つ音声符号化・復号化装置はま
だ得られていない。
In the field of digital mobile communications,
In order to cope with the increase in the number of subscribers, there is a demand for a lower bit rate speech coding method, and research and development are being conducted by each research institute. And now the bit rate is 8 kb
ps is standardized, and each research institute has 4.8 kbps
We are conducting research and development towards low bit rates.
However, a speech encoding / decoding device having sufficient performance has not yet been obtained.

【0003】低ビットレートを実現する技術は、次の2
通りの方法に分けることができる。
The technique for realizing a low bit rate is described in the following 2
It can be divided into street ways.

【0004】まず、第1の方法は、CELPに代表され
るように、ある分析区間における音声をLPC系パラメ
ータと駆動音源によって符号化し、ピッチ成分は長期予
測フィルターによって作り出すという方法である。この
方法は6.7kbps〜16kbpsの中ビットレートにおいては現
在最も効率の良い方法である。しかし、4kbps以下では
かなりの音質低下が見られ、低ビットレートを実現する
のは難しい。
The first method is, as represented by CELP, a method in which a speech in a certain analysis section is encoded by an LPC system parameter and a driving sound source, and a pitch component is produced by a long-term prediction filter. This method is currently the most efficient method for medium bit rates from 6.7kbps to 16kbps. However, at 4 kbps or less, the sound quality is considerably degraded, and it is difficult to realize a low bit rate.

【0005】第2の方法は、人の音声の大部分が基本周
波数を持った有声音であることを利用し、ピッチ分析を
行ってピッチと1ピッチ波形のみを伝送するという方法
である。この方法は6kbps以下の符号化においてはかな
り有効で、低ビットレートを実現する最も有力な方法と
言える。しかし、ピッチ検出には誤りが必ず発生する。
また、ピッチ検出に要する計算量はかなり多く、リアル
タイムでのピッチ検出は難しいと言える。
The second method is a method in which most of human voice is voiced sound having a fundamental frequency, and pitch analysis is performed to transmit only the pitch and one pitch waveform. This method is quite effective in encoding below 6 kbps, and can be said to be the most effective method for realizing a low bit rate. However, an error always occurs in pitch detection.
Also, the amount of calculation required for pitch detection is quite large, and it can be said that pitch detection in real time is difficult.

【0006】したがって、上記の理由により、低ビット
レートの実現は難しいとされてきた。
Therefore, it has been considered difficult to realize a low bit rate for the above reasons.

【0007】[0007]

【発明が解決しようとする課題】上述したように、従来
の音声符号化・復号化技術では、低ビットレートを実現
するのが困難であった。それは、長期予測では十分な音
質は得られず、また、ピッチ同期ではピッチ検出が困難
であったからである。
As described above, it has been difficult to realize a low bit rate with the conventional voice encoding / decoding technology. This is because long-term prediction does not provide sufficient sound quality, and pitch synchronization makes it difficult to detect pitch.

【0008】本発明は、上記課題に鑑み、2つの方法の
長所をあわせ、ピッチ同期の符号化に長期予測を用いて
ピッチ誤りが起らないようにすることによって、低ビッ
トレートを実現することを目的とする。
In view of the above problems, the present invention realizes a low bit rate by combining the advantages of the two methods and by using long-term prediction for pitch-synchronous coding to prevent pitch errors. With the goal.

【0009】[0009]

【課題を解決するための手段】この目的を達成するため
に、本発明は、入力音声をディジタル音声信号に変換す
るA/D変換部と、過去の合成波形が格納されている合
成波形格納部と、予め決められた時間長の前記ディジタ
ル音声信号の部分区間及び前記過去の合成波形から長期
予測のためのピッチに基づいて選択した選択合成波形を
入力とし、前記選択合成波形、長期予測係数、前記長期
予測のためのピッチ並びに基本波形及びその長さを用い
て形成する新たな合成波形と前記ディジタル音声信号の
部分区間との誤差パワーが最小となるための、前記選択
合成波形、前記長期予測係数、前記長期予測のためのピ
ッチ並びに前記基本波形及びその長さを決定する音響分
析部と、前記音響分析部で得られる基本波形を符号化す
る基本波形符号化部と、前記音響分析部で得られる前記
長期予測係数及び前記長期予測のためのピッチ並びに前
記基本波形符号化部で得られる基本波形の符号及びその
長さの符号に基づいて合成波形を作成して前記合成波形
格納部に出力する音声合成部とを有し、前記長期予測係
数、前記長期予測のためのピッチ並びに前記基本波形の
符号及びその長さの符号を出力とする音声符号化装置で
ある。
In order to achieve this object, the present invention provides an A / D converter for converting an input voice into a digital voice signal and a synthesized waveform storage for storing past synthesized waveforms. And a selected combined waveform selected based on a pitch for long-term prediction from a partial section of the digital audio signal of a predetermined time length and the past combined waveform as an input, the selected combined waveform, a long-term prediction coefficient, The selected synthetic waveform and the long-term prediction for minimizing the error power between the pitch and the basic waveform for the long-term prediction and the new synthetic waveform formed by using the length and the partial section of the digital speech signal. A coefficient, a pitch for the long-term prediction, an acoustic analysis unit that determines the basic waveform and its length, and a basic waveform encoding that encodes the basic waveform obtained by the acoustic analysis unit. And creating a synthetic waveform based on the long-term prediction coefficient and the pitch for the long-term prediction obtained by the acoustic analysis unit, and the code of the basic waveform and the code of the length thereof obtained by the basic waveform coding unit. A speech coder having a speech synthesizing section for outputting to the synthesized waveform storing section, and outputting the long-term prediction coefficient, the pitch for the long-term prediction, the code of the basic waveform and the code of the length thereof. .

【0010】[0010]

【発明の実施の形態】本発明の請求項1に記載の発明
は、入力音声をディジタル音声信号に変換するA/D変
換部と、過去の合成波形が格納されている合成波形格納
部と、予め決められた時間長の前記ディジタル音声信号
の部分区間及び前記過去の合成波形から長期予測のため
のピッチに基づいて選択した選択合成波形を入力とし、
前記選択合成波形、長期予測係数、前記長期予測のため
のピッチ並びに基本波形及びその長さを用いて形成する
新たな合成波形と前記ディジタル音声信号の部分区間と
の誤差パワーが最小となるための、前記選択合成波形、
前記長期予測係数、前記長期予測のためのピッチ並びに
前記基本波形及びその長さを決定する音響分析部と、前
記音響分析部で得られる基本波形を符号化する基本波形
符号化部と、前記音響分析部で得られる前記長期予測係
数及び前記長期予測のためのピッチ並びに前記基本波形
符号化部で得られる基本波形の符号及びその長さの符号
に基づいて合成波形を作成して前記合成波形格納部に出
力する音声合成部とを有し、前記長期予測係数、前記長
期予測のためのピッチ並びに前記基本波形の符号及びそ
の長さの符号を出力とする音声符号化装置である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The invention according to claim 1 of the present invention is an A / D converter for converting an input voice into a digital voice signal, a synthesized waveform storage for storing past synthesized waveforms, With a selected synthesized waveform selected based on a pitch for long-term prediction from a partial section of the digital speech signal of a predetermined time length and the past synthesized waveform as an input,
In order to minimize the error power between the selected synthesized waveform, the long-term prediction coefficient, the pitch for the long-term prediction, the basic waveform and the new synthesized waveform formed by using the length and the partial section of the digital audio signal. , The selected combined waveform,
The long-term prediction coefficient, a pitch for the long-term prediction, an acoustic analysis unit that determines the basic waveform and its length, a basic waveform encoding unit that encodes the basic waveform obtained by the acoustic analysis unit, the acoustic A synthetic waveform is created based on the long-term prediction coefficient and the pitch for the long-term prediction obtained by the analysis unit, the code of the basic waveform and the code of the length thereof obtained by the basic waveform coding unit, and the synthesized waveform is stored. And a speech synthesizing unit for outputting to the unit, and outputs the long-term prediction coefficient, the pitch for the long-term prediction, the code of the basic waveform, and the code of the length thereof.

【0011】上記構成によって、1ピッチの基本波形を
符号化することによって低ビットレートを実現すること
ができ、長期予測を使用するためにピッチ誤りを防ぐこ
とができる。従って、低ビットレートの音声符号化を効
率良く行うことができる。
With the above configuration, a low bit rate can be realized by encoding a 1-pitch basic waveform, and pitch error can be prevented because long-term prediction is used. Therefore, low bit rate speech coding can be performed efficiently.

【0012】請求項2に記載の発明は、合成波形は、基
本波形の長さごとに、長期予測のためのピッチに基づく
選択合成波形に長期予測係数を乗じ、その結果に復号化
された基本波形を足し合わせた結果を分析区間の長さま
で足し合わせて得られる請求項1記載の音声符号化装置
であり、1ピッチの基本波形を符号化することによって
低ビットレートを実現することができ、長期予測を使用
するためにピッチ誤りを防ぐことができる。従って、低
ビットレートの音声符号化を効率良く行うことができ
る。
According to a second aspect of the present invention, the synthesized waveform is obtained by multiplying the selected synthesized waveform based on the pitch for long-term prediction by the long-term prediction coefficient for each length of the basic waveform, and decoding the result to obtain the decoded basic waveform. The speech coding apparatus according to claim 1, wherein the result of summing the waveforms is added up to the length of the analysis section, and a low bit rate can be realized by coding the basic waveform of one pitch. Pitch errors can be prevented because long term prediction is used. Therefore, low bit rate speech coding can be performed efficiently.

【0013】請求項3に記載の発明は、入力された基本
波形の符号及び基本波形の長さの符号に基づいて基本波
形を復号化する基本波形復号化部と、長期予測係数、長
期予測のためのピッチ並びに前記基本波形復号化部の出
力である復号化された基本波形及びその長さを入力と
し、予め決められた時間長のディジタル音声信号を復号
化する音声波形復号化部と、前記音声波形復号化部の出
力である復号化されたディジタル音声信号をアナログ音
声信号に変換するD/A変換部とを有する音声復号化装
置であり、低ビットレートの音声復号化を効率良く行う
ことができる。
According to a third aspect of the present invention, a basic waveform decoding unit that decodes the basic waveform based on the input code of the basic waveform and the code of the length of the basic waveform, a long-term prediction coefficient, and a long-term prediction And a speech waveform decoding section for decoding a digital speech signal having a predetermined time length by using the pitch for decoding and the decoded basic waveform output from the basic waveform decoding section and its length as input, A voice decoding device having a D / A conversion unit for converting a decoded digital voice signal output from a voice waveform decoding unit into an analog voice signal, and efficiently performing low bit rate voice decoding. You can

【0014】請求項4に記載の発明は、入力された基本
波形の符号及び基本波形の長さの符号に基づいて基本波
形を復号化する基本波形復号化部と、長期予測係数、長
期予測のためのピッチ並びに前記基本波形復号化部の出
力である復号化された基本波形及びその長さを入力と
し、予め決められた時間長のディジタル音声信号を復号
化する音声波形復号化部と、前記音声波形復号化部の出
力である復号化されたディジタル音声信号をアナログ音
声信号に変換するD/A変換部とを有する音声復号化装
置であり、低ビットレートの音声符号化を効率良く行う
ことができる。
According to a fourth aspect of the present invention, a basic waveform decoding unit for decoding the basic waveform based on the input code of the basic waveform and the code of the length of the basic waveform, a long-term prediction coefficient, and a long-term prediction And a speech waveform decoding section for decoding a digital speech signal of a predetermined time length, using the pitch for decoding and the decoded basic waveform output from the basic waveform decoding section and its length as input, A voice decoding device having a D / A conversion unit for converting a decoded digital voice signal output from a voice waveform decoding unit into an analog voice signal, and efficiently performing low bit rate voice encoding. You can

【0015】請求項5に記載の発明は、合成波形は、基
本波形の長さごとに、長期予測のためのピッチに基づく
選択合成波形に長期予測係数を乗じ、その結果に復号化
された基本波形を足し合わせた結果を分析区間の長さま
で足し合わせて得られる請求項4記載の音声符号化方法
であり、低ビットレートの音声符号化を効率良く行うこ
とができる。
According to a fifth aspect of the present invention, in the synthesized waveform, the selected synthesized waveform based on the pitch for long-term prediction is multiplied by the long-term prediction coefficient for each length of the basic waveform, and the result is the decoded basic waveform. The speech coding method according to claim 4, wherein the result of summing the waveforms is summed up to the length of the analysis section, and speech coding at a low bit rate can be efficiently performed.

【0016】請求項6に記載の発明は、入力された基本
波形の符号及び基本波形の長さの符号に基づいて基本波
形を復号化する基本波形復号化工程と、長期予測係数、
長期予測のためのピッチ並びに前記基本波形復号化工程
で得られた復号化された基本波形及びその長さを入力と
し、予め決められた時間長のディジタル音声信号を復号
化する音声波形復号化工程と、前記音声波形復号化工程
で得られた復号化されたディジタル音声信号をアナログ
音声信号に変換するD/A変換工程とを有する音声復号
化方法であり、低ビットレートの音声復号化を効率良く
行うことができる。
According to a sixth aspect of the present invention, there is provided a basic waveform decoding step of decoding the basic waveform based on the input basic waveform code and the basic waveform length code, and a long-term prediction coefficient,
A speech waveform decoding step for decoding a digital speech signal having a predetermined time length by inputting the pitch for long-term prediction, the decoded basic waveform obtained in the basic waveform decoding step and its length. And a D / A conversion step of converting the decoded digital audio signal obtained in the audio waveform decoding step into an analog audio signal, which is a low bit rate audio decoding method. You can do it well.

【0017】(実施の形態1)以下、本発明の第1の実
施の形態について図面を参照しながら説明する。
(Embodiment 1) Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.

【0018】図1において、1はA/D変換部、2は合
成波形格納部、3は音響分析部、4は基本波形符号化
部、5は音声合成部、6は基本波形復号化部、7は音声
波形復号化部、8はD/A変換部、10は符号器、11
は復号器である。
In FIG. 1, 1 is an A / D conversion section, 2 is a synthesized waveform storage section, 3 is an acoustic analysis section, 4 is a basic waveform coding section, 5 is a speech synthesis section, 6 is a basic waveform decoding section, Reference numeral 7 is a speech waveform decoding unit, 8 is a D / A conversion unit, 10 is an encoder, 11
Is a decoder.

【0019】次に、本発明の第1の実施の形態による音
声符号化・復号化装置の動作を説明する。
Next, the operation of the speech encoding / decoding apparatus according to the first embodiment of the present invention will be described.

【0020】まず、符号器10の機能について図1を用
いて説明する。マイク(図示せず)から入力した入力音
声をA/D変換部1でディジタル信号に変換する。次に
音響分析部3において、一定時間の音声信号をRAMメ
モリー(図示せず)に取込み、この分析区間と合成波形
格納部2に格納されている合成波形との相関の分析と、
分析区間のピッチ分析とを同時に行い、相関のある合成
波形の部分区間の位置と1ピッチの基本波形とを求め
る。このパラメータと基本波形の抽出方法については、
後に詳細に説明する。
First, the function of the encoder 10 will be described with reference to FIG. The A / D converter 1 converts an input voice input from a microphone (not shown) into a digital signal. Next, in the acoustic analysis unit 3, a voice signal of a fixed time is taken into a RAM memory (not shown), and the correlation between this analysis section and the synthetic waveform stored in the synthetic waveform storage unit 2 is analyzed.
The pitch analysis of the analysis section is performed at the same time, and the position of the partial section of the correlated waveform and the basic waveform of one pitch are obtained. For the extraction method of this parameter and basic waveform,
The details will be described later.

【0021】さらに、基本波形符号化部4においては、
音響分析部3において得られた基本波形を符号化する。
具体的な方法としては、位相を合せて波形のままVQす
る方法や、周波数領域に変換してから符号化する方法等
が挙げられる。
Further, in the basic waveform encoding unit 4,
The basic waveform obtained in the acoustic analysis unit 3 is encoded.
As a specific method, a method of matching the phases and performing VQ as a waveform, a method of converting into a frequency domain and then encoding, and the like can be mentioned.

【0022】ここで、音声合成部5においては、基本波
形符号化部4において得られた符号に基づいて1ピッチ
の基本波形を復号化し、音響分析部3において抽出した
長期予測係数と上記基本波形とを用いて復号化を行い、
得られた合成波形を合成波形格納部2に格納する。この
音声合成部5の機能は、復号器11における基本波形復
号化部6と音声波形復号化部7の機能を合せたものであ
るので、その詳細は復号器11の説明の際に述べる。
Here, in the voice synthesizing section 5, the basic waveform of one pitch is decoded based on the code obtained in the basic waveform coding section 4, and the long-term prediction coefficient extracted in the acoustic analysis section 3 and the above basic waveform. Decrypt using and
The obtained composite waveform is stored in the composite waveform storage unit 2. The function of the speech synthesis unit 5 is a combination of the functions of the basic waveform decoding unit 6 and the speech waveform decoding unit 7 in the decoder 11, and the details thereof will be described when the decoder 11 is described.

【0023】ここで、音響分析部3におけるパラメータ
と基本波形の抽出方法について、詳細に説明する。本発
明の合成の式を(数1)に示す。
Here, the method of extracting the parameters and the basic waveform in the acoustic analysis unit 3 will be described in detail. The synthesis formula of the present invention is shown in (Equation 1).

【0024】[0024]

【数1】 [Equation 1]

【0025】この(数1)で、nはピッチ区間の番号、
qはピッチ周期、βは長期予測係数、pは長期予測のピ
ッチ、Xnq+i,Xnq+i-pはいずれも合成波形、Yiは復
号化された1ピッチの基本波形である。
In this (Equation 1), n is the pitch section number,
q is a pitch period, β is a long-term prediction coefficient, p is a long-term prediction pitch, Xnq + i and Xnq + ip are all synthetic waveforms, and Yi is a decoded basic pitch of one pitch.

【0026】そこで、この合成式により合成される波形
が原波形に最も近くなるようにp、q、β、Yiを求め
る。
Therefore, p, q, β and Yi are calculated so that the waveform synthesized by this synthesis formula is closest to the original waveform.

【0027】今、p、qが与えられていると、原波形Now, given p and q, the original waveform

【0028】[0028]

【数2】 [Equation 2]

【0029】と(数1)の合成波形との誤差パワーは以
下の(数3)のようになる。
The error power between the composite waveform of and (Formula 1) is as shown in (Formula 3) below.

【0030】[0030]

【数3】 [Equation 3]

【0031】ここで、Eは誤差パワー、Mは1分析区間
内のピッチ周期の数である。そこで、このEが最小の時
は、β、Yiで微分したものがいずれも0になることを
利用する。まず、βで微分すると(数4)が得られる。
Here, E is the error power, and M is the number of pitch periods in one analysis section. Therefore, it is used that when E is the minimum, the values differentiated by β and Yi are both 0. First, by differentiating with β, (Equation 4) is obtained.

【0032】[0032]

【数4】 [Equation 4]

【0033】そこで、下記の(数5)および(数6)を
用いて、式を簡略化してβについて解くと、(数7)が
得られる。
Therefore, by using the following (Equation 5) and (Equation 6) to simplify the equation and solve for β, (Equation 7) is obtained.

【0034】[0034]

【数5】 [Equation 5]

【0035】[0035]

【数6】 [Equation 6]

【0036】[0036]

【数7】 [Equation 7]

【0037】一方、(数3)をYkで微分すると(数
8)が得られる。
On the other hand, when (Equation 3) is differentiated by Yk, (Equation 8) is obtained.

【0038】[0038]

【数8】 [Equation 8]

【0039】そこで、(数8)を(数7)に代入してβ
を求め、その値を用いて各Ykを求める。これを、全て
のp、qについて行い、誤差Eを評価して最も誤差の少
ないp、qを選ぶ。
Then, by substituting (Equation 8) into (Equation 7), β
Is obtained, and each value is used to obtain each Yk. This is performed for all p and q, the error E is evaluated, and p and q with the smallest error are selected.

【0040】ただし、このp、qを全探索すると、多大
な計算量を必要とする。この計算量を削減する方法とし
ては、Vpの値でpおよびqの候補を絞り込んで探索す
る方法や、qをVpの最大の時のpの値にする方法等が
挙げられる。
However, a full search for these p and q requires a large amount of calculation. As a method of reducing the calculation amount, there are a method of narrowing down the candidates of p and q by the value of Vp and searching, a method of setting q to the value of p at the maximum Vp, and the like.

【0041】次に、復号器11の機能について図1を用
いて説明する。まず、基本波形復号化部6において、1
ピッチの基本波形を合成する。そして、音声波形復号化
部7において、基本波形復号化部6において合成された
1ピッチの基本波形と、長期予測係数とを用いて合成式
(数1)に基づいて1分析区間の音声波形を合成する。
そして、D/A変換部8でアナログ信号に変換して出力
する。
Next, the function of the decoder 11 will be described with reference to FIG. First, in the basic waveform decoding unit 6, 1
Synthesize the pitch basic waveform. Then, the speech waveform decoding unit 7 uses the 1-pitch basic waveform synthesized by the basic waveform decoding unit 6 and the long-term prediction coefficient to generate a speech waveform of one analysis section based on the synthesis formula (Equation 1). To synthesize.
Then, the D / A converter 8 converts the analog signal and outputs the analog signal.

【0042】本発明の音声符号化・復号化装置の符号化
の効果を検証するために、音声符号化・復号化の予備シ
ミュレーション実験を行った。評価用音声は男性1名が
発声した「爆音が銀世界の高原に広がる」で、サンプリ
ングレート8kHz、12bit-PCMで符号化したもので
ある。また、シミュレーションでは基本波形の符号化・
復号化やβのスカラ符号化を行わず、そのままを用い
た。p、qはいずれも7ビットで符号化した。その結
果、セグメンタルS/N比で13.75dBが得られ、
ピッチ誤りも起らなかった。また、1ピッチ波形は14
〜20dBで符号化できることを考慮すると、S/N比
9〜12dBで符号化ができる。したがって、上記目的
を達成することが可能となる。
In order to verify the coding effect of the speech coding / decoding apparatus of the present invention, a preliminary simulation experiment of speech coding / decoding was conducted. The voice for evaluation is "The explosion sound spreads to the plateau of the silver world" uttered by one man, and it was coded with a sampling rate of 8 kHz and 12-bit PCM. In the simulation, the basic waveform coding
It was used as it was without decoding or scalar encoding of β. Both p and q are coded with 7 bits. As a result, a segmental S / N ratio of 13.75 dB was obtained,
There was no pitch error. In addition, 1 pitch waveform is 14
Considering that the coding can be performed with ˜20 dB, the coding can be performed with the S / N ratio of 9 to 12 dB. Therefore, it is possible to achieve the above object.

【0043】[0043]

【発明の効果】以上のように、本発明は、ピッチ同期の
符号化に長期予測を用いてピッチ誤りが起らないように
したので、ピッチ誤りを起こさずに低ビットレートで音
声を符号化および復号化することができる。
As described above, according to the present invention, since the pitch error is prevented from occurring by using the long-term prediction for the pitch synchronization encoding, the voice is encoded at the low bit rate without causing the pitch error. And can be decrypted.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明第1の実施の形態における音声符号化・
復号化装置のブロック結線図
FIG. 1 is a speech coding / encoding method according to a first embodiment of the present invention.
Block diagram of decryption device

【符号の説明】[Explanation of symbols]

1 A/D変換部 2 合成波形格納部 3 音響分析部 4 基本波形符号化部 5 音声合成部 6 基本波形復号化部 7 音声波形復号化部 8 D/A変換部 9 伝送路 10 符号器 11 復号器 1 A / D converter 2 Synthetic waveform storage 3 Acoustic analysis section 4 Basic waveform encoder 5 Speech synthesizer 6 Basic waveform decoding section 7 Speech waveform decoding section 8 D / A converter 9 transmission lines 10 encoder 11 Decoder

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−73098(JP,A) 特開 平8−69300(JP,A) 特開 平1−205199(JP,A) 特開 昭62−135899(JP,A) 特開 平1−126700(JP,A) 特開 平2−8900(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/04 G10L 13/00 G10L 19/00 G10L 19/04 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-5-73098 (JP, A) JP-A 8-69300 (JP, A) JP-A 1-205199 (JP, A) JP-A 62- 135899 (JP, A) JP-A 1-126700 (JP, A) JP-A 2-8900 (JP, A) (58) Fields investigated (Int.Cl. 7 , DB name) G10L 11/04 G10L 13 / 00 G10L 19/00 G10L 19/04

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声をディジタル音声信号に変換す
るA/D変換部と、過去の合成波形が格納されている合
成波形格納部と、予め決められた時間長の前記ディジタ
ル音声信号の部分区間及び前記過去の合成波形から長期
予測のためのピッチに基づいて選択した選択合成波形を
入力とし、前記選択合成波形、長期予測係数、前記長期
予測のためのピッチ並びに基本波形及びその長さを用い
て形成する新たな合成波形と前記ディジタル音声信号の
部分区間との誤差パワーが最小となるための、前記選択
合成波形、前記長期予測係数、前記長期予測のためのピ
ッチ並びに前記基本波形及びその長さを決定する音響分
析部と、前記音響分析部で得られる基本波形を符号化す
る基本波形符号化部と、前記音響分析部で得られる前記
長期予測係数及び前記長期予測のためのピッチ並びに前
記基本波形符号化部で得られる基本波形の符号及びその
長さの符号に基づいて合成波形を作成して前記合成波形
格納部に出力する音声合成部とを有し、前記長期予測係
数、前記長期予測のためのピッチ並びに前記基本波形の
符号及びその長さの符号を出力とする音声符号化装置。
1. An A / D converter for converting an input speech into a digital speech signal, a synthesized waveform storage section for storing past synthesized waveforms, and a partial section of the digital speech signal of a predetermined time length. And using the selected combined waveform selected from the past combined waveform based on the pitch for long-term prediction as input, the selected combined waveform, the long-term prediction coefficient, the pitch for the long-term prediction, the basic waveform and its length are used. The selected synthetic waveform, the long-term prediction coefficient, the pitch for the long-term prediction, and the basic waveform and its length for minimizing the error power between the new synthetic waveform formed by the above-mentioned method and the partial section of the digital speech signal. An acoustic analysis unit that determines the depth, a basic waveform encoding unit that encodes the basic waveform obtained by the acoustic analysis unit, the long-term prediction coefficient and the previous obtained by the acoustic analysis unit The speech synthesis unit that creates a synthetic waveform based on the pitch for long-term prediction, the code of the basic waveform obtained by the basic waveform encoding unit, and the code of the length thereof and outputs the synthesized waveform to the synthetic waveform storage unit. A speech coding apparatus that outputs the long-term prediction coefficient, the pitch for the long-term prediction, the code of the basic waveform, and the code of the length thereof.
【請求項2】 合成波形は、基本波形の長さごとに、長
期予測のためのピッチに基づく選択合成波形に長期予測
係数を乗じ、その結果に復号化された基本波形を足し合
わせた結果を分析区間の長さまで足し合わせて得られる
請求項1記載の音声符号化装置。
2. A synthesized waveform is obtained by multiplying a pitch-based selected synthesized waveform for long-term prediction by a long-term prediction coefficient for each length of the basic waveform, and adding the decoded basic waveform to the result. The speech coding apparatus according to claim 1, wherein the speech coding apparatus is obtained by adding up to a length of an analysis section.
【請求項3】 入力された基本波形の符号及び基本波形
の長さの符号に基づいて基本波形を復号化する基本波形
復号化部と、長期予測係数、長期予測のためのピッチ並
びに前記基本波形復号化部の出力である復号化された基
本波形及びその長さを入力とし、予め決められた時間長
のディジタル音声信号を復号化する音声波形復号化部
と、前記音声波形復号化部の出力である復号化されたデ
ィジタル音声信号をアナログ音声信号に変換するD/A
変換部とを有する音声復号化装置。
3. A basic waveform decoding unit for decoding a basic waveform based on the input basic waveform code and basic waveform length code, a long-term prediction coefficient, a pitch for long-term prediction, and the basic waveform. An output of the speech waveform decoding unit, and a speech waveform decoding unit that receives the decoded basic waveform that is the output of the decoding unit and the length thereof and decodes a digital speech signal of a predetermined time length. D / A for converting a decoded digital voice signal that is an analog voice signal
A speech decoding apparatus having a conversion unit.
【請求項4】 入力音声をディジタル音声信号に変換す
るA/D変換工程と、予め決められた時間長の前記ディ
ジタル音声信号の部分区間及び過去の合成波形から長期
予測のためのピッチに基づいて選択した選択合成波形を
入力とし、前記選択合成波形、長期予測係数、前記長期
予測のためのピッチ並びに基本波形及びその長さを用い
て形成する新たな合成波形と前記ディジタル音声信号の
部分区間との誤差パワーが最小となるための、前記選択
合成波形、前記長期予測係数、前記長期予測のためのピ
ッチ並びに前記基本波形及びその長さを決定する音響分
析工程と、前記音響分析工程で得られる基本波形を符号
化する基本波形符号化工程と、前記音響分析工程で得ら
れる前記長期予測係数及び前記長期予測のためのピッチ
並びに前記基本波形符号化部で得られる基本波形の符号
及びその長さの符号に基づいて合成波形を作成する音声
合成工程と、前記合成波形を過去の合成波形として格納
する合成波形格納工程を有し、前記長期予測係数、前記
長期予測のためのピッチ並びに前記基本波形の符号及び
その長さの符号を出力とする音声符号化方法。
4. An A / D conversion process for converting an input voice into a digital voice signal, and a partial interval of the digital voice signal having a predetermined time length and a pitch for long-term prediction from a past synthesized waveform. A selected synthesized waveform selected as an input, a new synthesized waveform formed using the selected synthesized waveform, the long-term prediction coefficient, the pitch for the long-term prediction, the basic waveform and the length thereof, and a partial section of the digital voice signal. Of the selected combined waveform, the long-term prediction coefficient, the pitch for the long-term prediction, and the basic waveform and its length for minimizing the error power of A basic waveform encoding step of encoding a basic waveform, the long-term prediction coefficient obtained in the acoustic analysis step, a pitch for the long-term prediction, and the basic waveform It has a voice synthesizing step of creating a synthesized waveform based on the code of the basic waveform and the code of its length obtained by the encoding section, and a synthetic waveform storing step of storing the synthesized waveform as a past synthesized waveform. A speech coding method which outputs a prediction coefficient, a pitch for the long-term prediction, a code of the basic waveform, and a code of the length thereof.
【請求項5】 合成波形は、基本波形の長さごとに、長
期予測のためのピッチに基づく選択合成波形に長期予測
係数を乗じ、その結果に復号化された基本波形を足し合
わせた結果を分析区間の長さまで足し合わせて得られる
請求項4記載の音声符号化方法。
5. The synthesized waveform is obtained by multiplying a pitch-based selected synthesized waveform for long-term prediction by a long-term prediction coefficient for each length of the basic waveform, and adding the decoded basic waveform to the result. The speech coding method according to claim 4, wherein the speech coding method is obtained by adding up to a length of an analysis section.
【請求項6】 入力された基本波形の符号及び基本波形
の長さの符号に基づいて基本波形を復号化する基本波形
復号化工程と、長期予測係数、長期予測のためのピッチ
並びに前記基本波形復号化工程で得られた復号化された
基本波形及びその長さを入力とし、予め決められた時間
長のディジタル音声信号を復号化する音声波形復号化工
程と、前記音声波形復号化工程で得られた復号化された
ディジタル音声信号をアナログ音声信号に変換するD/
A変換工程とを有する音声復号化方法。
6. A basic waveform decoding step of decoding a basic waveform based on a code of the input basic waveform and a code of the length of the basic waveform, a long-term prediction coefficient, a pitch for long-term prediction, and the basic waveform. The decoded basic waveform obtained in the decoding step and its length are input, and a speech waveform decoding step of decoding a digital speech signal of a predetermined time length and a speech waveform decoding step D / that converts the decoded digital audio signal to an analog audio signal
A voice decoding method having an A conversion step.
JP2002030538A 2002-02-07 2002-02-07 Audio encoding device, audio decoding device, audio encoding method, and audio decoding method Expired - Lifetime JP3428594B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002030538A JP3428594B2 (en) 2002-02-07 2002-02-07 Audio encoding device, audio decoding device, audio encoding method, and audio decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002030538A JP3428594B2 (en) 2002-02-07 2002-02-07 Audio encoding device, audio decoding device, audio encoding method, and audio decoding method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP31049391A Division JP3328945B2 (en) 1991-11-26 1991-11-26 Audio encoding device, audio encoding method, and audio decoding method

Publications (2)

Publication Number Publication Date
JP2002304200A JP2002304200A (en) 2002-10-18
JP3428594B2 true JP3428594B2 (en) 2003-07-22

Family

ID=19192482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002030538A Expired - Lifetime JP3428594B2 (en) 2002-02-07 2002-02-07 Audio encoding device, audio decoding device, audio encoding method, and audio decoding method

Country Status (1)

Country Link
JP (1) JP3428594B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4578145B2 (en) * 2003-04-30 2010-11-10 パナソニック株式会社 Speech coding apparatus, speech decoding apparatus, and methods thereof

Also Published As

Publication number Publication date
JP2002304200A (en) 2002-10-18

Similar Documents

Publication Publication Date Title
CN1154086C (en) CELP transcoding
CN103258541B (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
CN1125432C (en) Vocoder-based voice recognizer
JP4824167B2 (en) Periodic speech coding
TW519616B (en) Method and apparatus for predictively quantizing voiced speech
CN100369112C (en) Variable rate speech coding
CN101577605B (en) Speech LPC hiding and extraction algorithm based on filter similarity
JP4270866B2 (en) High performance low bit rate coding method and apparatus for non-speech speech
WO2004097796A1 (en) Audio encoding device, audio decoding device, audio encoding method, and audio decoding method
CN101006495A (en) Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
JPS5870300A (en) Coding of and analysis coder for parameter
EP1671317B1 (en) A method and a device for source coding
US20070219787A1 (en) Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
JP2006171751A (en) Speech coding apparatus and method therefor
JP3558031B2 (en) Speech decoding device
Jagtap et al. Speech coding techniques
WO2002021091A1 (en) Noise signal analyzer, noise signal synthesizer, noise signal analyzing method, and noise signal synthesizing method
JP3428594B2 (en) Audio encoding device, audio decoding device, audio encoding method, and audio decoding method
JP3328945B2 (en) Audio encoding device, audio encoding method, and audio decoding method
JP4578145B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP3199142B2 (en) Method and apparatus for encoding excitation signal of speech
CN101496097A (en) Systems and methods for including an identifier with a packet associated with a speech signal
JP3510168B2 (en) Audio encoding method and audio decoding method
JP4287840B2 (en) Encoder
JP2002073097A (en) Celp type voice coding device and celp type voice decoding device as well as voice encoding method and voice decoding method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080516

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9