JPH05346798A - Voice encoding device - Google Patents

Voice encoding device

Info

Publication number
JPH05346798A
JPH05346798A JP4156358A JP15635892A JPH05346798A JP H05346798 A JPH05346798 A JP H05346798A JP 4156358 A JP4156358 A JP 4156358A JP 15635892 A JP15635892 A JP 15635892A JP H05346798 A JPH05346798 A JP H05346798A
Authority
JP
Japan
Prior art keywords
sound source
long
information
pulse
driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4156358A
Other languages
Japanese (ja)
Other versions
JP3057907B2 (en
Inventor
Koji Yoshida
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4156358A priority Critical patent/JP3057907B2/en
Publication of JPH05346798A publication Critical patent/JPH05346798A/en
Application granted granted Critical
Publication of JP3057907B2 publication Critical patent/JP3057907B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To generate a driving sound code with which a pulse sound source with a period interval can be generated on the side of a decoding device without transmitting pitch period information. CONSTITUTION:An auditory weighting filter 11 generates a weighted input voice from an input voice A pitch extractor 12, on the other hand, extracts a pitch period from the input voice. A changeover switch 13 selects the pitch period or long-period predicted delay and outputs the selected information to an adaptive code book 14 and a pulse sound source generator 15. The adaptive code book 14 generates a long-period prediction signal and the pulse sound source generator 15 generates the pulse sound source. A driving sound source generator 16 generates a driving sound source with the long-period prediction signal and pulse sound source. A weighting synthesizing filter 17 generates a synthesized voice and a distortion minimizing unit 18 finds long-period predicted delay or pitch period which minimizes the sum of squares of an error of the synthesized voice based upon the weighted input voice and outputs the pulse position of the pulse sound source and the code of a gain.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は音声符号化装置に係わ
り、特に、入力音声から駆動音源符号を生成し、ディジ
タル通信・ボイスメイル等に利用するに好適な音声符号
化装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech coding apparatus, and more particularly to a speech coding apparatus suitable for generating a driving excitation code from an input speech and using it for digital communication, voice mail and the like.

【0002】[0002]

【従来の技術】近年、4.8〜8.0kb/s程度の低
ビットレートにおける音声符号化装置としては、CEL
P(Code−Excited Linear Pre
diction Coder)と呼ばれる音声符号化装
置が広く採用されている。従来のこの種のCELP符号
化装置としては、図2に示されるように、駆動音源とし
てパルス音源を用いたものが知られている。
2. Description of the Related Art In recent years, a CEL has been used as a voice encoding device at a low bit rate of about 4.8 to 8.0 kb / s.
P (Code-Excited Linear Pre)
A speech coding apparatus called a "diction coder" has been widely adopted. As a conventional CELP coding device of this type, as shown in FIG. 2, a device using a pulse sound source as a driving sound source is known.

【0003】図2において、21は入力音声の聴感重み
付けを行う聴感重み付けフィルタである。22は入力音
声からピッチ周期を抽出して出力するピッチ抽出器であ
る。23は適用コードブックで、過去の駆動音源を蓄え
ている。24はパルス音源を生成するパルス音源生成器
である。25は適応コードブックとパルス音源生成器2
4の出力から駆動音源を生成する駆動音源生成器であ
る。26は駆動音源から重み付き合成音声を生成する重
み付き合成フィルタである。27は重み付き入力音声に
対する重み付き合成音声の誤差を算出し、その二乗和を
最小にするように、長期予測遅延、パルス位置、及びゲ
インの符号を出力する歪最小化器である。
In FIG. 2, reference numeral 21 is a perceptual weighting filter for perceptual weighting of input voice. Reference numeral 22 is a pitch extractor that extracts the pitch period from the input voice and outputs it. Reference numeral 23 is an applicable code book, which stores past driving sound sources. Reference numeral 24 is a pulse sound source generator that generates a pulse sound source. 25 is an adaptive codebook and pulse generator 2
4 is a driving sound source generator that generates a driving sound source from the output of FIG. Reference numeral 26 is a weighted synthesis filter for generating a weighted synthetic speech from the driving sound source. Reference numeral 27 is a distortion minimizer that calculates the error of the weighted synthetic speech with respect to the weighted input speech and outputs the sign of the long-term prediction delay, the pulse position, and the gain so as to minimize the sum of squares thereof.

【0004】以上のように構成された音声符号化装置装
置について、以下にその動作を説明する。まず、聴感重
み付けフィルタ21で入力音声に対する重み付けを行っ
て重み付き入力音声を求める。次にピッチ抽出器22で
入力音声からピッチ周期を抽出し、このピッチ周期を復
号化装置側へ転送するとともに、パルス音源生成器24
へ出力する。パルス音源生成器24はパルス位置とピッ
チ周期を基にパルス音源を生成する。一方適応コードブ
ック23は長期予測遅延と過去に生成された駆動音源か
ら長期予測信号を生成する。駆動音源生成器25は長期
予測信号とパルス音源を基に駆動音源を生成する。この
駆動音源は重み付き合成フィルタ26で重み付けされて
合成音声に変換される。この合成音声が歪最小化器27
に入力されると、歪最小化器27において、合成音声の
重み付き入力音声に対する誤差の二乗和が算出される。
そしてこの算出値を最小とするように、長期予測遅延、
パルス位置及び駆動音源のゲインがそれぞれ決定され、
これらの符号が駆動音源符号として出力される。これに
より、この装置によれば、入力音声からピッチ周期符号
と駆動音源符号を生成してこれらの符号に関する情報を
出力することができる。
The operation of the speech coding apparatus configured as above will be described below. First, the perceptual weighting filter 21 weights the input voice to obtain a weighted input voice. Next, the pitch extractor 22 extracts a pitch cycle from the input speech, transfers the pitch cycle to the decoding device side, and also the pulse excitation generator 24
Output to. The pulse sound source generator 24 generates a pulse sound source based on the pulse position and the pitch period. On the other hand, the adaptive codebook 23 generates a long-term prediction signal from the long-term prediction delay and the driving sound source generated in the past. The driving sound source generator 25 generates a driving sound source based on the long-term predicted signal and the pulse sound source. This driving sound source is weighted by the weighted synthesis filter 26 and converted into synthetic speech. This synthesized voice is the distortion minimizer 27.
, The distortion minimizer 27 calculates the sum of squared errors of the synthetic speech with respect to the weighted input speech.
And to minimize this calculated value, long-term prediction delay,
The pulse position and the gain of the driving sound source are determined respectively,
These codes are output as the driving excitation code. As a result, according to this apparatus, it is possible to generate the pitch period code and the driving excitation code from the input voice and output the information regarding these codes.

【0005】[0005]

【発明が解決しようとする課題】しかし、従来の音声符
号化装置では、パルス音源を生成するために、ピッチ周
期を用いているため、復号化装置側に駆動音源符号の他
にピッチ周期符号の情報を伝送しなければならず、伝送
情報量がその分だけ増加するという問題がある。
However, in the conventional speech coding apparatus, the pitch period is used to generate the pulse excitation, so that the decoding apparatus side can use the pitch period code in addition to the driving excitation code. Information has to be transmitted, and there is a problem that the amount of transmitted information increases by that amount.

【0006】本発明は上記従来の課題を解決するもので
あり、ピッチ周期情報を伝送しなくても、復号化装置側
で周期間隔のパルス音源を生成することができる音声符
号化装置を提供することを目的とするものである。
The present invention solves the above-mentioned conventional problems, and provides a speech coding apparatus capable of generating a pulse excitation having a periodic interval on the decoding apparatus side without transmitting pitch period information. The purpose is that.

【0007】[0007]

【課題を解決するための手段】本発明は、上記目的を達
成するために、入力音声に対して聴感重み付けを行って
重み付き入力音声信号を生成する聴感重み付け手段と、
入力音声のピッチ周期を抽出するピッチ周期抽出手段
と、長期予測遅延情報またはピッチ周期抽出手段の抽出
によるピッチ周期情報の何れか一方を指令に応じて選択
する選択手段と、選択手段の選択による情報と過去に生
成された駆動音源情報から長期予測信号を生成する長期
予測信号生成手段と、選択手段の選択による情報とパル
ス位置情報からパルス音源を生成するパルス音源生成手
段と、パルス音源生成手段の生成によるパルス音源と長
期予測信号生成手段の生成による長期予測信号にそれぞ
れゲインを掛けこれらの信号から駆動音源を生成する駆
動音源生成手段と、駆動音源生成手段の生成による駆動
音源に対して重み付けを行って重み付け合成音声を生成
する合成音声生成手段と、前記重み付け入力音声信号に
対する重み付け合成音声の誤差の二乗和を算出する二乗
和算出手段と、二乗和算出手段の算出値を最小とするピ
ッチ周期または長期予測遅延の何れか一方の選択を選択
手段に指令する選択指令手段と、二乗和算出手段の算出
値を最小とする長期予測遅延とゲインに関する情報を生
成する情報生成手段と、情報生成手段の生成による情報
を基に駆動音源符号を生成する駆動音源符号生成手段と
を備えている音声符号化装置を構成したものである。
In order to achieve the above object, the present invention comprises a perceptual weighting means for performing perceptual weighting on an input voice to generate a weighted input voice signal,
Pitch cycle extraction means for extracting the pitch cycle of the input voice, selection means for selecting either long-term predicted delay information or pitch cycle information extracted by the pitch cycle extraction means in response to a command, and information selected by the selection means A long-term predicted signal generation means for generating a long-term predicted signal from the driving sound source information generated in the past, a pulse sound source generation means for generating a pulse sound source from information selected by the selection means and pulse position information, and a pulse sound source generation means The pulsed sound source by the generation and the long-term predicted signal generated by the long-term predicted signal generation means are each multiplied by a gain to generate a driving sound source, and a driving sound source generated by the driving sound source generation means is weighted. Synthesizing speech generating means for generating a weighted synthetic speech, and weighting synthesis for the weighted input speech signal A sum of squares calculating means for calculating a sum of squares of voice errors, a selection command means for instructing the selecting means to select one of a pitch period and a long-term prediction delay that minimizes the calculated value of the sum of squares calculating means, An information generating unit that generates information about a long-term predicted delay and a gain that minimizes the calculated value of the sum calculating unit, and a driving excitation code generating unit that generates a driving excitation code based on the information generated by the information generating unit are provided. This is a configuration of a speech encoding device that is installed.

【0008】[0008]

【作用】従って、本発明によれば、長期予測信号を生成
するための長期予測遅延情報をパルス音源を生成するた
めの周期間隔情報としても用いているため、復号化装置
側へ周期間隔情報を伝送するのが不要となる。さらに、
長期予測信号及びパルス音源を生成するための周期間隔
情報として、長期予測遅延情報の代わりにピッチ周期を
与えるための選択手段を設けているため、無音(無声
音)から有声音への立ち上がり部のような音声区間に対
してより正確な周期間隔を有するパルス列音源を生成す
ることができる。
Therefore, according to the present invention, since the long-term prediction delay information for generating the long-term prediction signal is also used as the cycle interval information for generating the pulse sound source, the cycle interval information is transmitted to the decoding device side. It becomes unnecessary to transmit. further,
As the period interval information for generating the long-term predicted signal and the pulsed sound source, a selection means is provided to give a pitch period instead of the long-term predicted delay information. It is possible to generate a pulse train sound source having a more accurate cycle interval for different voice intervals.

【0009】[0009]

【実施例】図1は本発明の一実施例の構成を示すもので
ある。図1において、音声符号化装置は聴感重み付けフ
ィルタ11、ピッチ抽出器12、切換スイッチ13、適
応コードブック14、パルス音源生成器15、駆動音源
生成器16、重み付き合成フィルタ17、歪最小化器1
8を備えて構成されている。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows the configuration of an embodiment of the present invention. In FIG. 1, a speech coding apparatus includes a perceptual weighting filter 11, a pitch extractor 12, a changeover switch 13, an adaptive codebook 14, a pulse sound source generator 15, a driving sound source generator 16, a weighted synthesis filter 17, and a distortion minimizer. 1
8 is provided.

【0010】聴感重み付けフィルタ11は入力音声に対
して聴感重み付けを行って、重み付き入力音声信号を生
成する聴感重み付け手段として構成されている。ピッチ
抽出器12は入力音声からピッチ周期を抽出するピッチ
周期抽出手段として構成されている。切換スイッチ13
はピッチ周期または長期予測遅延の何れか一方を選択
し、選択した情報を適用コードブック14とパルス音源
生成器15へ出力する選択手段として構成されている。
適用コードブック14は切換スイッチ13によって選択
された情報と過去に生成された駆動音源情報から長期予
測信号を生成する長期予測信号生成手段として構成され
ている。パルス音源生成器15は、切換スイッチで選択
された情報とパルス位置を基にパルス音源を生成するパ
ルス音源生成手段として構成されている。駆動音源生成
器16は長期予測信号とパルス音源にそれぞれゲインを
掛けこれらの信号から駆動音源を生成する駆動音源生成
手段として構成されている。重み付き合成フィルタ17
は駆動音源に重み付けを行って重み付け合成音声を生成
する合成音声生成手段として構成されている。歪最小化
器18は、重み付き入力音声に対する重み付け合成音声
の誤差の二乗和を算出する二乗和算出手段を構成すると
ともに、二乗和の算出値を最小とするピッチ周期または
長期予測遅延の何れか一方の選択を切換スイッチ13に
指令する選択指令手段を構成するようになっている。さ
らに、二乗和の算出値を最小とする長期予測遅延とゲイ
ンに関する情報を生成する情報生成手段と、情報生成手
段の生成による情報を基に駆動音源符号を生成して出力
する駆動音源符号生成手段を構成するようになってい
る。
The perceptual weighting filter 11 is constructed as perceptual weighting means for performing perceptual weighting on the input voice to generate a weighted input voice signal. The pitch extractor 12 is configured as a pitch cycle extracting means for extracting a pitch cycle from the input voice. Changeover switch 13
Is configured as a selection unit that selects either the pitch period or the long-term prediction delay and outputs the selected information to the applicable codebook 14 and the pulse sound source generator 15.
The applicable codebook 14 is configured as a long-term predicted signal generating means for generating a long-term predicted signal from the information selected by the changeover switch 13 and the driving sound source information generated in the past. The pulse sound source generator 15 is configured as a pulse sound source generation unit that generates a pulse sound source based on the information selected by the changeover switch and the pulse position. The driving sound source generator 16 is configured as a driving sound source generating means that multiplies the long-term predicted signal and the pulse sound source by gains to generate a driving sound source from these signals. Weighted synthesis filter 17
Is configured as a synthetic voice generation means for weighting the driving sound source to generate a weighted synthetic voice. The distortion minimizer 18 constitutes a sum of squares calculating means for calculating the sum of squares of the error of the weighted synthesized speech with respect to the weighted input speech, and either the pitch period or the long-term prediction delay that minimizes the calculated value of the sum of squares. Selection command means for commanding one of the selections to the changeover switch 13 is configured. Further, information generating means for generating information about long-term predicted delay and gain that minimizes the calculated value of the sum of squares, and driving excitation code generating means for generating and outputting a driving excitation code based on the information generated by the information generating means. Is configured.

【0011】次に、上記実施例の動作について説明す
る。まず音声符号化装置に音声が入力されると、聴感重
み付けフィルタ11において重み付き入力音声が求めら
れ、ピッチ抽出器12によって入力音声からピッチ周期
が抽出される。そしてピッチ周期と長期予測遅延のうち
何れか一方が切換スイッチ13で選択され、選択された
情報を基に長期予測信号とパルス音源が生成される。そ
して長期予測信号とパルス音源から駆動音源が生成さ
れ、駆動音源を基に合成音声が生成され、合成音声と重
み付き入力音声を基に駆動音源符号が生成されることに
なる。この駆動音源符号を生成するに際しては、重み付
き入力音声に最も近い重み付き合成音声を生成する駆動
音源e(n)を歪最小化により決定し、この決定に従っ
た符号化が行われることになる。
Next, the operation of the above embodiment will be described. First, when a voice is input to the voice encoding device, the weighted input voice is obtained by the perceptual weighting filter 11, and the pitch period is extracted from the input voice by the pitch extractor 12. Then, one of the pitch period and the long-term prediction delay is selected by the changeover switch 13, and the long-term prediction signal and the pulse sound source are generated based on the selected information. Then, the driving sound source is generated from the long-term predicted signal and the pulse sound source, the synthetic speech is generated based on the driving sound source, and the driving sound source code is generated based on the synthetic speech and the weighted input speech. When generating this drive excitation code, the drive excitation e (n) that generates the weighted synthesized speech closest to the weighted input speech is determined by distortion minimization, and encoding is performed according to this determination. Become.

【0012】ここで、駆動音源生成器16で生成される
駆動音源e(n)は適用コードブック14出力の長期予
測信号a(n−L)、パルス音源生成器15で生成され
たパルス音源PM(n)からなり、次の(1)式で表さ
れる。
Here, the driving sound source e (n) generated by the driving sound source generator 16 is the long-term predicted signal a (n-L) of the output of the applicable codebook 14, and the pulse sound source PM generated by the pulse sound source generator 15. It is composed of (n) and is represented by the following expression (1).

【0013】 e(n)=β・a(n−L)+γ・PM(n) ……(1) ここで、Lは切換スイッチ13で選択される長期予測遅
延lまたはピッチ抽出器12で抽出されたピッチ周期T
pで表される周期間隔、PM(n)は、パルス位置Mか
ら周期間隔Lでインパルスを有するパルス列、β,γは
それぞれ長期予測信号及びパルス音源のゲインである。
E (n) = β · a (n−L) + γ · PM (n) (1) where L is extracted by the long-term predicted delay 1 selected by the changeover switch 13 or the pitch extractor 12. Pitch period T
A period interval represented by p, PM (n) is a pulse train having impulses at a period interval L from the pulse position M, and β and γ are gains of the long-term predicted signal and the pulse sound source, respectively.

【0014】以下に、上記(1)式で示される駆動音源
のパラメータL,M,β,γを決定する手順について説
明する。まず、周期間隔Lとして、長期予測遅延lを選
択(L=l、l=lmin〜lmax)し、長期予測信号a
(n−L)に対して、その重み付き合成音声の歪最小化
により、周期間隔L及び最適ゲインβを決定する。これ
らの値が決定された後は、残った歪に対して、周期間隔
Lを有するパルス音源PM(n)の歪最小化により、パ
ルス位置M及び最適ゲインγを決定する。
The procedure for determining the parameters L, M, β and γ of the driving sound source represented by the above equation (1) will be described below. First, the long-term prediction delay 1 is selected as the cycle interval L (L = 1, l = 1 min to lmax), and the long-term prediction signal a is selected.
For (n−L), the period interval L and the optimum gain β are determined by minimizing the distortion of the weighted synthetic speech. After these values are determined, the pulse position M and the optimum gain γ are determined by minimizing the distortion of the pulsed sound source PM (n) having the periodic interval L with respect to the remaining distortion.

【0015】次に、周期間隔Lとして、ピッチ周期Tp
を選択し(L=Tp)、そのときの長期予測信号の最適
ゲインβを決定する。そしてこれを決定した後は、残り
の歪に対して、前述したと同様に、周期間隔L(=T
p)を有するパルス音源のパルス位置M、最適ゲインβ
を決定する。そして、最後に、周期間隔Lとして、長期
予測遅延lあるいはピッチ周期Tpを選択する場合、こ
れらの情報のうち歪の小さい方を選択し、選択したもの
のL,β,M,γの符号を出力する。
Next, as the cycle interval L, the pitch cycle Tp
Is selected (L = Tp), and the optimum gain β of the long-term predicted signal at that time is determined. Then, after determining this, for the remaining distortion, the periodic interval L (= T
pulse position M of the pulsed sound source with p), optimal gain β
To decide. Then, finally, when the long-term predicted delay 1 or the pitch period Tp is selected as the cycle interval L, one of these pieces of information having a smaller distortion is selected and the selected code of L, β, M, γ is output. To do.

【0016】このように、上記実施例によれば、長期予
測信号a(n−L)の長期予測遅延lをパルス音源の周
期間隔情報として用いているため、復号化装置側へ周期
間隔情報を伝送することが不要となる。さらに、長期予
測信号の長期予測遅延l及びパルス音源の周期間隔情報
Lとして長期予測遅延lの代わりに、ピッチ周期Tpを
与えることができる切換スイッチ13を設けているた
め、無音(無声音)から有声音への立ち上がり部のよう
な音声区間に対して、より正確な周期間隔を有するパル
ス列音源を生成することができる。
As described above, according to the above embodiment, since the long-term prediction delay l of the long-term predicted signal a (n-L) is used as the cycle interval information of the pulse sound source, the cycle interval information is transmitted to the decoding device side. It becomes unnecessary to transmit. Furthermore, since the changeover switch 13 that can give the pitch period Tp instead of the long-term predicted delay 1 as the long-term predicted delay 1 of the long-term predicted signal and the period interval information L of the pulse sound source is provided, there is no sound (unvoiced sound). It is possible to generate a pulse train sound source having a more accurate cycle interval for a voice section such as a rising portion to a voice sound.

【0017】[0017]

【発明の効果】本発明は、上記実施例より明らかなよう
に、長期予測信号を生成するための長期予測遅延情報を
パルス音源を生成するための周期間隔情報としても用い
ているため、復号化装置側への周期間隔情報の伝送が不
要となる。さらに、長期予測信号を生成するための長期
予測遅延情報及びパルス音源を生成するための周期間隔
情報として、長期予測遅延情報の代わりにピッチ周期を
選択できる選択手段を設けたため、無音または無声音か
ら有声音への立ち上がり部のような音声区間に対して、
より正確な周期間隔を有するパルス音源を生成すること
ができる。
As is apparent from the above embodiment, the present invention uses the long-term prediction delay information for generating the long-term prediction signal as the period interval information for generating the pulse sound source, and therefore the decoding is performed. It is not necessary to transmit the cycle interval information to the device side. Further, as the long-term prediction delay information for generating the long-term prediction signal and the cycle interval information for generating the pulse sound source, a selecting means for selecting the pitch period is provided instead of the long-term prediction delay information, so that there is no sound or unvoiced sound. For the voice section such as the rising part to the voice sound,
It is possible to generate a pulse sound source having a more accurate cycle interval.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例における音声符号化装置の概
略ブロック図
FIG. 1 is a schematic block diagram of a speech encoding apparatus according to an embodiment of the present invention.

【図2】従来の音声符号化装置の概略ブロック図FIG. 2 is a schematic block diagram of a conventional speech encoding device.

【符号の説明】[Explanation of symbols]

11 聴感重み付けフィルタ 12 ピッチ抽出器 13 切換スイッチ 14 適用コードブック 15 パルス音源生成器 16 駆動音源生成器 17 重み付き合成フィルタ 18 歪最小化器 11 Perceptual Weighting Filter 12 Pitch Extractor 13 Changeover Switch 14 Applicable Codebook 15 Pulse Sound Source Generator 16 Drive Sound Source Generator 17 Weighted Synthesis Filter 18 Distortion Minimizer

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 入力音声に対して聴感重み付けを行って
重み付き入力音声信号を生成する聴感重み付け手段と、
入力音声のピッチ周期を抽出するピッチ周期抽出手段
と、長期予測遅延情報またはピッチ周期抽出手段の抽出
によるピッチ周期情報の何れか一方を指令に応じて選択
する選択手段と、選択手段の選択による情報と過去に生
成された駆動音源情報から長期予測信号を生成する長期
予測信号生成手段と、選択手段の選択による情報とパル
ス位置情報からパルス音源を生成するパルス音源生成手
段と、パルス音源生成手段の生成によるパルス音源と長
期予測信号生成手段の生成による長期予測信号にそれぞ
れゲインを掛けこれらの信号から駆動音源を生成する駆
動音源生成手段と、駆動音源生成手段の生成による駆動
音源に対して重み付けを行って重み付け合成音声を生成
する合成音声生成手段と、前記重み付け入力音声信号に
対する重み付け合成音声の誤差の二乗和を算出する二乗
和算出手段と、二乗和算出手段の算出値を最小とするピ
ッチ周期または長期予測遅延の何れか一方の選択を選択
手段に指令する選択指令手段と、二乗和算出手段の算出
値を最小とする長期予測遅延とゲインに関する情報を生
成する情報生成手段と、情報生成手段の生成による情報
を基に駆動音源符号を生成する駆動音源符号生成手段と
を備えている音声符号化装置。
1. A perceptual weighting means for performing perceptual weighting on an input voice to generate a weighted input voice signal,
Pitch cycle extraction means for extracting the pitch cycle of the input voice, selection means for selecting either long-term predicted delay information or pitch cycle information extracted by the pitch cycle extraction means in response to a command, and information selected by the selection means A long-term predicted signal generation means for generating a long-term predicted signal from the driving sound source information generated in the past, a pulse sound source generation means for generating a pulse sound source from information selected by the selection means and pulse position information, and a pulse sound source generation means The pulsed sound source by the generation and the long-term predicted signal generated by the long-term predicted signal generation means are each multiplied by a gain to generate a driving sound source, and a driving sound source generated by the driving sound source generation means is weighted. Synthesizing speech generating means for generating a weighted synthetic speech, and weighting synthesis for the weighted input speech signal A sum of squares calculating means for calculating a sum of squares of voice errors, a selection command means for instructing the selecting means to select one of a pitch period and a long-term prediction delay that minimizes the calculated value of the sum of squares calculating means, An information generating unit that generates information about a long-term predicted delay and a gain that minimizes the calculated value of the sum calculating unit, and a driving excitation code generating unit that generates a driving excitation code based on the information generated by the information generating unit are provided. Speech coding device.
JP4156358A 1992-06-16 1992-06-16 Audio coding device Expired - Fee Related JP3057907B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4156358A JP3057907B2 (en) 1992-06-16 1992-06-16 Audio coding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4156358A JP3057907B2 (en) 1992-06-16 1992-06-16 Audio coding device

Publications (2)

Publication Number Publication Date
JPH05346798A true JPH05346798A (en) 1993-12-27
JP3057907B2 JP3057907B2 (en) 2000-07-04

Family

ID=15626017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4156358A Expired - Fee Related JP3057907B2 (en) 1992-06-16 1992-06-16 Audio coding device

Country Status (1)

Country Link
JP (1) JP3057907B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001020595A1 (en) * 1999-09-14 2001-03-22 Fujitsu Limited Voice encoder/decoder
KR100409167B1 (en) * 1998-09-11 2003-12-12 모토로라 인코포레이티드 Method and apparatus for coding an information signal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100409167B1 (en) * 1998-09-11 2003-12-12 모토로라 인코포레이티드 Method and apparatus for coding an information signal
WO2001020595A1 (en) * 1999-09-14 2001-03-22 Fujitsu Limited Voice encoder/decoder
US6594626B2 (en) 1999-09-14 2003-07-15 Fujitsu Limited Voice encoding and voice decoding using an adaptive codebook and an algebraic codebook

Also Published As

Publication number Publication date
JP3057907B2 (en) 2000-07-04

Similar Documents

Publication Publication Date Title
JP3346765B2 (en) Audio decoding method and audio decoding device
US5953697A (en) Gain estimation scheme for LPC vocoders with a shape index based on signal envelopes
JP3180762B2 (en) Audio encoding device and audio decoding device
JPH0353300A (en) Sound encoding and decoding system
JPH09160596A (en) Voice coding device
JP2005326868A (en) Speech decoding method and apparatus
JP3531780B2 (en) Voice encoding method and decoding method
JP3303580B2 (en) Audio coding device
JPH0782360B2 (en) Speech analysis and synthesis method
JPH05346798A (en) Voice encoding device
JP2956068B2 (en) Audio encoding / decoding system
JP3003531B2 (en) Audio coding device
JPS6238500A (en) Highly efficient voice coding system and apparatus
JP3319396B2 (en) Speech encoder and speech encoder / decoder
JP3178732B2 (en) Audio coding device
JP4800285B2 (en) Speech decoding method and speech decoding apparatus
JP3232701B2 (en) Audio coding method
JPH0258100A (en) Voice encoding and decoding method, voice encoder, and voice decoder
JP3410931B2 (en) Audio encoding method and apparatus
JP2001142499A (en) Speech encoding device and speech decoding device
JP3166697B2 (en) Audio encoding / decoding device and system
JP3515216B2 (en) Audio coding device
JP3071800B2 (en) Adaptive post filter
JP2817196B2 (en) Audio coding method
JP2844672B2 (en) Vocal vocal tract type speech analyzer

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080421

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090421

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100421

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110421

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120421

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees