JPH05108098A - Speech encoding device - Google Patents

Speech encoding device

Info

Publication number
JPH05108098A
JPH05108098A JP3267840A JP26784091A JPH05108098A JP H05108098 A JPH05108098 A JP H05108098A JP 3267840 A JP3267840 A JP 3267840A JP 26784091 A JP26784091 A JP 26784091A JP H05108098 A JPH05108098 A JP H05108098A
Authority
JP
Japan
Prior art keywords
pulse
sound source
component
noise
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3267840A
Other languages
Japanese (ja)
Other versions
JP3178732B2 (en
Inventor
Koji Yoshida
田 幸 司 吉
正 ▲吉▼田
Tadashi Yoshida
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP26784091A priority Critical patent/JP3178732B2/en
Publication of JPH05108098A publication Critical patent/JPH05108098A/en
Application granted granted Critical
Publication of JP3178732B2 publication Critical patent/JP3178732B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To obtain a speech of high quality even when the bit rate is low. CONSTITUTION:For the generation of a driving sound source which generates a synthesized speech having minimum distortion for a weighted input speech obtained by an auditory weighting filter 11, a sound source switch 15 selects a sound source having small distortion between a pulse sound source outputted by a pulse sound source generator 13 and a noise sound source outputted by a probable code book 14 and outputs it from an adaptive code book 12, and a driving sound source generator 16 generates the driving sound source. The pulse component and noise component of the adaptive code book 12 are separated and stored in an adaptive code book pulse component storage unit and an adaptive code book noise component storage unit and a pulse and noise component gain controller may control the gains of the pulse component and noise component to optimum gains.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、ディジタル通信、ボイ
スメール等に利用する音声符号化装置に関するものであ
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice coding device used for digital communication, voice mail and the like.

【0002】[0002]

【従来の技術】近年、4.8〜8.0kb/s程度の低
ビットレートにおける音声符号化装置は、図3に示すよ
うなCELP(Code Excited Linear Prediction Coder
)と呼ばれる音声符号化装置が広く用いられている。
2. Description of the Related Art In recent years, a speech coding apparatus at a low bit rate of about 4.8 to 8.0 kb / s has a CELP (Code Excited Linear Prediction Coder) as shown in FIG.
) Is widely used.

【0003】以下、従来のこの種の音声符号化装置につ
いて説明する。図3において、31は入力音声の聴覚重
み付けを行なう聴覚重み付けフィルタであり、重み付き
入力音声を出力する。32は適応コードブックであり、
過去の駆動音源を蓄えている。33は確率的コードブッ
クであり、複数の雑音音源を予め保持している。34は
適応コードブック32と確率的コードブック33とから
駆動音源信号を生成する駆動音源生成器である。35は
駆動音源を入力として重み付き合成音声を生成する重み
付き合成フィルタである。36は重み付き入力音声に対
する重み付き合成音声の歪を計算し、この歪が最も小さ
くなるような長期予測遅延とゲイン、確率的コードブッ
ク中の代表ベクトルとゲインを出力する歪最小化器であ
る。
A conventional speech coding apparatus of this type will be described below. In FIG. 3, reference numeral 31 is a perceptual weighting filter that performs perceptual weighting of the input voice, and outputs a weighted input voice. 32 is an adaptive codebook,
Stores past driving sound sources. Reference numeral 33 is a stochastic codebook, which holds a plurality of noise sound sources in advance. A driving sound source generator 34 generates a driving sound source signal from the adaptive codebook 32 and the stochastic codebook 33. Reference numeral 35 is a weighted synthesis filter that generates a weighted synthesized speech with the driving sound source as an input. Reference numeral 36 is a distortion minimizer that calculates the distortion of the weighted synthesized speech with respect to the weighted input speech, and outputs the long-term prediction delay and gain that minimize this distortion, and the representative vector and gain in the stochastic codebook. ..

【0004】以上のように構成された音声符号化装置に
ついて、以下その動作について説明する。まず、聴覚重
み付きフィルタ31で重み付き入力音声v[n]を求め
る。CELP符号化装置は、これに最も近い重み付き合
成音声を生成するような駆動音源e[n]を符号化する
ものである。ここで、駆動音源はe[n]は次式のよう
に、適応コードブック32の出力である長期予測信号a
[n−L]と確率的コードブック33中のベクトルcI
[n]からなる。
The operation of the speech coding apparatus configured as described above will be described below. First, the perceptual weighting filter 31 obtains the weighted input voice v [n]. The CELP encoding device encodes the driving sound source e [n] that generates the weighted synthesized speech closest to the CELP encoding device. Here, in the driving sound source, e [n] is a long-term predicted signal a which is an output of the adaptive codebook 32 as shown in the following equation.
[N−L] and the vector c I in the probabilistic codebook 33.
It consists of [n].

【0005】 e[n]=β・a[n−L]+γ・cI [n] ・・・・(1)E [n] = β · a [n−L] + γ · c I [n] ... (1)

【0006】実際には、両成分を同時に決定するのは困
難であり、通常、適応コードブック32から長期予測成
分のみをまず歪最小化器36により決定し(適応コード
ブック探索)、過去の駆動信号をどれだけ遡るかを示す
長期予測遅延Lと最適ゲインβを出力する。次に、残り
の歪が最小となるように確率的コードブック33により
歪最小化し(確率的コードブック探索)、選ばれた代表
コードブックの番号Iと最適ゲインγを出力する。
In practice, it is difficult to determine both components at the same time. Usually, only the long-term predicted component is first determined from the adaptive codebook 32 by the distortion minimizer 36 (adaptive codebook search), and past driving is performed. It outputs a long-term predicted delay L indicating how far back the signal is going and an optimum gain β. Next, the distortion is minimized by the stochastic codebook 33 so as to minimize the remaining distortion (stochastic codebook search), and the selected representative codebook number I and the optimum gain γ are output.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、上記従
来の音声符号化装置では、4.8kb/s程度以下の低
ビットレートでは、駆動音源信号の生成の性能が下がる
に伴い、その過去の駆動音源信号を蓄えた適応コードブ
ックからの長期予測成分の生成にも性能の劣化が生じ、
特にパルス性のピッチ周期音源を持つ有声音で顕著な音
声品質の劣化が生じるという問題を有していた。
However, in the above-mentioned conventional speech coding apparatus, at a low bit rate of about 4.8 kb / s or less, as the driving sound source signal generation performance deteriorates, the past driving sound source becomes worse. Performance degradation also occurs in the generation of long-term prediction components from the adaptive codebook that stores signals,
In particular, there is a problem that a voiced sound having a pulsed pitch period sound source causes a remarkable deterioration in voice quality.

【0008】本発明は、上記従来の問題を解決するもの
であり、低ビットレートでも、パルス性のピッチ周期音
源を持つ有声音での音声品質の劣化を抑えた優れた音声
符号化装置を提供することを目的とするものである。
The present invention solves the above-mentioned conventional problems, and provides an excellent speech coding apparatus which suppresses deterioration of speech quality of voiced sound having a pulse-like pitch period sound source even at a low bit rate. The purpose is to do.

【0009】本発明の他の目的は、長期予測信号のパル
スと雑音成分のゲインを制御することにより、高い音声
品質を有する音声符号化装置を提供することである。
Another object of the present invention is to provide a speech coder having high speech quality by controlling the gains of pulses and noise components of a long-term predicted signal.

【0010】[0010]

【課題を解決するための手段】本発明は、上記目的を達
成するために、確率的コードブックに加えて、パルス音
源を生成するパルス音源生成器と、このパルス音源生成
器から生成されたパルス音源または確率的コードブック
から生成された雑音音源のいずれかを選択する音源切り
替え器とを備え、低ビットレートでも、パルス性のピッ
チ周期音源を持つ有声音での音声品質の劣化を抑えるよ
うにしたものである。
In order to achieve the above object, the present invention provides, in addition to a stochastic codebook, a pulse sound source generator for generating a pulse sound source, and a pulse generated by the pulse sound source generator. A sound source switch that selects either a sound source or a noise source generated from a stochastic codebook is provided, and it is possible to suppress deterioration of voice quality in voiced sound having a pulse-like pitch period sound source even at a low bit rate. It was done.

【0011】また本発明の他の目的を達成するために、
適応コードブックの代わりに、長期予測信号のパルス成
分を生成する適応コードブックパルス成分格納器と、雑
音成分を生成する適応コードブック雑音成分格納器と、
長期予測のパルス成分および雑音成分のゲインを制御す
るパルス・雑音成分ゲイン制御器とを備え、長期予測信
号のパルスおよび雑音成分のゲインを制御することによ
り高い音声品質を実現するようにしたものである。
In order to achieve another object of the present invention,
Instead of the adaptive codebook, an adaptive codebook pulse component store that generates a pulse component of the long-term prediction signal, an adaptive codebook noise component store that generates a noise component,
It is equipped with a pulse / noise component gain controller that controls the gain of the pulse component and noise component of the long-term prediction, and realizes high voice quality by controlling the gain of the pulse and noise component of the long-term prediction signal. is there.

【0012】[0012]

【作用】したがって、本発明によれば、パルス音源生成
器の出力であるパルス音源と確率的コードブックから生
成される雑音音源のいずれか最適な音源を音源切り替え
器により選択することにより、低ビットレートでも、パ
ルス性のピッチ周期音源を持つ有声音でパルス成分を生
成することができ、音声品質の劣化を抑えた符号化が行
なえるという効果を有する。
Therefore, according to the present invention, by selecting the optimum sound source of the pulse sound source which is the output of the pulse sound source generator and the noise sound source generated from the stochastic codebook by the sound source switching unit, low bit Even at the rate, it is possible to generate a pulse component with a voiced sound having a pulse-like pitch period sound source, and it is possible to perform encoding while suppressing deterioration of voice quality.

【0013】また本発明によれば、長期予測器に設けら
れたパルス・雑音成分ゲイン制御器により、長期予測信
号のパルスおよび雑音成分のゲインを最適に制御するこ
とにより、高い音声品質を有する音声符号化が行なえる
という効果を有する。
Further, according to the present invention, the pulse / noise component gain controller provided in the long-term predictor optimally controls the gains of the pulse and noise components of the long-term predictive signal, so that the voice having high voice quality is obtained. It has an effect that encoding can be performed.

【0014】[0014]

【実施例】図1は本発明の第1の実施例の構成を示すも
のである。図1において、11は入力音声の聴覚重み付
けを行なう聴覚重み付けフィルタ、12は過去の駆動音
源を蓄える適応コードブック、13はパルス音源を生成
するパルス音源生成器、14は複数の雑音音源を保持し
ている確率的コードブック、15はパルス音源生成器1
3または確率的コードブック14から生成された音源の
いずれかを選択する音源切り替え器、16はパルス音源
生成器13または確率的コードブック14のいずれかか
ら選択された音源と適応コードブック12の出力とから
駆動音源を生成する駆動音源生成器、17は駆動音源か
ら重み付き合成音声を生成する重み付き合成フィルタ、
18は重み付き入力音声と重み付き合成音声との歪を計
算し、その歪が最小となるような長期予測遅延とパルス
位置または確率的コードブック符号およびこれらのゲイ
ンを出力する歪最小化器である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows the configuration of the first embodiment of the present invention. In FIG. 1, 11 is a perceptual weighting filter for perceptually weighting input speech, 12 is an adaptive codebook for storing past driving sound sources, 13 is a pulse sound source generator for generating pulse sound sources, and 14 is a plurality of noise sound sources. Probabilistic codebook, 15 is pulse generator 1
3 or a sound source switcher for selecting one of the sound sources generated from the probabilistic codebook 14, 16 is the sound source selected from either the pulse sound source generator 13 or the stochastic codebook 14, and the output of the adaptive codebook 12. And a driving sound source generator that generates a driving sound source from, and 17 is a weighted synthesis filter that generates a weighted synthetic speech from the driving sound source,
Reference numeral 18 denotes a distortion minimizer that calculates distortion between the weighted input speech and the weighted synthesized speech, and outputs a long-term prediction delay and a pulse position or a stochastic codebook code that minimize the distortion and their gains. is there.

【0015】次に上記第1の実施例の動作について説明
する。まず、聴覚重み付けフィルタ11で重み付き入力
音声v[n]を求め、以後これに最も近い重み付き合成
音声を生成する駆動音源e[n]を符号化する。ここ
で、駆動音源生成器16で生成される駆動音源e[n]
は、適応コードブック12の出力の長期予測信号a[n
−L]、パルス音源生成器13で生成されたパルス成分
M [n]または確率的コードブック14から雑音成分
I [n]からなり、以下の式で表わされる。 e[n]=β・a[n−L]+γP ・pM [n] ・・・・(2) または、 e[n]=β・a[n−L]+γN ・cI [n] ・・・・(3) ここで、pM [n]は位置Mからピッチ周期間隔で単一
インパルスを持つパルス列、β、γP 、γN はそれぞれ
長期予測、パルス、白色雑音成分のゲインである。
Next, the operation of the first embodiment will be described. First, the perceptual weighting filter 11 obtains the weighted input voice v [n], and thereafter, the driving sound source e [n] that produces the closest weighted synthesized voice is encoded. Here, the driving sound source e [n] generated by the driving sound source generator 16
Is the long-term prediction signal a [n of the output of the adaptive codebook 12
-L], the pulse component p M [n] generated by the pulse source generator 13 or the noise component c I [n] from the stochastic codebook 14, and is represented by the following equation. e [n] = β · a [n−L] + γ P · p M [n] ··· (2) or e [n] = β · a [n−L] + γ N · c I [n ] (3) where p M [n] is a pulse train having a single impulse from the position M at pitch period intervals, β, γ P , and γ N are long-term prediction, pulse, and gain of white noise component, respectively. Is.

【0016】上記式(2)および(3)は、いずれも2
つの成分を同時に決定することは困難であり、まず、適
応コードブック12の長期予測信号をその聴覚重み付き
合成音声の歪最小化により決定し、過去の駆動信号のど
の部分を用いるかを示す長期予測遅延Lと最適ゲインβ
を出力する。次に、長期予測信号決定後の歪に対して、
式(2)および(3)のそれぞれに対応して、パルス音
源または雑音音源により歪最小化を行ない、歪の小さい
方の音源をその符号化区間で音源として選択し、それが
パルス音源であればパルス位置Mと最適ゲインγP 、雑
音音源であれば選ばれた雑音ベクトルの番号Iと最適ゲ
インγN を出力する。
The above equations (2) and (3) are both 2
It is difficult to determine the two components at the same time. First, the long-term prediction signal of the adaptive codebook 12 is determined by distortion minimization of the perceptually weighted synthetic speech, and a long-term indication indicating which part of the past drive signal is used. Prediction delay L and optimal gain β
Is output. Next, for the distortion after determining the long-term predicted signal,
Corresponding to equations (2) and (3), distortion minimization is performed by a pulse sound source or a noise sound source, and the sound source with the smaller distortion is selected as the sound source in the coding section. For example, the pulse position M and the optimum gain γ P , and if it is a noise source, the selected noise vector number I and the optimum gain γ N are output.

【0017】このように上記第1の実施例によれば、長
期予測信号決定後の歪に対して、パルス音源または雑音
音源のいずれか歪の小さい音源を選択することにより、
パルス性のピッチ周期音源を持つ有声音でパルス成分を
生成することができ、低ビットレートでも音声品質の劣
化を抑えた符号化が行なえる効果を有する。
As described above, according to the first embodiment, with respect to the distortion after the determination of the long-term predicted signal, either the pulse sound source or the noise sound source having a small distortion is selected,
It is possible to generate a pulse component with a voiced sound having a pulse-like pitch period sound source, and it is possible to perform encoding while suppressing deterioration of voice quality even at a low bit rate.

【0018】図2は本発明の第2の実施例の構成を示す
ものである。図2において、21は適応コードブックの
パルス成分を持つ適応コードブックパルス成分格納器、
22は適応コードブックの雑音成分を持つ適応コードブ
ック雑音成分格納器、23は長期予測信号のパルスおよ
び雑音成分のゲインを制御するパルス・雑音成分ゲイン
制御器であり、他は第1の実施例と同じ構成である。す
なわち、24はパルス音源を生成するパルス音源生成
器、25は複数の雑音音源を保持している確率的コード
ブック、26はパルス音源生成器24または確率的コー
ドブック25から生成された音源のいずれかを選択する
音源切り替え器、27はパルス音源生成器24または確
率的コードブック25のいずれかから選択された音源と
パルス・雑音成分ゲイン制御器23の出力とから駆動音
源を生成する駆動音源生成器、28は駆動音源から重み
付き合成音声を生成する重み付き合成フィルタ、29は
重み付き入力音声と重み付き合成音声との歪を計算し、
その歪が最小となるような長期予測遅延とパルス位置ま
たは確率的コードブック符号およびこれらのゲインを出
力する歪最小化器、30は入力音声の聴覚重み付けを行
なう聴覚重み付けフィルタである。
FIG. 2 shows the configuration of the second embodiment of the present invention. In FIG. 2, reference numeral 21 denotes an adaptive codebook pulse component storage unit having an adaptive codebook pulse component,
Reference numeral 22 is an adaptive codebook noise component storage having a noise component of the adaptive codebook, 23 is a pulse / noise component gain controller for controlling the gain of the pulse and noise components of the long-term prediction signal, and the others are the first embodiment. It has the same configuration as. That is, 24 is a pulse source generator that generates a pulse source, 25 is a stochastic codebook that holds a plurality of noise sources, and 26 is either a pulse source generator 24 or a source generated from the stochastic codebook 25. A sound source switching unit for selecting whether or not, 27 is a drive sound source generation for generating a drive sound source from the sound source selected from either the pulse sound source generator 24 or the stochastic codebook 25 and the output of the pulse / noise component gain controller 23. , 28 is a weighted synthesis filter that generates a weighted synthesized speech from the driving sound source, 29 is a distortion between the weighted input speech and the weighted synthesized speech,
A distortion minimizer that outputs a long-term prediction delay and a pulse position or a probabilistic codebook code that minimizes the distortion and their gains, and 30 is a perceptual weighting filter that performs perceptual weighting of input speech.

【0019】次に上記第2の実施例の動作について説明
する。第1の実施例と同様に重み付き入力音声に最も近
い重み付き合成音声を生成する駆動音源e[n]を符号
化するため、まず長期予測信号の歪最小化を行なう。そ
の際、第2の実施例では、長期予測信号aS [n]をパ
ルス成分aP [n−L]と雑音成分aN [n−L]の和
で以下の式で表現し、長期予測遅延Lおよびそれぞれの
成分のゲインβP 、β N を決定する。 aS [n]=βP ・aP [n−L]+βN ・aN [n−L] ・・・(4)
Next, the operation of the second embodiment will be described.
To do. The closest to the weighted input speech as in the first embodiment.
Code the driving sound source e [n] that generates a weighted synthetic speech
First, the distortion of the long-term predicted signal is minimized. So
At this time, in the second embodiment, the long-term predicted signal aS[N]
Ruth component aP[N-L] and noise component aNSum of [n-L]
And the long-term prediction delay L and
Component gain βP, Β NTo decide. aS[N] = βP・ AP[N-L] + βN・ AN[N-L] (4)

【0020】長期予測遅延Lおよびそれぞれの成分のゲ
インβP 、βN の決定法の一例として、まずβP =βN
として長期予測遅延Lを求め、そのLに対して、以下の
式(5)で示される入力音声との重み付き二乗誤差Eを
最小にするような、最適なパルス成分ゲインβPおよび
雑音成分ゲインβN を決定する。 E=Σ{p[n]−βP ・bP [n]−βN ・bN [n]}2 →Min ・・・(5) p[n]:聴覚重み付き入力音声 bP [n]:適応コードブックパルス成分出力の聴覚重
み付き合成音声 βP : パルス成分ゲイン bN [n]:適応コードブック雑音成分出力の重み付き
合成音声 βN :雑音成分ゲイン
As an example of the method of determining the long-term prediction delay L and the gains β P and β N of each component, first, β P = β N
As a long-term prediction delay L, the optimum pulse component gain β P and noise component gain that minimize the weighted squared error E with respect to the input voice expressed by the following equation (5) are obtained. Determine β N. E = Σ {p [n] -β P · b P [n] -β N · b N [n]} 2 → Min ··· (5) p [n]: the perceptually weighted input speech b P [n ]: Adaptive codebook pulse component output auditory weighted synthesized speech β P : Pulse component gain b N [n]: Adaptive codebook noise component output weighted synthesized speech β N : Noise component gain

【0021】上記式においてEが最小になるように
βP 、βN について解くことにより、最適なβP 、βN
が以下のように求められる。
By solving for β P and β N so that E becomes minimum in the above equation, the optimum β P and β N
Is calculated as follows.

【0022】[0022]

【数1】 [Equation 1]

【0023】なお、適応コードブックの長期予測成分の
歪最小化後は、第1の実施例と同様に長期予測成分決定
後の歪に対して、パルス音源または雑音音源のいずれか
歪の小さい音源を選択する。また、適応コードブックの
更新は、パルス成分および雑音成分のそれぞれを別々に
行ない、選択された音源がパルス音源であれば、適応コ
ードブックのパルス成分の更新に使用し、雑音音源であ
れば雑音成分の更新に使用する。
After the distortion of the long-term prediction component of the adaptive codebook is minimized, the pulse source or the noise source, which has a small distortion, is the same as the first embodiment. Select. Also, the adaptive codebook is updated separately for each of the pulse component and the noise component. If the selected sound source is a pulse sound source, it is used for updating the pulse component of the adaptive codebook. Used to update the ingredients.

【0024】このように上記第2の実施例によれば、適
応コードブックをパルス成分と雑音成分とに分離して格
納することにより、長期予測信号のパルス成分と雑音成
分のゲインを最適に制御することができ、これにより高
い音声品質を有する音声符号化が行なえるという効果を
有する。
As described above, according to the second embodiment, the gain of the pulse component and the noise component of the long-term prediction signal is optimally controlled by storing the adaptive codebook by separating it into the pulse component and the noise component. This has the effect of enabling speech coding with high speech quality.

【0025】[0025]

【発明の効果】本発明は、上記実施例から明らかなよう
に、長期予測成分決定後の歪に対して、パルス成分また
白色雑音成分のいずれか歪の小さい音源を選択すること
により、パルス性のピッチ周期音源を持つ有声音でパル
ス成分を生成することができ、低ビットレートでも音声
品質の劣化を抑えた符号化が行なえるという効果を有す
る。
As is apparent from the above embodiment, the present invention selects the pulse component or the white noise component, which has a small distortion, with respect to the distortion after the determination of the long-term prediction component. It is possible to generate a pulse component with a voiced sound having a pitch period sound source, and it is possible to perform encoding while suppressing deterioration of voice quality even at a low bit rate.

【0026】また本発明によれば、適応コードブックを
パルス成分と雑音成分とに分離して格納することによ
り、長期予測信号のパルス成分と雑音成分のゲインを最
適に制御することができ、これにより高い音声品質を有
する音声符号化が行なえるという効果を有する。
Further, according to the present invention, the gain of the pulse component and the noise component of the long-term prediction signal can be optimally controlled by storing the adaptive codebook by separating it into the pulse component and the noise component. This has the effect of enabling speech coding with higher speech quality.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施例における音声符号化装置
の概略ブロック図
FIG. 1 is a schematic block diagram of a speech encoding apparatus according to a first embodiment of the present invention.

【図2】本発明の第2の実施例における音声符号化装置
の概略ブロック図
FIG. 2 is a schematic block diagram of a speech coder according to a second embodiment of the present invention.

【図3】従来のCELP音声符号化装置の概略ブロック
FIG. 3 is a schematic block diagram of a conventional CELP speech coding apparatus.

【符号の説明】[Explanation of symbols]

11 聴覚重み付けフィルタ 12 適応コードブック 13 パルス音源生成器 14 確率的コードブック 15 音源切り替え器 16 駆動音源生成器 17 重み付き合成フィルタ 18 歪最小化器 21 適応コードブックパルス成分格納器 22 適応コードブック雑音成分格納器 23 パルス・雑音成分ゲイン制御器 24 パルス音源生成器 25 確率的コードブック 26 音源切り替え器 27 駆動音源生成器 28 重み付き合成フィルタ 29 歪最小化器 30 聴覚重み付けフィルタ 11 Auditory Weighting Filter 12 Adaptive Codebook 13 Pulse Sound Source Generator 14 Stochastic Codebook 15 Sound Source Switcher 16 Driving Sound Source Generator 17 Weighted Synthesis Filter 18 Distortion Minimizer 21 Adaptive Codebook Pulse Component Store 22 Adaptive Codebook Noise Component storage 23 Pulse / noise component gain controller 24 Pulse sound source generator 25 Stochastic codebook 26 Sound source switcher 27 Drive sound source generator 28 Weighted synthesis filter 29 Distortion minimizer 30 Auditory weighting filter

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 一定区間の入力音声の聴覚重み付けを行
ない、重み付き入力音声を生成する聴覚重み付けフィル
タと、過去の駆動音源を蓄える適応コードブックと、パ
ルス音源を生成するパルス音源生成器と、複数の雑音音
源を予め格納する確率的コードブックと、前記パルス音
源生成器または確率的コードブックから生成された音源
のいずれかを選択する音源切り替え器と、前記パルス音
源生成器または確率的コードブックのいずれかから選択
された音源と適応コードブックの出力とから駆動音源を
生成する駆動音源生成器と、前記駆動音源生成器から生
成した駆動音源を入力として音声を合成する重み付き合
成フィルタと、前記重み付き入力音声に対する重み付き
合成音声の誤差の二乗和を計算し、それを最小とする長
期予測遅延、パルス位置または確率的コードブックの符
号、およびそれぞれのゲインを選択してその符号を出力
する歪最小化器とを有する音声符号化装置。
1. A perceptual weighting filter for performing perceptual weighting of input speech in a certain section to generate a weighted input speech, an adaptive codebook for storing past driving sound sources, and a pulse sound source generator for generating pulse sound sources, A stochastic codebook that stores a plurality of noise sources in advance, a sound source switcher that selects one of the pulse sound source generator and the sound source generated from the stochastic codebook, and the pulse sound source generator or the stochastic codebook A driving sound source generator that generates a driving sound source from a sound source selected from any of the following and an output of the adaptive codebook, a weighted synthesis filter that synthesizes speech with the driving sound source generated from the driving sound source generator as an input, Calculate the sum of squares of the error of the weighted synthetic speech with respect to the weighted input speech, and minimize the long-term prediction delay, pulse A speech coder having a position or probabilistic codebook code and a distortion minimizer for selecting respective gains and outputting the code.
【請求項2】 適応コードブックの代わりに、長期予測
信号のパルス成分を格納する適応コードブックパルス成
分格納器と、雑音成分を格納する適応コードブック雑音
生成格納器と、長期予測のパルス成分および雑音生成の
ゲインを制御するパルス・雑音生成ゲイン制御器とを有
し、長期予測信号のパルス成分と雑音成分のゲインを独
立に制御できることを特徴とする請求項1記載の音声符
号化装置。
2. An adaptive codebook pulse component store for storing pulse components of a long-term predicted signal, an adaptive codebook noise generation store for storing noise components, and a pulse component for long-term prediction instead of the adaptive codebook. The speech coding apparatus according to claim 1, further comprising a pulse / noise generation gain controller for controlling a noise generation gain, wherein the gains of the pulse component and the noise component of the long-term prediction signal can be controlled independently.
【請求項3】 パルス・雑音成分ゲイン制御器が、長期
予測信号のパルス成分と雑音成分のゲインを、入力音声
に対する聴覚重み付き二乗誤差を最小にするように決定
することを特徴とする請求項2記載の音声符号化装置。
3. The pulse / noise component gain controller determines the gains of the pulse component and the noise component of the long-term predicted signal so as to minimize the perceptual weighted squared error with respect to the input speech. 2. The audio encoding device according to 2.
JP26784091A 1991-10-16 1991-10-16 Audio coding device Expired - Lifetime JP3178732B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26784091A JP3178732B2 (en) 1991-10-16 1991-10-16 Audio coding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26784091A JP3178732B2 (en) 1991-10-16 1991-10-16 Audio coding device

Publications (2)

Publication Number Publication Date
JPH05108098A true JPH05108098A (en) 1993-04-30
JP3178732B2 JP3178732B2 (en) 2001-06-25

Family

ID=17450356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26784091A Expired - Lifetime JP3178732B2 (en) 1991-10-16 1991-10-16 Audio coding device

Country Status (1)

Country Link
JP (1) JP3178732B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
WO1999021174A1 (en) * 1997-10-22 1999-04-29 Matsushita Electric Industrial Co., Ltd. Sound encoder and sound decoder
US7454328B2 (en) 2000-12-26 2008-11-18 Mitsubishi Denki Kabushiki Kaisha Speech encoding system, and speech encoding method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6454497A (en) * 1987-06-26 1989-03-01 American Telephone & Telegraph Core excitation linear prediction vocoder and method therefor
JPH0333900A (en) * 1989-06-30 1991-02-14 Fujitsu Ltd Voice coding system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6454497A (en) * 1987-06-26 1989-03-01 American Telephone & Telegraph Core excitation linear prediction vocoder and method therefor
JPH0333900A (en) * 1989-06-30 1991-02-14 Fujitsu Ltd Voice coding system

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
US7499854B2 (en) 1997-10-22 2009-03-03 Panasonic Corporation Speech coder and speech decoder
US6415254B1 (en) 1997-10-22 2002-07-02 Matsushita Electric Industrial Co., Ltd. Sound encoder and sound decoder
US7024356B2 (en) 1997-10-22 2006-04-04 Matsushita Electric Industrial Co., Ltd. Speech coder and speech decoder
US7373295B2 (en) 1997-10-22 2008-05-13 Matsushita Electric Industrial Co., Ltd. Speech coder and speech decoder
WO1999021174A1 (en) * 1997-10-22 1999-04-29 Matsushita Electric Industrial Co., Ltd. Sound encoder and sound decoder
US7533016B2 (en) 1997-10-22 2009-05-12 Panasonic Corporation Speech coder and speech decoder
US7546239B2 (en) 1997-10-22 2009-06-09 Panasonic Corporation Speech coder and speech decoder
US7590527B2 (en) 1997-10-22 2009-09-15 Panasonic Corporation Speech coder using an orthogonal search and an orthogonal search method
US7925501B2 (en) 1997-10-22 2011-04-12 Panasonic Corporation Speech coder using an orthogonal search and an orthogonal search method
US8332214B2 (en) 1997-10-22 2012-12-11 Panasonic Corporation Speech coder and speech decoder
US8352253B2 (en) 1997-10-22 2013-01-08 Panasonic Corporation Speech coder and speech decoder
US7454328B2 (en) 2000-12-26 2008-11-18 Mitsubishi Denki Kabushiki Kaisha Speech encoding system, and speech encoding method

Also Published As

Publication number Publication date
JP3178732B2 (en) 2001-06-25

Similar Documents

Publication Publication Date Title
JP2003308100A (en) Algebraic codebook with signal-selected pulse amplitude for fast coding of speech signal
JP2002023796A (en) Variable speed vocoder
JP3416331B2 (en) Audio decoding device
JPH07129195A (en) Sound decoding device
JPH09160596A (en) Voice coding device
JPH0944195A (en) Voice encoding device
EP0500095A2 (en) Speech coding system wherein non-periodic component feedback to periodic signal excitation source is adaptively reduced
JPH05108098A (en) Speech encoding device
JP3329216B2 (en) Audio encoding device and audio decoding device
US8195469B1 (en) Device, method, and program for encoding/decoding of speech with function of encoding silent period
JP3303580B2 (en) Audio coding device
JPH10222197A (en) Voice synthesizing method and code exciting linear prediction synthesizing device
US6842732B2 (en) Speech encoding and decoding method and electronic apparatus for synthesizing speech signals using excitation signals
JP3490325B2 (en) Audio signal encoding method and decoding method, and encoder and decoder thereof
JPH06138898A (en) Voice encoder
JP3845316B2 (en) Speech coding apparatus and speech decoding apparatus
JPH05165497A (en) C0de exciting linear predictive enc0der and decoder
JPH11259098A (en) Method of speech encoding/decoding
JPH08185199A (en) Voice coding device
JP4179232B2 (en) Speech coding apparatus and speech decoding apparatus
JP2004020676A (en) Speech coding/decoding method, and speech coding/decoding apparatus
JP2004109803A (en) Apparatus for speech encoding and method therefor
JPH06130994A (en) Voice encoding method
JPH05315968A (en) Voice encoding device
JPH05346798A (en) Voice encoding device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080413

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090413

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 11