JP3050978B2 - Audio coding method - Google Patents

Audio coding method

Info

Publication number
JP3050978B2
JP3050978B2 JP3335009A JP33500991A JP3050978B2 JP 3050978 B2 JP3050978 B2 JP 3050978B2 JP 3335009 A JP3335009 A JP 3335009A JP 33500991 A JP33500991 A JP 33500991A JP 3050978 B2 JP3050978 B2 JP 3050978B2
Authority
JP
Japan
Prior art keywords
vocal tract
parameter
code
excitation
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3335009A
Other languages
Japanese (ja)
Other versions
JPH05165500A (en
Inventor
浩 桂川
賢一郎 細田
弘美 青柳
義博 有山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3335009A priority Critical patent/JP3050978B2/en
Publication of JPH05165500A publication Critical patent/JPH05165500A/en
Application granted granted Critical
Publication of JP3050978B2 publication Critical patent/JP3050978B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は、音声信号の圧縮符号
化方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for compressing and encoding an audio signal.

【0002】[0002]

【従来の技術】8kビット/秒以下の圧縮率での、音声
信号の高能率符号化方法は、Atal等による、コード
励振線形予測符号化方式(以下CELP)が有効な手法
である。これは音声信号を声道のパラメータと、励振源
のパラメータとによって表現するものであり、また、励
振源のパラメータを統計コードブックと適応コードブッ
クの2つによってベクトル量子化することについては、
次の文献に開示されている。
2. Description of the Related Art A high-efficiency encoding method for audio signals at a compression rate of 8 kbits / sec or less is a code-excited linear prediction encoding method (hereinafter referred to as CELP) by Atal et al. This expresses a voice signal by parameters of a vocal tract and parameters of an excitation source. Regarding vector quantization of parameters of an excitation source by two of a statistical codebook and an adaptive codebook,
It is disclosed in the following document.

【0003】文献名:N.S.Jayant & J.H.Chen,“Speech
Coding with Time-Varying Bit Allocations to Excit
ation and LPC parameters",Proc,ICASSP-89,(1989)
Reference: NSJayant & JHChen, “Speech
Coding with Time-Varying Bit Allocations to Excit
ation and LPC parameters ", Proc, ICASSP-89, (1989)

【0004】[0004]

【発明が解決しようとする課題】音声信号は、定常的な
有声音の区間と、過渡的な無声音の区間に分けて考える
ことができ、両者はその統計的な性質は大きく異なって
いる。CELPによる圧縮符号化に関しても、有声音で
は適応コードブックによる音質に対する寄与が非常に大
きいのに対し、無声音ではその寄与はほとんどなく、む
しろ声道パラメータの精度が重要となる。そのため、効
果的な圧縮符号化のためには、有声音の区間のための符
号化方法と、無声音に対する符号化方法を別々に用意す
ることが望ましい。
A speech signal can be considered to be divided into a stationary voiced section and a transient unvoiced section, and both have significantly different statistical properties. Concerning the compression coding by CELP, the contribution to the sound quality by the adaptive codebook is very large for voiced sounds, but not so much for unvoiced sounds, and the accuracy of vocal tract parameters is rather important. Therefore, for effective compression encoding, it is desirable to separately prepare an encoding method for voiced sound sections and an encoding method for unvoiced sounds.

【0005】従って、本発明は、有声音の場合は適応励
振コードに重点的に情報を配分し、無声音の場合は声道
パラメータに重点的に情報を配分することにより、高品
質・高能率とした音声の圧縮符号化方法を提供せんとす
るものである。
Accordingly, the present invention distributes information mainly to the adaptive excitation code in the case of voiced sounds and distributes information mainly to the vocal tract parameters in the case of unvoiced sounds, thereby achieving high quality and high efficiency. It is intended to provide a method for compression-encoding the speech.

【0006】[0006]

【課題を解決するための手段】本発明は次に示す事項で
特定されるCELPの改良である。
The present invention is an improvement on CELP specified by the following items.

【0007】即ち、本発明は、入力音声信号(ベクト
ル)を線形予測分析して声道パラメータ(ベクトル)を
求める手段を持つ。また、入力音声信号の声道パラメー
タを量子化して、量子化された声道パラメータ(声道主
パラメータ)とそれに対応した声道パラメータコードを
出力する声道パラメータ量子化手段を持つ。また、入力
音声信号の前記声道パラメータと、補間後のもしくは補
間をともなわない量子化された前記声道パラメータとの
誤差を対象として量子化し、量子化された声道補正パラ
メータとそれに対応した声道パラメータ補正コードとを
出力する声道補正パラメータ量子化手段を持つ。また、
過去の入力音声信号の励振源パラメータを表わす適応励
振ベクトルを記憶している適応コードブックと、予め定
められている励振源パラメータである統計励振ベクトル
を記憶している統計コードブックとを持つ。更に、量子
化された声道パラメータと励振源パラメータとに基づい
て合成音声信号を作成し、前記入力音声信号と当該合成
音声信号(ベクトル)との誤差を評価することによっ
て、励振源出力コードを決定する。
That is, the present invention has means for obtaining a vocal tract parameter (vector) by performing linear prediction analysis on an input speech signal (vector). Further, it has a vocal tract parameter quantization means for quantizing the vocal tract parameters of the input voice signal and outputting the quantized vocal tract parameters (vocal tract main parameters) and vocal tract parameter codes corresponding thereto. Further, the vocal tract parameter of the input voice signal is quantized with respect to an error between the vocal tract parameter after interpolation or the quantized vocal tract parameter without interpolation, and the quantized vocal tract correction parameter and the voice corresponding thereto are quantized. Vocal tract correction parameter quantization means for outputting a tract parameter correction code. Also,
It has an adaptive codebook that stores an adaptive excitation vector representing an excitation source parameter of a past input speech signal, and a statistical codebook that stores a statistical excitation vector that is a predetermined excitation source parameter. Further, a synthesized speech signal is created based on the quantized vocal tract parameters and excitation source parameters, and an error between the input speech signal and the synthesized speech signal (vector) is evaluated, whereby an excitation source output code is calculated. decide.

【0008】そして、本発明は、入力音声信号の長周期
分析を行うことによって有声音か無声音かを判別し、有
声音の場合は、量子化された前記声道パラメータと、前
記適応励振ベクトルと前記統計励振ベクトルとの加算ベ
クトルとに基づいて、前記合成音声信号を作成し、且
つ、前記入力音声信号と当該合成音声信号との誤差を評
価することによって適応励振コードと統計励振コードと
を決定する。
According to the present invention, a voiced sound or an unvoiced sound is discriminated by performing a long-period analysis of an input voice signal. In the case of a voiced sound, the quantized vocal tract parameters and the adaptive excitation vector are determined. The adaptive excitation code and the statistical excitation code are determined by creating the synthesized speech signal based on an addition vector of the statistical excitation vector and evaluating an error between the input speech signal and the synthesized speech signal. I do.

【0009】無声音の場合は、量子化された前記声道パ
ラメータと量子化された前記声道補正パラメータとの加
算値と、前記統計励振ベクトルとに基づいて、前記合成
音声信号を作成し、前記入力音声信号と当該合成音声信
号との誤差を評価することによって統計励振コードとを
決定し、有声音か無声音かに応じて、それぞれ前記適応
励振コード及び前記声道パラメータ補正コードの一方を
他のコードと多重化して出力語とする。
In the case of unvoiced sound, the synthesized speech signal is created based on the sum of the quantized vocal tract parameters and the quantized vocal tract correction parameters and the statistical excitation vector. A statistical excitation code is determined by evaluating an error between the input audio signal and the synthesized audio signal, and one of the adaptive excitation code and the vocal tract parameter correction code is replaced with another according to whether a voiced sound or an unvoiced sound is present. The output word is multiplexed with the code.

【0010】また、本発明では、出力語として多重化す
る、声道パラメータコード、及び有声音か無声音かの判
別結果の有声無声識別コードはフレーム毎に更新される
情報とし、且つ声道パラメータ補正コード、適応励振コ
ード及び統計励振コードはサブフレーム毎に更新される
情報とすることができる。
In the present invention, a vocal tract parameter code and a voiced / unvoiced identification code as a result of discrimination between a voiced voice and an unvoiced voice, which are multiplexed as output words, are information updated for each frame, and vocal tract parameter correction is performed. The code, the adaptive excitation code, and the statistical excitation code can be information updated for each subframe.

【0011】[0011]

【作用】本発明の符号化方法では、まず音声の長周期相
関を分析して、有声音か無声音かを判別する。
According to the coding method of the present invention, first, a long-period correlation of a voice is analyzed to determine whether it is a voiced sound or an unvoiced sound.

【0012】有声音であった場合には、適応コードブッ
クを用いて長周期の相関を持つ励振信号ベクトルを符号
化する。
In the case of a voiced sound, an excitation signal vector having a long-period correlation is encoded using an adaptive codebook.

【0013】また、無声音であった場合には、適応コー
ドブックを用いず、その替わりに、声道パラメータの補
正を行うコードブックを用いて、声道パラメータの量子
化、補間などによる誤差を符号化する。
In the case of unvoiced sound, an adaptive codebook is not used. Instead, a codebook for correcting vocal tract parameters is used to code errors due to quantization and interpolation of vocal tract parameters. Become

【0014】また、有声無声識別コードはフレーム毎に
更新させてもサブフレーム毎に更新されてもよく、前者
の場合は、補間処理を後段に持ってこれるため、声道パ
ラメータの見通しが容易であり、そのコードブックの作
成に従来ものが利用できる利点がある。
The voiced / unvoiced identification code may be updated for each frame or for each subframe. In the former case, the interpolation processing is brought to the subsequent stage, so that the vocal tract parameters can be easily viewed. There is an advantage that a conventional one can be used for creating the codebook.

【0015】[0015]

【実施例】図1に本発明を適用した符号器のブロック図
を示す。
FIG. 1 is a block diagram showing an encoder to which the present invention is applied.

【0016】図1において、A/D変換された入力音声
信号系列は、特定のフレーム長単位で入力され、声道分
析器101で入力音声信号は声道分析され、声道パラメ
ータを求める。入力音声信号の声道パラメータは声道パ
ラメータ量子化器102で内臓の量子化テーブルを用い
て量子化される。
In FIG. 1, an A / D-converted input speech signal sequence is inputted in units of a specific frame length, and the vocal tract analyzer 101 analyzes the input speech signal to obtain vocal tract parameters. The vocal tract parameters of the input voice signal are quantized by a vocal tract parameter quantizer 102 using a built-in quantization table.

【0017】量子化された声道パラメータP1に対応し
た声道パラメータコードC1は各フレームで1回、多重
化器113に送られる。
The vocal tract parameter code C1 corresponding to the quantized vocal tract parameter P1 is sent to the multiplexer 113 once in each frame.

【0018】また、量子化された声道パラメータP1は
補間器103で、フレームをさらに分割したサブフレー
ム単位に補間されて用いられる(声道補間パラメータP
h)。
The quantized vocal tract parameter P1 is used by the interpolator 103 after being interpolated in subframe units obtained by further dividing the frame (the vocal tract interpolation parameter P1).
h).

【0019】現サブフレームで用いられる声道パラメー
タは量子化、および補間による誤差を含んでいる。そこ
で、サブフレーム毎に声道の分析をやりなおして、現サ
ブフレームで分析の結果得られた、誤差を含まない声道
パラメータとの差から、その誤差を減算器114で求
め、その誤差を声道補正パラメータ量子化器104で内
臓の量子化テーブルを用いて量子化し、声道補正パラメ
ータP2を求めておく。
The vocal tract parameters used in the current subframe include errors due to quantization and interpolation. Therefore, the vocal tract analysis is performed again for each subframe, and the difference is obtained by the subtractor 114 from the difference from the vocal tract parameter containing no error obtained as a result of the analysis in the current subframe. The vocal tract correction parameter quantizer 104 quantizes the vocal tract using a built-in quantization table to obtain a vocal tract correction parameter P2.

【0020】なお、無声音の場合は、声道補正パラメー
タP2に対応した声道パラメータ補正コードC2が、各
サブフレームに1回、多重化器113に送られる。
In the case of an unvoiced sound, a vocal tract parameter correction code C2 corresponding to the vocal tract correction parameter P2 is sent to the multiplexer 113 once for each subframe.

【0021】また、長周期分析器105は、入力音声信
号の長周期の相関を計算し、各サブフレーム毎に、現時
刻の入力音声信号の区間が有声音であるか、無声音であ
るかを判別し、その有声無声識別コードC3を多重化器
113に送る。
The long-period analyzer 105 calculates the long-period correlation of the input speech signal, and determines whether the section of the input speech signal at the current time is a voiced sound or an unvoiced sound for each subframe. It discriminates and sends the voiced / unvoiced identification code C3 to the multiplexer 113.

【0022】有声音であると判別した場合には、スイッ
チ106を閉じ、スイッチ107を開き、適応コードブ
ック108からの適応励振ベクトルと、統計コードブッ
ク109からの統計励振ベクトルを加算器115で加算
して励振ベクトルを構成し、その励振ベクトルから、補
正を受けない声道補間パラメータPhを用いた合成フィ
ルタ110で合成音声信号を合成し、その合成音声信号
と入力音声信号との誤差を、減算器116と誤差計算器
111とで計算する。
If it is determined that the sound is a voiced sound, the switch 106 is closed, the switch 107 is opened, and the adaptive excitation vector from the adaptive codebook 108 and the statistical excitation vector from the statistical codebook 109 are added by the adder 115. To synthesize an synthesized speech signal from the excitation vector by the synthesis filter 110 using the vocal tract interpolation parameter Ph which is not corrected, and subtracts an error between the synthesized speech signal and the input speech signal. Is calculated by the calculator 116 and the error calculator 111.

【0023】誤差計算器111で得られた誤差から、最
小誤差選択器112で最適な適応励振ベクトルと最適な
統計励振ベクトルを選択する。
From the errors obtained by the error calculator 111, an optimal adaptive excitation vector and an optimal statistical excitation vector are selected by a minimum error selector 112.

【0024】統計励振ベクトルに対応した統計励振コー
ドC4と適応励振ベクトルに対応した適応励振コードC
5とは、各サブフレーム毎に、多重化器113に送られ
る。
The statistical excitation code C4 corresponding to the statistical excitation vector and the adaptive excitation code C corresponding to the adaptive excitation vector
5 is sent to the multiplexer 113 for each subframe.

【0025】また、無声音と判別した場合には、スイッ
チ106を開き、スイッチ107を閉じて、統計コード
ブック109からの統計励振ベクトルのみで励振ベクト
ルを構成し、また、声道パラメータP1と声道補正パラ
メータP2とを加算器117で加算して補正された声道
パラメータを作成し、統計励振のみの励振ベクトルと補
正された声道パラメータを用いた合成フィルタ110で
合成音声信号を合成し、誤差計算器111で入力音声信
号との誤差を求める。
When it is determined that the sound is unvoiced, the switch 106 is opened, the switch 107 is closed, and the excitation vector is constituted only by the statistical excitation vector from the statistical codebook 109. The vocal tract parameter P1 and the vocal tract parameter The correction parameter P2 is added by the adder 117 to generate a corrected vocal tract parameter, and the synthesized speech signal is synthesized by the synthesis filter 110 using the excitation vector of only the statistical excitation and the corrected vocal tract parameter, and the error The calculator 111 calculates an error from the input voice signal.

【0026】無声音の場合には、最小誤差選択器112
は統計コードブック109についてのみ最適な励振ベク
トルを選択する。
In the case of unvoiced sound, the minimum error selector 112
Selects the optimal excitation vector only for the statistical codebook 109.

【0027】多重化器113は以上のように得られた、
声道パラメータコードP1と、有声無声識別コードC3
と、統計励振コードC5と、また、有声音の場合は、適
応励振コードC2とを、また、無声音の場合は、声道パ
ラメータ補正コードC2とを、多重化して通信回線に送
信する。
The multiplexer 113 is obtained as described above.
Vocal tract parameter code P1 and voiced unvoiced identification code C3
, A statistical excitation code C5, an adaptive excitation code C2 for voiced sound, and a vocal tract parameter correction code C2 for unvoiced sound, and transmit them to the communication line.

【0028】なお、この例では、声道パラメータコード
C1のみフレーム毎の情報であり、他のコードC2〜C
5はサブフレーム毎の情報である。
In this example, only the vocal tract parameter code C1 is information for each frame, and the other codes C2 to C
5 is information for each subframe.

【0029】図2に、図1の符号化器に対応した復号化
器のブロック図を示す。
FIG. 2 shows a block diagram of a decoder corresponding to the encoder of FIG.

【0030】図2において、多重分離器201は通信回
線から受け取った符号語を、声道パラメータC1、有声
無声識別コードC3、統計励振コードC5、および適応
励振コードC4、もしくは声道補正パラメータコードC
2に分離し、復号器の各部に送る。そのとき、もし有声
音であればスイッチ202を適応コードブック205に
つなぎ、無声音であれば声道補正パラメータ逆量子化器
204につなぐ。
In FIG. 2, a demultiplexer 201 converts a codeword received from a communication line into a vocal tract parameter C1, a voiced unvoiced identification code C3, a statistical excitation code C5, an adaptive excitation code C4, or a vocal tract correction parameter code C4.
2 and sent to each part of the decoder. At this time, the switch 202 is connected to the adaptive codebook 205 if voiced, and to the vocal tract correction parameter inverse quantizer 204 if unvoiced.

【0031】声道パラメータコードC1は声道パラメー
タ逆量子化器203で逆量子化され、声道パラメータP
1となる。さらに、声道パラメータP1は補間器207
で各サブフレーム単位に補間される。
The vocal tract parameter code C1 is inversely quantized by the vocal tract parameter inverse quantizer 203, and the vocal tract parameter P
It becomes 1. Further, the vocal tract parameter P1 is
Is interpolated for each subframe.

【0032】有声無声識別コードC3が有声音を示して
いる場合には、スイッチ210を閉じ、スイッチ209
を開いて、適応コードブック205からの、適応励振コ
ードC4に対応する最適な適応励振ベクトルと、統計コ
ードブック206からの、統計励振コードC5に対応す
る最適な統計励振ベクトルを加算器211で足し合わせ
て、励振ベクトルを構成し、補正を受けない声道補間パ
ラメータPhを用いた合成フィルタ208で再生音声出
力を合成する。
When the voiced / unvoiced identification code C3 indicates a voiced sound, the switch 210 is closed and the switch 209 is closed.
And add the optimal adaptive excitation vector corresponding to the adaptive excitation code C4 from the adaptive codebook 205 and the optimal statistical excitation vector corresponding to the statistical excitation code C5 from the statistical codebook 206 by the adder 211. In addition, an excitation vector is formed, and the reproduced voice output is synthesized by the synthesis filter 208 using the vocal tract interpolation parameter Ph that is not corrected.

【0033】逆に、有声無声識別コードC3が無声音を
示している場合には、スイッチ210を聞き、スイッチ
209を閉じて、声道補正パラメータ逆量子化器204
で、声道補正パラメータコードC2を逆量子化して声道
補正パラメータP2を求め、声道パラメータPhを加算
器212で補正する。そして、統計コードブック206
からの、統計励振コードC5に対応する最適な統計励振
ベクトルのみから励振ベクトルを構成し、補正された声
道パラメータを用いた合成フィルタ208で再生音声出
力を合成する。
Conversely, when the voiced unvoiced identification code C3 indicates an unvoiced sound, the switch 210 is heard, the switch 209 is closed, and the vocal tract correction parameter inverse quantizer 204
Then, the vocal tract correction parameter code C2 is inversely quantized to obtain a vocal tract correction parameter P2, and the vocal tract parameter Ph is corrected by the adder 212. And the statistical code book 206
, An excitation vector is formed only from the optimal statistical excitation vector corresponding to the statistical excitation code C5, and the reproduced sound output is synthesized by the synthesis filter 208 using the corrected vocal tract parameters.

【0034】図3は、本発明を適用した他の符号化器の
ブロック図を示す。図1の例と異なるのは、有声無声識
別をフレーム単位で行い、サブフレーム単位で行わない
ことである。
FIG. 3 is a block diagram showing another encoder to which the present invention is applied. The difference from the example of FIG. 1 is that voiced / unvoiced identification is performed in units of frames and not in units of subframes.

【0035】図3において、A/D変換された入力音声
信号系列は、特定のフレーム長単位で入力される。
In FIG. 3, the input audio signal sequence that has been subjected to A / D conversion is input in units of a specific frame length.

【0036】まず、声道分析器101で入力音声信号は
声道分析され、声道パラメータを求める。長周期分析器
105は、入力音声信号の長周期の相関を計算し、現時
刻の入力音声信号の区間が有声音であるか、無声音であ
るかを判別する。その判別(C3)はフレーム単位で行
う。
First, the input voice signal is analyzed by the vocal tract analyzer 101 to obtain vocal tract parameters. The long-period analyzer 105 calculates a long-period correlation of the input voice signal, and determines whether the section of the input voice signal at the current time is a voiced sound or an unvoiced sound. The determination (C3) is performed in frame units.

【0037】入力音声信号の声道パラメータは声道パラ
メータ量子化器102で量子化される。量子化された声
道パラメータはP1は各フレームで1回、多重化器11
3に送られる。
The vocal tract parameters of the input speech signal are quantized by a vocal tract parameter quantizer 102. The quantized vocal tract parameters are P1 once in each frame,
Sent to 3.

【0038】有声音無声音判別の結果C3が無声音であ
る場合には、量子化される前の声道パラメータと量子化
された後の声道パラメータP1との差から、その誤差を
減算器314で求め、その誤差を声道補正パラメータ量
子化器304で量子化し、サブフレーム毎に声道補正パ
ラメータP2を求めておく。
If the result of the voiced / unvoiced sound discrimination C3 is unvoiced, the difference between the vocal tract parameter before quantization and the vocal tract parameter P1 after quantization is subtracted by a subtractor 314 from the difference between the vocal tract parameter before quantization and the vocal tract parameter P1 after quantization. The error is quantized by a vocal tract correction parameter quantizer 304, and a vocal tract correction parameter P2 is obtained for each subframe.

【0039】有声音の場合には、スイッチ307を開
き、量子化された声道パラメータを補間器303で、フ
レームをさらに分割したサブフレーム単位に補間して用
い、無声音の場合には、スイッチ307を閉じ、量子化
された声道パラメータP1と声道補正パラメータPhを
足し合わせたものを補間器303で補間して用いる。
In the case of voiced sound, the switch 307 is opened, and the quantized vocal tract parameters are interpolated by the interpolator 303 in subframe units obtained by further dividing the frame, and in the case of unvoiced sound, the switch 307 is opened. Is closed, and the sum of the quantized vocal tract parameter P1 and the vocal tract correction parameter Ph is used by interpolation by the interpolator 303.

【0040】励振源の符号化については、有声音の場合
には、スイッチ106を閉じ、適応コードブック108
からの適応励振ベクトルと、統計コードブック109か
らの統計励振ベクトルを加算器115で加算して励振ベ
クトルを構成し、合成フィルタ110で合成音声信号を
合成し、その合成音声信号と入力音声信号との誤差を、
減算器116と誤差計算器111とで計算する。誤差計
算器111で得られた誤差から、最小誤差選択器112
で最適な適応励振ベクトルと最適な統計励振ベクトルを
選択する。
Regarding the encoding of the excitation source, in the case of voiced sound, the switch 106 is closed and the adaptive code book 108
, And the statistical excitation vector from the statistical codebook 109 are added by an adder 115 to form an excitation vector, a synthesis filter 110 synthesizes a synthesized speech signal, and the synthesized speech signal and the input speech signal are combined. Error of
The calculation is performed by the subtractor 116 and the error calculator 111. From the error obtained by the error calculator 111, a minimum error selector 112
Select the optimal adaptive excitation vector and the optimal statistical excitation vector with.

【0041】また、無声音と判別した場合には、スイッ
チ106を開き、統計コードブック109からの統計励
振ベクトルのみで励振ベクトルを構成し、合成フィルタ
110で合成音声信号を合成し、減算器116と誤差計
算器111で入力音声信号との誤差を求める。無声音の
場合には、最小誤差選択器112は統計コードブック1
09についてのみ最適な励振ベクトルを選択する。
If it is determined that the sound is unvoiced, the switch 106 is opened, an excitation vector is composed only of the statistical excitation vector from the statistical codebook 109, the synthesized filter 110 synthesizes the synthesized speech signal, and the subtracter 116 An error calculator 111 calculates an error from the input voice signal. In the case of unvoiced sound, the minimum error selector 112 selects the statistical codebook 1
An optimal excitation vector is selected only for 09.

【0042】多重化器113は以上の装置で得られた、
声道パラメータコードC1、有声無声識別コードC3、
統計励振コードC5、並びに、適応励振コードC4もし
くは声道補正パラメータコードC2の一方を、多重化
し、通信回線に送信する。
The multiplexer 113 is obtained by the above-mentioned device.
Vocal tract parameter code C1, voiced unvoiced identification code C3,
The statistical excitation code C5 and one of the adaptive excitation code C4 and the vocal tract correction parameter code C2 are multiplexed and transmitted to the communication line.

【0043】コードC1、C3はフレーム単位に情報で
あり、コードC2、C4、C5はフレーム単位に情報で
ある。
The codes C1 and C3 are information for each frame, and the codes C2, C4 and C5 are information for each frame.

【0044】図4に、図1の符号化器に対応した復号化
器のブロック図を示す。
FIG. 4 is a block diagram of a decoder corresponding to the encoder of FIG.

【0045】図4において、多重分離器201は通信回
線から受け取った符号語を、声道パラメータコードC
1、有声無声識別コードC3、統計励振コードC5、お
よび適応励振コードC4、もしくは声道補正パラメータ
コードC2に分離し、復号器の各装置に送る。そのと
き、もし有声音であればスイッチ202を適応コードブ
ック205につなぎ、無声音であれば声道補正パラメー
タ逆量子化器204につなぐ。
In FIG. 4, a demultiplexer 201 converts a codeword received from a communication line into a vocal tract parameter code C
1. It is separated into a voiced / unvoiced identification code C3, a statistical excitation code C5, an adaptive excitation code C4, or a vocal tract correction parameter code C2 and sent to each device of the decoder. At this time, the switch 202 is connected to the adaptive codebook 205 if voiced, and to the vocal tract correction parameter inverse quantizer 204 if unvoiced.

【0046】声道パラメータコードC1は声道パラメー
タ逆量子化器403で逆量子化され、声道パラメータと
なる。
The vocal tract parameter code C1 is inversely quantized by the vocal tract parameter inverse quantizer 403 to become a vocal tract parameter.

【0047】有声無声識別コードC3が無声音を示して
いる場合には、スイッチ210を開き、スイッチ409
を閉じて、声道補正パラメータ逆量子化器204で、声
道パラメータ補正コードC2を逆量子化して声道補正パ
ラメータP2を求め、声道パラメータを補正する。さら
に、補間器407で各サブフレーム単位に補間される
(Ph)。
If the voiced unvoiced identification code C3 indicates a voiceless sound, the switch 210 is opened and the switch 409 is opened.
Is closed, the vocal tract correction parameter inverse quantizer 204 inversely quantizes the vocal tract parameter correction code C2 to obtain the vocal tract correction parameter P2, and corrects the vocal tract parameter. Further, the data is interpolated by the interpolator 407 in each sub-frame unit (Ph).

【0048】そして、統計コードブック206からの、
統計励振ベクトルコードに対応する最適な統計励振ベク
トルのみから励振信号ベクトルを構成し、補正された声
道パラメータを用いた合成フィルタ408で再生音声出
力を合成する。
Then, from the statistical code book 206,
An excitation signal vector is formed only from the optimal statistical excitation vector corresponding to the statistical excitation vector code, and the reproduced sound output is synthesized by the synthesis filter 408 using the corrected vocal tract parameters.

【0049】逆に、有声無声識別コードC3が有声音を
示している場合には、スイッチ210を閉じ、スイッチ
409を開いて、適応コードブック205からの、適応
励振コードC4に対応する最適な適応励振ベクトルと、
統計コードブック206からの、統計励振コードC5に
対応する最適な統計励振ベクトルから励振ベクトルを構
成し、補正を受けない声道補間パラメータPhを用いた
合成フィルタ208で再生音声出力を合成する。
Conversely, when the voiced unvoiced identification code C3 indicates a voiced sound, the switch 210 is closed and the switch 409 is opened, and the optimum adaptation corresponding to the adaptive excitation code C4 from the adaptive codebook 205 is performed. The excitation vector,
An excitation vector is constructed from the optimal statistical excitation vector corresponding to the statistical excitation code C5 from the statistical codebook 206, and the reproduced voice output is synthesized by the synthesis filter 208 using the vocal tract interpolation parameter Ph which is not corrected.

【0050】[0050]

【発明の効果】本発明により、有声音を効果的に符号化
するような符号化方法と、無声音に対して効果的に符号
化するような符号化方法を、選択的に用いることを可能
とすることで、より高品質、高能率な音声の圧縮符号化
方法を実現できる。
According to the present invention, it is possible to selectively use a coding method for effectively coding voiced sound and a coding method for effectively coding unvoiced sound. By doing so, a higher quality and more efficient voice compression encoding method can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用した符号化器のブロック図FIG. 1 is a block diagram of an encoder to which the present invention is applied.

【図2】図1に対応した復号化器のブロック図FIG. 2 is a block diagram of a decoder corresponding to FIG.

【図3】本発明を適用した他の符号化器のブロック図FIG. 3 is a block diagram of another encoder to which the present invention is applied;

【図4】図3に対応した復号化器のブロック図FIG. 4 is a block diagram of a decoder corresponding to FIG. 3;

【符号の説明】[Explanation of symbols]

101 声道分析器 102 声道パラメータ量子化器 103 補間器 104 声道補正パラメータ量子化器 105 長周期分析器 106 スイッチ 107 スイッチ 108 適応コードブック 109 適応コードブック 110 合成フィルタ 111 誤差計算器 112 最小誤差選択器 113 多重化回路 114 減算器 115 加算器 116 減算器 Reference Signs List 101 vocal tract analyzer 102 vocal tract parameter quantizer 103 interpolator 104 vocal tract correction parameter quantizer 105 long period analyzer 106 switch 107 switch 108 adaptive codebook 109 adaptive codebook 110 synthesis filter 111 error calculator 112 minimum error Selector 113 Multiplexer 114 Subtractor 115 Adder 116 Subtractor

───────────────────────────────────────────────────── フロントページの続き (72)発明者 有山 義博 東京都港区虎ノ門1丁目7番12号 沖電 気工業株式会社内 (56)参考文献 特開 平1−54497(JP,A) 特開 昭59−172690(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 21/06 H03M 7/30 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continuation of the front page (72) Inventor Yoshihiro Ariyama 1-7-12 Toranomon, Minato-ku, Tokyo Oki Electric Industry Co., Ltd. (56) References JP-A-1-54497 (JP, A) Kaisho 59-172690 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 11/00-21/06 H03M 7/30 JICST file (JOIS)

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声信号を線形予測分析して声道パ
ラメータを求める手段と、 当該声道パラメータを量子化して、量子化された声道パ
ラメータとそれに対応した声道パラメータコードを出力
する声道パラメータ量子化手段と、 入力音声信号の前記声道パラメータと、補間後のもしく
は補間をともなわない量子化された前記声道パラメータ
との誤差を対象として量子化し、量子化された声道補正
パラメータとそれに対応した声道パラメータ補正コード
とを出力する声道補正パラメータ量子化手段と、 過去の入力音声信号の励振源パラメータを表わす適応励
振ベクトルを記憶している適応コードブックと、 予め定められている励振源パラメータである統計励振ベ
クトルを記憶している統計コードブックとを備え、 量子化された声道パラメータと励振源パラメータとに基
づいて合成音声信号を作成し、前記入力音声信号と当該
合成音声信号との誤差を評価することによって、励振源
出力コードを決定する音声符号化方法において、 入力音声信号の長周期分析を行うことによって有声音か
無声音かを判別し、 有声音の場合は、量子化された前記声道パラメータと、
前記適応励振ベクトルと前記統計励振ベクトルとの加算
ベクトルとに基づいて、前記合成音声信号を作成し、且
つ、前記入力音声信号と当該合成音声信号との誤差を評
価することによって適応励振コードと統計励振コードと
を決定し、 無声音の場合は、量子化された前記声道パラメータと量
子化された前記声道補正パラメータとの加算値と、前記
統計励振ベクトルとに基づいて、前記合成音声信号を作
成し、前記入力音声信号と当該合成音声信号との誤差を
評価することによって統計励振コードとを決定し、 有声音か無声音かに応じて、それぞれ前記適応励振コー
ド及び前記声道パラメータ補正コードの一方を他のコー
ドと多重化して出力語とすることを特徴とした音声符号
化方法。
1. A means for linearly predicting and analyzing an input speech signal to obtain a vocal tract parameter, a voice for quantizing the vocal tract parameter, and outputting a quantized vocal tract parameter and a vocal tract parameter code corresponding thereto. Vocal tract parameter quantizing means, and a quantized vocal tract correction parameter which is quantized with respect to an error between the vocal tract parameter of the input voice signal and the quantized vocal tract parameter after interpolation or without interpolation. And a vocal tract correction parameter quantizing means for outputting a vocal tract parameter correction code corresponding thereto and an adaptive codebook storing an adaptive excitation vector representing an excitation source parameter of the past input voice signal. A statistical codebook that stores a statistical excitation vector, which is an excitation source parameter. And generating a synthesized speech signal based on the excitation source parameter and evaluating an error between the input speech signal and the synthesized speech signal to determine an excitation source output code. Determine whether voiced or unvoiced by performing a long-period analysis, in the case of voiced sound, the quantized vocal tract parameters,
Based on the sum of the adaptive excitation vector and the statistical excitation vector, the synthesized speech signal is created, and the error between the input speech signal and the synthesized speech signal is evaluated, whereby the adaptive excitation code and the statistical An excitation code is determined, and in the case of unvoiced sound, the synthesized speech signal is calculated based on an added value of the quantized vocal tract parameter and the quantized vocal tract correction parameter, and the statistical excitation vector. A statistical excitation code is determined by evaluating an error between the input audio signal and the synthesized audio signal, and the adaptive excitation code and the vocal tract parameter correction code are respectively determined according to voiced sound or unvoiced sound. A speech encoding method characterized in that one is multiplexed with another code to produce an output word.
【請求項2】 請求項1の音声符号化方法において、 出力語として多重化する、声道パラメータコード、及び
有声音か無声音かの判別結果の有声無声識別コードはフ
レーム毎に更新される情報であり、且つ声道パラメータ
補正コード、適応励振コード及び統計励振コードはサブ
フレーム毎に更新される情報であることを特徴とした音
声符号化方法。
2. The voice coding method according to claim 1, wherein the vocal tract parameter code and the voiced / unvoiced identification code as a result of determining whether the voiced sound or unvoiced sound are multiplexed as output words are information updated for each frame. A speech coding method characterized in that there are vocal tract parameter correction codes, adaptive excitation codes, and statistical excitation codes, which are information updated for each subframe.
JP3335009A 1991-12-18 1991-12-18 Audio coding method Expired - Fee Related JP3050978B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3335009A JP3050978B2 (en) 1991-12-18 1991-12-18 Audio coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3335009A JP3050978B2 (en) 1991-12-18 1991-12-18 Audio coding method

Publications (2)

Publication Number Publication Date
JPH05165500A JPH05165500A (en) 1993-07-02
JP3050978B2 true JP3050978B2 (en) 2000-06-12

Family

ID=18283719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3335009A Expired - Fee Related JP3050978B2 (en) 1991-12-18 1991-12-18 Audio coding method

Country Status (1)

Country Link
JP (1) JP3050978B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3522012B2 (en) * 1995-08-23 2004-04-26 沖電気工業株式会社 Code Excited Linear Prediction Encoder
JP3319396B2 (en) 1998-07-13 2002-08-26 日本電気株式会社 Speech encoder and speech encoder / decoder
US8605911B2 (en) 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
SE0202159D0 (en) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
CN1279512C (en) 2001-11-29 2006-10-11 编码技术股份公司 Methods for improving high frequency reconstruction
SE0202770D0 (en) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method of reduction of aliasing is introduced by spectral envelope adjustment in real-valued filterbanks

Also Published As

Publication number Publication date
JPH05165500A (en) 1993-07-02

Similar Documents

Publication Publication Date Title
JP4550289B2 (en) CELP code conversion
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JPH10187197A (en) Voice coding method and device executing the method
JP2003044098A (en) Device and method for expanding voice band
EP1096476B1 (en) Speech signal decoding
JP4558205B2 (en) Speech coder parameter quantization method
JPH09152896A (en) Sound path prediction coefficient encoding/decoding circuit, sound path prediction coefficient encoding circuit, sound path prediction coefficient decoding circuit, sound encoding device and sound decoding device
US6768978B2 (en) Speech coding/decoding method and apparatus
JP3050978B2 (en) Audio coding method
JP3531780B2 (en) Voice encoding method and decoding method
JP2796408B2 (en) Audio information compression device
JP4438280B2 (en) Transcoder and code conversion method
JPH10207496A (en) Voice encoding device and voice decoding device
JP3510643B2 (en) Pitch period processing method for audio signal
JP3417362B2 (en) Audio signal decoding method and audio signal encoding / decoding method
JP3232701B2 (en) Audio coding method
KR0155798B1 (en) Vocoder and the method thereof
JP2968109B2 (en) Code-excited linear prediction encoder and decoder
JP3296411B2 (en) Voice encoding method and decoding method
JP3047761B2 (en) Audio coding device
JP2001142499A (en) Speech encoding device and speech decoding device
JP3107620B2 (en) Audio coding method
JPH09244695A (en) Voice coding device and decoding device
JP2853170B2 (en) Audio encoding / decoding system
JP3192051B2 (en) Audio coding device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000314

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080331

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090331

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100331

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100331

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110331

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees