JP2002123299A - Processor and method for processing speech, device and method for learning, program and recording medium - Google Patents

Processor and method for processing speech, device and method for learning, program and recording medium

Info

Publication number
JP2002123299A
JP2002123299A JP2001239062A JP2001239062A JP2002123299A JP 2002123299 A JP2002123299 A JP 2002123299A JP 2001239062 A JP2001239062 A JP 2001239062A JP 2001239062 A JP2001239062 A JP 2001239062A JP 2002123299 A JP2002123299 A JP 2002123299A
Authority
JP
Japan
Prior art keywords
tap
class
code
prediction
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001239062A
Other languages
Japanese (ja)
Other versions
JP4736266B2 (en
Inventor
Tetsujiro Kondo
哲二郎 近藤
Tsutomu Watanabe
勉 渡辺
Masaaki Hattori
正明 服部
Hiroto Kimura
裕人 木村
Yasuhiro Fujimori
泰弘 藤森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001239062A priority Critical patent/JP4736266B2/en
Publication of JP2002123299A publication Critical patent/JP2002123299A/en
Application granted granted Critical
Publication of JP4736266B2 publication Critical patent/JP4736266B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PROBLEM TO BE SOLVED: To obtain a high-quality synthetic sound. SOLUTION: In the receiving part 114 of a portable telephone of a CELP (Code Excited Liner Prediction coding) mode, a residual signal and a linear predictor coefficient and decoded from an L cord, G code, I code, and A code. In a speech synthesis filter 29, a synthetic sound is generated from the decoded residual signal and linear predictor coefficient. A classifying part 123 performs classification on the basis of a class tap generated from the L code, G code, I code, A code, the decoded residual signal and the linear predictor coefficient and outputs a corresponding class code to a coefficient memory 124. The coefficient memory 124 outputs a tap coefficient corresponding to the class code. A prediction part 125 determines the predicted value of a high-quality vocal sound by using the tap coefficient and the synthetic sound outputted by the speech synthesis filter 29.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データ処理装置お
よびデータ処理方法、学習装置および学習方法、並びに
プログラムおよび記録媒体に関し、特に、例えば、CE
LP(Code Excited Liner Prediction coding)方式で符
号化された音声を、高音質の音声に復号することができ
るようにするデータ処理装置およびデータ処理方法、学
習装置および学習方法、並びにプログラムおよび記録媒
体に関する。
The present invention relates to a data processing device and a data processing method, a learning device and a learning method, and a program and a recording medium.
The present invention relates to a data processing device and a data processing method, a learning device and a learning method, and a program and a recording medium that enable a voice encoded by an LP (Code Excited Liner Prediction coding) method to be decoded into a high-quality voice. .

【0002】[0002]

【従来の技術】図1および図2は、従来の携帯電話機の
一例の構成を示している。
2. Description of the Related Art FIGS. 1 and 2 show an example of the configuration of a conventional portable telephone.

【0003】この携帯電話機では、音声を、CELP方
式により所定のコードに符号化して送信する送信処理
と、他の携帯電話機から送信されてくるコードを受信し
て、音声に復号する受信処理とが行われるようになって
おり、図1は、送信処理を行う送信部を、図2は、受信
処理を行う受信部を、それぞれ示している。
[0003] In this portable telephone, a transmission process of encoding a speech into a predetermined code by the CELP method and transmitting the same, and a reception process of receiving a code transmitted from another portable telephone and decoding it into speech are performed. FIG. 1 shows a transmitting unit for performing a transmitting process, and FIG. 2 shows a receiving unit for performing a receiving process.

【0004】図1に示した送信部では、ユーザが発話し
た音声が、マイク(マイクロフォン)1に入力され、そ
こで、電気信号としての音声信号に変換され、A/D(A
nalog/Digital)変換部2に供給される。A/D変換部2
は、マイク1からのアナログの音声信号を、例えば、8
kHz等のサンプリング周波数でサンプリングすること
により、ディジタルの音声信号にA/D変換し、さら
に、所定のビット数で量子化を行って、演算器3とLP
C(Liner Prediction Coefficient)分析部4に供給す
る。
In the transmitting unit shown in FIG. 1, a voice uttered by a user is input to a microphone (microphone) 1, where it is converted into a voice signal as an electric signal, and A / D (A
(nalog / Digital) conversion unit 2. A / D converter 2
Represents an analog audio signal from the microphone 1, for example, 8
A / D conversion into a digital audio signal is performed by sampling at a sampling frequency such as kHz, and quantization is performed with a predetermined number of bits.
It is supplied to a C (Liner Prediction Coefficient) analysis unit 4.

【0005】LPC分析部4は、A/D変換部2からの
音声信号を、例えば、160サンプル分の長さのフレー
ムごとにLPC分析し、P次の線形予測係数α1,α2
・・・,αPを求める。そして、LPC分析部4は、こ
のP次の線形予測係数αp(p=1,2,・・・,P)
を要素とするベクトルを、音声の特徴ベクトルとして、
ベクトル量子化部5に供給する。
[0005] The LPC analysis unit 4 performs an LPC analysis of the audio signal from the A / D conversion unit 2 for each frame having a length of, for example, 160 samples, and obtains P-order linear prediction coefficients α 1 , α 2 ,
..., determine the α P. Then, the LPC analysis unit 4 calculates the P-order linear prediction coefficient α p (p = 1, 2,..., P)
Is a feature vector of speech,
This is supplied to the vector quantization unit 5.

【0006】ベクトル量子化部5は、線形予測係数を要
素とするコードベクトルとコードとを対応付けたコード
ブックを記憶しており、そのコードブックに基づいて、
LPC分析部4からの特徴ベクトルαをベクトル量子化
し、そのベクトル量子化の結果得られるコード(以下、
適宜、Aコード(A_code)という)を、コード決定部15
に供給する。
The vector quantization unit 5 stores a code book in which a code is associated with a code vector having a linear prediction coefficient as an element, and based on the code book,
The feature vector α from the LPC analysis unit 4 is vector-quantized, and a code obtained as a result of the vector quantization (hereinafter referred to as a code
A code (A_code), as appropriate),
To supply.

【0007】さらに、ベクトル量子化部5は、Aコード
に対応するコードベクトルα’を構成する要素となって
いる線形予測係数α1’,α2’,・・・,αP’を、音
声合成フィルタ6に供給する。
[0007] Further, the vector quantization unit 5 converts the linear prediction coefficients α 1 ′, α 2 ′,..., Α P ′, which constitute the code vector α ′ corresponding to the A code, into speech. It is supplied to the synthesis filter 6.

【0008】音声合成フィルタ6は、例えば、IIR(I
nfinite Impulse Response)型のディジタルフィルタ
で、ベクトル量子化部5からの線形予測係数αp’(p
=1,2,・・・,P)をIIRフィルタのタップ係数
とするとともに、演算器14から供給される残差信号e
を入力信号として、音声合成を行う。
The speech synthesis filter 6 is, for example, an IIR (I
nfinite Impulse Response) type digital filter, and the linear prediction coefficient α p ′ (p
= 1, 2,..., P) as the tap coefficients of the IIR filter, and the residual signal e supplied from the arithmetic unit 14.
Is used as an input signal to perform speech synthesis.

【0009】即ち、LPC分析部4で行われるLPC分
析は、現在時刻nの音声信号(のサンプル値)sn、お
よびこれに隣接する過去のP個のサンプル値sn-1,s
n-2,・・・,sn-Pに、式 sn+α1n-1+α2n-2+・・・+αPn-P=en ・・・(1) で示す線形1次結合が成立すると仮定し、現在時刻nの
サンプル値snの予測値(線形予測値)sn’を、過去の
P個の標本値sn-1,sn-2,・・・,sn-Pを用いて、
式 sn’=−(α1n-1+α2n-2+・・・+αPn-P) ・・・(2) によって線形予測したときに、実際のサンプル値sn
線形予測値sn’との間の自乗誤差を最小にする線形予
測係数αpを求めるものである。
That is, the LPC analysis performed by the LPC analysis unit 4 includes (a sample value of) the audio signal s n at the current time n and the past P sample values s n−1 and s adjacent thereto.
n-2, ···, the s nP, linear combination represented by the formula s n + α 1 s n- 1 + α 2 s n-2 + ··· + α P s nP = e n ··· (1) There assuming satisfied, the predicted value of the sample value s n at the current time n the (linear prediction value) s n ', past the P sample values s n-1, s n- 2, ···, s nP Using,
Wherein s n '= - by (α 1 s n-1 + α 2 s n-2 + ··· + α P s nP) ··· (2) when the linear prediction, the actual sample value s n and linear prediction A linear prediction coefficient α p that minimizes a square error with the value s n ′ is obtained.

【0010】ここで、式(1)において、{en}(・・
・,en-1,en,en+1,・・・)は、平均値が0で、分散
が所定値σ2の互いに無相関な確率変数である。
[0010] Here, in the formula (1), {e n} (··
, E n−1 , e n , e n + 1 ,...) Are uncorrelated random variables having an average value of 0 and a variance of a predetermined value σ 2 .

【0011】式(1)から、サンプル値snは、式 sn=en−(α1n-1+α2n-2+・・・+αPn-P) ・・・(3) で表すことができ、これを、Z変換すると、次式が成立
する。
From the [0011] formula (1), the sample value s n the formula s n = e n - (α 1 s n-1 + α 2 s n-2 + ··· + α P s nP) ··· (3) Which can be expressed by the following equation.

【0012】 S=E/(1+α1-1+α2-2+・・・+αP-P) ・・・(4) 但し、式(4)において、SとEは、式(3)における
nとenのZ変換を、それぞれ表す。
S = E / (1 + α 1 z −1 + α 2 z −2 +... + Α P z −P ) (4) In the equation (4), S and E are expressed by the equation (3) the Z transform of s n and e n in), it represents respectively.

【0013】ここで、式(1)および(2)から、en
は、式 en=sn−sn’ ・・・(5) で表すことができ、実際のサンプル値snと線形予測値
n’との間の残差信号と呼ばれる。
Here, from equations (1) and (2), e n
It is 'can be represented by (5), the actual sample value s n and linear predicted value s n' wherein e n = s n -s n called residual signal between.

【0014】従って、式(4)から、線形予測係数αp
をIIRフィルタのタップ係数とするとともに、残差信
号enをIIRフィルタの入力信号とすることにより、
音声信号snを求めることができる。
Therefore, from equation (4), the linear prediction coefficient α p
With the tap coefficients of the IIR filter, by the residual signal e n as an input signal of the IIR filter,
It can be obtained audio signal s n.

【0015】そこで、音声合成フィルタ6は、上述した
ように、ベクトル量子化部5からの線形予測係数αp
をタップ係数とするとともに、演算器14から供給され
る残差信号eを入力信号として、式(4)を演算し、音
声信号(合成音信号)ssを求める。
Therefore, the speech synthesis filter 6 receives the linear prediction coefficient α p ′ from the vector quantization unit 5 as described above.
Is used as a tap coefficient, and using the residual signal e supplied from the arithmetic unit 14 as an input signal, the equation (4) is calculated to obtain a speech signal (synthesized sound signal) ss.

【0016】なお、音声合成フィルタ6では、LPC分
析部4によるLPC分析の結果得られる線形予測係数α
pではなく、そのベクトル量子化の結果得られるコード
に対応するコードベクトルとしての線形予測係数αp
が用いられるため、音声合成フィルタ6が出力する合成
音信号は、A/D変換部2が出力する音声信号とは、基
本的に同一にはならない。
In the speech synthesis filter 6, a linear prediction coefficient α obtained as a result of the LPC analysis by the LPC analysis unit 4 is used.
Instead of p , a linear prediction coefficient α p ′ as a code vector corresponding to the code obtained as a result of the vector quantization
Is used, the synthesized sound signal output from the sound synthesis filter 6 is not basically the same as the sound signal output from the A / D converter 2.

【0017】音声合成フィルタ6が出力する合成音信号
ssは、演算器3に供給される。演算器3は、音声合成
フィルタ6からの合成音信号ssから、A/D変換部2
が出力する音声信号sを減算し、その減算値を、自乗誤
差演算部7に供給する。自乗誤差演算部7は、演算器3
からの減算値の自乗和(第kフレームのサンプル値につ
いての自乗和)を演算し、その結果得られる自乗誤差
を、自乗誤差最小判定部8に供給する。
The synthesized sound signal ss output from the voice synthesis filter 6 is supplied to the arithmetic unit 3. The arithmetic unit 3 converts the synthesized sound signal ss from the speech synthesis filter 6 into an A / D converter 2
Subtracts the output audio signal s, and supplies the subtracted value to the square error calculator 7. The square error calculator 7 is configured to calculate
, The sum of the squares of the subtraction value from the sum (the sum of the squares of the sample values of the k-th frame) is calculated, and the resulting square error is supplied to the square error minimum determination unit 8.

【0018】自乗誤差最小判定部8は、自乗誤差演算部
7が出力する自乗誤差に対応付けて、ラグを表すコード
としてのLコード(L_code)、ゲインを表すコードとして
のGコード(G_code)、および符号語を表すコードとして
のIコード(I_code)を記憶しており、自乗誤差演算部7
が出力する自乗誤差に対応するLコード、Gコード、お
よびLコードを出力する。Lコードは、適応コードブッ
ク記憶部9に、Gコードは、ゲイン復号器10に、Iコ
ードは、励起コードブック記憶部11に、それぞれ供給
される。さらに、Lコード、Gコード、およびIコード
は、コード決定部15にも供給される。
The minimum square error determining section 8 correlates the square error output from the square error calculating section 7 with an L code (L_code) as a code representing a lag, a G code (G_code) as a code representing a gain, And an I code (I_code) as a code representing a code word.
Output the L code, the G code, and the L code corresponding to the squared error output by. The L code is supplied to the adaptive codebook storage unit 9, the G code is supplied to the gain decoder 10, and the I code is supplied to the excitation codebook storage unit 11. Further, the L code, the G code, and the I code are also supplied to the code determination unit 15.

【0019】適応コードブック記憶部9は、例えば7ビ
ットのLコードと、所定の遅延時間(ラグ)とを対応付
けた適応コードブックを記憶しており、演算器14から
供給される残差信号eを、自乗誤差最小判定部8から供
給されるLコードに対応付けられた遅延時間だけ遅延し
て、演算器12に出力する。
The adaptive codebook storage unit 9 stores an adaptive codebook in which, for example, a 7-bit L code is associated with a predetermined delay time (lag). e is delayed by the delay time associated with the L code supplied from the square error minimum determination unit 8 and output to the arithmetic unit 12.

【0020】ここで、適応コードブック記憶部9は、残
差信号eを、Lコードに対応する時間だけ遅延して出力
することから、その出力信号は、その遅延時間を周期と
する周期信号に近い信号となる。この信号は、線形予測
係数を用いた音声合成において、主として、有声音の合
成音を生成するための駆動信号となる。
Here, since the adaptive codebook storage unit 9 outputs the residual signal e with a delay corresponding to the time corresponding to the L code, the output signal is converted into a periodic signal whose cycle is the delay time. It becomes a close signal. This signal is mainly used as a driving signal for generating a synthesized voiced voice in voice synthesis using linear prediction coefficients.

【0021】ゲイン復号器10は、Gコードと、所定の
ゲインβおよびγとを対応付けたテーブルを記憶してお
り、自乗誤差最小判定部8から供給されるGコードに対
応付けられたゲインβおよびγを出力する。ゲインβと
γは、演算器12と13に、それぞれ供給される。
The gain decoder 10 stores a table in which a G code is associated with predetermined gains β and γ, and a gain β associated with the G code supplied from the square error minimum determining unit 8 is stored. And γ are output. The gains β and γ are supplied to computing units 12 and 13, respectively.

【0022】励起コードブック記憶部11は、例えば9
ビットのIコードと、所定の励起信号とを対応付けた励
起コードブックを記憶しており、自乗誤差最小判定部8
から供給されるIコードに対応付けられた励起信号を、
演算器13に出力する。
The excitation codebook storage unit 11 stores, for example, 9
An excitation codebook in which a bit I code is associated with a predetermined excitation signal is stored.
The excitation signal associated with the I code supplied from
Output to arithmetic unit 13.

【0023】ここで、励起コードブックに記憶されてい
る励起信号は、例えば、ホワイトノイズ等に近い信号で
あり、線形予測係数を用いた音声合成において、主とし
て、無声音の合成音を生成するための駆動信号となる。
Here, the excitation signal stored in the excitation codebook is, for example, a signal close to white noise or the like. In speech synthesis using a linear prediction coefficient, it is mainly used to generate a synthesized voice of unvoiced sound. It becomes a drive signal.

【0024】演算器12は、適応コードブック記憶部9
の出力信号と、ゲイン復号器10が出力するゲインβと
を乗算し、その乗算値lを、演算器14に供給する。演
算器13は、励起コードブック記憶部11の出力信号
と、ゲイン復号器10が出力するゲインγとを乗算し、
その乗算値nを、演算器14に供給する。演算器14
は、演算器12からの乗算値lと、演算器13からの乗
算値nとを加算し、その加算値を、残差信号eとして、
音声合成フィルタ6に供給する。
The arithmetic unit 12 stores the adaptive codebook storage unit 9
Is multiplied by the gain β output from the gain decoder 10, and the multiplied value 1 is supplied to the calculator 14. The arithmetic unit 13 multiplies the output signal of the excitation codebook storage unit 11 by the gain γ output by the gain decoder 10,
The multiplied value n is supplied to the arithmetic unit 14. Arithmetic unit 14
Adds the multiplied value 1 from the computing unit 12 and the multiplied value n from the computing unit 13 and uses the sum as a residual signal e as
It is supplied to the voice synthesis filter 6.

【0025】音声合成フィルタ6では、以上のようにし
て、演算器14から供給される残差信号eを入力信号
が、ベクトル量子化部5から供給される線形予測係数α
p’をタップ係数とするIIRフィルタでフィルタリン
グされ、その結果得られる合成音信号が、演算器3に供
給される。そして、演算器3および自乗誤差演算部7に
おいて、上述の場合と同様の処理が行われ、その結果得
られる自乗誤差が、自乗誤差最小判定部8に供給され
る。
As described above, the speech synthesis filter 6 converts the residual signal e supplied from the arithmetic unit 14 into the input signal and the linear prediction coefficient α supplied from the vector quantization unit 5.
Filtering is performed by an IIR filter using p ′ as a tap coefficient, and the resultant synthesized sound signal is supplied to the arithmetic unit 3. Then, the same processing as described above is performed in the arithmetic unit 3 and the square error calculator 7, and the square error obtained as a result is supplied to the minimum square error determiner 8.

【0026】自乗誤差最小判定部8は、自乗誤差演算部
7からの自乗誤差が最小(極小)になったかどうかを判
定する。そして、自乗誤差最小判定部8は、自乗誤差が
最小になっていないと判定した場合、上述のように、そ
の自乗誤差に対応するLコード、Gコード、およびLコ
ードを出力し、以下、同様の処理が繰り返される。
The square error minimum judging section 8 judges whether or not the square error from the square error calculating section 7 has become minimum (minimum). Then, when determining that the square error is not minimized, the square error minimum determination unit 8 outputs an L code, a G code, and an L code corresponding to the square error, as described above. Is repeated.

【0027】一方、自乗誤差最小判定部8は、自乗誤差
が最小になったと判定した場合、確定信号を、コード決
定部15に出力する。コード決定部15は、ベクトル量
子化部5から供給されるAコードをラッチするととも
に、自乗誤差最小判定部8から供給されるLコード、G
コード、およびIコードを順次ラッチするようになって
おり、自乗誤差最小判定部8から確定信号を受信する
と、そのときラッチしているAコード、Lコード、Gコ
ード、およびIコードを、チャネルエンコーダ16に供
給する。チャネルエンコーダ16は、コード決定部15
からのAコード、Lコード、Gコード、およびIコード
を多重化し、コードデータとして出力する。このコード
データは、伝送路を介して送信される。
On the other hand, when the square error minimum judging section 8 judges that the square error has become minimum, it outputs a determination signal to the code determining section 15. The code determination unit 15 latches the A code supplied from the vector quantization unit 5, as well as the L code and G code supplied from the square error minimum determination unit 8.
Code and I code are sequentially latched, and when a decision signal is received from the square error minimum determination unit 8, the A code, L code, G code, and I code latched at that time are converted into channel encoders. 16. The channel encoder 16 includes a code determination unit 15
A code, L code, G code, and I code are multiplexed and output as code data. This code data is transmitted via a transmission path.

【0028】なお、以下では、説明を簡単にするため、
Aコード、Lコード、Gコード、およびIコードは、フ
レームごとに求められるものとする。但し、例えば、1
フレームを、4つのサブフレームに分割し、Lコード、
Gコード、およびIコードは、サブフレームごとに求め
るようにすること等が可能である。
In the following, in order to simplify the description,
The A code, L code, G code, and I code are determined for each frame. However, for example, 1
Divide the frame into four subframes, L code,
The G code and the I code can be determined for each subframe.

【0029】ここで、図1(後述する図2、図11、お
よび図12においても同様)では、各変数に、[k]が付
され、配列変数とされている。このkは、フレーム数を
表すが、明細書中では、その記述は、適宜省略する。
Here, in FIG. 1 (the same applies to FIGS. 2, 11 and 12 described later), each variable is marked with [k] and is an array variable. Although k represents the number of frames, the description thereof is omitted as appropriate in the specification.

【0030】次に、以上のようにして、他の携帯電話機
の送信部から送信されてくるコードデータは、図2に示
した受信部のチャネルデコーダ21で受信される。チャ
ネルデコーダ21は、コードデータから、Lコード、G
コード、Iコード、Aコードを分離し、それぞれを、適
応コードブック記憶部22、ゲイン復号器23、励起コ
ードブック記憶部24、フィルタ係数復号器25に供給
する。
Next, as described above, the code data transmitted from the transmitting section of another portable telephone is received by the channel decoder 21 of the receiving section shown in FIG. The channel decoder 21 converts the code data into an L code, a G code,
The code, the I code, and the A code are separated and supplied to an adaptive codebook storage unit 22, a gain decoder 23, an excitation codebook storage unit 24, and a filter coefficient decoder 25.

【0031】適応コードブック記憶部22、ゲイン復号
器23、励起コードブック記憶部24、演算器26乃至
28は、図1の適応コードブック記憶部9、ゲイン復号
器10、励起コードブック記憶部11、演算器12乃至
14とそれぞれ同様に構成されるもので、図1で説明し
た場合と同様の処理が行われることにより、Lコード、
Gコード、およびIコードが、残差信号eに復号され
る。この残差信号eは、音声合成フィルタ29に対し
て、入力信号として与えられる。
The adaptive codebook storage unit 22, the gain decoder 23, the excitation codebook storage unit 24, and the arithmetic units 26 to 28 are the adaptive codebook storage unit 9, the gain decoder 10, and the excitation codebook storage unit 11 of FIG. , And the arithmetic units 12 to 14, respectively, and by performing the same processing as in the case described with reference to FIG.
The G code and the I code are decoded into a residual signal e. The residual signal e is provided to the speech synthesis filter 29 as an input signal.

【0032】フィルタ係数復号器25は、図1のベクト
ル量子化部5が記憶しているのと同一のコードブックを
記憶しており、Aコードを、線形予測係数αp’に復号
し、音声合成フィルタ29に供給する。
The filter coefficient decoder 25 stores the same codebook as that stored in the vector quantization unit 5 in FIG. 1, decodes the A code into a linear prediction coefficient α p ′, It is supplied to the synthesis filter 29.

【0033】音声合成フィルタ29は、図1の音声合成
フィルタ6と同様に構成されており、フィルタ係数復号
器25からの線形予測係数αp’をタップ係数とすると
ともに、演算器28から供給される残差信号eを入力信
号として、式(4)を演算し、これにより、図1の自乗
誤差最小判定部8において自乗誤差が最小と判定された
ときの合成音信号を生成する。この合成音信号は、D/
A(Digital/Analog)変換部30に供給される。D/A変
換部30は、音声合成フィルタ29からの合成音信号
を、ディジタル信号からアナログ信号にD/A変換し、
スピーカ31に供給して出力させる。
The speech synthesis filter 29 has the same configuration as the speech synthesis filter 6 shown in FIG. 1, uses the linear prediction coefficient α p ′ from the filter coefficient decoder 25 as a tap coefficient, and is supplied from the calculator 28. Equation (4) is calculated using the residual signal e as an input signal, thereby generating a synthesized sound signal when the square error is determined to be the minimum in the square error minimum determination unit 8 of FIG. This synthesized sound signal is D /
The signal is supplied to an A (Digital / Analog) converter 30. The D / A converter 30 D / A converts the synthesized sound signal from the voice synthesis filter 29 from a digital signal to an analog signal,
The signal is supplied to the speaker 31 and output.

【0034】[0034]

【発明が解決しようとする課題】以上のように、携帯電
話機の送信部では、受信部の音声合成フィルタ29に与
えられるフィルタデータとしての残差信号と線形予測係
数がコード化されて送信されてくるため、受信部では、
そのコードが、残差信号と線形予測係数に復号される。
しかしながら、この復号された残差信号や線形予測係数
(以下、適宜、それぞれを、復号残差信号または復号線
形予測係数という)には、量子化誤差等の誤差が含まれ
るため、音声をLPC分析して得られる残差信号と線形
予測係数には一致しない。
As described above, in the transmitting section of the portable telephone, the residual signal and the linear prediction coefficient as filter data applied to the speech synthesis filter 29 of the receiving section are coded and transmitted. In order to get
The code is decoded into a residual signal and linear prediction coefficients.
However, the decoded residual signal and the linear prediction coefficient (hereinafter, appropriately referred to as a decoded residual signal and a decoded linear prediction coefficient, respectively) include an error such as a quantization error. And the linear prediction coefficient do not match.

【0035】このため、受信部の音声合成フィルタ29
が出力する合成音信号は、歪みを有する、音質の劣化し
たものとなる。
For this reason, the speech synthesis filter 29 of the receiving section
Will have a distorted sound quality degraded.

【0036】本発明は、このような状況に鑑みてなされ
たものであり、高音質の合成音が得られるようにするも
のである。
The present invention has been made in view of such a situation, and aims to obtain a high-quality synthesized sound.

【0037】[0037]

【課題を解決するための手段】本発明の音声処理装置
は、予測値を求めようとしている高音質の音声を注目音
声として、その注目音声を予測するのに用いる予測タッ
プを、合成音から抽出する予測タップ抽出手段と、注目
音声を、幾つかのクラスのうちのいずれかにクラス分類
するのに用いるクラスタップを、コードから抽出するク
ラスタップ抽出手段と、クラスタップに基づいて、注目
音声のクラスを求めるクラス分類を行うクラス分類手段
と、学習を行うことにより求められた、クラスごとのタ
ップ係数の中から、注目音声のクラスに対応するタップ
係数を取得する取得手段と、予測タップと、注目音声の
クラスに対応するタップ係数を用いて、注目音声の予測
値を求める予測手段とを備えることを特徴とする。
SUMMARY OF THE INVENTION A speech processing apparatus according to the present invention extracts a high-quality sound for which a predicted value is to be obtained as a target voice, and extracts a prediction tap used for predicting the target voice from the synthesized voice. Predictive tap extracting means, a class tap extracting means for extracting, from a code, a class tap used to classify the target voice into any of several classes, and a class tap extracting means for extracting the target voice based on the class tap. A class classification means for performing class classification for obtaining a class, an acquisition means for acquiring a tap coefficient corresponding to a class of a target voice from among tap coefficients for each class obtained by performing learning, a prediction tap, A prediction unit that calculates a predicted value of the target voice using a tap coefficient corresponding to the class of the target voice.

【0038】本発明の音声処理方法は、予測値を求めよ
うとしている高音質の音声を注目音声として、その注目
音声を予測するのに用いる予測タップを、合成音から抽
出する予測タップ抽出ステップと、注目音声を、幾つか
のクラスのうちのいずれかにクラス分類するのに用いる
クラスタップを、コードから抽出するクラスタップ抽出
ステップと、クラスタップに基づいて、注目音声のクラ
スを求めるクラス分類を行うクラス分類ステップと、学
習を行うことにより求められた、クラスごとのタップ係
数の中から、注目音声のクラスに対応するタップ係数を
取得する取得ステップと、予測タップと、注目音声のク
ラスに対応するタップ係数を用いて、注目音声の予測値
を求める予測ステップとを備えることを特徴とする。
The voice processing method according to the present invention includes a step of extracting a prediction tap used for predicting a target voice using a high-quality voice for which a predicted value is to be obtained as a target voice from a synthetic voice. A class tap extraction step of extracting, from a code, a class tap used to classify the target voice into one of several classes, and a class classification for obtaining a class of the target voice based on the class tap. A class classification step to be performed; an acquisition step of acquiring a tap coefficient corresponding to a class of a target voice from tap coefficients for each class obtained by performing learning; a prediction tap; corresponding to a class of a target voice And a prediction step of obtaining a predicted value of the target voice using the tap coefficient to be performed.

【0039】本発明の第1のプログラムは、予測値を求
めようとしている高音質の音声を注目音声として、その
注目音声を予測するのに用いる予測タップを、合成音か
ら抽出する予測タップ抽出ステップと、注目音声を、幾
つかのクラスのうちのいずれかにクラス分類するのに用
いるクラスタップを、コードから抽出するクラスタップ
抽出ステップと、クラスタップに基づいて、注目音声の
クラスを求めるクラス分類を行うクラス分類ステップ
と、学習を行うことにより求められた、クラスごとのタ
ップ係数の中から、注目音声のクラスに対応するタップ
係数を取得する取得ステップと、予測タップと、注目音
声のクラスに対応するタップ係数を用いて、注目音声の
予測値を求める予測ステップとを備えることを特徴とす
る。
A first program according to the present invention comprises a predictive tap extracting step of extracting, from a synthesized sound, a predictive tap used for predicting the target voice using a high-quality sound for which a predicted value is to be obtained as a target voice. A class tap extracting step of extracting, from a code, a class tap used to classify the target voice into one of several classes; and a class classification for obtaining a class of the target voice based on the class tap. A class classification step of performing, and an acquisition step of obtaining a tap coefficient corresponding to the class of the target voice from the tap coefficients for each class obtained by performing the learning, a prediction tap, and a class of the target voice. A prediction step of obtaining a predicted value of the target voice using a corresponding tap coefficient.

【0040】本発明の第1の記録媒体は、予測値を求め
ようとしている高音質の音声を注目音声として、その注
目音声を予測するのに用いる予測タップを、合成音から
抽出する予測タップ抽出ステップと、注目音声を、幾つ
かのクラスのうちのいずれかにクラス分類するのに用い
るクラスタップを、コードから抽出するクラスタップ抽
出ステップと、クラスタップに基づいて、注目音声のク
ラスを求めるクラス分類を行うクラス分類ステップと、
学習を行うことにより求められた、クラスごとのタップ
係数の中から、注目音声のクラスに対応するタップ係数
を取得する取得ステップと、予測タップと、注目音声の
クラスに対応するタップ係数を用いて、注目音声の予測
値を求める予測ステップとを備えるプログラムが記録さ
れていることを特徴とする。
According to the first recording medium of the present invention, a high-quality sound for which a predicted value is to be obtained is regarded as a target sound, and a prediction tap used for predicting the target sound is extracted from a synthesized sound. A step, a class tap extracting step of extracting, from a code, a class tap used to classify the target voice into one of several classes, and a class for obtaining a class of the target voice based on the class tap. A classification step for performing classification;
An acquisition step of acquiring a tap coefficient corresponding to the class of the target voice from among the tap coefficients for each class obtained by performing the learning, a prediction tap, and a tap coefficient corresponding to the class of the target voice. And a prediction step of obtaining a predicted value of the target voice.

【0041】本発明の学習装置は、予測値を求めようと
している高音質の音声を注目音声として、その注目音声
を、幾つかのクラスのうちのいずれかにクラス分類する
のに用いるクラスタップを、コードから抽出するクラス
タップ抽出手段と、クラスタップに基づいて、注目音声
のクラスを求めるクラス分類を行うクラス分類手段と、
タップ係数および合成音を用いて予測演算を行うことに
より得られる高音質の音声の予測値の予測誤差が統計的
に最小になるように、学習を行い、クラスごとのタップ
係数を求める学習手段とを備えることを特徴とする。
The learning apparatus of the present invention uses a high-quality sound for which a predicted value is to be obtained as a target voice, and uses a class tap used to classify the target voice into one of several classes. Class tap extracting means for extracting from a code, class classifying means for performing class classification for obtaining a class of a target voice based on the class tap,
Learning means for learning so as to statistically minimize a prediction error of a predicted value of high-quality sound obtained by performing a prediction operation using a tap coefficient and a synthesized sound, and obtaining a tap coefficient for each class; It is characterized by having.

【0042】本発明の学習方法は、予測値を求めようと
している高音質の音声を注目音声として、その注目音声
を、幾つかのクラスのうちのいずれかにクラス分類する
のに用いるクラスタップを、コードから抽出するクラス
タップ抽出ステップと、クラスタップに基づいて、注目
音声のクラスを求めるクラス分類を行うクラス分類ステ
ップと、タップ係数および合成音を用いて予測演算を行
うことにより得られる高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、クラスごと
のタップ係数を求める学習ステップとを備えることを特
徴とする。
According to the learning method of the present invention, a high-quality sound for which a predicted value is to be obtained is regarded as a target voice, and a class tap used for classifying the target voice into one of several classes is used. , A class tap extraction step of extracting from a code, a class classification step of performing a class classification for obtaining a class of a target voice based on a class tap, and a high sound quality obtained by performing a prediction operation using a tap coefficient and a synthesized sound And a learning step of learning and calculating a tap coefficient for each class so that the prediction error of the predicted value of the speech is statistically minimized.

【0043】本発明の第2のプログラムは、予測値を求
めようとしている高音質の音声を注目音声として、その
注目音声を、幾つかのクラスのうちのいずれかにクラス
分類するのに用いるクラスタップを、コードから抽出す
るクラスタップ抽出ステップと、クラスタップに基づい
て、注目音声のクラスを求めるクラス分類を行うクラス
分類ステップと、タップ係数および合成音を用いて予測
演算を行うことにより得られる高音質の音声の予測値の
予測誤差が統計的に最小になるように、学習を行い、ク
ラスごとのタップ係数を求める学習ステップとを備える
ことを特徴とする。
According to a second program of the present invention, a high-quality sound for which a predicted value is to be obtained is regarded as a target sound, and a class used for classifying the target sound into one of several classes is provided. A tap is obtained by performing a class tap extraction step of extracting a tap from a code, a class classification step of performing a class classification for obtaining a class of a target voice based on the class tap, and performing a prediction operation using a tap coefficient and a synthesized sound. A learning step of performing learning so as to statistically minimize a prediction error of a predicted value of a high-quality sound, and obtaining a tap coefficient for each class.

【0044】本発明の第2の記録媒体は、予測値を求め
ようとしている高音質の音声を注目音声として、その注
目音声を、幾つかのクラスのうちのいずれかにクラス分
類するのに用いるクラスタップを、コードから抽出する
クラスタップ抽出ステップと、クラスタップに基づい
て、注目音声のクラスを求めるクラス分類を行うクラス
分類ステップと、タップ係数および合成音を用いて予測
演算を行うことにより得られる高音質の音声の予測値の
予測誤差が統計的に最小になるように、学習を行い、ク
ラスごとのタップ係数を求める学習ステップとを備える
プログラムが記録されていることを特徴とする。
The second recording medium of the present invention uses a high-quality sound for which a predicted value is to be obtained as a target voice, and uses the target voice to classify the target voice into one of several classes. A class tap is obtained by performing a class tap extracting step of extracting a class tap from a code, a class classification step of performing a class classification for obtaining a class of a target voice based on the class tap, and performing a prediction operation using tap coefficients and synthesized sounds. And a learning step of learning and calculating a tap coefficient for each class so that the prediction error of the predicted value of the high-quality sound is statistically minimized.

【0045】本発明の音声処理装置および音声処理方
法、並びに第1のプログラムおよび第1の記録媒体にお
いては、予測値を求めようとしている高音質の音声を注
目音声として、その注目音声を予測するのに用いる予測
タップが、合成音から抽出されるとともに、注目音声
を、幾つかのクラスのうちのいずれかにクラス分類する
のに用いるクラスタップが、コードから抽出される。そ
して、クラスタップに基づいて、注目音声のクラスを求
めるクラス分類が行われ、予測タップと、注目音声のク
ラスに対応するタップ係数を用いて、注目音声の予測値
が求められる。
In the audio processing apparatus and the audio processing method, the first program and the first recording medium of the present invention, the high-quality sound for which the prediction value is to be obtained is set as the target sound, and the target sound is predicted. Is extracted from the synthesized sound, and the class tap used to classify the target voice into one of several classes is extracted from the code. Then, based on the class tap, a class classification for obtaining a class of the target voice is performed, and a predicted value of the target voice is obtained using the prediction tap and a tap coefficient corresponding to the class of the target voice.

【0046】本発明の学習装置および学習方法、並びに
第2のプログラムおよび第2の記録媒体においては、予
測値を求めようとしている高音質の音声を注目音声とし
て、その注目音声を、幾つかのクラスのうちのいずれか
にクラス分類するのに用いるクラスタップが、コードか
ら抽出され、そのクラスタップに基づいて、注目音声の
クラスを求めるクラス分類が行われる。そして、タップ
係数および合成音を用いて予測演算を行うことにより得
られる高音質の音声の予測値の予測誤差が統計的に最小
になるように、学習が行われ、クラスごとのタップ係数
が求められる。
In the learning apparatus and the learning method of the present invention, the second program and the second recording medium, a high-quality sound for which a predicted value is to be obtained is regarded as a noticed sound, and the noticed sound is divided into several sounds. A class tap used for classifying the class into one of the classes is extracted from the code, and a class classification for obtaining a class of the target voice is performed based on the class tap. Learning is performed so that the prediction error of the predicted value of the high-quality sound obtained by performing the prediction operation using the tap coefficient and the synthesized sound is statistically minimized, and the tap coefficient for each class is calculated. Can be

【0047】[0047]

【発明の実施の形態】図3は、本発明を適用した音声合
成装置の一実施の形態の構成例を示している。
FIG. 3 shows an example of the configuration of an embodiment of a speech synthesizer to which the present invention is applied.

【0048】この音声合成装置には、音声合成フィルタ
44に与える残差信号と線形予測係数を、それぞれベク
トル量子化等によってコード化した残差コードとAコー
ドが多重化されたコードデータが供給されるようになっ
ており、その残差コードとAコードから、それぞれ残差
信号と線形予測係数を復号し、音声合成フィルタ44に
与えることで、合成音が生成されるようになっている。
さらに、この音声合成装置では、音声合成フィルタ44
で生成された合成音と、学習により求めたタップ係数を
用いた予測演算を行うことにより、その合成音の音質を
向上させた高音質の音声(合成音)を求めて出力するよ
うになっている。
This speech synthesizer is supplied with code data obtained by multiplexing a residual code and an A code obtained by encoding the residual signal and the linear prediction coefficient to be applied to the speech synthesis filter 44 by vector quantization or the like. The residual signal and the linear prediction coefficient are decoded from the residual code and the A code, respectively, and the decoded signal is supplied to the speech synthesis filter 44 to generate a synthesized sound.
Further, in this speech synthesizer, the speech synthesis filter 44
By performing a prediction operation using the synthesized sound generated in the above and the tap coefficient obtained by learning, a high-quality sound (synthesized sound) with improved sound quality of the synthesized sound is obtained and output. I have.

【0049】即ち、図3の音声合成装置では、例えば、
クラス分類適応処理を利用して、合成音が、真の高音質
の音声(の予測値)に復号される。
That is, in the speech synthesizer shown in FIG.
Utilizing the classification adaptive processing, the synthesized speech is decoded into (the predicted value of) true high-quality speech.

【0050】クラス分類適応処理は、クラス分類処理と
適応処理とからなり、クラス分類処理によって、データ
を、その性質に基づいてクラス分けし、各クラスごとに
適応処理を施すものであり、適応処理は、以下のような
手法のものである。
The class classification adaptation process includes a class classification process and an adaptation process. The class classification process classifies data into classes based on the nature of the data, and performs an adaptation process for each class. Is based on the following method.

【0051】即ち、適応処理では、例えば、合成音と、
所定のタップ係数との線形結合により、真の高音質の音
声の予測値が求められる。
That is, in the adaptive processing, for example,
By a linear combination with a predetermined tap coefficient, a predicted value of true high-quality sound is obtained.

【0052】具体的には、例えば、いま、真の高音質の
音声(のサンプル値)を教師データとするとともに、そ
の真の高音質の音声を、CELP方式によって、Lコー
ド、Gコード、Iコード、およびAコードに符号化し、
それらのコードを、図2に示した受信部で復号すること
により得られる合成音を生徒データとして、教師データ
である高音質の音声yの予測値E[y]を、幾つかの合
成音(のサンプル値)x1,x2,・・・の集合と、所定
のタップ係数w1,w2,・・・の線形結合により規定さ
れる線形1次結合モデルにより求めることを考える。こ
の場合、予測値E[y]は、次式で表すことができる。
More specifically, for example, a true high-quality sound (sample value thereof) is used as teacher data, and the true high-quality sound is converted into an L code, a G code, an I code by the CELP method. Code, and A code,
Using the synthesized sound obtained by decoding these codes by the receiving unit shown in FIG. 2 as student data, the predicted value E [y] of the high-quality sound y as the teacher data is converted into several synthesized sounds ( sample value) x 1, x 2 of the considered a set of ..., predetermined tap coefficients w 1, w 2, that obtained by linear combination model defined by a linear combination of .... In this case, the predicted value E [y] can be expressed by the following equation.

【0053】 E[y]=w11+w22+・・・ ・・・(6)E [y] = w 1 x 1 + w 2 x 2 +... (6)

【0054】式(6)を一般化するために、タップ係数
jの集合でなる行列W、生徒データxijの集合でなる
行列X、および予測値E[yj]の集合でなる行列Y’
を、
To generalize equation (6), a matrix W composed of a set of tap coefficients w j , a matrix X composed of a set of student data x ij , and a matrix Y composed of a set of predicted values E [y j ] '
To

【数1】 で定義すると、次のような観測方程式が成立する。(Equation 1) Defines the following observation equation.

【0055】XW=Y’・・・(7) ここで、行列Xの成分xijは、i件目の生徒データの集
合(i件目の教師データyiの予測に用いる生徒データ
の集合)の中のj番目の生徒データを意味し、行列Wの
成分wjは、生徒データの集合の中のj番目の生徒デー
タとの積が演算されるタップ係数を表す。また、y
iは、i件目の教師データを表し、従って、E[yi
は、i件目の教師データの予測値を表す。なお、式
(6)の左辺におけるyは、行列Yの成分yiのサフィ
ックスiを省略したものであり、また、式(6)の右辺
におけるx1,x2,・・・も、行列Xの成分xijのサフ
ィックスiを省略したものである。
XW = Y ′ (7) Here, the component x ij of the matrix X is a set of i-th student data (a set of student data used for predicting the i-th teacher data y i ). Means the j-th student data in the matrix W, and the component w j of the matrix W represents a tap coefficient by which a product with the j-th student data in the set of the student data is calculated. Also, y
i represents the i-th teacher data, and therefore, E [y i ]
Represents the predicted value of the i-th teacher data. Note that y on the left side of the equation (6) is obtained by omitting the suffix i of the component y i of the matrix Y. Further, x 1 , x 2 ,. The suffix i of the component x ij is omitted.

【0056】そして、この観測方程式に最小自乗法を適
用して、真の高音質の音声yに近い予測値E[y]を求
めることを考える。この場合、教師データとなる真の高
音質の音声yの集合でなる行列Y、および高音質の音声
yに対する予測値E[y]の残差eの集合でなる行列E
を、
Then, it is considered that a least square method is applied to this observation equation to obtain a predicted value E [y] close to a true high-quality sound y. In this case, a matrix Y consisting of a set of true high-quality sound y serving as teacher data and a matrix E consisting of a set of residuals e of predicted values E [y] for high-quality sound y.
To

【数2】 で定義すると、式(7)から、次のような残差方程式が
成立する。
(Equation 2) From equation (7), the following residual equation is established.

【0057】XW=Y+E・・・(8)XW = Y + E (8)

【0058】この場合、真の高音質の音声yに近い予測
値E[y]を求めるためのタップ係数wjは、自乗誤差
In this case, the tap coefficient w j for obtaining the predicted value E [y] close to the true high-quality sound y is the square error

【数3】 を最小にすることで求めることができる。(Equation 3) Can be obtained by minimizing.

【0059】従って、上述の自乗誤差をタップ係数wj
で微分したものが0になる場合、即ち、次式を満たすタ
ップ係数wjが、真の高音質の音声yに近い予測値E
[y]を求めるため最適値ということになる。
Therefore, the above square error is calculated by using the tap coefficient w j
, The tap coefficient w j that satisfies the following equation is equal to the predicted value E close to the true high-quality sound y.
This is an optimum value for obtaining [y].

【0060】[0060]

【数4】 ・・・(9)(Equation 4) ... (9)

【0061】そこで、まず、式(8)を、タップ係数w
jで微分することにより、次式が成立する。
Therefore, first, the equation (8) is changed to the tap coefficient w
By differentiating with j , the following equation is established.

【0062】[0062]

【数5】 ・・・(10)(Equation 5) ... (10)

【0063】式(9)および(10)より、式(11)
が得られる。
From equations (9) and (10), equation (11)
Is obtained.

【0064】[0064]

【数6】 ・・・(11)(Equation 6) ... (11)

【0065】さらに、式(8)の残差方程式における生
徒データxij、タップ係数wj、教師データyi、および
誤差eiの関係を考慮すると、式(11)から、次のよ
うな正規方程式を得ることができる。
Further, considering the relationship among the student data x ij , the tap coefficient w j , the teacher data y i , and the error e i in the residual equation of the equation (8), the following normal equation is obtained from the equation (11). Equation can be obtained.

【0066】[0066]

【数7】 ・・・(12)(Equation 7) ... (12)

【0067】なお、式(12)に示した正規方程式は、
行列(共分散行列)Aおよびベクトルvを、
The normal equation shown in equation (12) is
The matrix (covariance matrix) A and the vector v are

【数8】 で定義するとともに、ベクトルWを、数1で示したよう
に定義すると、式 AW=v・・・(13) で表すことができる。
(Equation 8) If the vector W is defined as shown in Expression 1, it can be expressed by the following expression: AW = v (13)

【0068】式(12)における各正規方程式は、生徒
データxijおよび教師データyiのセットを、ある程度
の数だけ用意することで、求めるべきタップ係数wj
数Jと同じ数だけたてることができ、従って、式(1
3)を、ベクトルWについて解くことで(但し、式(1
3)を解くには、式(13)における行列Aが正則であ
る必要がある)、最適なタップ係数(ここでは、自乗誤
差を最小にするタップ係数)wjを求めることができ
る。なお、式(13)を解くにあたっては、例えば、掃
き出し法(Gauss-Jordanの消去法)などを用いることが
可能である。
Each normal equation in the equation (12) is prepared by preparing a certain number of sets of the student data x ij and the teacher data y i , and forming the same number as the number J of the tap coefficients w j to be obtained. And therefore equation (1)
3) with respect to the vector W (however, equation (1)
To solve 3), the matrix A in equation (13) needs to be non-singular), and the optimal tap coefficient (here, the tap coefficient that minimizes the square error) w j can be obtained. In solving equation (13), for example, a sweeping method (Gauss-Jordan elimination method) or the like can be used.

【0069】以上のようにして、最適なタップ係数wj
を求めておき、さらに、そのタップ係数wjを用い、式
(6)により、真の高音質の音声yに近い予測値E
[y]を求めるのが適応処理である。
As described above, the optimum tap coefficient w j
, And using the tap coefficient w j , the prediction value E close to the true high-quality sound y is obtained by Expression (6).
Finding [y] is adaptive processing.

【0070】なお、例えば、教師データとして、高いサ
ンプリング周波数でサンプリングした音声信号、または
多ビットを割り当てた音声信号を用いるとともに、生徒
データとして、その教師データとしての音声信号を間引
いたり、低ビットで再量子化した音声信号をCELP方
式により符号化し、その符号化結果を復号して得られる
合成音を用いた場合、タップ係数としては、高いサンプ
リング周波数でサンプリングした音声信号、または多ビ
ットを割り当てた音声信号を生成するのに、予測誤差
が、統計的に最小となる高音質の音声が得られることに
なる。従って、この場合、より高音質の合成音を得るこ
とが可能となる。
For example, an audio signal sampled at a high sampling frequency or an audio signal to which multiple bits are assigned is used as the teacher data, and the audio signal as the teacher data is thinned out as the student data, When the requantized audio signal is encoded by the CELP method and a synthesized sound obtained by decoding the encoding result is used, an audio signal sampled at a high sampling frequency or a multi-bit is assigned as a tap coefficient. When generating an audio signal, a high-quality audio with a statistically minimum prediction error can be obtained. Therefore, in this case, it is possible to obtain a synthesized sound with higher sound quality.

【0071】図3の音声合成装置では、以上のようなク
ラス分類適応処理により、Aコードと残差コードでなる
コードデータを、高音質の音声に復号するようになって
いる。
In the speech synthesizer shown in FIG. 3, the code data composed of the A code and the residual code is decoded into high-quality speech by the above-described class classification adaptive processing.

【0072】即ち、デマルチプレクサ(DEMUX)4
1には、コードデータが供給されるようになっており、
デマルチプレクサ41は、そこに供給されるコードデー
タから、フレームごとのAコードと残差コードを分離す
る。そして、デマルチプレクサは、Aコードを、フィル
タ係数復号器42およびタップ生成部46に供給し、残
差コードを、残差コードブック記憶部43およびタップ
生成部46に供給する。
That is, the demultiplexer (DEMUX) 4
1 is supplied with code data,
The demultiplexer 41 separates the A code and the residual code for each frame from the code data supplied thereto. Then, the demultiplexer supplies the A code to the filter coefficient decoder 42 and the tap generation unit 46, and supplies the residual code to the residual code book storage unit 43 and the tap generation unit 46.

【0073】ここで、図3におけるコードデータに含ま
れるAコードと残差コードは、音声をLPC分析して得
られる線形予測係数と残差信号を、所定のコードブック
を用いて、それぞれベクトル量子化することにより得ら
れるコードとなっている。
Here, the A code and the residual code included in the code data in FIG. 3 are obtained by converting a linear prediction coefficient and a residual signal obtained by LPC analysis of a speech into a vector quantum code using a predetermined code book. It is the code obtained by the conversion.

【0074】フィルタ係数復号器42は、デマルチプレ
クサ41から供給されるフレームごとのAコードを、そ
のAコードを得るときに用いられたのと同一のコードブ
ックに基づいて、線形予測係数に復号し、音声合成フィ
ルタ44に供給する。
The filter coefficient decoder 42 decodes the A code for each frame supplied from the demultiplexer 41 into linear prediction coefficients based on the same codebook used when obtaining the A code. , To the speech synthesis filter 44.

【0075】残差コードブック記憶部43は、デマルチ
プレクサ41から供給されるフレームごとの残差コード
を、その残差コードを得るときに用いられたのと同一の
コードブックに基づいて、残差信号に復号し、音声合成
フィルタ44に供給する。
The residual code book storage unit 43 stores the residual code for each frame supplied from the demultiplexer 41 on the basis of the same code book used when obtaining the residual code. The signal is decoded and supplied to the speech synthesis filter 44.

【0076】音声合成フィルタ44は、例えば、図1の
音声合成フィルタ29と同様に、IIR型のディジタル
フィルタで、フィルタ係数復号器42からの線形予測係
数をIIRフィルタのタップ係数とするとともに、残差
コードブック記憶部43からの残差信号を入力信号とし
て、その入力信号のフィルタリングを行うことにより、
合成音を生成し、タップ生成部45に供給する。
The speech synthesis filter 44 is, for example, an IIR type digital filter, similar to the speech synthesis filter 29 of FIG. 1, and uses the linear prediction coefficient from the filter coefficient decoder 42 as the tap coefficient of the IIR filter and the remaining. By using the residual signal from the difference codebook storage unit 43 as an input signal and filtering the input signal,
A synthesized sound is generated and supplied to the tap generation unit 45.

【0077】タップ生成部45は、音声合成フィルタ4
4から供給される合成音(のサンプル値)から、後述す
る予測部49における予測演算に用いられる予測タップ
となるものを抽出する。即ち、タップ生成部45は、例
えば、高音質の音声の予測値を求めようとしているフレ
ームである注目フレームの合成音のサンプル値すべて
を、予測タップとする。そして、タップ生成部45は、
予測タップを、予測部49に供給する。
The tap generation section 45 includes the speech synthesis filter 4
From (the sample value of) the synthesized sound supplied from No. 4, a sample that becomes a prediction tap used in a prediction calculation in a prediction unit 49 described later is extracted. That is, the tap generation unit 45 sets, for example, all the sample values of the synthesized sound of the target frame, which is the frame for which the predicted value of the high-quality sound is to be obtained, as the prediction tap. Then, the tap generation unit 45
The prediction tap is supplied to the prediction unit 49.

【0078】タップ生成部46は、デマルチプレクサ4
1から供給されるフレーム(またはサブフレーム)ごと
のAコードおよび残差コードから、クラスタップとなる
ものを抽出する。即ち、タップ生成部46は、例えば、
注目フレームのAコードおよび残差コードすべてを、ク
ラスタップとする。そして、タップ生成部46は、クラ
スタップを、クラス分類部47に供給する。
The tap generator 46 is provided with the demultiplexer 4
A class tap is extracted from the A code and residual code for each frame (or subframe) supplied from 1. That is, the tap generation unit 46, for example,
All the A codes and residual codes of the frame of interest are class taps. Then, the tap generation unit 46 supplies the class tap to the class classification unit 47.

【0079】ここで、予測タップやクラスタップの構成
パターンは、上述したパターンのものに限定されるもの
ではない。
Here, the configuration patterns of the prediction taps and the class taps are not limited to those described above.

【0080】なお、タップ生成部46では、Aコードや
残差コードの他、フィルタ係数復号器42が出力する線
形予測係数や、残差コードブック記憶部43が出力する
残差信号、さらには、音声合成フィルタ44が出力する
合成音等の中からも、クラスタップを抽出するようにす
ることができる。
In the tap generation unit 46, in addition to the A code and the residual code, the linear prediction coefficient output from the filter coefficient decoder 42, the residual signal output from the residual code book storage unit 43, and The class tap can also be extracted from the synthesized sound output from the voice synthesis filter 44 or the like.

【0081】クラス分類部47は、タップ生成部46か
らのクラスタップに基づき、注目している注目フレーム
の音声(のサンプル値)をクラス分類し、その結果得ら
れるクラスに対応するクラスコードを、係数メモリ48
に出力する。
The class classification section 47 classifies (sample values of) the voice of the focused frame of interest on the basis of the class tap from the tap generation section 46, and classifies the class code corresponding to the class obtained as a result. Coefficient memory 48
Output to

【0082】ここで、クラス分類部47には、例えば、
クラスタップとしての注目フレームのAコードおよび残
差コードを構成するビットの系列そのものを、クラスコ
ードとして出力させることが可能である。
Here, the class classifying section 47 includes, for example,
It is possible to output the A code of the frame of interest as a class tap and the bit sequence itself constituting the residual code as a class code.

【0083】係数メモリ48は、後述する図6の学習装
置において学習処理が行われることにより得られる、ク
ラスごとのタップ係数を記憶しており、クラス分類部4
7が出力するクラスコードに対応するアドレスに記憶さ
れているタップ係数を、予測部49に出力する。
The coefficient memory 48 stores tap coefficients for each class obtained by performing a learning process in a learning apparatus shown in FIG.
The tap coefficient stored in the address corresponding to the class code output from 7 is output to the prediction unit 49.

【0084】ここで、各フレームについて、Nサンプル
の高音質の音声が求められるとすると、注目フレームに
ついて、Nサンプルの音声を、式(6)の予測演算によ
って求めるには、Nセットのタップ係数が必要である。
従って、この場合は、係数メモリ48には、1つのクラ
スコードに対応するアドレスに対して、Nセットのタッ
プ係数が記憶されている。
Here, assuming that high-quality sound of N samples is obtained for each frame, to obtain the sound of N samples for the frame of interest by the prediction calculation of equation (6), N sets of tap coefficients are used. is necessary.
Therefore, in this case, the coefficient memory 48 stores N sets of tap coefficients for addresses corresponding to one class code.

【0085】予測部49は、タップ生成部45が出力す
る予測タップと、係数メモリ48が出力するタップ係数
とを取得し、その予測タップとタップ係数とを用いて、
式(6)に示した線形予測演算(積和演算)を行い、注
目フレームの高音質の音声(の予測値)を求めて、D/
A変換部50に出力する。
The prediction section 49 acquires the prediction tap output from the tap generation section 45 and the tap coefficient output from the coefficient memory 48, and uses the prediction tap and the tap coefficient to obtain
The linear prediction operation (product-sum operation) shown in Expression (6) is performed to obtain (predicted value of) high-quality sound of the frame of interest, and D /
Output to A conversion unit 50.

【0086】ここで、係数メモリ48は、上述したよう
に、注目フレームの音声のNサンプルそれぞれを求める
ためのNセットのタップ係数を出力するが、予測部49
は、各サンプル値について、予測タップと、そのサンプ
ル値に対応するタップ係数のセットとを用い、式(6)
の積和演算を行う。
Here, as described above, the coefficient memory 48 outputs N sets of tap coefficients for obtaining each of the N samples of the audio of the frame of interest.
Is calculated using, for each sample value, a prediction tap and a set of tap coefficients corresponding to the sample value.
Is performed.

【0087】D/A変換部50は、予測部49からの音
声(の予測値)を、ディジタル信号からアナログ信号に
D/A変換し、スピーカ51に供給して出力させる。
The D / A converter 50 D / A converts (predicted value of) the sound from the predictor 49 from a digital signal to an analog signal, and supplies the analog signal to the speaker 51 for output.

【0088】次に、図4は、図3の音声合成フィルタ4
4の構成例を示している。
Next, FIG. 4 shows the speech synthesis filter 4 shown in FIG.
4 shows a configuration example.

【0089】図4において、音声合成フィルタ44は、
P次の線形予測係数を用いるものとなっており、従っ
て、1つの加算器61、P個の遅延回路(D)621
至62P、およびP個の乗算器631乃至63Pから構成
されている。
In FIG. 4, the speech synthesis filter 44
The P-order linear prediction coefficient is used, and therefore, is composed of one adder 61, P delay circuits (D) 62 1 to 62 P , and P multipliers 63 1 to 63 P. ing.

【0090】乗算器631乃至63Pには、それぞれ、フ
ィルタ係数復号器42から供給されるP次の線形予測係
数α1,α2,・・・,αPがセットされ、これにより、
音声合成フィルタ44では、式(4)にしたがって演算
が行われ、合成音が生成される。
The P-order linear prediction coefficients α 1 , α 2 ,..., Α P supplied from the filter coefficient decoder 42 are set in the multipliers 63 1 to 63 P , respectively.
The speech synthesis filter 44 performs an operation according to equation (4) to generate a synthesized sound.

【0091】即ち、残差コードブック記憶部43が出力
する残差信号eは、加算器61を介して、遅延回路62
1に供給され、遅延回路62pは、そこへの入力信号
を、残差信号の1サンプル分だけ遅延して、後段の遅延
回路62p+1に出力するとともに、演算器63pに出力す
る。乗算器63pは、遅延回路62pの出力と、そこにセ
ットされた線形予測係数αpとを乗算し、その乗算値
を、加算器61に出力する。
That is, the residual signal e output from the residual codebook storage unit 43 is supplied to the delay circuit 62 via the adder 61.
Is supplied to the 1, the delay circuit 62 p is an input signal thereto, and only one sample delay of the residual signal, and outputs to the delay circuit 62 p + 1 of the subsequent stage, and outputs to the calculator 63 p . The multiplier 63 p multiplies the output of the delay circuit 62 p by the linear prediction coefficient α p set therein, and outputs the multiplied value to the adder 61.

【0092】加算器61は、乗算器631乃至63Pの出
力すべてと、残差信号eとを加算し、その加算結果を、
遅延回路621に供給する他、音声合成結果(合成音)
として出力する。
The adder 61 adds all the outputs of the multipliers 63 1 to 63 P and the residual signal e, and outputs the addition result as
In addition to supplying to the delay circuit 621, a speech synthesis result (synthesized sound)
Output as

【0093】次に、図5のフローチャートを参照して、
図3の音声合成装置の処理(音声合成処理)について説
明する。
Next, referring to the flowchart of FIG.
The processing (speech synthesis processing) of the speech synthesis device in FIG. 3 will be described.

【0094】デマルチプレクサ41は、そこに供給され
るコードデータから、フレームごとのAコードと残差コ
ードを順次分離し、それぞれを、フィルタ係数復号器4
2と残差コードブック記憶部43に供給する。さらに、
デマルチプレクサ41は、Aコードおよび残差コード
を、タップ生成部46に供給する。
The demultiplexer 41 sequentially separates the A code and the residual code for each frame from the code data supplied thereto, and separates them into filter coefficient decoders 4.
2 and the residual codebook storage unit 43. further,
The demultiplexer 41 supplies the A code and the residual code to the tap generator 46.

【0095】フィルタ係数復号器42は、デマルチプレ
クサ41から供給されるフレームごとのAコードを、線
形予測係数に順次復号し、音声合成フィルタ44に供給
する。また、残差コードブック記憶部43は、デマルチ
プレクサ41から供給されるフレームごとの残差コード
を、残差信号に順次復号し、音声合成フィルタ44に供
給する。
The filter coefficient decoder 42 sequentially decodes the A code for each frame supplied from the demultiplexer 41 into linear prediction coefficients, and supplies the linear prediction coefficients to the speech synthesis filter 44. The residual code book storage unit 43 sequentially decodes the residual code for each frame supplied from the demultiplexer 41 into a residual signal, and supplies the residual signal to the speech synthesis filter 44.

【0096】音声合成フィルタ44では、そこに供給さ
れる残差信号および線形予測係数を用いて、式(4)の
演算が行われることにより、注目フレームの合成音が生
成される。この合成音は、タップ生成部45に供給され
る。
The speech synthesis filter 44 performs the operation of equation (4) using the residual signal and the linear prediction coefficient supplied thereto, thereby generating a synthesized sound of the frame of interest. This synthesized sound is supplied to the tap generation unit 45.

【0097】タップ生成部45は、そこに供給される合
成音のフレームを、順次、注目フレームとし、ステップ
S1において、音声合成フィルタ44から供給される合
成音(のサンプル値)から、予測タップを生成し、予測
部49に出力する。さらに、ステップS1では、タップ
生成部46が、デマルチプレクサ41から供給されるA
コードおよび残差コードから、クラスタップを生成し、
クラス分類部47に出力する。
The tap generating section 45 sequentially sets the synthesized sound frames supplied thereto as frames of interest, and in step S 1, predicts taps based on (sample values of) the synthesized sounds supplied from the voice synthesis filter 44. It is generated and output to the prediction unit 49. Further, in step S <b> 1, the tap generation unit 46 outputs the signal A supplied from the demultiplexer 41.
Generate class taps from code and residual code,
Output to the class classification unit 47.

【0098】そして、ステップS2に進み、クラス分類
部47は、タップ生成部46から供給されるクラスタッ
プに基づいて、クラス分類を行い、その結果得られるク
ラスコードを、係数メモリ48に供給して、ステップS
3に進む。
Then, the process proceeds to step S 2, where the class classification unit 47 classifies the class based on the class tap supplied from the tap generation unit 46, and supplies the resulting class code to the coefficient memory 48. , Step S
Proceed to 3.

【0099】ステップS3では、係数メモリ48は、ク
ラス分類部47から供給されるクラスコードに対応する
アドレスから、タップ係数を読み出し、予測部49に供
給する。
In step S 3, the coefficient memory 48 reads the tap coefficient from the address corresponding to the class code supplied from the class classification section 47 and supplies the read tap coefficient to the prediction section 49.

【0100】そして、ステップS4に進み、予測部49
は、係数メモリ48が出力するタップ係数を取得し、そ
のタップ係数と、タップ生成部45からの予測タップと
を用いて、式(6)に示した積和演算を行い、注目フレ
ームの高音質の音声(の予測値)を得る。この高音質の
音声は、予測部49からD/A変換部50を介して、ス
ピーカ51に供給されて出力される。
Then, the process proceeds to a step S4, wherein the predicting section 49
Obtains the tap coefficient output from the coefficient memory 48, performs the product-sum operation shown in Expression (6) using the tap coefficient and the prediction tap from the tap generation unit 45, and obtains the high sound quality of the frame of interest. (Predicted value of). The high-quality sound is supplied to the speaker 51 from the prediction unit 49 via the D / A conversion unit 50, and is output.

【0101】予測部49において、注目フレームの高音
質の音声が得られた後は、ステップS5に進み、まだ、
注目フレームとして処理すべきフレームがあるかどうか
が判定される。ステップS5において、まだ、注目フレ
ームとして処理すべきフレームがあると判定された場
合、ステップS1に戻り、次に注目フレームとすべきフ
レームを、新たに注目フレームとして、以下、同様の処
理を繰り返す。また、ステップS5において、注目フレ
ームとして処理すべきフレームがないと判定された場
合、音声合成処理を終了する。
After the predicting section 49 obtains the high-quality sound of the frame of interest, the process proceeds to step S5.
It is determined whether there is a frame to be processed as the frame of interest. If it is determined in step S5 that there is still a frame to be processed as a target frame, the process returns to step S1, and the same process is repeated with a frame to be set as the next target frame newly set as a target frame. If it is determined in step S5 that there is no frame to be processed as the frame of interest, the speech synthesis processing ends.

【0102】次に、図6は、図3の係数メモリ48に記
憶させるタップ係数の学習処理を行う学習装置の一実施
の形態の構成例を示している。
Next, FIG. 6 shows an example of the configuration of an embodiment of a learning apparatus for performing a learning process of tap coefficients stored in the coefficient memory 48 of FIG.

【0103】学習装置には、学習用のディジタル音声信
号が、所定のフレーム単位で供給されるようになってお
り、この学習用のディジタル音声信号は、LPC分析部
71および予測フィルタ74に供給される。さらに、学
習用のディジタル音声信号は、教師データとして、正規
方程式加算回路81にも供給される。
A learning digital audio signal is supplied to the learning device in a predetermined frame unit. The learning digital audio signal is supplied to the LPC analysis section 71 and the prediction filter 74. You. Further, the learning digital audio signal is also supplied to the normal equation adding circuit 81 as teacher data.

【0104】LPC分析部71は、そこに供給される音
声信号のフレームを、順次、注目フレームとし、その注
目フレームの音声信号をLPC分析することで、P次の
線形予測係数を求め、ベクトル量子化部72および予測
フィルタ74に供給する。
The LPC analysis section 71 sequentially sets the frame of the audio signal supplied thereto as a frame of interest, performs an LPC analysis of the audio signal of the frame of interest, obtains a P-order linear prediction coefficient, It is supplied to the conversion unit 72 and the prediction filter 74.

【0105】ベクトル量子化部72は、線形予測係数を
要素とするコードベクトルとコードとを対応付けたコー
ドブックを記憶しており、そのコードブックに基づい
て、LPC分析部71からの注目フレームの線形予測係
数で構成される特徴ベクトルをベクトル量子化し、その
ベクトル量子化の結果得られるAコードを、フィルタ係
数復号器73およびタップ生成部79に供給する。
The vector quantization section 72 stores a code book in which a code vector having linear prediction coefficients as elements is associated with a code. Based on the code book, the LPC analysis section 71 calculates a target frame from the LPC analysis section 71. The feature vector composed of the linear prediction coefficients is vector-quantized, and the A code obtained as a result of the vector quantization is supplied to the filter coefficient decoder 73 and the tap generator 79.

【0106】フィルタ係数復号器73は、ベクトル量子
化部72が記憶しているのと同一のコードブックを記憶
しており、そのコードブックに基づいて、ベクトル量子
化部72からのAコードを、線形予測係数に復号し、音
声合成フィルタ77に供給する。ここで、図3のフィル
タ係数復号器42は、図6のフィルタ係数復号器73と
同様に構成されている。
The filter coefficient decoder 73 stores the same codebook as that stored in the vector quantization unit 72, and converts the A code from the vector quantization unit 72 based on the codebook. The signal is decoded into a linear prediction coefficient and supplied to the speech synthesis filter 77. Here, the filter coefficient decoder 42 in FIG. 3 has the same configuration as the filter coefficient decoder 73 in FIG.

【0107】予測フィルタ74は、そこに供給される注
目フレームの音声信号と、LPC分析部71からの線形予
測係数を用いて、例えば、式(1)にしたがった演算を
行うことにより、注目フレームの残差信号を求め、ベク
トル量子化部75に供給する。
The prediction filter 74 uses the audio signal of the frame of interest supplied thereto and the linear prediction coefficient from the LPC analysis unit 71 to perform, for example, an operation according to equation (1), thereby obtaining the frame of interest. Is obtained and supplied to the vector quantization unit 75.

【0108】即ち、式(1)におけるsnとenのZ変換
を、SとEとそれぞれ表すと、式(1)は、次式のよう
に表すことができる。
[0108] That is, the Z-transform of s n and e n in the formula (1), expressed respectively S and E, equation (1) can be expressed by the following equation.

【0109】 E=(1+α1-1+α2-2+・・・+αP-P)S ・・・(14)E = (1 + α 1 z −1 + α 2 z −2 +... + Α P z −P ) S (14)

【0110】式(14)から、残差信号eを求める予測
フィルタ74は、FIR(Finite Impulse Response)型
のディジタルフィルタで構成することができる。
From equation (14), the prediction filter 74 for obtaining the residual signal e can be constituted by a FIR (Finite Impulse Response) type digital filter.

【0111】即ち、図7は、予測フィルタ74の構成例
を示している。
That is, FIG. 7 shows an example of the configuration of the prediction filter 74.

【0112】予測フィルタ74には、LPC分析部71
から、P次の線形予測係数が供給されるようになってお
り、従って、予測フィルタ74は、P個の遅延回路
(D)911乃至91P、P個の乗算器921乃至92P
および1つの加算器93から構成されている。
The prediction filter 74 includes an LPC analysis unit 71
, A P-order linear prediction coefficient is supplied. Accordingly, the prediction filter 74 includes P delay circuits (D) 91 1 to 91 P , P multipliers 92 1 to 92 P ,
And one adder 93.

【0113】乗算器921乃至92Pには、それぞれ、L
PC分析部71から供給されるP次の線形予測係数
α1,α2,・・・,αPがセットされる。
Each of the multipliers 92 1 to 92 P has L
The P-order linear prediction coefficients α 1 , α 2 ,..., Α P supplied from the PC analysis unit 71 are set.

【0114】一方、注目フレームの音声信号sは、遅延
回路911と加算器93に供給される。遅延回路91
pは、そこへの入力信号を、残差信号の1サンプル分だ
け遅延して、後段の遅延回路91p+1に出力するととも
に、演算器92pに出力する。乗算器92pは、遅延回路
91pの出力と、そこにセットされた線形予測係数αp
を乗算し、その乗算値を、加算器93に出力する。
[0114] On the other hand, the audio signal s of the frame of interest is supplied to the delay circuit 91 1 and the adder 93. Delay circuit 91
p delays the input signal thereto by one sample of the residual signal, outputs the delayed signal to the delay circuit 91 p + 1 at the subsequent stage, and outputs it to the calculator 92 p . The multiplier 92 p multiplies the output of the delay circuit 91 p by the linear prediction coefficient α p set therein, and outputs the multiplied value to the adder 93.

【0115】加算器93は、乗算器921乃至92Pの出
力すべてと、音声信号sとを加算し、その加算結果を、
残差信号eとして出力する。
The adder 93 adds all the outputs of the multipliers 92 1 to 92 P and the audio signal s, and
It is output as a residual signal e.

【0116】図6に戻り、ベクトル量子化部75は、残
差信号のサンプル値を要素とするコードベクトルとコー
ドとを対応付けたコードブックを記憶しており、そのコ
ードブックに基づいて、予測フィルタ74からの注目フ
レームの残差信号のサンプル値で構成される残差ベクト
ルをベクトル量子化し、そのベクトル量子化の結果得ら
れる残差コードを、残差コードブック記憶部76および
タップ生成部79に供給する。
Returning to FIG. 6, the vector quantization unit 75 stores a code book in which a code is associated with a code vector having a sample value of a residual signal as an element, and a prediction is performed based on the code book. The residual vector composed of the sample value of the residual signal of the frame of interest from the filter 74 is vector-quantized, and the residual code obtained as a result of the vector quantization is stored in a residual codebook storage unit 76 and a tap generation unit 79. To supply.

【0117】残差コードブック記憶部76は、ベクトル
量子化部75が記憶しているのと同一のコードブックを
記憶しており、そのコードブックに基づいて、ベクトル
量子化部75からの残差コードを、残差信号に復号し、
音声合成フィルタ77に供給する。ここで、図3の残差
コードブック記憶部43は、図6の残差コードブック記
憶部76と同様に構成されている。
[0117] The residual codebook storage unit 76 stores the same codebook as that stored by the vector quantization unit 75. Based on the codebook, the residual codebook storage unit 76 stores the residual codebook from the vector quantization unit 75. Decoding the code into a residual signal,
It is supplied to the speech synthesis filter 77. Here, the residual codebook storage unit 43 in FIG. 3 is configured similarly to the residual codebook storage unit 76 in FIG.

【0118】音声合成フィルタ77は、図3の音声合成
フィルタ44と同様に構成されるIIRフィルタで、フ
ィルタ係数復号器73からの線形予測係数をIIRフィ
ルタのタップ係数とするとともに、残差コードブック記
憶部75からの残差信号を入力信号として、その入力信
号のフィルタリングを行うことにより、合成音を生成
し、タップ生成部78に供給する。
The speech synthesis filter 77 is an IIR filter constructed in the same manner as the speech synthesis filter 44 in FIG. 3. The linear prediction coefficient from the filter coefficient decoder 73 is used as the tap coefficient of the IIR filter, and the residual codebook is used. By using the residual signal from the storage unit 75 as an input signal and filtering the input signal, a synthesized sound is generated and supplied to the tap generation unit 78.

【0119】タップ生成部78は、図3のタップ生成部
45における場合と同様に、音声合成フィルタ77から
供給される合成音から、予測タップを構成し、正規方程
式加算回路81に供給する。タップ生成部79は、図3
のタップ生成部46における場合と同様に、ベクトル量
子化部72と75からそれぞれ供給されるAコードと残
差コードから、クラスタップを構成し、クラス分類部8
0に供給する。
The tap generation unit 78 forms a prediction tap from the synthesized sound supplied from the speech synthesis filter 77 and supplies the prediction tap to the normal equation addition circuit 81, as in the case of the tap generation unit 45 in FIG. The tap generation unit 79 is configured as shown in FIG.
As in the case of the tap generation unit 46, a class tap is formed from the A code and the residual code supplied from the vector quantization units 72 and 75, respectively.
Supply 0.

【0120】クラス分類部80は、図3のクラス分類部
47における場合と同様に、そこに供給されるクラスタ
ップに基づいて、クラス分類を行い、その結果得られる
クラスコードを、正規方程式加算回路81に供給する。
The classifying section 80 classifies the class based on the class taps supplied thereto, as in the case of the classifying section 47 of FIG. 3, and classifies the resulting class code with a normal equation adding circuit. 81.

【0121】正規方程式加算回路81は、教師データと
しての注目フレームの高音質の音声である学習用の音声
と、タップ生成部78からの生徒データとしての予測タ
ップ(を構成する音声合成フィルタ77の合成音出力)
を対象とした足し込みを行う。
The normal equation addition circuit 81 includes a learning voice, which is a high-quality voice of the frame of interest as teacher data, and a prediction tap (tuple tap) as student data from the tap generator 78. Synthetic sound output)
Is added to the target.

【0122】即ち、正規方程式加算回路81は、クラス
分類部80から供給されるクラスコードに対応するクラ
スごとに、予測タップ(生徒データ)を用い、式(1
3)の行列Aにおける各コンポーネントとなっている、
生徒データどうしの乗算(xinim)と、サメーション
(Σ)に相当する演算を行う。
That is, the normal equation adding circuit 81 uses the prediction tap (student data) for each class corresponding to the class code supplied from the class classification unit 80, and calculates the equation (1).
3) are each component in the matrix A,
Multiplication (x in x im ) of student data and calculation corresponding to summation (Σ) are performed.

【0123】さらに、正規方程式加算回路81は、やは
り、クラス分類部80から供給されるクラスコードに対
応するクラスごとに、生徒データ(予測タップを構成す
る、音声合成フィルタ77から出力される合成音のサン
プル値)および教師データ(注目フレームの高音質の音
声のサンプル値)を用い、式(13)のベクトルvにお
ける各コンポーネントとなっている、生徒データと教師
データの乗算(xin i)と、サメーション(Σ)に相
当する演算を行う。
Further, the normal equation adding circuit 81
Class code supplied from the class classification unit 80.
For each class that responds, the student data (
Of the synthesized sound output from the voice synthesis filter 77.
Pull value) and teacher data (high-quality sound of the frame of interest)
Using the voice sample value), the vector v in equation (13) is
Student data and teachers
Data multiplication (xiny i) And summation (Σ)
Perform the appropriate operation.

【0124】正規方程式加算回路81は、以上の足し込
みを、そこに供給される学習用の音声のフレームすべて
を注目フレームとして行い、これにより、各クラスにつ
いて、式(13)に示した正規方程式をたてる。
The normal equation addition circuit 81 performs the above-mentioned addition using all the frames of the learning speech supplied thereto as a frame of interest, whereby the normal equation shown in the equation (13) is obtained for each class. To build.

【0125】タップ係数決定回路82は、正規方程式加
算回路81においてクラスごとに生成された正規方程式
を解くことにより、クラスごとに、タップ係数を求め、
係数メモリ83の、各クラスに対応するアドレスに供給
する。
The tap coefficient determination circuit 82 obtains a tap coefficient for each class by solving the normal equation generated for each class in the normal equation addition circuit 81.
The coefficients are supplied to the addresses of the coefficient memory 83 corresponding to the respective classes.

【0126】なお、学習用の音声信号として用意した音
声信号によっては、正規方程式加算回路81において、
タップ係数を求めるのに必要な数の正規方程式が得られ
ないクラスが生じる場合があり得るが、タップ係数決定
回路82は、そのようなクラスについては、例えば、デ
フォルトのタップ係数を出力する。
Depending on the audio signal prepared as the audio signal for learning, the normal equation adding circuit 81
In some cases, a class may not be obtained in which the required number of normal equations for obtaining the tap coefficient is obtained. The tap coefficient determination circuit 82 outputs, for example, a default tap coefficient for such a class.

【0127】係数メモリ83は、タップ係数決定回路8
2から供給されるクラスごとのタップ係数を、そのクラ
スに対応するアドレスに記憶する。
The coefficient memory 83 stores the tap coefficient determination circuit 8
The tap coefficient for each class supplied from 2 is stored in the address corresponding to the class.

【0128】次に、図8のフローチャートを参照して、
図6の学習装置の処理(学習処理)について説明する。
Next, referring to the flowchart of FIG.
The processing (learning processing) of the learning device in FIG. 6 will be described.

【0129】学習装置には、学習用の音声信号が供給さ
れ、この学習用の音声信号は、LPC分析部71および
予測フィルタ74に供給されるとともに、教師データと
して、正規方程式加算回路81に供給される。そして、
ステップS11において、学習用の音声信号から、生徒
データが生成される。
The learning apparatus is supplied with a learning audio signal. The learning audio signal is supplied to the LPC analysis unit 71 and the prediction filter 74, and is supplied to the normal equation adding circuit 81 as teacher data. Is done. And
In step S11, student data is generated from the learning audio signal.

【0130】即ち、LPC分析部71は、学習用の音声
信号のフレームを、順次、注目フレームとし、その注目
フレームの音声信号をLPC分析することで、P次の線
形予測係数を求め、ベクトル量子化部72に供給する。
ベクトル量子化部72は、LPC分析部71からの注目
フレームの線形予測係数で構成される特徴ベクトルをベ
クトル量子化し、そのベクトル量子化の結果得られるA
コードを、フィルタ係数復号器73およびタップ生成部
79に供給する。フィルタ係数復号器73は、ベクトル
量子化部72からのAコードを、線形予測係数に復号
し、その線形予測係数を、音声合成フィルタ77に供給
する。
That is, the LPC analysis section 71 sequentially sets the frames of the audio signal for learning as a target frame, and performs an LPC analysis on the audio signal of the target frame to obtain a P-order linear prediction coefficient, and To the conversion unit 72.
The vector quantization unit 72 vector-quantizes the feature vector composed of the linear prediction coefficient of the frame of interest from the LPC analysis unit 71, and A is obtained as a result of the vector quantization.
The code is supplied to the filter coefficient decoder 73 and the tap generator 79. The filter coefficient decoder 73 decodes the A code from the vector quantization unit 72 into a linear prediction coefficient, and supplies the linear prediction coefficient to the speech synthesis filter 77.

【0131】一方、LPC分析部71から注目フレーム
の線形予測係数を受信した予測フィルタ74は、その線
形予測係数と、注目フレームの学習用の音声信号とを用
いて、式(1)にしたがった演算を行うことにより、注
目フレームの残差信号を求め、ベクトル量子化部75に
供給する。ベクトル量子化部75は、予測フィルタ74
からの注目フレームの残差信号のサンプル値で構成され
る残差ベクトルをベクトル量子化し、そのベクトル量子
化の結果得られる残差コードを、残差コードブック記憶
部76およびタップ生成部79に供給する。残差コード
ブック記憶部76は、ベクトル量子化部75からの残差
コードを、残差信号に復号し、音声合成フィルタ77に
供給する。
On the other hand, the prediction filter 74 that has received the linear prediction coefficient of the frame of interest from the LPC analysis unit 71 uses the linear prediction coefficient and the speech signal for learning of the frame of interest and follows the equation (1). By performing the calculation, the residual signal of the frame of interest is obtained and supplied to the vector quantization unit 75. The vector quantization unit 75 includes a prediction filter 74
Is quantized, and the residual code obtained as a result of the vector quantization is supplied to the residual code book storage unit 76 and the tap generation unit 79. I do. The residual codebook storage unit 76 decodes the residual code from the vector quantization unit 75 into a residual signal, and supplies the residual signal to the speech synthesis filter 77.

【0132】以上のようにして、音声合成フィルタ77
は、線形予測係数と残差信号を受信すると、その線形予
測係数と残差信号を用いて音声合成を行い、その結果得
られる合成音を、生徒データとして、タップ生成部78
に出力する。
As described above, the speech synthesis filter 77
Receives the linear prediction coefficient and the residual signal, performs speech synthesis using the linear prediction coefficient and the residual signal, and uses the resultant synthesized sound as student data as the tap generation unit 78.
Output to

【0133】そして、ステップS12に進み、タップ生
成部78が、音声合成フィルタ77から供給される合成
音から、予測タップを生成するとともに、タップ生成部
79が、ベクトル量子化部72からのAコードと、ベク
トル量子化部75からの残差コードから、クラスタップ
を生成する。予測タップは、正規方程式加算回路81に
供給され、クラスタップは、クラス分類部80に供給さ
れる。
Then, the process proceeds to step S12, where the tap generation section 78 generates a prediction tap from the synthesized sound supplied from the speech synthesis filter 77, and the tap generation section 79 outputs the A code from the vector quantization section 72. And a class tap from the residual code from the vector quantization unit 75. The prediction tap is supplied to a normal equation addition circuit 81, and the class tap is supplied to a class classification unit 80.

【0134】その後、ステップS13において、クラス
分類部80が、タップ生成部79からのクラスタップに
基づいて、クラス分類を行い、その結果得られるクラス
コードを、正規方程式加算回路81に供給する。
Thereafter, in step S13, the class classifying section 80 classifies the class based on the class tap from the tap generating section 79, and supplies the resulting class code to the normal equation adding circuit 81.

【0135】そして、ステップS14に進み、正規方程
式加算回路81は、クラス分類部80から供給されるク
ラスについて、そこに供給される教師データとしての注
目フレームの高音質の音声のサンプル値、およびタップ
生成部78からの生徒データとしての予測タップ(を構
成する合成音のサンプル値)を対象とした、式(13)
の行列Aとベクトルvの、上述したような足し込みを行
い、ステップS15に進む。
Then, the process proceeds to step S14, where the normal equation adding circuit 81 determines, for the class supplied from the classifying section 80, the sample value of the high-quality sound of the frame of interest as the teacher data supplied thereto, and the tap. Expression (13) for a prediction tap (sample value of a synthetic sound constituting the prediction tap) as student data from the generation unit 78
Is added to the matrix A and the vector v as described above, and the process proceeds to step S15.

【0136】ステップS15では、まだ、注目フレーム
として処理すべきフレームの学習用の音声信号があるか
どうかが判定される。ステップS15において、まだ、
注目フレームとして処理すべきフレームの学習用の音声
信号があると判定された場合、ステップS11に戻り、
次のフレームを新たに注目フレームとして、以下、同様
の処理が繰り返される。
In step S15, it is determined whether there is still a speech signal for learning a frame to be processed as the frame of interest. In step S15,
If it is determined that there is an audio signal for learning of a frame to be processed as the frame of interest, the process returns to step S11,
With the next frame as a new frame of interest, the same processing is repeated thereafter.

【0137】また、ステップS15において、注目フレ
ームとして処理すべきフレームの学習用の音声信号がな
いと判定された場合、即ち、正規方程式加算回路81に
おいて、各クラスについて、正規方程式が得られた場
合、ステップS16に進み、タップ係数決定回路82
は、各クラスごとに生成された正規方程式を解くことに
より、各クラスごとに、タップ係数を求め、係数メモリ
83の、各クラスに対応するアドレスに供給して記憶さ
せ、処理を終了する。
If it is determined in step S15 that there is no audio signal for learning the frame to be processed as the frame of interest, that is, if the normal equation adding circuit 81 obtains a normal equation for each class , To step S16, where the tap coefficient determination circuit 82
Solves the normal equation generated for each class, finds a tap coefficient for each class, supplies the tap coefficients to the address corresponding to each class in the coefficient memory 83, stores the tap coefficients, and ends the processing.

【0138】以上のようにして、係数メモリ83に記憶
された各クラスごとのタップ係数が、図3の係数メモリ
48に記憶されている。
As described above, the tap coefficients for each class stored in the coefficient memory 83 are stored in the coefficient memory 48 of FIG.

【0139】従って、図3の係数メモリ48に記憶され
たタップ係数は、線形予測演算を行うことにより得られ
る高音質の音声の予測値の予測誤差(ここでは、自乗誤
差)が、統計的に最小になるように学習を行うことによ
り求められたものであるから、図3の予測部49が出力
する音声は、音声合成フィルタ44で生成された合成音
の歪みが低減(解消)された、高音質のものとなる。
Accordingly, the tap coefficients stored in the coefficient memory 48 of FIG. 3 are statistically different from the prediction error (here, the square error) of the prediction value of the high-quality sound obtained by performing the linear prediction operation. Since the sound is obtained by performing learning so as to minimize the sound, the sound output by the prediction unit 49 in FIG. 3 has the distortion of the synthesized sound generated by the sound synthesis filter 44 reduced (eliminated). It will be of high sound quality.

【0140】なお、図3の音声合成装置において、上述
したように、例えば、タップ生成部46に、線形予測係
数や残差信号等の中からも、クラスタップを抽出させる
ようにする場合には、図6のタップ生成部79にも、フ
ィルタ係数復号器73が出力する線形予測係数や、残差
コードブック記憶部76が出力する残差信号の中から、
同様のクラスタップを抽出させるようにする必要があ
る。但し、線形予測係数等からも、クラスタップを抽出
する場合には、タップ数が多くなることから、クラス分
類は、例えば、クラスタップをベクトル量子化等によっ
て圧縮することにより行うのが望ましい。なお、残差コ
ードおよびAコードだけからクラス分類を行う場合に
は、残差コードとAコードのビット列の並びを、そのま
まクラスコードとすることができることから、クラス分
類処理に要する負担を軽減することができる。
In the speech synthesizer shown in FIG. 3, as described above, for example, when the tap generation unit 46 is to cause the tap generation unit 46 to extract class taps from among linear prediction coefficients, residual signals, and the like, Also, the tap generation unit 79 in FIG. 6 also calculates the linear prediction coefficient output from the filter coefficient decoder 73 and the residual signal output from the residual codebook storage unit 76 from the residual signal.
It is necessary to extract similar class taps. However, when class taps are also extracted from the linear prediction coefficients and the like, the number of taps increases. Therefore, it is desirable to perform the class classification by compressing the class taps by, for example, vector quantization. When class classification is performed only from the residual code and the A code, the bit sequence of the residual code and the A code can be used as the class code as it is, so that the load required for the class classification processing is reduced. Can be.

【0141】次に、図9は、本発明を適用した伝送シス
テム(システムとは、複数の装置が論理的に集合した物
をいい、各構成の装置が同一筐体中にあるか否かは問わ
ない)の一実施の形態の構成を示している。
Next, FIG. 9 shows a transmission system to which the present invention is applied (a system refers to a device in which a plurality of devices are logically aggregated, and it is determined whether or not the devices of each configuration are in the same housing. (Regardless of the present invention).

【0142】この伝送システムでは、携帯電話機101
1と1012が、基地局1021と1022それぞれとの間
で、無線による送受信を行うとともに、基地局1021
と1022それぞれが、交換局103との間で送受信を
行うことにより、最終的には、携帯電話機1011と1
012との間において、基地局1021および1022
並びに交換局103を介して、音声の送受信を行うこと
ができるようになっている。なお、基地局1021と1
022は、同一の基地局であっても良いし、異なる基地
局であっても良い。
In this transmission system, the portable telephone 101
1 and 101 2, between the base station 102 1 and 102 2, respectively, performs transmission and reception by radio, the base station 102 1
And 102 2 transmit and receive data to and from the exchange 103, and eventually, the mobile phones 101 1 and 101 1
In between the 01 2, the base station 102 1 and 102 2,
In addition, voice transmission and reception can be performed via the exchange 103. Note that base stations 102 1 and 1
02 2 may be the same base station, or may be a different base station.

【0143】ここで、以下、特に区別する必要がない限
り、携帯電話機1011と1012を、携帯電話機101
と記述する。
Here, the mobile phones 101 1 and 101 2 will be referred to as the mobile phone 101 unless otherwise specified.
It is described.

【0144】図10は、図9の携帯電話機101の構成
例を示している。
FIG. 10 shows a configuration example of the mobile phone 101 shown in FIG.

【0145】アンテナ111は、基地局1021または
1022からの電波を受信し、その受信信号を、変復調
部112に供給するとともに、変復調部112からの信
号を、電波で、基地局1021または1022に送信す
る。変復調部112は、アンテナ111からの信号を復
調し、その結果得られる、図1で説明したようなコード
データを、受信部114に供給する。また、変復調部1
12は、送信部113から供給される、図1で説明した
ようなコードデータを変調し、その結果得られる変調信
号を、アンテナ111に供給する。送信部113は、図
1に示した送信部と同様に構成され、そこに入力される
ユーザの音声を、コードデータに符号化して、変復調部
112に供給する。受信部114は、変復調部112か
らのコードデータを受信し、そのコードデータから、図
3の音声合成装置における場合と同様の高音質の音声を
復号して出力する。
The antenna 111 receives a radio wave from the base station 102 1 or 102 2 and supplies the received signal to the modulation / demodulation unit 112, and also transmits a signal from the modulation / demodulation unit 112 by radio wave to the base station 102 1 or 102 2. It sends to 102 2. The modulation and demodulation unit 112 demodulates the signal from the antenna 111 and supplies the resulting code data as described in FIG. Also, the modulation / demodulation unit 1
12 modulates the code data supplied from the transmission unit 113 as described with reference to FIG. 1, and supplies the resulting modulated signal to the antenna 111. The transmitting unit 113 is configured similarly to the transmitting unit shown in FIG. 1, encodes the user's voice input thereto into code data, and supplies the code data to the modem unit 112. The reception unit 114 receives the code data from the modulation / demodulation unit 112, decodes the code data, and decodes and outputs the same high-quality sound as in the speech synthesis device in FIG.

【0146】即ち、図11は、図10の受信部114の
構成例を示している。なお、図中、図2における場合と
対応する部分については、同一の符号を付してあり、以
下では、その説明は、適宜省略する。
That is, FIG. 11 shows a configuration example of the receiving section 114 of FIG. In the figure, portions corresponding to those in FIG. 2 are denoted by the same reference numerals, and a description thereof will be omitted as appropriate below.

【0147】タップ生成部121には、音声合成フィル
タ29が出力する合成音が供給されるようになってお
り、タップ生成部121は、その合成音から、予測タッ
プとするもの(サンプル値)を抽出し、予測部125に
供給する。
The synthesized sound output from the speech synthesis filter 29 is supplied to the tap generation section 121, and the tap generation section 121 determines, from the synthesized sound, what is to be a prediction tap (sample value). The extracted data is supplied to the prediction unit 125.

【0148】タップ生成部122には、チャネルデコー
ダ21が出力する、フレーム(またはサブフレーム)ご
とのLコード、Gコード、Iコード、およびAコードが
供給されるようになっている。さらに、タップ生成部1
22には、演算器28から残差信号が供給されるととも
に、フィルタ係数復号器25から線形予測係数が供給さ
れるようになっている。タップ生成部122は、そこに
供給されるLコード、Gコード、Iコード、およびAコ
ード、さらには、残差信号および線形予測係数から、ク
ラスタップとするものを抽出し、クラス分類部123に
供給する。
The L code, G code, I code, and A code for each frame (or subframe) output from the channel decoder 21 are supplied to the tap generation unit 122. Furthermore, tap generation unit 1
To 22, a residual signal is supplied from a calculator 28 and a linear prediction coefficient is supplied from a filter coefficient decoder 25. The tap generation unit 122 extracts what is to be a class tap from the L code, G code, I code, and A code supplied thereto, as well as the residual signal and the linear prediction coefficient. Supply.

【0149】クラス分類部123は、タップ生成部12
2から供給されるクラスタップに基づいて、クラス分類
を行い、そのクラス分類結果としてのクラスコードを、
係数メモリ124に供給する。
The classifying section 123 includes the tap generating section 12
Classification is performed based on the class tap supplied from 2, and the class code as the classification result is
The coefficient is supplied to the coefficient memory 124.

【0150】ここで、Lコード、Gコード、Iコード、
およびAコード、並びに残差信号および線形予測係数か
ら、クラスタップを構成し、このクラスタップに基づい
てクラス分類を行うと、そのクラス分類の結果得られる
クラス数が膨大な数になることがある。そこで、クラス
分類部123では、例えば、Lコード、Gコード、Iコ
ード、およびAコード、並びに残差信号および線形予測
係数を要素とするベクトルをベクトル量子化して得られ
るコードを、クラス分類結果として出力するようにする
ことができる。
Here, L code, G code, I code,
When a class tap is formed from the A and A codes, the residual signal and the linear prediction coefficient, and the class is classified based on the class tap, the number of classes obtained as a result of the class classification may be enormous. . Therefore, the classifying unit 123 uses, for example, an L code, a G code, an I code, and an A code, and a code obtained by performing vector quantization on a vector having elements of a residual signal and a linear prediction coefficient as a class classification result. It can be output.

【0151】係数メモリ124は、後述する図12の学
習装置において学習処理が行われることにより得られ
る、クラスごとのタップ係数を記憶しており、クラス分
類部123が出力するクラスコードに対応するアドレス
に記憶されているタップ係数を、予測部125に供給す
る。
The coefficient memory 124 stores tap coefficients for each class obtained by performing a learning process in the learning apparatus shown in FIG. 12, which will be described later, and stores addresses corresponding to the class codes output from the class classifying unit 123. Is supplied to the prediction unit 125.

【0152】予測部125は、図3の予測部49と同様
に、タップ生成部121が出力する予測タップと、係数
メモリ124が出力するタップ係数とを取得し、その予
測タップとタップ係数とを用いて、式(6)に示した線
形予測演算を行う。これにより、予測部125は、注目
フレームの高音質の音声(の予測値)を求めて、D/A
変換部30に供給する。
The prediction section 125 acquires the prediction tap output from the tap generation section 121 and the tap coefficient output from the coefficient memory 124, as in the prediction section 49 of FIG. To perform the linear prediction operation shown in equation (6). Accordingly, the prediction unit 125 obtains (predicted value of) the high-quality sound of the frame of interest and calculates the D / A
It is supplied to the converter 30.

【0153】以上のように構成される受信部114で
は、基本的には、図5に示したフローチャートにしたが
った処理と同様の処理が行われることで、高音質の合成
音が、音声の復号結果として出力される。
In the receiving section 114 configured as described above, basically, the same processing as the processing according to the flowchart shown in FIG. 5 is performed, so that the synthesized sound of high sound quality is decoded. Output as a result.

【0154】即ち、チャネルデコーダ21は、そこに供
給されるコードデータから、Lコード、Gコード、Iコ
ード、Aコードを分離し、それぞれを、適応コードブッ
ク記憶部22、ゲイン復号器23、励起コードブック記
憶部24、フィルタ係数復号器25に供給する。さら
に、Lコード、Gコード、Iコード、およびAコード
は、タップ生成部122にも供給される。
That is, the channel decoder 21 separates the L code, G code, I code, and A code from the code data supplied thereto, and separates them into the adaptive codebook storage unit 22, the gain decoder 23, It is supplied to the codebook storage unit 24 and the filter coefficient decoder 25. Further, the L code, the G code, the I code, and the A code are also supplied to the tap generation unit 122.

【0155】そして、適応コードブック記憶部22、ゲ
イン復号器23、励起コードブック記憶部24、演算器
26乃至28では、図1の適応コードブック記憶部9、
ゲイン復号器10、励起コードブック記憶部11、演算
器12乃至14における場合と同様の処理が行われ、こ
れにより、Lコード、Gコード、およびIコードが、残
差信号eに復号される。この残差信号は、音声合成フィ
ルタ29およびタップ生成部122に供給される。
The adaptive codebook storage unit 22, the gain decoder 23, the excitation codebook storage unit 24, and the arithmetic units 26 to 28 include the adaptive codebook storage unit 9 shown in FIG.
The same processing as in the gain decoder 10, the excitation codebook storage unit 11, and the arithmetic units 12 to 14 is performed, whereby the L code, the G code, and the I code are decoded into the residual signal e. This residual signal is supplied to the speech synthesis filter 29 and the tap generator 122.

【0156】さらに、フィルタ係数復号器25は、図1
で説明したように、そこに供給されるAコードを、線形
予測係数に復号し、音声合成フィルタ29およびタップ
生成部122に供給する。音声合成フィルタ29は、演
算器28からの残差信号と、フィルタ係数復号器25か
らの線形予測係数を用いて音声合成を行い、その結果得
られる合成音を、タップ生成部121に供給する。
Further, the filter coefficient decoder 25 has the configuration shown in FIG.
As described above, the A code supplied thereto is decoded into linear prediction coefficients and supplied to the speech synthesis filter 29 and the tap generation unit 122. The speech synthesis filter 29 performs speech synthesis using the residual signal from the arithmetic unit 28 and the linear prediction coefficient from the filter coefficient decoder 25, and supplies the resultant synthesized sound to the tap generation unit 121.

【0157】タップ生成部121は、音声合成フィルタ
29が出力する合成音のフレームを注目フレームとし、
ステップS1において、その注目フレームの合成音か
ら、予測タップを生成し、予測部125に供給する。さ
らに、ステップS1では、タップ生成部122は、そこ
に供給されるLコード、Gコード、Iコード、およびA
コード、並びに残差信号および線形予測係数から、クラ
スタップを生成し、クラス分類部123に供給する。
The tap generation unit 121 sets the synthesized sound frame output from the voice synthesis filter 29 as the frame of interest,
In step S <b> 1, a prediction tap is generated from the synthesized sound of the frame of interest and supplied to the prediction unit 125. Further, in step S1, the tap generation unit 122 supplies the L code, the G code, the I code, and the A code supplied thereto.
A class tap is generated from the code, the residual signal and the linear prediction coefficient, and supplied to the classifying unit 123.

【0158】そして、ステップS2に進み、クラス分類
部123は、タップ生成部122から供給されるクラス
タップに基づいて、クラス分類を行い、その結果得られ
るクラスコードを、係数メモリ124に供給して、ステ
ップS3に進む。
Then, the process proceeds to step S 2, where the class classification unit 123 performs a class classification based on the class tap supplied from the tap generation unit 122, and supplies the resulting class code to the coefficient memory 124. The process proceeds to step S3.

【0159】ステップS3では、係数メモリ124は、
クラス分類部123から供給されるクラスコードに対応
するアドレスから、タップ係数を読み出し、予測部12
5に供給する。
In step S3, the coefficient memory 124 stores
The tap coefficient is read from the address corresponding to the class code supplied from the class classification unit 123, and the prediction unit 12
5

【0160】そして、ステップS4に進み、予測部12
5は、係数メモリ124が出力するタップ係数を取得
し、そのタップ係数と、タップ生成部121からの予測
タップとを用いて、式(6)に示した積和演算を行い、
注目フレームの高音質の音声(の予測値)を得る。
Then, the process proceeds to a step S4, wherein the prediction section 12
5 obtains a tap coefficient output from the coefficient memory 124, performs a product-sum operation shown in Expression (6) using the tap coefficient and the prediction tap from the tap generation unit 121,
(Predicted value of) high-quality sound of the frame of interest.

【0161】以上のようにして得られた高音質の音声
は、予測部125から、D/A変換部30を介して、ス
ピーカ31に供給され、これにより、スピーカ31から
は、高音質の音声が出力される。
The high-quality sound obtained as described above is supplied from the prediction unit 125 to the speaker 31 via the D / A conversion unit 30, and the high-quality sound is output from the speaker 31. Is output.

【0162】ステップS4の処理後は、ステップS5に
進み、まだ、注目フレームとして処理すべきフレームが
あるかどうかが判定され、あると判定された場合、ステ
ップS1に戻り、次に注目フレームとすべきフレーム
を、新たに注目フレームとして、以下、同様の処理を繰
り返す。また、ステップS5において、注目フレームと
して処理すべきフレームがないと判定された場合、処理
を終了する。
After the process in step S4, the process proceeds to step S5, where it is determined whether or not there is still a frame to be processed as the frame of interest. The same process is repeated hereafter with the target frame as a new frame of interest. If it is determined in step S5 that there is no frame to be processed as the frame of interest, the process ends.

【0163】次に、図12は、図11の係数メモリ12
4に記憶させるタップ係数の学習処理を行う学習装置の
一実施の形態の構成例を示している。
FIG. 12 shows the coefficient memory 12 of FIG.
4 illustrates a configuration example of an embodiment of a learning device that performs a learning process of a tap coefficient to be stored in No. 4.

【0164】マイク201乃至コード決定部215は、
図1のマイク1乃至コード決定部15とそれぞれ同様に
構成される。マイク1には、学習用の音声信号が入力さ
れるようになっており、従って、マイク201乃至コー
ド決定部215では、その学習用の音声信号に対して、
図1における場合と同様の処理が施される。
The microphone 201 to the code determination unit 215
The configuration is the same as that of the microphone 1 to the code determination unit 15 in FIG. The microphone 1 receives a learning audio signal. Therefore, the microphone 201 to the code determination unit 215 output the learning audio signal to the microphone 1.
The same processing as in the case of FIG. 1 is performed.

【0165】そして、タップ生成部131には、自乗誤
差最小判定部208において自乗誤差が最小になったと
判定されたときの音声合成フィルタ206が出力する合
成音が供給される。また、タップ生成部132には、コ
ード決定部215が、自乗誤差最小判定部208から確
定信号を受信したときに出力するLコード、Gコード、
Iコード、およびAコードが供給される。さらに、タッ
プ生成部132には、ベクトル量子化部205が出力す
る、LPC分析部204で得られた線形予測係数のベク
トル量子化結果としてのAコードに対応するコードベク
トル(セントロイドベクトル)の要素となっている線形
予測係数と、自乗誤差最小判定部208において自乗誤
差が最小になったと判定されたときの演算器214が出
力する残差信号も供給される。また、正規方程式加算回
路134には、A/D変換部202が出力する音声が、
教師データとして供給される。
The tap generator 131 is supplied with the synthesized sound output from the voice synthesis filter 206 when the square error minimum judging section 208 judges that the square error has become minimum. Also, the tap generation unit 132 includes an L code, a G code, and an L code, which are output when the code determination unit 215 receives the determination signal from the square error minimum determination unit 208.
An I code and an A code are supplied. Further, the tap generation unit 132 outputs an element of a code vector (centroid vector) corresponding to the A code as a vector quantization result of the linear prediction coefficient obtained by the LPC analysis unit 204, which is output by the vector quantization unit 205. , And the residual signal output by the arithmetic unit 214 when the square error has been minimized by the square error minimum determination unit 208. Also, the normal equation addition circuit 134 outputs the audio output from the A / D conversion unit 202,
Supplied as teacher data.

【0166】タップ生成部131は、音声合成フィルタ
206が出力する合成音から、図11のタップ生成部1
21と同一の予測タップを構成し、生徒データとして、
正規方程式加算回路134に供給する。
[0166] The tap generation section 131 converts the synthesized sound output from the speech synthesis filter 206 into the tap generation section 1 shown in FIG.
The same prediction tap as that of 21 is configured, and as student data,
It is supplied to the normal equation adding circuit 134.

【0167】タップ生成部132は、コード決定部21
5から供給されるLコード、Gコード、Iコード、およ
びAコード、並びに、ベクトル量子化部205から供給
される線形予測係数、および演算器214から供給され
る残差信号から、図11のタップ生成部122と同一の
クラスタップを構成し、クラス分類部133に供給す
る。
The tap generation section 132
11 from the L code, the G code, the I code, and the A code, the linear prediction coefficient supplied from the vector quantization unit 205, and the residual signal supplied from the arithmetic unit 214. The same class tap as that of the generation unit 122 is configured and supplied to the class classification unit 133.

【0168】クラス分類部133は、タップ生成部13
2からのクラスタップに基づいて、図11のクラス分類
部123における場合と同様のクラス分類を行い、その
結果得られるクラスコードを、正規方程式加算回路13
4に供給する。
The classifying section 133 includes the tap generating section 13
Based on the class tap from No. 2, the same class classification as in the class classification unit 123 in FIG. 11 is performed, and the resulting class code is converted into a normal equation addition circuit 13.
4

【0169】正規方程式加算回路134は、A/D変換
部202からの音声を、教師データとして受信するとと
もに、タップ生成部131からの予測タップを、生徒デ
ータとして受信し、その教師データおよび生徒データを
対象として、クラス分類部133からのクラスコードご
とに、図6の正規方程式加算回路81における場合と同
様の足し込みを行うことにより、各クラスについて、式
(13)に示した正規方程式をたてる。
The normal equation adding circuit 134 receives the audio from the A / D converter 202 as teacher data, receives the predicted tap from the tap generator 131 as student data, and receives the teacher data and student data. For each class, the same normal addition as in the normal equation addition circuit 81 of FIG. 6 is performed for each class code from the class classification unit 133, so that the normal equation shown in Expression (13) is obtained for each class. Te

【0170】タップ係数決定回路135は、正規方程式
加算回路134においてクラスごとに生成された正規方
程式を解くことにより、クラスごとに、タップ係数を求
め、係数メモリ136の、各クラスに対応するアドレス
に供給する。
The tap coefficient determination circuit 135 obtains tap coefficients for each class by solving the normal equation generated for each class in the normal equation adding circuit 134, and stores the tap coefficients in an address corresponding to each class in the coefficient memory 136. Supply.

【0171】なお、学習用の音声信号として用意する音
声信号によっては、正規方程式加算回路134におい
て、タップ係数を求めるのに必要な数の正規方程式が得
られないクラスが生じる場合があり得るが、タップ係数
決定回路135は、そのようなクラスについては、例え
ば、デフォルトのタップ係数を出力する。
Depending on the audio signal prepared as the audio signal for learning, the normal equation adding circuit 134 may have a class in which the number of normal equations required for obtaining the tap coefficients cannot be obtained. For such a class, the tap coefficient determination circuit 135 outputs, for example, a default tap coefficient.

【0172】係数メモリ136は、タップ係数決定回路
135から供給されるクラスごとの線形予測係数と残差
信号についてのタップ係数を記憶する。
The coefficient memory 136 stores the linear prediction coefficients for each class and the tap coefficients for the residual signal supplied from the tap coefficient determination circuit 135.

【0173】以上のように構成される学習装置では、基
本的には、図8に示したフローチャートにしたがった処
理と同様の処理が行われることで、高音質の合成音を得
るためのタップ係数が求められる。
In the learning apparatus configured as described above, basically, the same processing as the processing according to the flowchart shown in FIG. 8 is performed, so that the tap coefficient for obtaining a high-quality synthesized sound is obtained. Is required.

【0174】学習装置には、学習用の音声信号が供給さ
れ、ステップS11では、その学習用の音声信号から、
教師データと生徒データが生成される。
A learning audio signal is supplied to the learning device. In step S11, the learning audio signal is
Teacher data and student data are generated.

【0175】即ち、学習用の音声信号は、マイク201
に入力され、マイク201乃至コード決定部215は、
図1のマイク1乃至コード決定部15における場合とそ
れぞれ同様の処理を行う。
That is, the audio signal for learning is transmitted to the microphone 201
And the microphone 201 through the code determination unit 215
The same processing as in the case of the microphone 1 to the code determination unit 15 in FIG. 1 is performed.

【0176】その結果、A/D変換部202で得られる
ディジタル信号の音声は、教師データとして、正規方程
式加算回路134に供給される。また、自乗誤差最小判
定部208において自乗誤差が最小になったと判定され
たときに、音声合成フィルタ206が出力する合成音
は、生徒データとして、タップ生成部131に供給され
る。
As a result, the audio of the digital signal obtained by the A / D converter 202 is supplied to the normal equation adding circuit 134 as teacher data. Further, when the squared error minimum determination unit 208 determines that the squared error is minimized, the synthesized sound output from the voice synthesis filter 206 is supplied to the tap generation unit 131 as student data.

【0177】さらに、ベクトル量子化部205が出力す
る線形予測係数、自乗誤差最小判定部208において自
乗誤差が最小になったと判定されたときに、コード決定
部215が出力するLコード、Gコード、Iコード、お
よびAコード、並びに演算器214が出力する残差信号
は、タップ生成部132に供給される。
Further, the linear prediction coefficient output from the vector quantization section 205 and the L code, G code, and L code output by the code determination section 215 when the square error minimum determination section 208 determines that the square error has become minimum. The I code, the A code, and the residual signal output from the arithmetic unit 214 are supplied to the tap generation unit 132.

【0178】その後、ステップS12に進み、タップ生
成部131は、音声合成フィルタ206から生徒データ
として供給される合成音のフレームを注目フレームとし
て、その注目フレームの合成音から、予測タップを生成
し、正規方程式加算回路134に供給する。さらに、ス
テップS12では、タップ生成部132が、そこに供給
されるLコード、Gコード、Iコード、Aコード、線形
予測係数、および残差信号から、クラスタップを生成
し、クラス分類部133に供給する。
Thereafter, the flow proceeds to step S12, where the tap generation section 131 sets a frame of the synthesized sound supplied as the student data from the voice synthesis filter 206 as a frame of interest, and generates a prediction tap from the synthesized sound of the frame of interest. It is supplied to the normal equation adding circuit 134. Further, in step S12, the tap generation unit 132 generates a class tap from the L code, G code, I code, A code, linear prediction coefficient, and residual signal supplied thereto, and the class classification unit 133 Supply.

【0179】ステップS12の処理後は、ステップS1
3に進み、クラス分類部133が、タップ生成部132
からのクラスタップに基づいて、クラス分類を行い、そ
の結果得られるクラスコードを、正規方程式加算回路1
34に供給する。
After the processing in step S12, step S1
3, the classifying unit 133 sets the tap generating unit 132
Classification is performed based on the class tap from
34.

【0180】そして、ステップS14に進み、正規方程
式加算回路134は、A/D変換器202からの教師デ
ータとしての注目フレームの高音質の音声である学習用
の音声、およびタップ生成部132からの生徒データと
しての予測タップを対象として、式(13)の行列Aと
ベクトルvの、上述したような足し込みを、クラス分類
部133からのクラスコードごとに行い、ステップS1
5に進む。
Then, the process proceeds to a step S 14, where the normal equation adding circuit 134 outputs the learning voice, which is the high-quality voice of the target frame as the teacher data from the A / D converter 202, and the learning voice from the tap generator 132. For the prediction tap as the student data, the above-described addition of the matrix A and the vector v of Expression (13) is performed for each class code from the class classification unit 133, and step S1 is performed.
Go to 5.

【0181】ステップS15では、まだ、注目フレーム
として処理すべきフレームがあるかどうかが判定され
る。ステップS15において、まだ、注目フレームとし
て処理すべきフレームがあると判定された場合、ステッ
プS11に戻り、次のフレームを新たに注目フレームと
して、以下、同様の処理が繰り返される。
In step S15, it is determined whether or not there is still a frame to be processed as the frame of interest. If it is determined in step S15 that there is still a frame to be processed as the target frame, the process returns to step S11, and the same process is repeated with the next frame as a new target frame.

【0182】また、ステップS15において、注目フレ
ームとして処理すべきフレームがないと判定された場
合、即ち、正規方程式加算回路134において、各クラ
スについて、正規方程式が得られた場合、ステップS1
6に進み、タップ係数決定回路135は、各クラスごと
に生成された正規方程式を解くことにより、各クラスご
とに、タップ係数を求め、係数メモリ136の、各クラ
スに対応するアドレスに供給して記憶させ、処理を終了
する。
If it is determined in step S15 that there is no frame to be processed as the frame of interest, that is, if the normal equation adding circuit 134 obtains a normal equation for each class, step S1
Proceeding to 6, the tap coefficient determination circuit 135 obtains a tap coefficient for each class by solving the normal equation generated for each class, and supplies the tap coefficient to the address of the coefficient memory 136 corresponding to each class. Then, the process is terminated.

【0183】以上のようにして、係数メモリ136に記
憶された各クラスごとのタップ係数が、図11の係数メ
モリ124に記憶されている。
As described above, the tap coefficients for each class stored in the coefficient memory 136 are stored in the coefficient memory 124 of FIG.

【0184】従って、図11の係数メモリ124に記憶
されたタップ係数は、線形予測演算を行うことにより得
られる高音質の音声予測値の予測誤差(自乗誤差)が、
統計的に最小になるように学習を行うことにより求めら
れたものであるから、図11の予測部125が出力する
音声は、高音質のものとなる。
Accordingly, the tap coefficients stored in the coefficient memory 124 of FIG. 11 are obtained by calculating the prediction error (square error) of the high-quality sound predicted value obtained by performing the linear prediction operation.
Since the sound is obtained by performing learning so as to be statistically minimized, the sound output by the prediction unit 125 in FIG. 11 has high sound quality.

【0185】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
Next, the above-described series of processing can be performed by hardware or can be performed by software. When a series of processing is performed by software, a program constituting the software is
Installed on a general-purpose computer.

【0186】そこで、図13は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
FIG. 13 shows an example of the configuration of an embodiment of a computer in which a program for executing the above-described series of processing is installed.

【0187】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク305やROM3
03に予め記録しておくことができる。
The program is stored in a hard disk 305 or a ROM 3 as a recording medium built in the computer.
03 can be recorded in advance.

【0188】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM(Compact DiscRead Only Memory),
MO(Magneto optical)ディスク,DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体311に、一時的あるいは永続的に格納(記
録)しておくことができる。このようなリムーバブル記
録媒体311は、いわゆるパッケージソフトウエアとし
て提供することができる。
Alternatively, the program includes a flexible disk, a CD-ROM (Compact Disc Read Only Memory),
MO (Magneto optical) disc, DVD (Digital Versatile)
Disc), a magnetic disk, a semiconductor memory or the like, and can be temporarily (permanently) stored (recorded) in a removable recording medium 311. Such a removable recording medium 311 can be provided as so-called package software.

【0189】なお、プログラムは、上述したようなリム
ーバブル記録媒体311からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部308で受信し、内蔵するハード
ディスク305にインストールすることができる。
The program can be installed in the computer from the removable recording medium 311 as described above, can be wirelessly transferred from a download site to the computer via an artificial satellite for digital satellite broadcasting, or can be connected to a LAN (Local Area). Network) or the Internet, and the program can be transferred to the computer by wire. The computer can receive the transferred program by the communication unit 308 and install the program on the built-in hard disk 305.

【0190】コンピュータは、CPU(Central Processing
Unit)302を内蔵している。CPU302には、バス3
01を介して、入出力インタフェース310が接続され
ており、CPU302は、入出力インタフェース310を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部307が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)303に格納されているプログラムを実行
する。あるいは、また、CPU302は、ハードディスク
305に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部308で受信されてハー
ドディスク305にインストールされたプログラム、ま
たはドライブ309に装着されたリムーバブル記録媒体
311から読み出されてハードディスク305にインス
トールされたプログラムを、RAM(Random Access Memor
y)304にロードして実行する。これにより、CPU30
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU302は、その処理結果を、必要に応
じて、例えば、入出力インタフェース310を介して、
LCD(Liquid Crystal Display)やスピーカ等で構成され
る出力部306から出力、あるいは、通信部308から
送信、さらには、ハードディスク305に記録等させ
る。
The computer has a CPU (Central Processing).
Unit 302). The CPU 302 has a bus 3
01 is connected to the input / output interface 310 via the input / output interface 310, and the user operates the input unit 307 including a keyboard, a mouse, a microphone, and the like via the input / output interface 310. When a command is input, the ROM (Read O
nly Memory) 303 is executed. Alternatively, the CPU 302 may execute a program stored in the hard disk 305, a program transferred from a satellite or a network and received by the communication unit 308 and installed in the hard disk 305, or a removable recording medium 311 mounted in the drive 309. The program read and installed on the hard disk 305 is stored in a RAM (Random Access Memory).
y) Load into 304 and execute. Thereby, the CPU 30
2 performs processing according to the above-described flowchart or processing performed by the configuration of the above-described block diagram. Then, the CPU 302 transmits the processing result as necessary, for example, via the input / output interface 310.
Output is performed from an output unit 306 including an LCD (Liquid Crystal Display), a speaker, or the like, or transmitted from the communication unit 308, and further recorded on the hard disk 305.

【0191】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
Here, in this specification, processing steps for writing a program for causing a computer to perform various processing do not necessarily have to be processed in a time series in the order described in the flowchart, and may be performed in parallel. Alternatively, it also includes processing executed individually (for example, parallel processing or processing by an object).

【0192】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
The program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.

【0193】なお、本実施の形態においては、学習用の
音声信号として、どのようなものを用いるかについて
は、特に言及しなかったが、学習用の音声信号として
は、人が発話した音声の他、例えば、曲(音楽)等を採
用することが可能である。そして、上述したような学習
処理によれば、学習用の音声信号として、人の発話を用
いた場合には、そのような人の発話の音声の音質を向上
させるようなタップ係数が得られ、曲を用いた場合に
は、曲の音質を向上させるようなタップ係数が得られる
ことになる。
In the present embodiment, what kind of signal is used as the learning speech signal is not particularly mentioned. Alternatively, for example, a song (music) or the like can be adopted. According to the above-described learning process, when a human utterance is used as the learning voice signal, a tap coefficient that improves the sound quality of the voice of such a human utterance is obtained, When a song is used, a tap coefficient that improves the sound quality of the song is obtained.

【0194】また、図11の実施の形態では、係数メモ
リ124には、タップ係数をあらかじめ記憶させておく
ようにしたが、係数メモリ124に記憶させるタップ係
数は、携帯電話機101において、図9の基地局102
(あるいは交換局103)や、図示しないWWW(World
Wide Web)サーバ等からダウンロードするようにするこ
とができる。即ち、上述したように、タップ係数は、人
の発話用や曲用等のように、ある種類の音声信号に適し
たものを、学習によって得ることができる。さらに、学
習に用いる教師データおよび生徒データによっては、合
成音の音質に差が生じるタップ係数を得ることができ
る。従って、そのような各種のタップ係数を、基地局1
02等に記憶させておき、ユーザには、自身の所望する
タップ係数をダウンロードさせるようにすることができ
る。そして、このようなタップ係数のダウンロードサー
ビスは、無料で行うこともできるし、有料で行うことも
できる。さらに、タップ係数のダウンロードサービスを
有料で行う場合には、タップ係数のダウンロードに対す
る対価としての代金は、例えば、携帯電話機101の通
話料等とともに請求するようにすることが可能である。
In the embodiment of FIG. 11, the tap coefficients are stored in advance in the coefficient memory 124. However, the tap coefficients stored in the coefficient memory 124 are the same as those in FIG. Base station 102
(Or the exchange 103) or a WWW (World
It can be downloaded from a Wide Web server or the like. That is, as described above, a tap coefficient suitable for a certain type of audio signal, such as for a human utterance or music, can be obtained by learning. Further, depending on teacher data and student data used for learning, it is possible to obtain a tap coefficient that causes a difference in sound quality of a synthesized sound. Therefore, such various tap coefficients are assigned to the base station 1
02 and the like, and the user can download the tap coefficient desired by the user. Such tap coefficient download service can be performed free of charge or can be performed for a fee. Furthermore, when the tap coefficient download service is performed for a fee, the price for the tap coefficient download can be charged together with, for example, the telephone charge of the mobile phone 101.

【0195】また、係数メモリ124は、携帯電話機1
01に対して着脱可能なメモリカード等で構成すること
ができる。この場合、上述したような各種のタップ係数
それぞれを記憶させた、異なるメモリカードを提供する
ようにすれば、ユーザは、場合に応じて、所望のタップ
係数が記憶されたメモリカードを、携帯電話機101に
装着して使用することが可能となる。
Further, the coefficient memory 124 stores the data of the portable telephone 1
01 can be configured with a memory card or the like that is removable. In this case, if a different memory card storing the above-described various tap coefficients is provided, the user can replace the memory card storing the desired tap coefficient with a mobile phone as necessary. It becomes possible to use it by attaching it to 101.

【0196】さらに、本発明は、例えば、VSELP(V
ector Sum Excited Liner Prediction),PSI−CE
LP(Pitch Synchronous Innovation CELP),CS−A
CELP(Conjugate Structure Algebraic CELP)等のC
ELP方式による符号化の結果得られるコードから合成
音を生成する場合に、広く適用可能である。
Further, the present invention relates to, for example, VSELP (V
ector Sum Excited Liner Prediction), PSI-CE
LP (Pitch Synchronous Innovation CELP), CS-A
C such as CELP (Conjugate Structure Algebraic CELP)
The present invention is widely applicable to a case where a synthesized sound is generated from a code obtained as a result of encoding by the ELP method.

【0197】また、本発明は、CELP方式による符号
化の結果得られるコードから合成音を生成する場合に限
らず、あるコードから、残差信号と線形予測係数を得
て、合成音を生成する場合に、広く適用可能である。
The present invention is not limited to the case where a synthesized speech is generated from a code obtained as a result of encoding according to the CELP method, but generates a synthesized speech by obtaining a residual signal and a linear prediction coefficient from a certain code. Widely applicable in cases.

【0198】さらに、本実施の形態では、タップ係数を
用いた線形1次予測演算によって、残差信号や線形予測
係数の予測値を求めるようにしたが、この予測値は、そ
の他、2次以上の高次の予測演算によって求めることも
可能である。
Further, in the present embodiment, the prediction values of the residual signal and the linear prediction coefficient are obtained by the linear primary prediction operation using the tap coefficients. Can be obtained by a higher-order prediction calculation of

【0199】また、例えば、図11および図12の実施
の形態では、クラスタップを、Lコード、Gコード、I
コード、およびAコードの他、Aコードから得られた線
形予測係数や、Lコード、Gコード、およびIコードか
ら得られた残差信号に基づいて生成するようにしたが、
クラスタップは、その他、例えば、Lコード、Gコー
ド、Iコード、およびAコードだけから生成することも
可能である。また、クラスタップは、4種類のLコー
ド、Gコード、Iコード、およびAコードのうちの1つ
だけ(または複数)、即ち、例えば、Iコードだけから
生成することも可能である。例えば、クラスタップを、
Iコードだけから構成する場合においては、Iコードそ
のものを、クラスコードとすることができる。ここで、
VSELP方式では、Iコードには、9ビットが割り当
てられており、従って、Iコードを、そのままクラスコ
ードとする場合、クラス数は、512(=29)とな
る。なお、VSELP方式においては、9ビットのIコ
ードの各ビットは、1または−1という2種類の符号極
性を有するため、このようなIコードを、クラスコード
とする場合には、例えば、−1となっているビットを0
とみなすようにすれば良い。
Also, for example, in the embodiments of FIGS. 11 and 12, class taps are designated by L code, G code, I code
In addition to the code and the A code, the linear prediction coefficient obtained from the A code and the residual signal obtained from the L code, the G code, and the I code are generated based on the
The class tap can also be generated from, for example, only the L code, the G code, the I code, and the A code. Also, the class tap can be generated from only one (or a plurality) of the four types of L code, G code, I code, and A code, that is, for example, from only the I code. For example, a class tap
In the case where only the I code is used, the I code itself can be used as the class code. here,
In the VSELP method, 9 bits are assigned to the I code. Therefore, when the I code is used as a class code as it is, the number of classes is 512 (= 2 9 ). In the VSELP method, each bit of the 9-bit I code has two kinds of code polarities of 1 or -1. Therefore, when such an I code is used as a class code, for example, -1 The bit that is
What should be considered as.

【0200】さらに、CELP方式では、コードデータ
に、リスト補間ビットやフレームエネルギが含められる
場合があるが、この場合、クラスタップは、ソフト補間
ビットやフレームエネルギを用いて構成することが可能
である。
Furthermore, in the CELP system, code data may include list interpolation bits and frame energy. In this case, class taps can be configured using soft interpolation bits and frame energy. .

【0201】なお、例えば、特開平8−202399号
公報には、合成音を、高域強調フィルタに通すことによ
って、その音質を改善する方法が開示されているが、本
発明は、タップ係数が学習により得られる点および用い
るタップ係数が、コードによるクラス分類結果によって
決まる点等において、特開平8−202339号公報に
記載の発明と異なる。
For example, Japanese Patent Application Laid-Open No. Hei 8-202399 discloses a method of improving the sound quality of a synthesized sound by passing the sound through a high-frequency emphasizing filter. It differs from the invention described in Japanese Patent Application Laid-Open No. 8-202339 in that the points obtained by learning and the tap coefficients to be used are determined by the result of class classification by codes.

【0202】[0202]

【発明の効果】本発明の音声処理装置および音声処理方
法、並びに第1のプログラムおよび第1の記録媒体によ
れば、予測値を求めようとしている高音質の音声を注目
音声として、その注目音声を予測するのに用いる予測タ
ップが、合成音から抽出されるとともに、注目音声を、
幾つかのクラスのうちのいずれかにクラス分類するのに
用いるクラスタップが、コードから抽出される。そし
て、クラスタップに基づいて、注目音声のクラスを求め
るクラス分類が行われ、予測タップと、注目音声のクラ
スに対応するタップ係数を用いて、注目音声の予測値が
求められる。従って、高音質の合成音を生成することが
可能となる。
According to the audio processing apparatus and the audio processing method, the first program and the first recording medium of the present invention, the high-quality sound for which the prediction value is to be obtained is regarded as the target sound, The prediction tap used to predict is extracted from the synthesized speech, and the target voice is
The class taps used to classify into any of several classes are extracted from the code. Then, based on the class tap, a class classification for obtaining a class of the target voice is performed, and a predicted value of the target voice is obtained using the prediction tap and a tap coefficient corresponding to the class of the target voice. Therefore, it is possible to generate a high-quality synthesized sound.

【0203】本発明の学習装置および学習方法、並びに
第2のプログラムおよび第2の記録媒体によれば、予測
値を求めようとしている高音質の音声を注目音声とし
て、その注目音声を、幾つかのクラスのうちのいずれか
にクラス分類するのに用いるクラスタップが、コードか
ら抽出され、そのクラスタップに基づいて、注目音声の
クラスを求めるクラス分類が行われる。そして、タップ
係数および合成音を用いて予測演算を行うことにより得
られる高音質の音声の予測値の予測誤差が統計的に最小
になるように、学習が行われ、クラスごとのタップ係数
が求められる。従って、そのタップ係数によって、高音
質の合成音を生成することが可能となる。
According to the learning apparatus and the learning method of the present invention, the second program and the second recording medium, the high-quality sound for which the prediction value is to be obtained is regarded as the noticed sound, Class taps used for classifying into any of the classes are extracted from the code, and the class classification for finding the class of the target voice is performed based on the class tap. Learning is performed so that the prediction error of the predicted value of the high-quality sound obtained by performing the prediction operation using the tap coefficient and the synthesized sound is statistically minimized, and the tap coefficient for each class is calculated. Can be Therefore, it is possible to generate a high-quality synthesized sound by the tap coefficient.

【図面の簡単な説明】[Brief description of the drawings]

【図1】従来の携帯電話機の送信部の一例の構成を示す
ブロック図である。
FIG. 1 is a block diagram illustrating a configuration of an example of a transmission unit of a conventional mobile phone.

【図2】従来の携帯電話機の受信部の一例の構成を示す
ブロック図である。
FIG. 2 is a block diagram illustrating a configuration of an example of a receiving unit of a conventional mobile phone.

【図3】本発明を適用した音声合成装置の一実施の形態
の構成例を示すブロック図である。
FIG. 3 is a block diagram illustrating a configuration example of an embodiment of a speech synthesis device to which the present invention has been applied;

【図4】音声合成フィルタ44の構成例を示すブロック
図である。
4 is a block diagram illustrating a configuration example of a speech synthesis filter 44. FIG.

【図5】図3の音声合成装置の処理を説明するフローチ
ャートである。
FIG. 5 is a flowchart illustrating a process of the speech synthesizer of FIG. 3;

【図6】本発明を適用した学習装置の一実施の形態の構
成例を示すブロック図である。
FIG. 6 is a block diagram illustrating a configuration example of an embodiment of a learning device to which the present invention has been applied.

【図7】予測フィルタ74の構成例を示すブロック図で
ある。
FIG. 7 is a block diagram illustrating a configuration example of a prediction filter 74.

【図8】図6の学習装置の処理を説明するフローチャー
トである。
FIG. 8 is a flowchart illustrating a process of the learning device in FIG. 6;

【図9】本発明を適用した伝送システムの一実施の形態
の構成例を示す図である。
FIG. 9 is a diagram illustrating a configuration example of an embodiment of a transmission system to which the present invention has been applied.

【図10】携帯電話機101の構成例を示すブロック図
である。
FIG. 10 is a block diagram illustrating a configuration example of a mobile phone 101.

【図11】受信部114の構成例を示すブロック図であ
る。
11 is a block diagram illustrating a configuration example of a receiving unit 114. FIG.

【図12】本発明を適用した学習装置の他の実施の形態
の構成例を示すブロック図である。
FIG. 12 is a block diagram illustrating a configuration example of another embodiment of a learning device to which the present invention has been applied.

【図13】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
FIG. 13 is a block diagram illustrating a configuration example of a computer according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

21 チャンネルデコーダ, 22 適応コードブック
記憶部, 23 ゲイン復号器, 24 励起コードブ
ック記憶部, 25 フィルタ係数復号器,26乃至2
8 演算器, 29 音声合成フィルタ, 30 D/
A変換部,31 スピーカ, 41 デマルチプレク
サ, 42 フィルタ係数復号器,43 残差コードブ
ック記憶部, 44 音声合成フィルタ, 45,46
タップ生成部, 47 クラス分類部, 48 係数
メモリ, 49 予測部,50 D/A変換部, 51
スピーカ, 61 加算器, 621乃至62P遅延回
路, 631乃至63P 乗算器, 71 LPC分析
部, 72 ベクトル量子化部, 73 フィルタ係数
復号器, 74 予測フィルタ, 75 ベクトル量子
化部, 76 残差コードブック記憶部, 77 音声
合成フィルタ, 78,79 タップ生成部, 80
クラス分類部, 81 正規方程式加算回路, 82
タップ係数決定回路, 83 係数メモリ, 911
至91P遅延回路, 921乃至72P 乗算器, 93
加算器, 1011,1012携帯電話機, 10
1,1022 基地局, 103 交換局, 111
アンテナ, 112 変復調部, 113 送信部,
114 受信部, 121,122 タップ生成部,
123 クラス分類部, 124 係数メモリ,125
予測部, 131,132 タップ生成部, 133
クラス分類部,134 正規方程式加算回路, 13
5 タップ係数決定回路, 136 係数メモリ, 2
01 マイク, 202 A/D変換部, 203 演
算器,204 LPC分析部, 205 ベクトル量子
化部, 206 音声合成フィルタ, 207 自乗誤
差演算部, 208 自乗誤差最小判定部, 209適
応コードブック記憶部, 210 ゲイン復号器, 2
11 励起コードブック記憶部, 212 乃至214
演算器, 215 コード決定部, 301バス,
302 CPU, 303 ROM, 304 RAM, 30
5 ハードディスク, 306 出力部, 307 入
力部, 308 通信部, 309ドライブ, 310
入出力インタフェース, 311 リムーバブル記録
媒体
Reference Signs List 21 channel decoder, 22 adaptive codebook storage unit, 23 gain decoder, 24 excitation codebook storage unit, 25 filter coefficient decoder, 26 to 2
8 arithmetic unit, 29 speech synthesis filter, 30 D /
A conversion unit, 31 speaker, 41 demultiplexer, 42 filter coefficient decoder, 43 residual codebook storage unit, 44 speech synthesis filter, 45, 46
Tap generation unit, 47 class classification unit, 48 coefficient memory, 49 prediction unit, 50 D / A conversion unit, 51
Speaker, 61 adder, 62 1 to 62 P delay circuit, 63 1 to 63 P multiplier, 71 LPC analysis unit, 72 vector quantization unit, 73 filter coefficient decoder, 74 prediction filter, 75 vector quantization unit, 76 Residual codebook storage unit, 77 speech synthesis filter, 78, 79 tap generation unit, 80
Classification unit, 81 Normal equation addition circuit, 82
Tap coefficient determination circuit, 83 coefficient memory, 91 1 to 91 P delay circuit, 92 1 to 72 P multiplier, 93
Adder, 101 1 , 101 2 mobile phone, 10
2 1 , 102 2 base station, 103 exchange, 111
Antenna, 112 modulator / demodulator, 113 transmitter,
114 receiving unit, 121, 122 tap generating unit,
123 Classifier, 124 Coefficient memory, 125
Prediction unit, 131, 132 tap generation unit, 133
Classifier, 134 Normal equation adder, 13
5 tap coefficient determination circuit, 136 coefficient memory, 2
01 microphone, 202 A / D conversion unit, 203 arithmetic unit, 204 LPC analysis unit, 205 vector quantization unit, 206 speech synthesis filter, 207 square error calculation unit, 208 minimum square error determination unit, 209 adaptive codebook storage unit, 210 gain decoder, 2
11 excitation codebook storage unit, 212 to 214
Arithmetic unit, 215 code decision unit, 301 bus,
302 CPU, 303 ROM, 304 RAM, 30
5 hard disk, 306 output unit, 307 input unit, 308 communication unit, 309 drive, 310
I / O interface, 311 Removable recording medium

───────────────────────────────────────────────────── フロントページの続き (72)発明者 服部 正明 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 木村 裕人 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 藤森 泰弘 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D045 CA01 5J064 AA01 BB01 BB03 BC01 BC06 BC09 BC12 BD02  ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Masaaki Hattori 6-7-35 Kita-Shinagawa, Shinagawa-ku, Tokyo Inside Sony Corporation (72) Inventor Hiroto Kimura 6-35-35 Kita-Shinagawa, Shinagawa-ku, Tokyo Inside Sony Corporation (72) Inventor Yasuhiro Fujimori 6-35 Kitashinagawa, Shinagawa-ku, Tokyo Sony Corporation F-term (reference) 5D045 CA01 5J064 AA01 BB01 BB03 BC01 BC06 BC09 BC12 BD02

Claims (17)

【特許請求の範囲】[Claims] 【請求項1】 所定のコードから生成される線形予測係
数と残差信号を、音声合成フィルタに与えることによっ
て得られる合成音から、その音質を向上させた高音質の
音声の予測値を予測するための予測タップを抽出し、そ
の予測タップと所定のタップ係数を用いて、所定の予測
演算を行うことにより、前記高音質の音声の予測値を求
める音声処理装置であって、 前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を予測するのに用いる前記
予測タップを、前記合成音から抽出する予測タップ抽出
手段と、 前記注目音声を、幾つかのクラスのうちのいずれかにク
ラス分類するのに用いるクラスタップを、前記コードか
ら抽出するクラスタップ抽出手段と、 前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類手段と、 学習を行うことにより求められた、前記クラスごとの前
記タップ係数の中から、前記注目音声のクラスに対応す
る前記タップ係数を取得する取得手段と、 前記予測タップと、前記注目音声のクラスに対応する前
記タップ係数を用いて、前記注目音声の予測値を求める
予測手段とを備えることを特徴とするデータ処理装置。
1. A predicted value of a high-quality sound having improved sound quality is predicted from a synthesized sound obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a voice synthesis filter. A prediction tap for extracting the prediction value for the high-quality sound by performing a predetermined prediction operation using the prediction tap and a predetermined tap coefficient. The high-quality sound to be obtained is regarded as a target sound, the prediction tap used for predicting the target sound is extracted from the synthetic sound, a prediction tap extracting unit, and the target sound is classified into several classes. A class tap extracting means for extracting, from the code, a class tap used to classify the class into one of the classes; and a class of the target voice based on the class tap. Classifying means for performing class classification for obtaining, from among the tap coefficients for each class obtained by performing learning, obtaining means for obtaining the tap coefficient corresponding to the class of the target voice, A data processing apparatus comprising: a prediction tap; and a prediction unit that calculates a predicted value of the target voice using the tap coefficient corresponding to the class of the target voice.
【請求項2】 前記予測手段は、前記予測タップおよび
タップ係数を用いて線形1次予測演算を行うことによ
り、前記注目音声の予測値を求めることを特徴とする請
求項1に記載のデータ処理装置。
2. The data processing according to claim 1, wherein the prediction unit obtains a predicted value of the target voice by performing a linear primary prediction operation using the prediction tap and the tap coefficient. apparatus.
【請求項3】 前記取得手段は、クラスごとの前記タッ
プ係数を記憶している記憶手段から、前記注目音声に対
応するクラスの前記タップ係数を取得することを特徴と
する請求項1に記載のデータ処理装置。
3. The apparatus according to claim 1, wherein the obtaining unit obtains the tap coefficients of a class corresponding to the target voice from a storage unit that stores the tap coefficients for each class. Data processing device.
【請求項4】 前記クラスタップ抽出手段は、前記クラ
スタップを、前記コードと、そのコードを復号すること
により得られる前記線形予測係数または残差信号の中か
ら抽出することを特徴とする請求項1に記載のデータ処
理装置。
4. The method according to claim 1, wherein the class tap extracting unit extracts the class tap from the code and the linear prediction coefficient or the residual signal obtained by decoding the code. 2. The data processing device according to 1.
【請求項5】 前記タップ係数は、前記予測タップおよ
びタップ係数を用いて所定の予測演算を行うことにより
得られる前記高音質の音声の予測値の予測誤差が、統計
的に最小になるように、学習を行うことにより得られた
ものであることを特徴とする請求項1に記載のデータ処
理装置。
5. The tap coefficient is such that a prediction error of a prediction value of the high-quality sound obtained by performing a predetermined prediction operation using the prediction tap and the tap coefficient is statistically minimized. The data processing apparatus according to claim 1, wherein the data processing apparatus is obtained by performing learning.
【請求項6】 前記音声合成フィルタをさらに備えるこ
とを特徴とする請求項1に記載のデータ処理装置。
6. The data processing apparatus according to claim 1, further comprising the speech synthesis filter.
【請求項7】 前記コードは、音声を、CELP(Code
Excited Liner Prediction coding)方式によって符号化
することにより得られたものであることを特徴とする請
求項1に記載のデータ処理装置。
7. The code according to claim 1, wherein the code is a CELP (Code
2. The data processing apparatus according to claim 1, wherein the data is obtained by encoding according to an Excited Liner Prediction coding) method.
【請求項8】 所定のコードから生成される線形予測係
数と残差信号を、音声合成フィルタに与えることによっ
て得られる合成音から、その音質を向上させた高音質の
音声の予測値を予測するための予測タップを抽出し、そ
の予測タップと所定のタップ係数を用いて、所定の予測
演算を行うことにより、前記高音質の音声の予測値を求
める音声処理方法であって、 前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を予測するのに用いる前記
予測タップを、前記合成音から抽出する予測タップ抽出
ステップと、 前記注目音声を、幾つかのクラスのうちのいずれかにク
ラス分類するのに用いるクラスタップを、前記コードか
ら抽出するクラスタップ抽出ステップと、 前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、 学習を行うことにより求められた、前記クラスごとの前
記タップ係数の中から、前記注目音声のクラスに対応す
る前記タップ係数を取得する取得ステップと、 前記予測タップと、前記注目音声のクラスに対応する前
記タップ係数を用いて、前記注目音声の予測値を求める
予測ステップとを備えることを特徴とするデータ処理方
法。
8. A predicted value of a high-quality sound having improved sound quality is predicted from a synthesized sound obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a sound synthesis filter. A prediction tap for extracting a prediction value of the high-quality sound by performing a predetermined prediction operation using the prediction tap and a predetermined tap coefficient. A prediction tap extraction step of extracting, from the synthesized sound, the prediction tap used for predicting the high-quality sound to be obtained as the high-quality sound as the high-quality sound; A class tap extracting step of extracting, from the code, a class tap used to classify the class into one of the class taps; A class classification step of performing a class classification for obtaining a class of; and an obtaining step of obtaining the tap coefficient corresponding to the class of the target voice from among the tap coefficients for each class, obtained by performing learning. A data processing method comprising: a prediction step of obtaining a predicted value of the target voice using the prediction tap and the tap coefficient corresponding to the class of the target voice.
【請求項9】 所定のコードから生成される線形予測係
数と残差信号を、音声合成フィルタに与えることによっ
て得られる合成音から、その音質を向上させた高音質の
音声の予測値を予測するための予測タップを抽出し、そ
の予測タップと所定のタップ係数を用いて、所定の予測
演算を行うことにより、前記高音質の音声の予測値を求
める音声処理を、コンピュータに行わせるプログラムで
あって、 前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を予測するのに用いる前記
予測タップを、前記合成音から抽出する予測タップ抽出
ステップと、 前記注目音声を、幾つかのクラスのうちのいずれかにク
ラス分類するのに用いるクラスタップを、前記コードか
ら抽出するクラスタップ抽出ステップと、 前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、 学習を行うことにより求められた、前記クラスごとの前
記タップ係数の中から、前記注目音声のクラスに対応す
る前記タップ係数を取得する取得ステップと、 前記予測タップと、前記注目音声のクラスに対応する前
記タップ係数を用いて、前記注目音声の予測値を求める
予測ステップとを備えることを特徴とするプログラム。
9. Predicting a predicted value of a high-quality sound with improved sound quality from a synthesized sound obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a sound synthesis filter. A prediction tap for extracting the predicted value of the high-quality sound by performing a predetermined prediction operation using the predicted tap and a predetermined tap coefficient. A prediction tap extraction step of extracting, from the synthesized sound, the prediction tap used to predict the high-quality sound for which the high-quality sound for which the prediction value is to be obtained is used as the target voice; and Extracting, from the code, a class tap used to classify the class into any one of several classes; A class classification step of performing a class classification for obtaining the class of the target voice based on the tap, and the tap coefficient corresponding to the class of the target voice from the tap coefficients for each class obtained by performing learning. A program comprising: an acquisition step of acquiring a tap coefficient; and a prediction step of obtaining a predicted value of the target voice using the prediction tap and the tap coefficient corresponding to the class of the target voice.
【請求項10】 所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を予測するための予測タップを抽出し、
その予測タップと所定のタップ係数を用いて、所定の予
測演算を行うことにより、前記高音質の音声の予測値を
求める音声処理を、コンピュータに行わせるプログラム
が記録されている記録媒体であって、 前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を予測するのに用いる前記
予測タップを、前記合成音から抽出する予測タップ抽出
ステップと、 前記注目音声を、幾つかのクラスのうちのいずれかにク
ラス分類するのに用いるクラスタップを、前記コードか
ら抽出するクラスタップ抽出ステップと、 前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、 学習を行うことにより求められた、前記クラスごとの前
記タップ係数の中から、前記注目音声のクラスに対応す
る前記タップ係数を取得する取得ステップと、 前記予測タップと、前記注目音声のクラスに対応する前
記タップ係数を用いて、前記注目音声の予測値を求める
予測ステップとを備えるプログラムが記録されているこ
とを特徴とする記録媒体。
10. A predicted value of a high-quality sound with improved sound quality is predicted from a synthesized sound obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a sound synthesis filter. Extract prediction taps for
A recording medium storing a program for causing a computer to perform a sound process for obtaining a predicted value of the high-quality sound by performing a predetermined prediction operation using the prediction tap and a predetermined tap coefficient. The high-quality sound for which the predicted value is to be obtained as the target voice, the prediction tap used to predict the target voice, a prediction tap extraction step of extracting from the synthesized sound, the target voice, A class tap extracting step of extracting, from the code, a class tap used for classifying the class tap into any one of several classes; and a class for performing a class classification for obtaining the class of the target voice based on the class tap. Classifying step, from among the tap coefficients for each class obtained by performing learning, A program comprising: an acquisition step of acquiring the tap coefficient corresponding to a class; a prediction step of obtaining the predicted value of the target voice using the prediction tap and the tap coefficient corresponding to the class of the target voice. A recording medium characterized by being recorded.
【請求項11】 所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を、所定の予測演算によって求めるのに
用いる所定のタップ係数を学習する学習装置であって、 前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を、幾つかのクラスのうち
のいずれかにクラス分類するのに用いるクラスタップ
を、前記コードから抽出するクラスタップ抽出手段と、 前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類手段と、 前記タップ係数および合成音を用いて予測演算を行うこ
とにより得られる前記高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、前記クラス
ごとのタップ係数を求める学習手段とを備えることを特
徴とする学習装置。
11. A predictive value of a high-quality sound having improved sound quality is determined from a synthesized sound obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a voice synthesis filter. A learning device for learning a predetermined tap coefficient used for obtaining by the prediction operation of the above, wherein the high-quality sound for which the predicted value is to be obtained is a target voice, and the target voice is selected from among several classes. A class tap extracting unit for extracting a class tap used for classifying into any one of the following from the code: a class tap unit for performing a class classification for obtaining a class of the target voice based on the class tap; As the prediction error of the predicted value of the high-quality sound obtained by performing the prediction operation using the coefficient and the synthesized sound is statistically minimized, A learning unit that performs learning and obtains a tap coefficient for each class.
【請求項12】 前記学習手段は、前記タップ係数およ
び合成音を用いて線形1次予測演算を行うことにより得
られる前記高音質の音声の予測値の予測誤差が、統計的
に最小になるように学習を行うことを特徴とする請求項
11に記載の学習装置。
12. The learning unit according to claim 1, wherein a prediction error of a predicted value of the high-quality sound obtained by performing a linear primary prediction operation using the tap coefficient and the synthesized sound is statistically minimized. The learning device according to claim 11, wherein learning is performed.
【請求項13】 前記クラスタップ抽出手段は、前記ク
ラスタップを、前記コードと、そのコードを復号するこ
とにより得られる前記線形予測係数または残差信号の中
から抽出することを特徴とする請求項11に記載の学習
装置。
13. The method according to claim 12, wherein the class tap extracting unit extracts the class tap from the code and the linear prediction coefficient or the residual signal obtained by decoding the code. 12. The learning device according to 11.
【請求項14】 前記コードは、音声を、CELP(Cod
e Excited Liner Prediction coding)方式によって符号
化することにより得られたものであることを特徴とする
請求項11に記載の学習装置。
14. The code according to claim 1, wherein said code is a CELP (Cod
12. The learning device according to claim 11, wherein the learning device is obtained by performing encoding using an e Excited Liner Prediction coding) method.
【請求項15】 所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を、所定の予測演算によって求めるのに
用いる所定のタップ係数を学習する学習方法であって、 前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を、幾つかのクラスのうち
のいずれかにクラス分類するのに用いるクラスタップ
を、前記コードから抽出するクラスタップ抽出ステップ
と、 前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、 前記タップ係数および合成音を用いて予測演算を行うこ
とにより得られる前記高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、前記クラス
ごとのタップ係数を求める学習ステップとを備えること
を特徴とする学習方法。
15. A synthesized speech obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a speech synthesis filter to obtain a predicted value of a high-quality sound whose sound quality has been improved by a predetermined value. A learning method for learning a predetermined tap coefficient used to obtain by the prediction operation of the above, wherein the high-quality sound for which the predicted value is to be obtained is a target voice, and the target voice is selected from several classes. A class tap extraction step of extracting, from the code, a class tap used for classifying into any one of the following: a class tapping step of performing a class classification for obtaining a class of the target voice based on the class tap; The prediction error of the predicted value of the high-quality sound obtained by performing the prediction operation using the coefficient and the synthesized sound is statistically minimized. A learning step of performing learning and obtaining a tap coefficient for each class.
【請求項16】 所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を、所定の予測演算によって求めるのに
用いる所定のタップ係数を学習する学習処理を、コンピ
ュータに行わせるプログラムであって、 前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を、幾つかのクラスのうち
のいずれかにクラス分類するのに用いるクラスタップ
を、前記コードから抽出するクラスタップ抽出ステップ
と、 前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、 前記タップ係数および合成音を用いて予測演算を行うこ
とにより得られる前記高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、前記クラス
ごとのタップ係数を求める学習ステップとを備えること
を特徴とするプログラム。
16. A synthesized speech obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a speech synthesis filter, and obtains a predicted value of a high-quality sound having an improved sound quality by a predetermined value. A learning process for learning a predetermined tap coefficient used to obtain by the prediction calculation of the above, a program that causes a computer to perform the high-quality sound for which the predicted value is to be obtained as a target voice, A class tap extracting step of extracting, from the code, a class tap used for classifying the class into one of several classes; and performing a class classification for obtaining the class of the target voice based on the class tap. Classifying step; and performing a prediction operation using the tap coefficient and the synthesized sound. A learning step of performing learning so that a prediction error of a predicted value is statistically minimized, and calculating a tap coefficient for each class.
【請求項17】 所定のコードから生成される線形予測
係数と残差信号を、音声合成フィルタに与えることによ
って得られる合成音から、その音質を向上させた高音質
の音声の予測値を、所定の予測演算によって求めるのに
用いる所定のタップ係数を学習する学習処理を、コンピ
ュータに行わせるプログラムが記録されている記録媒体
であって、 前記予測値を求めようとしている前記高音質の音声を注
目音声として、その注目音声を、幾つかのクラスのうち
のいずれかにクラス分類するのに用いるクラスタップ
を、前記コードから抽出するクラスタップ抽出ステップ
と、 前記クラスタップに基づいて、前記注目音声のクラスを
求めるクラス分類を行うクラス分類ステップと、 前記タップ係数および合成音を用いて予測演算を行うこ
とにより得られる前記高音質の音声の予測値の予測誤差
が統計的に最小になるように、学習を行い、前記クラス
ごとのタップ係数を求める学習ステップとを備えるプロ
グラムが記録されていることを特徴とする記録媒体。
17. A synthesized speech obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a speech synthesis filter to obtain a predicted value of a high-quality sound whose sound quality has been improved by a predetermined value. On a recording medium in which a program for causing a computer to perform a learning process of learning a predetermined tap coefficient used for obtaining a predicted value is obtained by paying attention to the high-quality sound for which the predicted value is to be obtained. A class tap extraction step of extracting, from the code, a class tap used to classify the target voice into any of several classes as the voice, based on the class tap, A class classification step of performing a class classification for obtaining a class; and performing a prediction operation using the tap coefficient and the synthesized sound. And a learning step of learning and calculating a tap coefficient for each class so that a prediction error of a predicted value of the high-quality sound is statistically minimized. recoding media.
JP2001239062A 2000-08-09 2001-08-07 Audio processing device, audio processing method, learning device, learning method, program, and recording medium Expired - Fee Related JP4736266B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001239062A JP4736266B2 (en) 2000-08-09 2001-08-07 Audio processing device, audio processing method, learning device, learning method, program, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2000241062 2000-08-09
JP2000241062 2000-08-09
JP2000-241062 2000-08-09
JP2001239062A JP4736266B2 (en) 2000-08-09 2001-08-07 Audio processing device, audio processing method, learning device, learning method, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2002123299A true JP2002123299A (en) 2002-04-26
JP4736266B2 JP4736266B2 (en) 2011-07-27

Family

ID=26597623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001239062A Expired - Fee Related JP4736266B2 (en) 2000-08-09 2001-08-07 Audio processing device, audio processing method, learning device, learning method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP4736266B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003001709A1 (en) * 2001-06-26 2003-01-03 Sony Corporation Transmission apparatus, transmission method, reception apparatus, reception method, and transmission/reception apparatus

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02146100A (en) * 1988-11-28 1990-06-05 Matsushita Electric Ind Co Ltd Voice encoding device and voice decoding device
JPH03293700A (en) * 1990-01-02 1991-12-25 Raytheon Co Sound synthesizer
JPH0475100A (en) * 1990-07-17 1992-03-10 Sharp Corp Encoding device
JPH05158495A (en) * 1991-05-07 1993-06-25 Fujitsu Ltd Voice encoding transmitter

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02146100A (en) * 1988-11-28 1990-06-05 Matsushita Electric Ind Co Ltd Voice encoding device and voice decoding device
JPH03293700A (en) * 1990-01-02 1991-12-25 Raytheon Co Sound synthesizer
JPH0475100A (en) * 1990-07-17 1992-03-10 Sharp Corp Encoding device
JPH05158495A (en) * 1991-05-07 1993-06-25 Fujitsu Ltd Voice encoding transmitter

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003001709A1 (en) * 2001-06-26 2003-01-03 Sony Corporation Transmission apparatus, transmission method, reception apparatus, reception method, and transmission/reception apparatus
US7366660B2 (en) 2001-06-26 2008-04-29 Sony Corporation Transmission apparatus, transmission method, reception apparatus, reception method, and transmission/reception apparatus

Also Published As

Publication number Publication date
JP4736266B2 (en) 2011-07-27

Similar Documents

Publication Publication Date Title
JPH08179796A (en) Voice coding method
US7912711B2 (en) Method and apparatus for speech data
WO2002043052A1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
JP4857468B2 (en) Data processing apparatus, data processing method, program, and recording medium
JP2002268686A (en) Voice coder and voice decoder
JP4857467B2 (en) Data processing apparatus, data processing method, program, and recording medium
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for sound signal
JP4736266B2 (en) Audio processing device, audio processing method, learning device, learning method, program, and recording medium
JPH09127985A (en) Signal coding method and device therefor
JP4517262B2 (en) Audio processing device, audio processing method, learning device, learning method, and recording medium
JPH09127987A (en) Signal coding method and device therefor
JP2002062899A (en) Device and method for data processing, device and method for learning and recording medium
US7283961B2 (en) High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
JPH09127998A (en) Signal quantizing method and signal coding device
JP2002221998A (en) Method, device and program for encoding and decoding acoustic parameter and voice
JP3249144B2 (en) Audio coding device
JPH0455899A (en) Voice signal coding system
JP2005062410A (en) Method for encoding speech signal
JPH09127986A (en) Multiplexing method for coded signal and signal encoder
GB2398981A (en) Speech communication unit and method for synthesising speech therein

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110418

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees