JP4517262B2 - Audio processing device, audio processing method, learning device, learning method, and recording medium - Google Patents

Audio processing device, audio processing method, learning device, learning method, and recording medium Download PDF

Info

Publication number
JP4517262B2
JP4517262B2 JP2000346675A JP2000346675A JP4517262B2 JP 4517262 B2 JP4517262 B2 JP 4517262B2 JP 2000346675 A JP2000346675 A JP 2000346675A JP 2000346675 A JP2000346675 A JP 2000346675A JP 4517262 B2 JP4517262 B2 JP 4517262B2
Authority
JP
Japan
Prior art keywords
tap
code
class
prediction
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000346675A
Other languages
Japanese (ja)
Other versions
JP2002149175A (en
Inventor
哲二郎 近藤
勉 渡辺
正明 服部
裕人 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2000346675A priority Critical patent/JP4517262B2/en
Application filed by Sony Corp filed Critical Sony Corp
Priority to PCT/JP2001/006708 priority patent/WO2002013183A1/en
Priority to DE60140020T priority patent/DE60140020D1/en
Priority to EP08003539A priority patent/EP1944760B1/en
Priority to EP08003538A priority patent/EP1944759B1/en
Priority to KR1020027004559A priority patent/KR100819623B1/en
Priority to DE60134861T priority patent/DE60134861D1/en
Priority to EP01956800A priority patent/EP1308927B9/en
Priority to DE60143327T priority patent/DE60143327D1/en
Priority to TW090119402A priority patent/TW564398B/en
Priority to NO20021631A priority patent/NO326880B1/en
Publication of JP2002149175A publication Critical patent/JP2002149175A/en
Priority to US11/903,550 priority patent/US7912711B2/en
Priority to NO20082403A priority patent/NO20082403L/en
Priority to NO20082401A priority patent/NO20082401L/en
Application granted granted Critical
Publication of JP4517262B2 publication Critical patent/JP4517262B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PROBLEM TO BE SOLVED: To obtain synthetic sound of high quality. SOLUTION: A residual signal and a linear prediction coefficient are decoded from an L code, a G code, an I code and an A code in the receiving part 114 of a CELP(Code Excited Liner Prediction coding) system portable telephone. A sound synthesizing filter 29 generates synthetic sound from the decoded residual signal and linear prediction coefficient. A class classifying part 123 performs classification based on the L, G, I and A codes and a class tap generated from the synthetic sound which is outputted from the filter 29 and outputs a corresponding class code to a coefficient memory 124. The coefficient memory 124 outputs a tap coefficient corresponding to the class code and a predicting part 125 obtains the prediction value of sound with high quality by the tap coefficient, the synthetic sound outputted from the filter 29 and the L, G, I and A codes.

Description

【0001】
【発明の属する技術分野】
本発明は、音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体に関し、特に、例えば、CELP(Code Excited Liner Prediction coding)方式で符号化された音声を、高音質の音声に復号することができるようにする音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体に関する。
【0002】
【従来の技術】
図1および図2は、従来の携帯電話機の一例の構成を示している。
【0003】
この携帯電話機では、音声を、CELP方式により所定のコードに符号化して送信する送信処理と、他の携帯電話機から送信されてくるコードを受信して、音声に復号する受信処理とが行われるようになっており、図1は、送信処理を行う送信部を、図2は、受信処理を行う受信部を、それぞれ示している。
【0004】
図1に示した送信部では、ユーザが発話した音声が、マイク(マイクロフォン)1に入力され、そこで、電気信号としての音声信号に変換され、A/D(Analog/Digital)変換部2に供給される。A/D変換部2は、マイク1からのアナログの音声信号を、例えば、8kHz等のサンプリング周波数でサンプリングすることにより、ディジタルの音声信号にA/D変換し、さらに、所定のビット数で量子化を行って、演算器3とLPC(Liner Prediction Coefficient)分析部4に供給する。
【0005】
LPC分析部4は、A/D変換部2からの音声信号を、例えば、160サンプル分の長さのフレームごとにLPC分析し、P次の線形予測係数α1,α2,・・・,αPを求める。そして、LPC分析部4は、このP次の線形予測係数αp(p=1,2,・・・,P)を要素とするベクトルを、音声の特徴ベクトルとして、ベクトル量子化部5に供給する。
【0006】
ベクトル量子化部5は、線形予測係数を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、LPC分析部4からの特徴ベクトルαをベクトル量子化し、そのベクトル量子化の結果得られるコード(以下、適宜、Aコード(A_code)という)を、コード決定部15に供給する。
【0007】
さらに、ベクトル量子化部5は、Aコードに対応するコードベクトルα’を構成する要素となっている線形予測係数α1’,α2’,・・・,αP’を、音声合成フィルタ6に供給する。
【0008】
音声合成フィルタ6は、例えば、IIR(Infinite Impulse Response)型のディジタルフィルタで、ベクトル量子化部5からの線形予測係数αp’(p=1,2,・・・,P)をIIRフィルタのタップ係数とするとともに、演算器14から供給される残差信号eを入力信号として、音声合成を行う。
【0009】
即ち、LPC分析部4で行われるLPC分析は、現在時刻nの音声信号(のサンプル値)sn、およびこれに隣接する過去のP個のサンプル値sn-1,sn-2,・・・,sn-Pに、式
n+α1n-1+α2n-2+・・・+αPn-P=en
・・・(1)
で示す線形1次結合が成立すると仮定し、現在時刻nのサンプル値snの予測値(線形予測値)sn’を、過去のP個の標本値sn-1,sn-2,・・・,sn-Pを用いて、式
n’=−(α1n-1+α2n-2+・・・+αPn-P
・・・(2)
によって線形予測したときに、実際のサンプル値snと線形予測値sn’との間の自乗誤差を最小にする線形予測係数αpを求めるものである。
【0010】
ここで、式(1)において、{en}(・・・,en-1,en,en+1,・・・)は、平均値が0で、分散が所定値σ2の互いに無相関な確率変数である。
【0011】
式(1)から、サンプル値snは、式
n=en−(α1n-1+α2n-2+・・・+αPn-P
・・・(3)
で表すことができ、これを、Z変換すると、次式が成立する。
【0012】
S=E/(1+α1-1+α2-2+・・・+αP-P
・・・(4)
但し、式(4)において、SとEは、式(3)におけるsnとenのZ変換を、それぞれ表す。
【0013】
ここで、式(1)および(2)から、enは、式
n=sn−sn
・・・(5)
で表すことができ、実際のサンプル値snと線形予測値sn’との間の残差信号と呼ばれる。
【0014】
従って、式(4)から、線形予測係数αpをIIRフィルタのタップ係数とするとともに、残差信号enをIIRフィルタの入力信号とすることにより、音声信号snを求めることができる。
【0015】
そこで、音声合成フィルタ6は、上述したように、ベクトル量子化部5からの線形予測係数αp’をタップ係数とするとともに、演算器14から供給される残差信号eを入力信号として、式(4)を演算し、音声信号(合成音信号)ssを求める。
【0016】
なお、音声合成フィルタ6では、LPC分析部4によるLPC分析の結果得られる線形予測係数αpではなく、そのベクトル量子化の結果得られるコードに対応するコードベクトルとしての線形予測係数αp’が用いられるため、音声合成フィルタ6が出力する合成音信号は、A/D変換部2が出力する音声信号とは、基本的に同一にはならない。
【0017】
音声合成フィルタ6が出力する合成音信号ssは、演算器3に供給される。演算器3は、音声合成フィルタ6からの合成音信号ssから、A/D変換部2が出力する音声信号sを減算し、その減算値を、自乗誤差演算部7に供給する。自乗誤差演算部7は、演算器3からの減算値の自乗和(第kフレームのサンプル値についての自乗和)を演算し、その結果得られる自乗誤差を、自乗誤差最小判定部8に供給する。
【0018】
自乗誤差最小判定部8は、自乗誤差演算部7が出力する自乗誤差に対応付けて、ラグを表すコードとしてのLコード(L_code)、ゲインを表すコードとしてのGコード(G_code)、および符号語(励起コードブック)を表すコードとしてのIコード(I_code)を記憶しており、自乗誤差演算部7が出力する自乗誤差に対応するLコード、Gコード、およびLコードを出力する。Lコードは、適応コードブック記憶部9に、Gコードは、ゲイン復号器10に、Iコードは、励起コードブック記憶部11に、それぞれ供給される。さらに、Lコード、Gコード、およびIコードは、コード決定部15にも供給される。
【0019】
適応コードブック記憶部9は、例えば7ビットのLコードと、所定の遅延時間(ラグ)とを対応付けた適応コードブックを記憶しており、演算器14から供給される残差信号eを、自乗誤差最小判定部8から供給されるLコードに対応付けられた遅延時間だけ遅延して、演算器12に出力する。
【0020】
ここで、適応コードブック記憶部9は、残差信号eを、Lコードに対応する時間だけ遅延して出力することから、その出力信号は、その遅延時間を周期とする周期信号に近い信号となる。この信号は、線形予測係数を用いた音声合成において、主として、有声音の合成音を生成するための駆動信号となる。
【0021】
ゲイン復号器10は、Gコードと、所定のゲインβおよびγとを対応付けたテーブルを記憶しており、自乗誤差最小判定部8から供給されるGコードに対応付けられたゲインβおよびγを出力する。ゲインβとγは、演算器12と13に、それぞれ供給される。ここで、ゲインβは、長期フィルタ状態出力ゲインと呼ばれるものであり、また、ゲインγは、励起コードブックゲインと呼ばれるものである。
【0022】
励起コードブック記憶部11は、例えば9ビットのIコードと、所定の励起信号とを対応付けた励起コードブックを記憶しており、自乗誤差最小判定部8から供給されるIコードに対応付けられた励起信号を、演算器13に出力する。
【0023】
ここで、励起コードブックに記憶されている励起信号は、例えば、ホワイトノイズ等に近い信号であり、線形予測係数を用いた音声合成において、主として、無声音の合成音を生成するための駆動信号となる。
【0024】
演算器12は、適応コードブック記憶部9の出力信号と、ゲイン復号器10が出力するゲインβとを乗算し、その乗算値lを、演算器14に供給する。演算器13は、励起コードブック記憶部11の出力信号と、ゲイン復号器10が出力するゲインγとを乗算し、その乗算値nを、演算器14に供給する。演算器14は、演算器12からの乗算値lと、演算器13からの乗算値nとを加算し、その加算値を、残差信号eとして、音声合成フィルタ6に供給する。
【0025】
音声合成フィルタ6では、以上のようにして、演算器14から供給される残差信号eを入力信号が、ベクトル量子化部5から供給される線形予測係数αp’をタップ係数とするIIRフィルタでフィルタリングされ、その結果得られる合成音信号が、演算器3に供給される。そして、演算器3および自乗誤差演算部7において、上述の場合と同様の処理が行われ、その結果得られる自乗誤差が、自乗誤差最小判定部8に供給される。
【0026】
自乗誤差最小判定部8は、自乗誤差演算部7からの自乗誤差が最小(極小)になったかどうかを判定する。そして、自乗誤差最小判定部8は、自乗誤差が最小になっていないと判定した場合、上述のように、その自乗誤差に対応するLコード、Gコード、およびLコードを出力し、以下、同様の処理が繰り返される。
【0027】
一方、自乗誤差最小判定部8は、自乗誤差が最小になったと判定した場合、確定信号を、コード決定部15に出力する。コード決定部15は、ベクトル量子化部5から供給されるAコードをラッチするとともに、自乗誤差最小判定部8から供給されるLコード、Gコード、およびIコードを順次ラッチするようになっており、自乗誤差最小判定部8から確定信号を受信すると、そのときラッチしているAコード、Lコード、Gコード、およびIコードを、チャネルエンコーダ16に供給する。チャネルエンコーダ16は、コード決定部15からのAコード、Lコード、Gコード、およびIコードを多重化し、コードデータとして出力する。このコードデータは、伝送路を介して送信される。
【0028】
なお、以下では、説明を簡単にするため、Aコード、Lコード、Gコード、およびIコードは、フレームごとに求められるものとする。但し、例えば、1フレームを、4つのサブフレームに分割し、Lコード、Gコード、およびIコードは、サブフレームごとに求めるようにすること等が可能である。
【0029】
ここで、図1(後述する図2、図11、および図12においても同様)では、各変数に、[k]が付され、配列変数とされている。このkは、フレーム数を表すが、明細書中では、その記述は、適宜省略する。
【0030】
次に、以上のようにして、他の携帯電話機の送信部から送信されてくるコードデータは、図2に示した受信部のチャネルデコーダ21で受信される。チャネルデコーダ21は、コードデータから、Lコード、Gコード、Iコード、Aコードを分離し、それぞれを、適応コードブック記憶部22、ゲイン復号器23、励起コードブック記憶部24、フィルタ係数復号器25に供給する。
【0031】
適応コードブック記憶部22、ゲイン復号器23、励起コードブック記憶部24、演算器26乃至28は、図1の適応コードブック記憶部9、ゲイン復号器10、励起コードブック記憶部11、演算器12乃至14とそれぞれ同様に構成されるもので、図1で説明した場合と同様の処理が行われることにより、Lコード、Gコード、およびIコードが、残差信号eに復号される。この残差信号eは、音声合成フィルタ29に対して、入力信号として与えられる。
【0032】
フィルタ係数復号器25は、図1のベクトル量子化部5が記憶しているのと同一のコードブックを記憶しており、Aコードを、線形予測係数αp’に復号し、音声合成フィルタ29に供給する。
【0033】
音声合成フィルタ29は、図1の音声合成フィルタ6と同様に構成されており、フィルタ係数復号器25からの線形予測係数αp’をタップ係数とするとともに、演算器28から供給される残差信号eを入力信号として、式(4)を演算し、これにより、図1の自乗誤差最小判定部8において自乗誤差が最小と判定されたときの合成音信号を生成する。この合成音信号は、D/A(Digital/Analog)変換部30に供給される。D/A変換部30は、音声合成フィルタ29からの合成音信号を、ディジタル信号からアナログ信号にD/A変換し、スピーカ31に供給して出力させる。
【0034】
【発明が解決しようとする課題】
以上のように、携帯電話機の送信部では、受信部の音声合成フィルタ29に与えられるフィルタデータとしての残差信号と線形予測係数がコード化されて送信されてくるため、受信部では、そのコードが、残差信号と線形予測係数に復号される。しかしながら、この復号された残差信号や線形予測係数(以下、適宜、それぞれを、復号残差信号または復号線形予測係数という)には、量子化誤差等の誤差が含まれるため、音声をLPC分析して得られる残差信号と線形予測係数には一致しない。
【0035】
このため、受信部の音声合成フィルタ29が出力する合成音信号は、歪みを有する、音質の劣化したものとなる。
【0036】
本発明は、このような状況に鑑みてなされたものであり、高音質の合成音が得られるようにするものである。
【0037】
【課題を解決するための手段】
本発明の第1の側面の音声処理装置、又は、記録媒体は、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、合成音と、コードまたはコードから得られる情報とから抽出する予測タップ抽出手段と、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、合成音と、コードまたはコードから得られる情報とから抽出するクラスタップ抽出手段と、クラスタップに基づいて、注目音声のクラスを求めるクラス分類を行うクラス分類手段と、学習を行うことにより求められた、クラスごとのタップ係数の中から、注目音声のクラスに対応するタップ係数を取得する取得手段と、予測タップと、注目音声のクラスに対応するタップ係数を用いて、注目音声の予測値を求める予測手段とを備える音声処理装置、又は、音声処理装置として、コンピュータを機能させるためのプログラムが記録されている記録媒体である。
【0038】
本発明の第1の側面の音声処理方法は、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、合成音と、コードまたはコードから得られる情報とから抽出する予測タップ抽出ステップと、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、合成音と、コードまたはコードから得られる情報とから抽出するクラスタップ抽出ステップと、クラスタップに基づいて、注目音声のクラスを求めるクラス分類を行うクラス分類ステップと、学習を行うことにより求められた、クラスごとのタップ係数の中から、注目音声のクラスに対応するタップ係数を取得する取得ステップと、予測タップと、注目音声のクラスに対応するタップ係数を用いて、注目音声の予測値を求める予測ステップとを備える音声処理方法である。
【0040】
本発明の第2の側面の学習装置、又は、記録媒体は、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、合成音と、コードまたはコードから得られる情報とから抽出する予測タップ抽出手段と、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、合成音と、コードまたはコードから得られる情報とから抽出するクラスタップ抽出手段と、クラスタップに基づいて、注目音声のクラスを求めるクラス分類を行うクラス分類手段と、タップ係数および予測タップを用いて予測演算を行うことにより得られる高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、クラスごとのタップ係数を求める学習手段とを備える学習装置、又は、学習装置として、コンピュータを機能させるためのプログラムが記録されている記録媒体である。
【0041】
本発明の第2の側面の学習方法は、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、合成音と、コードまたはコードから得られる情報とから抽出する予測タップ抽出ステップと、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、合成音と、コードまたはコードから得られる情報とから抽出するクラスタップ抽出ステップと、クラスタップに基づいて、注目音声のクラスを求めるクラス分類を行うクラス分類ステップと、タップ係数および予測タップを用いて予測演算を行うことにより得られる高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、クラスごとのタップ係数を求める学習ステップとを備える学習方法である。
【0043】
本発明の第1の側面においては、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップが、合成音と、コードまたはコードから得られる情報とから抽出されるとともに、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップが、合成音と、コードまたはコードから得られる情報とから抽出される。そして、クラスタップに基づいて、注目音声のクラスを求めるクラス分類が行われ、予測タップと、注目音声のクラスに対応するタップ係数を用いて、注目音声の予測値が求められる。
【0044】
本発明の第2の側面においては、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップが、合成音と、コードまたはコードから得られる情報とから抽出される。また、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップが、合成音と、コードまたはコードから得られる情報とから抽出され、そのクラスタップに基づいて、注目音声のクラスを求めるクラス分類が行われる。そして、タップ係数および予測タップを用いて予測演算を行うことにより得られる高音質の音声の予測値の予測誤差が統計的に最小になるように、学習が行われ、クラスごとのタップ係数が求められる。
【0045】
【発明の実施の形態】
図3は、本発明を適用した音声合成装置の一実施の形態の構成例を示している。
【0046】
この音声合成装置には、音声合成フィルタ44に与える残差信号と線形予測係数を、それぞれベクトル量子化等によってコード化した残差コードとAコードが多重化されたコードデータが供給されるようになっており、その残差コードとAコードから、それぞれ残差信号と線形予測係数を復号し、音声合成フィルタ44に与えることで、合成音が生成されるようになっている。さらに、この音声合成装置では、音声合成フィルタ44で生成された合成音と、学習により求めたタップ係数を用いた予測演算を行うことにより、その合成音の音質を向上させた高音質の音声(合成音)を求めて出力するようになっている。
【0047】
即ち、図3の音声合成装置では、例えば、クラス分類適応処理を利用して、合成音が、真の高音質の音声(の予測値)に復号される。
【0048】
クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データを、その性質に基づいてクラス分けし、各クラスごとに適応処理を施すものであり、適応処理は、以下のような手法のものである。
【0049】
即ち、適応処理では、例えば、合成音と、所定のタップ係数との線形結合により、真の高音質の音声の予測値が求められる。
【0050】
具体的には、例えば、いま、真の高音質の音声(のサンプル値)を教師データとするとともに、その真の高音質の音声を、CELP方式によって、Lコード、Gコード、Iコード、およびAコードに符号化し、それらのコードを、図2に示した受信部で復号することにより得られる合成音を生徒データとして、教師データである高音質の音声yの予測値E[y]を、幾つかの合成音(のサンプル値)x1,x2,・・・の集合と、所定のタップ係数w1,w2,・・・の線形結合により規定される線形1次結合モデルにより求めることを考える。この場合、予測値E[y]は、次式で表すことができる。
【0051】
E[y]=w11+w22+・・・
・・・(6)
【0052】
式(6)を一般化するために、タップ係数wjの集合でなる行列W、生徒データxijの集合でなる行列X、および予測値E[yj]の集合でなる行列Y’を、
【数1】

Figure 0004517262
で定義すると、次のような観測方程式が成立する。
【0053】
XW=Y’
・・・(7)
ここで、行列Xの成分xijは、i件目の生徒データの集合(i件目の教師データyiの予測に用いる生徒データの集合)の中のj番目の生徒データを意味し、行列Wの成分wjは、生徒データの集合の中のj番目の生徒データとの積が演算されるタップ係数を表す。また、yiは、i件目の教師データを表し、従って、E[yi]は、i件目の教師データの予測値を表す。なお、式(6)の左辺におけるyは、行列Yの成分yiのサフィックスiを省略したものであり、また、式(6)の右辺におけるx1,x2,・・・も、行列Xの成分xijのサフィックスiを省略したものである。
【0054】
そして、この観測方程式に最小自乗法を適用して、真の高音質の音声yに近い予測値E[y]を求めることを考える。この場合、教師データとなる真の高音質の音声yの集合でなる行列Y、および高音質の音声yに対する予測値E[y]の残差eの集合でなる行列Eを、
【数2】
Figure 0004517262
で定義すると、式(7)から、次のような残差方程式が成立する。
【0055】
XW=Y+E
・・・(8)
【0056】
この場合、真の高音質の音声yに近い予測値E[y]を求めるためのタップ係数wjは、自乗誤差
【数3】
Figure 0004517262
を最小にすることで求めることができる。
【0057】
従って、上述の自乗誤差をタップ係数wjで微分したものが0になる場合、即ち、次式を満たすタップ係数wjが、真の高音質の音声yに近い予測値E[y]を求めるため最適値ということになる。
【0058】
【数4】
Figure 0004517262
・・・(9)
【0059】
そこで、まず、式(8)を、タップ係数wjで微分することにより、次式が成立する。
【0060】
【数5】
Figure 0004517262
・・・(10)
【0061】
式(9)および(10)より、式(11)が得られる。
【0062】
【数6】
Figure 0004517262
・・・(11)
【0063】
さらに、式(8)の残差方程式における生徒データxij、タップ係数wj、教師データyi、および誤差eiの関係を考慮すると、式(11)から、次のような正規方程式を得ることができる。
【0064】
【数7】
Figure 0004517262
・・・(12)
【0065】
なお、式(12)に示した正規方程式は、行列(共分散行列)Aおよびベクトルvを、
【数8】
Figure 0004517262
で定義するとともに、ベクトルWを、数1で示したように定義すると、式
AW=v
・・・(13)
で表すことができる。
【0066】
式(12)における各正規方程式は、生徒データxijおよび教師データyiのセットを、ある程度の数だけ用意することで、求めるべきタップ係数wjの数Jと同じ数だけたてることができ、従って、式(13)を、ベクトルWについて解くことで(但し、式(13)を解くには、式(13)における行列Aが正則である必要がある)、最適なタップ係数(ここでは、自乗誤差を最小にするタップ係数)wjを求めることができる。なお、式(13)を解くにあたっては、例えば、掃き出し法(Gauss-Jordanの消去法)などを用いることが可能である。
【0067】
以上のようにして、最適なタップ係数wjを求めておき、さらに、そのタップ係数wjを用い、式(6)により、真の高音質の音声yに近い予測値E[y]を求めるのが適応処理である。
【0068】
なお、例えば、教師データとして、高いサンプリング周波数でサンプリングした音声信号、または多ビットを割り当てた音声信号を用いるとともに、生徒データとして、その教師データとしての音声信号を間引いたり、低ビットで再量子化したした音声信号をCELP方式により符号化し、その符号化結果を復号して得られる合成音を用いた場合、タップ係数としては、高いサンプリング周波数でサンプリングした音声信号、または多ビットを割り当てた音声信号を生成するのに、予測誤差が、統計的に最小となる高音質の音声が得られることになる。従って、この場合、より高音質の合成音を得ることが可能となる。
【0069】
図3の音声合成装置では、以上のようなクラス分類適応処理により、Aコードと残差コードでなるコードデータを、高音質の音声に復号するようになっている。
【0070】
即ち、デマルチプレクサ(DEMUX)41には、コードデータが供給されるようになっており、デマルチプレクサ41は、そこに供給されるコードデータから、フレームごとのAコードと残差コードを分離する。そして、デマルチプレクサは、Aコードを、フィルタ係数復号器42、並びにタップ生成部45および46に供給し、残差コードを、残差コードブック記憶部43、並びにタップ生成部45および46に供給する。
【0071】
ここで、図3におけるコードデータに含まれるAコードと残差コードは、音声をLPC分析して得られる線形予測係数と残差信号を、所定のコードブックを用いて、それぞれベクトル量子化することにより得られるコードとなっている。
【0072】
フィルタ係数復号器42は、デマルチプレクサ41から供給されるフレームごとのAコードを、そのAコードを得るときに用いられたのと同一のコードブックに基づいて、線形予測係数に復号し、音声合成フィルタ44に供給する。
【0073】
残差コードブック記憶部43は、デマルチプレクサ41から供給されるフレームごとの残差コードを、その残差コードを得るときに用いられたのと同一のコードブックに基づいて、残差信号に復号し、音声合成フィルタ44に供給する。
【0074】
音声合成フィルタ44は、例えば、図1の音声合成フィルタ29と同様に、IIR型のディジタルフィルタで、フィルタ係数復号器42からの線形予測係数をIIRフィルタのタップ係数とするとともに、残差コードブック記憶部43からの残差信号を入力信号として、その入力信号のフィルタリングを行うことにより、合成音を生成し、タップ生成部45および46に供給する。
【0075】
タップ生成部45は、音声合成フィルタ44から供給される合成音(のサンプル値)、並びにデマルチプレクサ41から供給される残差コードおよびAコードから、後述する予測部49における予測演算に用いられる予測タップとなるものを抽出する。即ち、タップ生成部45は、例えば、高音質の音声の予測値を求めようとしているフレームである注目フレームの合成音のサンプル値、残差コード、およびAコードすべてを、予測タップとする。そして、タップ生成部45は、予測タップを、予測部49に供給する。
【0076】
タップ生成部46は、音声合成フィルタ44から供給される合成音のサンプル値、並びにデマルチプレクサ41から供給されるフレーム(またはサブフレーム)ごとのAコードおよび残差コードから、クラスタップとなるものを抽出する。即ち、タップ生成部46は、例えば、タップ生成部46と同様に、注目フレームの合成音のサンプル値、並びにAコードおよび残差コードすべてを、クラスタップとする。そして、タップ生成部46は、クラスタップを、クラス分類部47に供給する。
【0077】
ここで、予測タップやクラスタップの構成パターンは、上述したパターンのものに限定されるものではない。また、上述の場合には、同一のクラスタップおよび予測タップを構成するようにしたが、クラスタップと予測タップとは、異なる構成とすることが可能である。
【0078】
さらに、タップ生成部45や46では、図3において点線で示すように、フィルタ係数復号器42が出力する、Aコードから得られる線形予測係数や、残差コードブック記憶部43が出力する、残差コードから得られる残差信号等の中からも、クラスタップや予測タップを抽出するようにすることができる。
【0079】
クラス分類部47は、タップ生成部46からのクラスタップに基づき、注目している注目フレームの音声(のサンプル値)についてクラス分類を行い、その結果得られるクラスに対応するクラスコードを、係数メモリ48に出力する。
【0080】
ここで、クラス分類部47には、例えば、クラスタップとしての注目フレームの合成音のサンプル値、並びにAコードおよび残差コードを構成するビットの系列そのものを、クラスコードとして出力させることが可能である。
【0081】
係数メモリ48は、後述する図6の学習装置において学習処理が行われることにより得られる、クラスごとのタップ係数を記憶しており、クラス分類部47が出力するクラスコードに対応するアドレスに記憶されているタップ係数を、予測部49に出力する。
【0082】
ここで、各フレームについて、Nサンプルの高音質の音声が求められるとすると、注目フレームについて、Nサンプルの音声を、式(6)の予測演算によって求めるには、Nセットのタップ係数が必要である。従って、この場合は、係数メモリ48には、1つのクラスコードに対応するアドレスに対して、Nセットのタップ係数が記憶されている。
【0083】
予測部49は、タップ生成部45が出力する予測タップと、係数メモリ48が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(6)に示した線形予測演算(積和演算)を行い、注目フレームの高音質の音声(の予測値)を求めて、D/A変換部50に出力する。
【0084】
ここで、係数メモリ48は、上述したように、注目フレームの音声のNサンプルそれぞれを求めるためのNセットのタップ係数を出力するが、予測部49は、各サンプル値について、予測タップと、そのサンプル値に対応するタップ係数のセットとを用い、式(6)の積和演算を行う。
【0085】
D/A変換部50は、予測部49からの音声(の予測値)を、ディジタル信号からアナログ信号にD/A変換し、スピーカ51に供給して出力させる。
【0086】
次に、図4は、図3の音声合成フィルタ44の構成例を示している。
【0087】
図4において、音声合成フィルタ44は、P次の線形予測係数を用いるものとなっており、従って、1つの加算器61、P個の遅延回路(D)621乃至62P、およびP個の乗算器631乃至63Pから構成されている。
【0088】
乗算器631乃至63Pには、それぞれ、フィルタ係数復号器42から供給されるP次の線形予測係数α1,α2,・・・,αPがセットされ、これにより、音声合成フィルタ44では、式(4)にしたがって演算が行われ、合成音が生成される。
【0089】
即ち、残差コードブック記憶部43が出力する残差信号eは、加算器61を介して、遅延回路621に供給され、遅延回路62pは、そこへの入力信号を、残差信号の1サンプル分だけ遅延して、後段の遅延回路62p+1に出力するとともに、演算器63pに出力する。乗算器63pは、遅延回路62pの出力と、そこにセットされた線形予測係数αpとを乗算し、その乗算値を、加算器61に出力する。
【0090】
加算器61は、乗算器631乃至63Pの出力すべてと、残差信号eとを加算し、その加算結果を、遅延回路621に供給する他、音声合成結果(合成音)として出力する。
【0091】
次に、図5のフローチャートを参照して、図3の音声合成装置の処理(音声合成処理)について説明する。
【0092】
デマルチプレクサ41は、そこに供給されるコードデータから、フレームごとのAコードと残差コードを順次分離し、それぞれを、フィルタ係数復号器42と残差コードブック記憶部43に供給する。さらに、デマルチプレクサ41は、Aコードおよび残差コードを、タップ生成部45および46にも供給する。
【0093】
フィルタ係数復号器42は、デマルチプレクサ41から供給されるフレームごとのAコードを、線形予測係数に順次復号し、音声合成フィルタ44に供給する。また、残差コードブック記憶部43は、デマルチプレクサ41から供給されるフレームごとの残差コードを、残差信号に順次復号し、音声合成フィルタ44に供給する。
【0094】
音声合成フィルタ44では、そこに供給される残差信号および線形予測係数を用いて、式(4)の演算が行われることにより、注目フレームの合成音が生成される。この合成音は、タップ生成部45および46に供給される。
【0095】
タップ生成部45は、そこに供給される合成音のフレームを、順次、注目フレームとし、ステップS1において、音声合成フィルタ44から供給される合成音(のサンプル値)、並びにデマルチプレクサ41から供給されるAコードおよび残差コードから、予測タップを生成し、予測部49に出力する。さらに、ステップS1では、タップ生成部46が、音声合成フィルタ44から供給される合成音、並びにデマルチプレクサ41から供給されるAコードおよび残差コードから、クラスタップを生成し、クラス分類部47に出力する。
【0096】
そして、ステップS2に進み、クラス分類部47は、タップ生成部46から供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、係数メモリ48に供給して、ステップS3に進む。
【0097】
ステップS3では、係数メモリ48は、クラス分類部47から供給されるクラスコードに対応するアドレスから、タップ係数を読み出し、予測部49に供給する。
【0098】
そして、ステップS4に進み、予測部49は、係数メモリ48が出力するタップ係数を取得し、そのタップ係数と、タップ生成部45からの予測タップとを用いて、式(6)に示した積和演算を行い、注目フレームの高音質の音声(の予測値)を得る。この高音質の音声は、予測部49からD/A変換部50を介して、スピーカ51に供給されて出力される。
【0099】
予測部49において、注目フレームの高音質の音声が得られた後は、ステップS5に進み、まだ、注目フレームとして処理すべきフレームがあるかどうかが判定される。ステップS5において、まだ、注目フレームとして処理すべきフレームがあると判定された場合、ステップS1に戻り、次に注目フレームとすべきフレームを、新たに注目フレームとして、以下、同様の処理を繰り返す。また、ステップS5において、注目フレームとして処理すべきフレームがないと判定された場合、音声合成処理を終了する。
【0100】
次に、図6は、図3の係数メモリ48に記憶させるタップ係数の学習処理を行う学習装置の一実施の形態の構成例を示している。
【0101】
学習装置には、学習用の(高音質の)ディジタル音声信号が、所定のフレーム単位で供給されるようになっており、この学習用のディジタル音声信号は、LPC分析部71および予測フィルタ74に供給される。さらに、学習用のディジタル音声信号は、教師データとして、正規方程式加算回路81にも供給される。
【0102】
LPC分析部71は、そこに供給される音声信号のフレームを、順次、注目フレームとし、その注目フレームの音声信号をLPC分析することで、P次の線形予測係数を求め、ベクトル量子化部72および予測フィルタ74に供給する。
【0103】
ベクトル量子化部72は、線形予測係数を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、LPC分析部71からの注目フレームの線形予測係数で構成される特徴ベクトルをベクトル量子化し、そのベクトル量子化の結果得られるAコードを、フィルタ係数復号器73、並びにタップ生成部78および79に供給する。
【0104】
フィルタ係数復号器73は、ベクトル量子化部72が記憶しているのと同一のコードブックを記憶しており、そのコードブックに基づいて、ベクトル量子化部72からのAコードを、線形予測係数に復号し、音声合成フィルタ77に供給する。ここで、図3のフィルタ係数復号器42と、図6のフィルタ係数復号器73とは、同一構成のものとなっている。
【0105】
予測フィルタ74は、そこに供給される注目フレームの音声信号と、LPC分析部71からの線形予測係数を用いて、例えば、式(1)にしたがった演算を行うことにより、注目フレームの残差信号を求め、ベクトル量子化部75に供給する。
【0106】
即ち、式(1)におけるsnとenのZ変換を、SとEとそれぞれ表すと、式(1)は、次式のように表すことができる。
【0107】
E=(1+α1-1+α2-2+・・・+αP-P)S
・・・(14)
式(14)から、残差信号eを求める予測フィルタ74は、FIR(Finite Impulse Response)型のディジタルフィルタで構成することができる。
【0108】
即ち、図7は、予測フィルタ74の構成例を示している。
【0109】
予測フィルタ74には、LPC分析部71から、P次の線形予測係数が供給されるようになっており、従って、予測フィルタ74は、P個の遅延回路(D)911乃至91P、P個の乗算器921乃至92P、および1つの加算器93から構成されている。
【0110】
乗算器921乃至92Pには、それぞれ、LPC分析部71から供給されるP次の線形予測係数α1,α2,・・・,αPがセットされる。
【0111】
一方、注目フレームの音声信号sは、遅延回路911と加算器93に供給される。遅延回路91pは、そこへの入力信号を、残差信号の1サンプル分だけ遅延して、後段の遅延回路91p+1に出力するとともに、演算器92pに出力する。乗算器92pは、遅延回路91pの出力と、そこにセットされた線形予測係数αpとを乗算し、その乗算値を、加算器93に出力する。
【0112】
加算器93は、乗算器921乃至92Pの出力すべてと、音声信号sとを加算し、その加算結果を、残差信号eとして出力する。
【0113】
図6に戻り、ベクトル量子化部75は、残差信号のサンプル値を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、予測フィルタ74からの注目フレームの残差信号のサンプル値で構成される残差ベクトルをベクトル量子化し、そのベクトル量子化の結果得られる残差コードを、残差コードブック記憶部76、並びにタップ生成部78および79に供給する。
【0114】
残差コードブック記憶部76は、ベクトル量子化部75が記憶しているのと同一のコードブックを記憶しており、そのコードブックに基づいて、ベクトル量子化部75からの残差コードを、残差信号に復号し、音声合成フィルタ77に供給する。ここで、図3の残差コードブック記憶部43と、図6の残差コードブック記憶部76の記憶内容は同一になっている。
【0115】
音声合成フィルタ77は、図3の音声合成フィルタ44と同様に構成されるIIRフィルタで、フィルタ係数復号器73からの線形予測係数をIIRフィルタのタップ係数とするとともに、残差コードブック記憶部75からの残差信号を入力信号として、その入力信号のフィルタリングを行うことにより、合成音を生成し、タップ生成部78および79に供給する。
【0116】
タップ生成部78は、図3のタップ生成部45における場合と同様に、音声合成フィルタ77から供給される合成音、ベクトル量子化部72から供給されるAコード、およびベクトル量子化部75から供給される残差コードから、予測タップを構成し、正規方程式加算回路81に供給する。タップ生成部79は、図3のタップ生成部46における場合と同様に、音声合成フィルタ77から供給される合成音、ベクトル量子化部72供給されるAコード、およびベクトル量子化部75から供給される残差コードから、クラスタップを構成し、クラス分類部80に供給する。
【0117】
クラス分類部80は、図3のクラス分類部47における場合と同様に、そこに供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路81に供給する。
【0118】
正規方程式加算回路81は、教師データとしての注目フレームの高音質の音声である学習用の音声と、タップ生成部78からの生徒データとしての予測タップを対象とした足し込みを行う。
【0119】
即ち、正規方程式加算回路81は、クラス分類部80から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)を用い、式(13)の行列Aにおける各コンポーネントとなっている、生徒データどうしの乗算(xinim)と、サメーション(Σ)に相当する演算を行う。
【0120】
さらに、正規方程式加算回路81は、やはり、クラス分類部80から供給されるクラスコードに対応するクラスごとに、生徒データおよび教師データを用い、式(13)のベクトルvにおける各コンポーネントとなっている、生徒データと教師データの乗算(xini)と、サメーション(Σ)に相当する演算を行う。
【0121】
正規方程式加算回路81は、以上の足し込みを、そこに供給される学習用の音声のフレームすべてを注目フレームとして行い、これにより、各クラスについて、式(13)に示した正規方程式をたてる。
【0122】
タップ係数決定回路82は、正規方程式加算回路81においてクラスごとに生成された正規方程式を解くことにより、クラスごとに、タップ係数を求め、係数メモリ83の、各クラスに対応するアドレスに供給する。
【0123】
なお、学習用の音声信号として用意した音声信号によっては、正規方程式加算回路81において、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる場合があり得るが、タップ係数決定回路82は、そのようなクラスについては、例えば、デフォルトのタップ係数を出力する。
【0124】
係数メモリ83は、タップ係数決定回路82から供給されるクラスごとのタップ係数を、そのクラスに対応するアドレスに記憶する。
【0125】
次に、図8のフローチャートを参照して、図6の学習装置の処理(学習処理)について説明する。
【0126】
学習装置には、学習用の音声信号が供給され、この学習用の音声信号は、LPC分析部71および予測フィルタ74に供給されるとともに、教師データとして、正規方程式加算回路81に供給される。そして、ステップS11において、学習用の音声信号から、生徒データが生成される。
【0127】
即ち、LPC分析部71は、学習用の音声信号のフレームを、順次、注目フレームとし、その注目フレームの音声信号をLPC分析することで、P次の線形予測係数を求め、ベクトル量子化部72に供給する。ベクトル量子化部72は、LPC分析部71からの注目フレームの線形予測係数で構成される特徴ベクトルをベクトル量子化し、そのベクトル量子化の結果得られるAコードを、生徒データとして、フィルタ係数復号器73、並びにタップ生成部78および79に供給する。フィルタ係数復号器73は、ベクトル量子化部72からのAコードを、線形予測係数に復号し、その線形予測係数を、音声合成フィルタ77に供給する。
【0128】
一方、LPC分析部71から注目フレームの線形予測係数を受信した予測フィルタ74は、その線形予測係数と、注目フレームの学習用の音声信号とを用いて、式(1)にしたがった演算を行うことにより、注目フレームの残差信号を求め、ベクトル量子化部75に供給する。ベクトル量子化部75は、予測フィルタ74からの注目フレームの残差信号のサンプル値で構成される残差ベクトルをベクトル量子化し、そのベクトル量子化の結果得られる残差コードを、生徒データとして、残差コードブック記憶部76、並びにタップ生成部78および79に供給する。残差コードブック記憶部76は、ベクトル量子化部75からの残差コードを、残差信号に復号し、音声合成フィルタ77に供給する。
【0129】
以上のようにして、音声合成フィルタ77は、線形予測係数と残差信号を受信すると、その線形予測係数と残差信号を用いて音声合成を行い、その結果得られる合成音を、生徒データとして、タップ生成部78および79に出力する。
【0130】
そして、ステップS12に進み、タップ生成部78が、音声合成フィルタ77から供給される合成音、ベクトル量子化部72から供給されるAコード、およびベクトル量子化部75から供給される残差コードから、予測タップとクラスタップをそれぞれ生成する。予測タップは、正規方程式加算回路81に供給され、クラスタップは、クラス分類部80に供給される。
【0131】
その後、ステップS13において、クラス分類部80が、タップ生成部79からのクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路81に供給する。
【0132】
そして、ステップS14に進み、正規方程式加算回路81は、クラス分類部80から供給されるクラスについて、そこに供給される教師データとしての注目フレームの高音質の音声のサンプル値、およびタップ生成部78からの生徒データとしての予測タップを対象とした、式(13)の行列Aとベクトルvの、上述したような足し込みを行い、ステップS15に進む。
【0133】
ステップS15では、まだ、注目フレームとして処理すべきフレームの学習用の音声信号があるかどうかが判定される。ステップS15において、まだ、注目フレームとして処理すべきフレームの学習用の音声信号があると判定された場合、ステップS11に戻り、次のフレームを新たに注目フレームとして、以下、同様の処理が繰り返される。
【0134】
また、ステップS15において、注目フレームとして処理すべきフレームの学習用の音声信号がないと判定された場合、即ち、正規方程式加算回路81において、各クラスについて、正規方程式が得られた場合、ステップS16に進み、タップ係数決定回路82は、各クラスごとに生成された正規方程式を解くことにより、各クラスごとに、タップ係数を求め、係数メモリ83の、各クラスに対応するアドレスに供給して記憶させ、処理を終了する。
【0135】
以上のようにして、係数メモリ83に記憶された各クラスごとのタップ係数が、図3の係数メモリ48に記憶されている。
【0136】
従って、図3の係数メモリ48に記憶されたタップ係数は、線形予測演算を行うことにより得られる高音質の音声の予測値の予測誤差(ここでは、自乗誤差)が、統計的に最小になるように学習を行うことにより求められたものであるから、図3の予測部49が出力する音声は、音声合成フィルタ44で生成された合成音の歪みが低減(解消)された、高音質のものとなる。
【0137】
なお、図3の音声合成装置において、上述したように、例えば、タップ生成部46に、線形予測係数や残差信号等の中からも、クラスタップを抽出させるようにする場合には、図6のタップ生成部79にも、図中点線で示すように、フィルタ係数復号器73が出力する線形予測係数や、残差コードブック記憶部76が出力する残差信号の中から、同様のクラスタップを抽出させるようにする必要がある。図3のタップ生成部45と、図6のタップ生成部78で生成される予測タップについても同様である。
【0138】
また、上述の場合には、説明を簡単にするために、クラスタップを構成するビットの系列を、そのままクラスコードとするクラス分類を行うようにしたが、この場合、クラス数が膨大になることがある。そこで、クラス分類では、例えば、クラスタップをベクトル量子化等によって圧縮し、その圧縮の結果得られるビットの系列を、クラスコードとするようにすることが可能である。
【0139】
次に、図9は、本発明を適用した伝送システム(システムとは、複数の装置が論理的に集合した物をいい、各構成の装置が同一筐体中にあるか否かは問わない)の一実施の形態の構成を示している。
【0140】
この伝送システムでは、携帯電話機1011と1012が、基地局1021と1022それぞれとの間で、無線による送受信を行うとともに、基地局1021と1022それぞれが、交換局103との間で送受信を行うことにより、最終的には、携帯電話機1011と1012との間において、基地局1021および1022、並びに交換局103を介して、音声の送受信を行うことができるようになっている。なお、基地局1021と1022は、同一の基地局であっても良いし、異なる基地局であっても良い。
【0141】
ここで、以下、特に区別する必要がない限り、携帯電話機1011と1012を、携帯電話機101と記述する。
【0142】
図10は、図9の携帯電話機101の構成例を示している。
【0143】
アンテナ111は、基地局1021または1022からの電波を受信し、その受信信号を、変復調部112に供給するとともに、変復調部112からの信号を、電波で、基地局1021または1022に送信する。変復調部112は、アンテナ111からの信号を復調し、その結果得られる、図1で説明したようなコードデータを、受信部114に供給する。また、変復調部112は、送信部113から供給される、図1で説明したようなコードデータを変調し、その結果得られる変調信号を、アンテナ111に供給する。送信部113は、図1に示した送信部と同様に構成され、そこに入力されるユーザの音声を、コードデータに符号化して、変復調部112に供給する。受信部114は、変復調部112からのコードデータを受信し、そのコードデータから、図3の音声合成装置における場合と同様の高音質の音声を復号して出力する。
【0144】
即ち、図11は、図10の受信部114の構成例を示している。なお、図中、図2における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0145】
タップ生成部121と122には、音声合成フィルタ29が出力する、フレームごとの合成音と、チャネルデコーダ21が出力する、フレーム(またはサブフレーム)ごとのLコード、Gコード、Iコード、およびAコードとが供給されるようになっている。タップ生成部121と122は、そこに供給される合成音、Lコード、Gコード、Iコード、およびAコードから、予測タップとするものとクラスタップとするものをそれぞれ抽出する。予測タップは、予測部125に供給され、クラスタップは、クラス分類部123に供給される。
【0146】
クラス分類部123は、タップ生成部122から供給されるクラスタップに基づいて、クラス分類を行い、そのクラス分類結果としてのクラスコードを、係数メモリ124に供給する。
【0147】
係数メモリ124は、後述する図12の学習装置において学習処理が行われることにより得られる、クラスごとのタップ係数を記憶しており、クラス分類部123が出力するクラスコードに対応するアドレスに記憶されているタップ係数を、予測部125に供給する。
【0148】
予測部125は、図3の予測部49と同様に、タップ生成部121が出力する予測タップと、係数メモリ124が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(6)に示した線形予測演算を行う。これにより、予測部125は、注目フレームの高音質の音声(の予測値)を求めて、D/A変換部30に供給する。
【0149】
以上のように構成される受信部114では、基本的には、図5に示したフローチャートにしたがった処理と同様の処理が行われることで、高音質の合成音が、音声の復号結果として出力される。
【0150】
即ち、チャネルデコーダ21は、そこに供給されるコードデータから、Lコード、Gコード、Iコード、Aコードを分離し、それぞれを、適応コードブック記憶部22、ゲイン復号器23、励起コードブック記憶部24、フィルタ係数復号器25に供給する。さらに、Lコード、Gコード、Iコード、およびAコードは、タップ生成部121および122にも供給される。
【0151】
そして、適応コードブック記憶部22、ゲイン復号器23、励起コードブック記憶部24、演算器26乃至28では、図1の適応コードブック記憶部9、ゲイン復号器10、励起コードブック記憶部11、演算器12乃至14における場合と同様の処理が行われ、これにより、Lコード、Gコード、およびIコードが、残差信号eに復号される。この残差信号は、音声合成フィルタ29に供給される。
【0152】
さらに、フィルタ係数復号器25は、図1で説明したように、そこに供給されるAコードを、線形予測係数に復号し、音声合成フィルタ29に供給する。音声合成フィルタ29は、演算器28からの残差信号と、フィルタ係数復号器25からの線形予測係数を用いて音声合成を行い、その結果得られる合成音を、タップ生成部121と122に供給する。
【0153】
タップ生成部121は、音声合成フィルタ29が出力する合成音のフレームを注目フレームとし、ステップS1において、その注目フレームの合成音と、Lコード、Gコード、Iコード、およびAコードとから、予測タップを生成し、予測部125に供給する。さらに、ステップS1では、タップ生成部122は、やはり、注目フレームの合成音と、Lコード、Gコード、Iコード、およびAコードとから、クラスタップを生成し、クラス分類部123に供給する。
【0154】
そして、ステップS2に進み、クラス分類部123は、タップ生成部122から供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、係数メモリ124に供給して、ステップS3に進む。
【0155】
ステップS3では、係数メモリ124は、クラス分類部123から供給されるクラスコードに対応するアドレスから、タップ係数を読み出し、予測部125に供給する。
【0156】
そして、ステップS4に進み、予測部125は、係数メモリ124が出力するタップ係数を取得し、そのタップ係数と、タップ生成部121からの予測タップとを用いて、式(6)に示した積和演算を行い、注目フレームの高音質の音声(の予測値)を得る。
【0157】
以上のようにして得られた高音質の音声は、予測部125から、D/A変換部30を介して、スピーカ31に供給され、これにより、スピーカ31からは、高音質の音声が出力される。
【0158】
ステップS4の処理後は、ステップS5に進み、まだ、注目フレームとして処理すべきフレームがあるかどうかが判定され、あると判定された場合、ステップS1に戻り、次に注目フレームとすべきフレームを、新たに注目フレームとして、以下、同様の処理を繰り返す。また、ステップS5において、注目フレームとして処理すべきフレームがないと判定された場合、処理を終了する。
【0159】
次に、図12は、図11の係数メモリ124に記憶させるタップ係数の学習処理を行う学習装置の一実施の形態の構成例を示している。
【0160】
マイク201乃至コード決定部215は、図1のマイク1乃至コード決定部15とそれぞれ同様に構成される。マイク1には、学習用の音声信号が入力されるようになっており、従って、マイク201乃至コード決定部215では、その学習用の音声信号に対して、図1における場合と同様の処理が施される。
【0161】
そして、タップ生成部131と132には、自乗誤差最小判定部208において自乗誤差が最小になったと判定されたときの音声合成フィルタ206が出力する合成音が供給される。さらに、タップ生成部131と132には、コード決定部215が、自乗誤差最小判定部208から確定信号を受信したときに出力するLコード、Gコード、Iコード、およびAコードも供給される。また、正規方程式加算回路134には、A/D変換部202が出力する音声が、教師データとして供給される。
【0162】
タップ生成部131は、音声合成フィルタ206が出力する合成音と、コード決定部215が出力するLコード、Gコード、Iコード、およびAコードとから、図11のタップ生成部121と同一の予測タップを構成し、生徒データとして、正規方程式加算回路134に供給する。
【0163】
タップ生成部132も、音声合成フィルタ206が出力する合成音と、コード決定部215が出力するLコード、Gコード、Iコード、およびAコードとから、図11のタップ生成部122と同一のクラスタップを構成し、クラス分類部133に供給する。
【0164】
クラス分類部133は、タップ生成部132からのクラスタップに基づいて、図11のクラス分類部123における場合と同様のクラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路134に供給する。
【0165】
正規方程式加算回路134は、A/D変換部202からの音声を、教師データとして受信するとともに、タップ生成部131からの予測タップを、生徒データとして受信し、その教師データおよび生徒データを対象として、クラス分類部133からのクラスコードごとに、図6の正規方程式加算回路81における場合と同様の足し込みを行うことにより、各クラスについて、式(13)に示した正規方程式をたてる。
【0166】
タップ係数決定回路135は、正規方程式加算回路134においてクラスごとに生成された正規方程式を解くことにより、クラスごとに、タップ係数を求め、係数メモリ136の、各クラスに対応するアドレスに供給する。
【0167】
なお、学習用の音声信号として用意する音声信号によっては、正規方程式加算回路134において、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる場合があり得るが、タップ係数決定回路135は、そのようなクラスについては、例えば、デフォルトのタップ係数を出力する。
【0168】
係数メモリ136は、タップ係数決定回路135から供給されるクラスごとの線形予測係数と残差信号についてのタップ係数を記憶する。
【0169】
以上のように構成される学習装置では、基本的には、図8に示したフローチャートにしたがった処理と同様の処理が行われることで、高音質の合成音を得るためのタップ係数が求められる。
【0170】
即ち、学習装置には、学習用の音声信号が供給され、ステップS11では、その学習用の音声信号から、教師データと生徒データが生成される。
【0171】
即ち、学習用の音声信号は、マイク201に入力され、マイク201乃至コード決定部215は、図1のマイク1乃至コード決定部15における場合とそれぞれ同様の処理を行う。
【0172】
その結果、A/D変換部202で得られるディジタル信号の音声は、教師データとして、正規方程式加算回路134に供給される。また、自乗誤差最小判定部208において自乗誤差が最小になったと判定されたときに、音声合成フィルタ206が出力する合成音は、生徒データとして、タップ生成部131と132に供給される。さらに、自乗誤差最小判定部208において自乗誤差が最小になったと判定されたときに、コード決定部215が出力するLコード、Gコード、Iコード、およびAコードも、生徒データとして、タップ生成部131と132に供給される。
【0173】
その後、ステップS12に進み、タップ生成部131は、音声合成フィルタ206から生徒データとして供給される合成音のフレームを注目フレームとして、その注目フレームの合成音と、Lコード、Gコード、Iコード、およびAコードとから、予測タップを生成し、正規方程式加算回路134に供給する。さらに、ステップS12では、タップ生成部132が、やはり、注目フレームの合成音と、Lコード、Gコード、Iコード、およびAコードとから、クラスタップを生成し、クラス分類部133に供給する。
【0174】
ステップS12の処理後は、ステップS13に進み、クラス分類部133が、タップ生成部132からのクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路134に供給する。
【0175】
そして、ステップS14に進み、正規方程式加算回路134は、A/D変換器202からの教師データとしての注目フレームの高音質の音声である学習用の音声、およびタップ生成部132からの生徒データとしての予測タップを対象として、式(13)の行列Aとベクトルvの、上述したような足し込みを、クラス分類部133からのクラスコードごとに行い、ステップS15に進む。
【0176】
ステップS15では、まだ、注目フレームとして処理すべきフレームがあるかどうかが判定される。ステップS15において、まだ、注目フレームとして処理すべきフレームがあると判定された場合、ステップS11に戻り、次のフレームを新たに注目フレームとして、以下、同様の処理が繰り返される。
【0177】
また、ステップS15において、注目フレームとして処理すべきフレームがないと判定された場合、即ち、正規方程式加算回路134において、各クラスについて、正規方程式が得られた場合、ステップS16に進み、タップ係数決定回路135は、各クラスごとに生成された正規方程式を解くことにより、各クラスごとに、タップ係数を求め、係数メモリ136の、各クラスに対応するアドレスに供給して記憶させ、処理を終了する。
【0178】
以上のようにして、係数メモリ136に記憶された各クラスごとのタップ係数が、図11の係数メモリ124に記憶されている。
【0179】
従って、図11の係数メモリ124に記憶されたタップ係数は、線形予測演算を行うことにより得られる高音質の音声予測値の予測誤差(自乗誤差)が、統計的に最小になるように学習を行うことにより求められたものであるから、図11の予測部125が出力する音声は、高音質のものとなる。
【0180】
なお、例えば、図11および図12の実施の形態では、クラスタップを、音声合成フィルタ206が出力する合成音と、Lコード、Gコード、Iコード、およびAコードとから生成するようにしたが、クラスタップは、Lコード、Gコード、Iコード、またはAコードのうちの1以上と、音声合成フィルタ206が出力する合成音とから生成することが可能である。また、クラスタップは、図11および図12において点線で示すように、Aコードから得られる線形予測係数αpや、Gコードから得られるゲインβ,γ、その他の、Lコード、Gコード、Iコード、またはAコードから得られる情報(例えば、残差信号eや、残差信号eを得るためのl,n、さらには、l/β,n/γなど)をも用いて構成することが可能である。さらに、クラスタップは、音声合成フィルタ206が出力する合成音と、Lコード、Gコード、Iコード、またはAコードから得られる、上述したような情報とから生成することも可能である。また、CELP方式では、コードデータに、リスト補間ビットやフレームエネルギが含められる場合があるが、この場合、クラスタップは、ソフト補間ビットやフレームエネルギを用いて構成することが可能である。予測タップについても、同様である。
【0181】
ここで、図13に、図12の学習装置において、教師データとして用いられる音声データsと、生徒データとして用いられる合成音のデータss、残差信号e、残差信号を求めるのに用いられるnおよびlを示す。
【0182】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0183】
そこで、図14は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0184】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク305やROM303に予め記録しておくことができる。
【0185】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体311に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体311は、いわゆるパッケージソフトウエアとして提供することができる。
【0186】
なお、プログラムは、上述したようなリムーバブル記録媒体311からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部308で受信し、内蔵するハードディスク305にインストールすることができる。
【0187】
コンピュータは、CPU(Central Processing Unit)302を内蔵している。CPU302には、バス301を介して、入出力インタフェース310が接続されており、CPU302は、入出力インタフェース310を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部307が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)303に格納されているプログラムを実行する。あるいは、また、CPU302は、ハードディスク305に格納されているプログラム、衛星若しくはネットワークから転送され、通信部308で受信されてハードディスク305にインストールされたプログラム、またはドライブ309に装着されたリムーバブル記録媒体311から読み出されてハードディスク305にインストールされたプログラムを、RAM(Random Access Memory)304にロードして実行する。これにより、CPU302は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU302は、その処理結果を、必要に応じて、例えば、入出力インタフェース310を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部306から出力、あるいは、通信部308から送信、さらには、ハードディスク305に記録等させる。
【0188】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0189】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0190】
なお、本実施の形態においては、学習用の音声信号として、どのようなものを用いるかについては、特に言及しなかったが、学習用の音声信号としては、人が発話した音声の他、例えば、曲(音楽)等を採用することが可能である。そして、上述したような学習処理によれば、学習用の音声信号として、人の発話を用いた場合には、そのような人の発話の音声の音質を向上させるようなタップ係数が得られ、曲を用いた場合には、曲の音質を向上させるようなタップ係数が得られることになる。
【0191】
また、図11の実施の形態では、係数メモリ124には、タップ係数をあらかじめ記憶させておくようにしたが、係数メモリ124に記憶させるタップ係数は、携帯電話機101において、図9の基地局102(あるいは交換局103)や、図示しないWWW(World Wide Web)サーバ等からダウンロードするようにすることができる。即ち、上述したように、タップ係数は、人の発話用や曲用等のように、ある種類の音声信号に適したものを、学習によって得ることができる。さらに、学習に用いる教師データおよび生徒データによっては、合成音の音質に差が生じるタップ係数を得ることができる。従って、そのような各種のタップ係数を、基地局102等に記憶させておき、ユーザには、自身の所望するタップ係数をダウンロードさせるようにすることができる。そして、このようなタップ係数のダウンロードサービスは、無料で行うこともできるし、有料で行うこともできる。さらに、タップ係数のダウンロードサービスを有料で行う場合には、タップ係数のダウンロードに対する対価としての代金は、例えば、携帯電話機101の通話料等とともに請求するようにすることが可能である。
【0192】
また、係数メモリ124は、携帯電話機101に対して着脱可能なメモリカード等で構成することができる。この場合、上述したような各種のタップ係数それぞれを記憶させた、異なるメモリカードを提供するようにすれば、ユーザは、場合に応じて、所望のタップ係数が記憶されたメモリカードを、携帯電話機101に装着して使用することが可能となる。
【0193】
さらに、本発明は、例えば、VSELP(Vector Sum Excited Liner Prediction),PSI−CELP(Pitch Synchronous Innovation CELP),CS−ACELP(Conjugate Structure Algebraic CELP)等のCELP方式による符号化の結果得られるコードから合成音を生成する場合に、広く適用可能である。
【0194】
また、本発明は、CELP方式による符号化の結果得られるコードから合成音を生成する場合に限らず、あるコードから、残差信号と線形予測係数を得て、合成音を生成する場合に、広く適用可能である。
【0195】
さらに、本実施の形態では、タップ係数を用いた線形1次予測演算によって、残差信号や線形予測係数の予測値を求めるようにしたが、この予測値は、その他、2次以上の高次の予測演算によって求めることも可能である。
【0196】
また、本実施の形態では、クラスタップをベクトル量子化すること等によってクラス分類を行うようにしたが、クラス分類は、その他、例えば、ADRC処理を利用して行うこと等も可能である。
【0197】
ADRCを用いるクラス分類では、クラスタップを構成する要素(本実施の形態では、合成音のサンプル値や、Lコード、Gコード、Iコード、Aコード等)が、ADRC処理され、その結果得られるADRCコードにしたがって、クラスが決定される。
【0198】
ここで、KビットADRCにおいては、例えば、クラスタップを構成する要素の最大値MAXと最小値MINが検出され、DR=MAX-MINを、集合の局所的なダイナミックレンジとし、このダイナミックレンジDRに基づいて、クラスタップを構成する要素がKビットに再量子化される。即ち、クラスタップを構成する各要素から、最小値MINが減算され、その減算値がDR/2Kで除算(量子化)される。そして、以上のようにして得られる、クラスタップを構成する各要素のKビットの値を、所定の順番で並べたビット列が、ADRCコードとして出力される。
【0199】
なお、例えば、特開平8−202399号公報には、合成音を、高域強調フィルタに通すことによって、その音質を改善する方法が開示されているが、本発明は、タップ係数が学習により得られる点や、予測計算に用いられるタップ係数が、クラス分類結果によって適応的に決まる点等において、特開平8−202339号公報に記載の発明と異なる。
【0200】
【発明の効果】
本発明の第1及び第2の側面によれば高音質の合成音を生成することが可能となる。
【図面の簡単な説明】
【図1】従来の携帯電話機の送信部の一例の構成を示すブロック図である。
【図2】従来の携帯電話機の受信部の一例の構成を示すブロック図である。
【図3】本発明を適用した音声合成装置の一実施の形態の構成例を示すブロック図である。
【図4】音声合成フィルタ44の構成例を示すブロック図である。
【図5】図3の音声合成装置の処理を説明するフローチャートである。
【図6】本発明を適用した学習装置の一実施の形態の構成例を示すブロック図である。
【図7】予測フィルタ74の構成例を示すブロック図である。
【図8】図6の学習装置の処理を説明するフローチャートである。
【図9】本発明を適用した伝送システムの一実施の形態の構成例を示す図である。
【図10】携帯電話機101の構成例を示すブロック図である。
【図11】受信部114の構成例を示すブロック図である。
【図12】本発明を適用した学習装置の他の実施の形態の構成例を示すブロック図である。
【図13】教師データと生徒データを示す図である。
【図14】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
21 チャンネルデコーダ, 22 適応コードブック記憶部, 23 ゲイン復号器, 24 励起コードブック記憶部, 25 フィルタ係数復号器, 26乃至28 演算器, 29 音声合成フィルタ, 30 D/A変換部, 31 スピーカ, 41 デマルチプレクサ, 42 フィルタ係数復号器, 43 残差コードブック記憶部, 44 音声合成フィルタ, 45,46 タップ生成部, 47 クラス分類部, 48 係数メモリ, 49 予測部, 50 D/A変換部, 51 スピーカ, 61 加算器, 621乃至62P 遅延回路, 631乃至63P 乗算器, 71 LPC分析部, 72 ベクトル量子化部, 73 フィルタ係数復号器, 74 予測フィルタ, 75 ベクトル量子化部, 76 残差コードブック記憶部, 77 音声合成フィルタ, 78,79 タップ生成部, 80 クラス分類部, 81 正規方程式加算回路, 82 タップ係数決定回路, 83 係数メモリ, 911乃至91P遅延回路, 921乃至72P 乗算器, 93 加算器, 1011,1012携帯電話機, 1021,1022 基地局, 103 交換局, 111 アンテナ, 112 変復調部, 113 送信部, 114 受信部, 121,122 タップ生成部, 123 クラス分類部, 124 係数メモリ, 125 予測部, 131,132 タップ生成部, 133 クラス分類部,134 正規方程式加算回路, 135 タップ係数決定回路, 136 係数メモリ, 201 マイク, 202 A/D変換部, 203 演算器, 204 LPC分析部, 205 ベクトル量子化部, 206 音声合成フィルタ, 207 自乗誤差演算部, 208 自乗誤差最小判定部, 209 適応コードブック記憶部, 210 ゲイン復号器, 211 励起コードブック記憶部, 212 乃至214 演算器, 215 コード決定部, 301バス, 302 CPU, 303 ROM, 304 RAM, 305 ハードディスク, 306 出力部, 307 入力部, 308 通信部, 309 ドライブ, 310 入出力インタフェース, 311 リムーバブル記録媒体[0001]
BACKGROUND OF THE INVENTION
  The present inventionvoiceProcessing equipment andvoiceThe present invention relates to a processing method, a learning apparatus, a learning method, and a recording medium, and in particular, for example, a voice encoded by a CELP (Code Excited Linear Prediction coding) method can be decoded into a high-quality voice.voiceProcessing equipment andvoiceThe present invention relates to a processing method, a learning device, a learning method, and a recording medium.
[0002]
[Prior art]
1 and 2 show an example of the configuration of a conventional mobile phone.
[0003]
In this cellular phone, a transmission process in which voice is encoded into a predetermined code by the CELP method and transmitted, and a reception process in which a code transmitted from another cellular phone is received and decoded into voice are performed. FIG. 1 shows a transmission unit that performs transmission processing, and FIG. 2 shows a reception unit that performs reception processing.
[0004]
In the transmission unit shown in FIG. 1, a voice uttered by a user is input to a microphone (microphone) 1, where it is converted into a voice signal as an electrical signal and supplied to an A / D (Analog / Digital) conversion unit 2. Is done. The A / D conversion unit 2 samples the analog audio signal from the microphone 1 at a sampling frequency such as 8 kHz to perform A / D conversion into a digital audio signal, and further performs quantum quantization with a predetermined number of bits. Then, the data is supplied to the arithmetic unit 3 and an LPC (Liner Prediction Coefficient) analysis unit 4.
[0005]
The LPC analysis unit 4 performs an LPC analysis on the audio signal from the A / D conversion unit 2 for each frame having a length of 160 samples, for example, and a P-th order linear prediction coefficient α1, Α2, ..., αPAsk for. The LPC analysis unit 4 then calculates the P-th order linear prediction coefficient αpA vector whose elements are (p = 1, 2,..., P) is supplied to the vector quantization unit 5 as a speech feature vector.
[0006]
The vector quantization unit 5 stores a code book in which a code vector having a linear prediction coefficient as an element and a code are associated with each other, and based on the code book, the feature vector α from the LPC analysis unit 4 is vector quantized. And a code obtained as a result of the vector quantization (hereinafter referred to as A code (A_code) as appropriate) is supplied to the code determination unit 15.
[0007]
Further, the vector quantizing unit 5 includes a linear prediction coefficient α that is an element constituting the code vector α ′ corresponding to the A code.1′, Α2', ..., αP'Is supplied to the speech synthesis filter 6.
[0008]
The speech synthesis filter 6 is, for example, an IIR (Infinite Impulse Response) type digital filter, and the linear prediction coefficient α from the vector quantization unit 5 is used.p′ (P = 1, 2,..., P) is used as the tap coefficient of the IIR filter, and speech synthesis is performed using the residual signal e supplied from the computing unit 14 as an input signal.
[0009]
That is, the LPC analysis performed by the LPC analysis unit 4 is performed by analyzing the voice signal (sample value) s at the current time n.n, And the past P sample values s adjacent thereton-1, Sn-2, ..., snPAnd the expression
sn+ Α1sn-1+ Α2sn-2+ ... + αPsnP= En
... (1)
Assuming that the linear linear combination indicated by is established, the sample value s at the current time nnPredicted value (linear predicted value) sn′ Represents the past P sample values sn-1, Sn-2, ..., snPUsing the formula
sn′ = − (Α1sn-1+ Α2sn-2+ ... + αPsnP)
... (2)
The actual sample value s when linearly predicted bynAnd linear prediction value snLinear prediction coefficient α that minimizes the square error betweenpIs what you want.
[0010]
Here, in equation (1), {en} (..., en-1, En, En + 1, ...) has an average value of 0 and a variance of a predetermined value σ2Are uncorrelated random variables.
[0011]
From equation (1), the sample value snIs the formula
sn= En-(Α1sn-1+ Α2sn-2+ ... + αPsnP)
... (3)
When this is Z-converted, the following equation is established.
[0012]
S = E / (1 + α1z-1+ Α2z-2+ ... + αPz-P)
... (4)
However, in Formula (4), S and E are s in Formula (3).nAnd enRepresents the Z transformation of.
[0013]
Here, from equations (1) and (2), enIs the formula
en= Sn-Sn
... (5)
The actual sample value s can be expressed asnAnd linear prediction value snIt is called a residual signal between '.
[0014]
Therefore, from equation (4), the linear prediction coefficient αpIs the tap coefficient of the IIR filter and the residual signal enAs an input signal of the IIR filter,nCan be requested.
[0015]
Therefore, the speech synthesis filter 6 performs the linear prediction coefficient α from the vector quantization unit 5 as described above.pUsing ′ as a tap coefficient and the residual signal e supplied from the computing unit 14 as an input signal, the equation (4) is calculated to obtain a speech signal (synthesized sound signal) ss.
[0016]
In the speech synthesis filter 6, the linear prediction coefficient α obtained as a result of the LPC analysis by the LPC analysis unit 4.pRather, the linear prediction coefficient α as a code vector corresponding to the code resulting from the vector quantizationpSince 'is used, the synthesized sound signal output from the speech synthesis filter 6 is not basically the same as the speech signal output from the A / D converter 2.
[0017]
The synthesized sound signal ss output from the speech synthesis filter 6 is supplied to the calculator 3. The computing unit 3 subtracts the speech signal s output from the A / D conversion unit 2 from the synthesized sound signal ss from the speech synthesis filter 6 and supplies the subtraction value to the square error computation unit 7. The square error calculation unit 7 calculates the square sum of the subtraction values from the calculator 3 (the square sum of the sample values of the k-th frame) and supplies the square error obtained as a result to the square error minimum determination unit 8. .
[0018]
The square error minimum determination unit 8 is associated with the square error output by the square error calculation unit 7, an L code (L_code) as a code representing lag, a G code (G_code) as a code representing gain, and a code word An I code (I_code) as a code representing (excitation code book) is stored, and an L code, a G code, and an L code corresponding to the square error output by the square error calculation unit 7 are output. The L code is supplied to the adaptive codebook storage unit 9, the G code is supplied to the gain decoder 10, and the I code is supplied to the excitation codebook storage unit 11. Further, the L code, the G code, and the I code are also supplied to the code determination unit 15.
[0019]
The adaptive codebook storage unit 9 stores an adaptive codebook in which, for example, a 7-bit L code is associated with a predetermined delay time (lag), and the residual signal e supplied from the computing unit 14 is The signal is delayed by the delay time associated with the L code supplied from the square error minimum determination unit 8 and output to the computing unit 12.
[0020]
Here, since the adaptive codebook storage unit 9 outputs the residual signal e with a delay corresponding to the time corresponding to the L code, the output signal is a signal close to a periodic signal whose period is the delay time. Become. This signal mainly serves as a drive signal for generating a synthesized sound of voiced sound in speech synthesis using a linear prediction coefficient.
[0021]
The gain decoder 10 stores a table in which G codes are associated with predetermined gains β and γ, and gains β and γ associated with the G codes supplied from the square error minimum determination unit 8 are stored. Output. The gains β and γ are supplied to the calculators 12 and 13, respectively. Here, the gain β is called a long-term filter state output gain, and the gain γ is called an excitation codebook gain.
[0022]
The excitation code book storage unit 11 stores an excitation code book in which, for example, a 9-bit I code is associated with a predetermined excitation signal, and is associated with the I code supplied from the square error minimum determination unit 8. The excited signal is output to the calculator 13.
[0023]
Here, the excitation signal stored in the excitation codebook is, for example, a signal close to white noise or the like, and in speech synthesis using a linear prediction coefficient, mainly a drive signal for generating unvoiced synthesized sound and Become.
[0024]
The arithmetic unit 12 multiplies the output signal of the adaptive codebook storage unit 9 by the gain β output from the gain decoder 10 and supplies the multiplication value l to the arithmetic unit 14. The computing unit 13 multiplies the output signal of the excitation codebook storage unit 11 by the gain γ output from the gain decoder 10 and supplies the multiplication value n to the computing unit 14. The computing unit 14 adds the multiplication value l from the computing unit 12 and the multiplication value n from the computing unit 13 and supplies the addition value to the speech synthesis filter 6 as a residual signal e.
[0025]
In the speech synthesis filter 6, as described above, the residual signal e supplied from the computing unit 14 is input to the linear prediction coefficient α supplied from the vector quantization unit 5.pThe synthesized sound signal obtained by filtering with an IIR filter having a tap coefficient 'is supplied to the calculator 3. Then, the calculator 3 and the square error calculation unit 7 perform the same processing as described above, and the square error obtained as a result is supplied to the square error minimum determination unit 8.
[0026]
The square error minimum determination unit 8 determines whether or not the square error from the square error calculation unit 7 is minimized (minimum). When the square error minimum determination unit 8 determines that the square error is not minimized, the L error, the G code, and the L code corresponding to the square error are output as described above. The process is repeated.
[0027]
On the other hand, the square error minimum determination unit 8 outputs a confirmation signal to the code determination unit 15 when determining that the square error is minimized. The code determination unit 15 latches the A code supplied from the vector quantization unit 5 and sequentially latches the L code, G code, and I code supplied from the square error minimum determination unit 8. When the confirmation signal is received from the square error minimum determination unit 8, the A code, L code, G code, and I code latched at that time are supplied to the channel encoder 16. The channel encoder 16 multiplexes the A code, L code, G code, and I code from the code determination unit 15 and outputs the result as code data. This code data is transmitted via a transmission line.
[0028]
Hereinafter, in order to simplify the description, it is assumed that the A code, the L code, the G code, and the I code are obtained for each frame. However, for example, one frame can be divided into four subframes, and the L code, G code, and I code can be obtained for each subframe.
[0029]
Here, in FIG. 1 (the same applies to FIG. 2, FIG. 11, and FIG. 12 described later), [k] is added to each variable, which is an array variable. Although k represents the number of frames, the description thereof is omitted as appropriate in the specification.
[0030]
Next, as described above, the code data transmitted from the transmitting unit of the other mobile phone is received by the channel decoder 21 of the receiving unit shown in FIG. The channel decoder 21 separates the L code, G code, I code, and A code from the code data, and each of them is an adaptive codebook storage unit 22, a gain decoder 23, an excitation codebook storage unit 24, and a filter coefficient decoder. 25.
[0031]
The adaptive codebook storage unit 22, the gain decoder 23, the excitation codebook storage unit 24, and the calculators 26 to 28 are the adaptive codebook storage unit 9, the gain decoder 10, the excitation codebook storage unit 11, and the calculator of FIG. 12 to 14 are configured in the same manner, and the same processing as that described with reference to FIG. 1 is performed, whereby the L code, the G code, and the I code are decoded into the residual signal e. This residual signal e is given as an input signal to the speech synthesis filter 29.
[0032]
The filter coefficient decoder 25 stores the same codebook as the vector quantization unit 5 in FIG. 1 stores, and converts the A code into the linear prediction coefficient α.p′ And supplied to the speech synthesis filter 29.
[0033]
The speech synthesis filter 29 is configured in the same manner as the speech synthesis filter 6 in FIG. 1, and the linear prediction coefficient α from the filter coefficient decoder 25.p1 is used as a tap coefficient, and the equation (4) is calculated using the residual signal e supplied from the calculator 28 as an input signal. As a result, the square error minimum determination unit 8 in FIG. A synthesized sound signal when it is determined is generated. This synthesized sound signal is supplied to a D / A (Digital / Analog) converter 30. The D / A conversion unit 30 D / A converts the synthesized sound signal from the speech synthesis filter 29 from a digital signal to an analog signal, and supplies it to the speaker 31 for output.
[0034]
[Problems to be solved by the invention]
As described above, in the transmission unit of the mobile phone, the residual signal and the linear prediction coefficient as filter data given to the speech synthesis filter 29 of the reception unit are encoded and transmitted. Are decoded into residual signals and linear prediction coefficients. However, since the decoded residual signal and the linear prediction coefficient (hereinafter appropriately referred to as a decoded residual signal or a decoded linear prediction coefficient) include an error such as a quantization error, the speech is subjected to LPC analysis. Thus, the residual signal obtained does not match the linear prediction coefficient.
[0035]
For this reason, the synthesized sound signal output from the speech synthesis filter 29 of the receiving unit has distortion and deteriorated sound quality.
[0036]
The present invention has been made in view of such circumstances, and is intended to obtain a high-quality synthesized sound.
[0037]
[Means for Solving the Problems]
  Of the present inventionFirst aspectVoice processing equipmentOr recording mediumPredictive tap extraction means for extracting a prediction tap used to predict a voice of interest using a high-quality sound whose prediction value is to be obtained as a voice of interest from a synthesized sound and information obtained from the code or code And a class tap extracting means for extracting a class tap used for classifying the target speech into one of several classes from a synthesized sound and a code or information obtained from the code, and a class tap. Based on the class classification means for performing class classification for obtaining the class of the target speech, and the acquisition means for acquiring the tap coefficient corresponding to the class of the target speech from the tap coefficients for each class obtained by performing learning. And a prediction tap and a prediction means for obtaining a predicted value of the target speech using a tap coefficient corresponding to the class of the target speech.It is a recording medium on which a program for causing a computer to function is recorded as a voice processing device or a voice processing device.
[0038]
  Of the present inventionOf the first sideThe speech processing method uses a high-quality sound for which a predicted value is to be obtained as a target speech, and extracts a prediction tap used to predict the target speech from a synthesized sound and information obtained from the code or the code. A tap extraction step, and a class tap extraction step for extracting a class tap used for classifying the speech of interest into any of several classes from the synthesized sound and the code or information obtained from the code; Based on the class tap, obtain the tap coefficient corresponding to the class of the target voice from the class classification step for classifying the class of the target voice and the tap coefficient for each class obtained by learning. The predicted value of the target speech is obtained using the acquisition step, the prediction tap, and the tap coefficient corresponding to the target speech class. And a prediction stepThis is a voice processing method.
[0040]
  Of the present inventionOf the second sideLearning deviceOr recording mediumPredictive tap extraction means for extracting a prediction tap used to predict a voice of interest using a high-quality sound whose prediction value is to be obtained as a voice of interest from a synthesized sound and information obtained from the code or code And a class tap extracting means for extracting a class tap used for classifying the target speech into one of several classes from a synthesized sound and a code or information obtained from the code, and a class tap. Based on the class classification means for classifying the class of the target speech, and the prediction error of the predicted value of the high-quality sound obtained by performing the prediction calculation using the tap coefficient and the prediction tap is statistically minimized. Learning means for learning and obtaining tap coefficients for each classA learning device or a recording medium in which a program for causing a computer to function as a learning device is recorded.
[0041]
  Of the present inventionOf the second sideThe learning method uses a high-quality sound whose prediction value is to be obtained as a target speech, and extracts a prediction tap used to predict the target speech from a synthesized sound and code or information obtained from the code. An extraction step, a class tap extraction step for extracting a class tap used for classifying the target speech into one of several classes, from a synthesized sound and a code or information obtained from the code, and a class Based on the tap, a class classification step for classifying the class of the target speech and a prediction error of the predicted value of the high-quality sound obtained by performing the prediction calculation using the tap coefficient and the prediction tap are statistically A learning step for performing learning so as to minimize the tap coefficient for each class.It is a learning method.
[0043]
  Of the present inventionFirst aspectIn this case, a high-quality sound whose prediction value is to be obtained is regarded as a target speech, and a prediction tap used for predicting the target speech is extracted from the synthesized sound and the code or information obtained from the code, A class tap used to classify the speech of interest into any of several classes is extracted from the synthesized sound and the code or information obtained from the code. Based on the class tap, class classification for obtaining a class of the target voice is performed, and a predicted value of the target voice is determined using the prediction tap and a tap coefficient corresponding to the class of the target voice.
[0044]
  Of the present inventionSecond aspect, A high-quality sound whose prediction value is to be obtained is regarded as a target speech, and a prediction tap used for predicting the target speech is extracted from the synthesized sound and information obtained from the code or the code. In addition, a class tap used to classify the target speech into one of several classes is extracted from the synthesized sound and the code or information obtained from the code, and based on the class tap, Classification is performed to obtain a speech class. Then, learning is performed so that the prediction error of the predicted value of the high-quality sound obtained by performing the prediction calculation using the tap coefficient and the prediction tap is statistically minimized, and the tap coefficient for each class is obtained. It is done.
[0045]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 3 shows a configuration example of an embodiment of a speech synthesizer to which the present invention is applied.
[0046]
The speech synthesizer is supplied with code data obtained by multiplexing a residual code and an A code obtained by encoding a residual signal and a linear prediction coefficient to be given to the speech synthesis filter 44 by vector quantization or the like. A synthesized signal is generated by decoding a residual signal and a linear prediction coefficient from the residual code and the A code, respectively, and applying them to the speech synthesis filter 44. Further, in this speech synthesizer, a high-quality sound (the sound quality of the synthesized sound is improved by performing prediction calculation using the synthesized sound generated by the speech synthesis filter 44 and the tap coefficient obtained by learning. (Synthesized sound) is obtained and output.
[0047]
That is, in the speech synthesizer shown in FIG. 3, for example, the synthesized speech is decoded into true high-quality speech (predicted value thereof) using class classification adaptation processing.
[0048]
Class classification adaptive processing consists of class classification processing and adaptive processing. Data is classified into classes based on their properties by class classification processing, and adaptive processing is performed for each class. It is of the technique like.
[0049]
That is, in the adaptive process, for example, a predicted value of true high-quality sound is obtained by linear combination of a synthesized sound and a predetermined tap coefficient.
[0050]
Specifically, for example, a true high-quality sound (sample value) is used as teacher data, and the true high-quality sound is converted into an L code, a G code, an I code, and a CELP method. A synthesized sound obtained by encoding the A code and decoding these codes by the receiving unit shown in FIG. 2 is used as student data, and a predicted value E [y] of high-quality voice y that is teacher data Some synthesized sounds (sample values) x1, X2, ... and a predetermined tap coefficient w1, W2Consider a linear primary combination model defined by the linear combination of. In this case, the predicted value E [y] can be expressed by the following equation.
[0051]
E [y] = w1x1+ W2x2+ ...
... (6)
[0052]
To generalize equation (6), tap coefficient wjA matrix W consisting ofijAnd a predicted value E [yj] Is a matrix Y ′ consisting of
[Expression 1]
Figure 0004517262
Then, the following observation equation holds.
[0053]
XW = Y ’
... (7)
Here, the component x of the matrix XijIs a set of i-th student data (i-th teacher data yiThe j-th student data in the set of student data used for the prediction ofjRepresents a tap coefficient by which the product of the jth student data in the student data set is calculated. YiRepresents the i-th teacher data, and thus E [yi] Represents the predicted value of the i-th teacher data. Note that y on the left side of Equation (6) is the component y of the matrix Y.iIs omitted, and x on the right side of Equation (6)1, X2,... Are also components x of matrix XijThe suffix i is omitted.
[0054]
Then, it is considered to apply the least square method to this observation equation to obtain a predicted value E [y] close to the true high sound quality speech y. In this case, a matrix Y composed of a set of true high-quality sound y as teacher data, and a matrix E composed of a set of residuals e of predicted values E [y] for the high-quality sound y,
[Expression 2]
Figure 0004517262
From the equation (7), the following residual equation is established.
[0055]
XW = Y + E
... (8)
[0056]
In this case, the tap coefficient w for obtaining the predicted value E [y] close to the true high-quality sound yjIs the square error
[Equation 3]
Figure 0004517262
Can be obtained by minimizing.
[0057]
Therefore, the above square error is converted to the tap coefficient w.jWhen the product differentiated by 0 is 0, that is, the tap coefficient w satisfying the following equation:jHowever, this is the optimum value for obtaining the predicted value E [y] close to the true high-quality sound y.
[0058]
[Expression 4]
Figure 0004517262
... (9)
[0059]
Therefore, first, the equation (8) is changed to the tap coefficient w.jIs differentiated by the following equation.
[0060]
[Equation 5]
Figure 0004517262
(10)
[0061]
From equations (9) and (10), equation (11) is obtained.
[0062]
[Formula 6]
Figure 0004517262
(11)
[0063]
Furthermore, the student data x in the residual equation of equation (8)ij, Tap coefficient wj, Teacher data yiAnd error eiConsidering this relationship, the following normal equation can be obtained from the equation (11).
[0064]
[Expression 7]
Figure 0004517262
(12)
[0065]
Note that the normal equation shown in the equation (12) has a matrix (covariance matrix) A and a vector v,
[Equation 8]
Figure 0004517262
And the vector W is defined as shown in Equation 1,
AW = v
(13)
Can be expressed as
[0066]
Each normal equation in equation (12) is the student data xijAnd teacher data yiBy preparing a certain number of sets, a tap coefficient w to be obtainedjTherefore, by solving equation (13) for vector W (however, to solve equation (13), matrix A in equation (13) is regular). Required), the optimal tap coefficient (here, the tap coefficient that minimizes the square error) wjCan be requested. In solving the equation (13), for example, a sweeping method (Gauss-Jordan elimination method) or the like can be used.
[0067]
As described above, the optimum tap coefficient wjAnd tap coefficient wjThe adaptive processing is to obtain the predicted value E [y] close to the true high-quality sound y by using the equation (6).
[0068]
For example, an audio signal sampled at a high sampling frequency or an audio signal assigned with multiple bits is used as the teacher data, and the audio signal as the teacher data is thinned out or re-quantized with low bits as student data. When a synthesized sound obtained by encoding the obtained audio signal by the CELP method and decoding the encoded result is used, as a tap coefficient, an audio signal sampled at a high sampling frequency or an audio signal to which multiple bits are assigned To generate a high-quality sound in which the prediction error is statistically minimized. Therefore, in this case, it is possible to obtain a synthesized sound with higher sound quality.
[0069]
In the speech synthesizer of FIG. 3, the code data composed of the A code and the residual code is decoded into high-quality speech by the class classification adaptive processing as described above.
[0070]
That is, code data is supplied to the demultiplexer (DEMUX) 41, and the demultiplexer 41 separates the A code and the residual code for each frame from the code data supplied thereto. Then, the demultiplexer supplies the A code to the filter coefficient decoder 42 and the tap generation units 45 and 46, and supplies the residual code to the residual codebook storage unit 43 and the tap generation units 45 and 46. .
[0071]
Here, the A code and the residual code included in the code data in FIG. 3 are obtained by performing vector quantization on the linear prediction coefficient and the residual signal obtained by performing the LPC analysis on the speech using a predetermined code book, respectively. It is the code obtained by.
[0072]
The filter coefficient decoder 42 decodes the A code for each frame supplied from the demultiplexer 41 into linear prediction coefficients based on the same codebook used to obtain the A code, and performs speech synthesis. The filter 44 is supplied.
[0073]
The residual codebook storage unit 43 decodes the residual code for each frame supplied from the demultiplexer 41 into a residual signal based on the same codebook used to obtain the residual code. And supplied to the speech synthesis filter 44.
[0074]
The speech synthesis filter 44 is, for example, an IIR type digital filter similar to the speech synthesis filter 29 of FIG. 1, and uses the linear prediction coefficient from the filter coefficient decoder 42 as a tap coefficient of the IIR filter and a residual codebook. By using the residual signal from the storage unit 43 as an input signal and filtering the input signal, a synthesized sound is generated and supplied to the tap generation units 45 and 46.
[0075]
The tap generation unit 45 uses the synthesized sound (sample value) supplied from the speech synthesis filter 44 and the residual code and the A code supplied from the demultiplexer 41 to perform prediction used in a prediction calculation in the prediction unit 49 described later. Extract what will be a tap. That is, for example, the tap generation unit 45 sets all the sample values, residual codes, and A codes of the synthesized sound of the frame of interest, which is a frame for which a predicted value of high-quality sound is to be obtained, as prediction taps. Then, the tap generation unit 45 supplies the prediction tap to the prediction unit 49.
[0076]
The tap generation unit 46 generates a class tap from the sample value of the synthesized sound supplied from the speech synthesis filter 44 and the A code and residual code for each frame (or subframe) supplied from the demultiplexer 41. Extract. That is, for example, as with the tap generation unit 46, the tap generation unit 46 sets all the sample values of the synthesized sound of the frame of interest, the A code, and the residual code as class taps. Then, the tap generation unit 46 supplies the class tap to the class classification unit 47.
[0077]
Here, the configuration pattern of the prediction tap and the class tap is not limited to the pattern described above. In the above case, the same class tap and prediction tap are configured, but the class tap and the prediction tap can be configured differently.
[0078]
Further, in the tap generation units 45 and 46, as indicated by dotted lines in FIG. 3, the linear prediction coefficients obtained from the A code output from the filter coefficient decoder 42 and the residual codebook storage unit 43 output the residuals. Class taps and prediction taps can be extracted from the residual signal obtained from the difference code.
[0079]
Based on the class tap from the tap generation unit 46, the class classification unit 47 classifies the voice (sample value) of the target frame of interest, and stores the class code corresponding to the class obtained as a result thereof in the coefficient memory. Output to 48.
[0080]
Here, for example, the class classification unit 47 can output the sample value of the synthesized sound of the frame of interest as the class tap and the bit sequence constituting the A code and the residual code itself as the class code. is there.
[0081]
The coefficient memory 48 stores tap coefficients for each class obtained by performing learning processing in the learning device of FIG. 6 described later, and is stored at an address corresponding to the class code output by the class classification unit 47. Are output to the prediction unit 49.
[0082]
Here, assuming that N samples of high-quality sound are obtained for each frame, N sets of tap coefficients are required to obtain N samples of the target frame by the prediction calculation of Equation (6). is there. Accordingly, in this case, the coefficient memory 48 stores N sets of tap coefficients for the address corresponding to one class code.
[0083]
The prediction unit 49 acquires the prediction tap output from the tap generation unit 45 and the tap coefficient output from the coefficient memory 48, and uses the prediction tap and the tap coefficient to perform the linear prediction calculation shown in Expression (6). (Product sum operation) is performed to obtain a high-quality sound (predicted value) of the frame of interest and output it to the D / A converter 50.
[0084]
Here, as described above, the coefficient memory 48 outputs N sets of tap coefficients for obtaining each of the N samples of the speech of the frame of interest. The prediction unit 49, for each sample value, The product-sum operation of Expression (6) is performed using a set of tap coefficients corresponding to the sample values.
[0085]
The D / A conversion unit 50 D / A converts the voice (predicted value) from the prediction unit 49 from a digital signal to an analog signal, and supplies it to the speaker 51 for output.
[0086]
Next, FIG. 4 shows a configuration example of the speech synthesis filter 44 of FIG.
[0087]
In FIG. 4, the speech synthesis filter 44 uses a P-order linear prediction coefficient. Therefore, one adder 61 and P delay circuits (D) 62 are used.1To 62P, And P multipliers 631Thru 63PIt is composed of
[0088]
Multiplier 631Thru 63PIncludes P-th order linear prediction coefficients α supplied from the filter coefficient decoder 42, respectively.1, Α2, ..., αPThus, the speech synthesis filter 44 performs an operation according to the equation (4) to generate a synthesized sound.
[0089]
That is, the residual signal e output from the residual codebook storage unit 43 is supplied to the delay circuit 621 via the adder 61, and the delay circuit 62pDelays the input signal thereto by one sample of the residual signal and delays the delay circuit 62 in the subsequent stage.p + 1And the computing unit 63pOutput to. Multiplier 63pDelay circuit 62pAnd the linear prediction coefficient α set therepAnd the multiplication value is output to the adder 61.
[0090]
The adder 61 is a multiplier 63.1Thru 63PAre added to the residual signal e, and the addition result is supplied to the delay circuit 621 and output as a speech synthesis result (synthesized sound).
[0091]
Next, processing (speech synthesis processing) of the speech synthesizer of FIG. 3 will be described with reference to the flowchart of FIG.
[0092]
The demultiplexer 41 sequentially separates the A code and the residual code for each frame from the code data supplied thereto, and supplies them to the filter coefficient decoder 42 and the residual codebook storage unit 43. Further, the demultiplexer 41 also supplies the A code and the residual code to the tap generation units 45 and 46.
[0093]
The filter coefficient decoder 42 sequentially decodes the A code for each frame supplied from the demultiplexer 41 into a linear prediction coefficient, and supplies the linear prediction coefficient to the speech synthesis filter 44. The residual codebook storage unit 43 sequentially decodes the residual code for each frame supplied from the demultiplexer 41 into a residual signal and supplies the residual signal to the speech synthesis filter 44.
[0094]
In the speech synthesis filter 44, the synthesized sound of the frame of interest is generated by performing the calculation of Expression (4) using the residual signal and the linear prediction coefficient supplied thereto. This synthesized sound is supplied to the tap generators 45 and 46.
[0095]
The tap generation unit 45 sequentially sets the frames of the synthesized sound supplied thereto as frames of interest, and is supplied from the synthesized sound (sample values thereof) supplied from the speech synthesis filter 44 and the demultiplexer 41 in step S1. A prediction tap is generated from the A code and the residual code to be output to the prediction unit 49. Further, in step S 1, the tap generation unit 46 generates a class tap from the synthesized sound supplied from the speech synthesis filter 44 and the A code and residual code supplied from the demultiplexer 41, and sends the class tap to the class classification unit 47. Output.
[0096]
In step S2, the class classification unit 47 performs class classification based on the class tap supplied from the tap generation unit 46, and supplies the resulting class code to the coefficient memory 48. Proceed to
[0097]
In step S <b> 3, the coefficient memory 48 reads the tap coefficient from the address corresponding to the class code supplied from the class classification unit 47 and supplies the tap coefficient to the prediction unit 49.
[0098]
Then, the process proceeds to step S4, in which the prediction unit 49 acquires the tap coefficient output from the coefficient memory 48, and uses the tap coefficient and the prediction tap from the tap generation unit 45 to calculate the product shown in Expression (6). A sum operation is performed to obtain a high-quality sound (predicted value) of the frame of interest. This high-quality sound is supplied from the prediction unit 49 to the speaker 51 via the D / A conversion unit 50 and output.
[0099]
After the high-quality sound of the frame of interest is obtained in the prediction unit 49, the process proceeds to step S5, and it is determined whether there is still a frame to be processed as the frame of interest. If it is determined in step S5 that there is still a frame to be processed as the frame of interest, the process returns to step S1, and the same process is repeated hereinafter with the frame to be the next frame of interest as a new frame of interest. If it is determined in step S5 that there is no frame to be processed as the frame of interest, the speech synthesis process is terminated.
[0100]
Next, FIG. 6 shows a configuration example of an embodiment of a learning apparatus that performs learning processing of tap coefficients to be stored in the coefficient memory 48 of FIG.
[0101]
A learning (high sound quality) digital speech signal is supplied to the learning device in units of predetermined frames. The learning digital speech signal is supplied to the LPC analysis unit 71 and the prediction filter 74. Supplied. Further, the learning digital audio signal is also supplied to the normal equation adding circuit 81 as teacher data.
[0102]
The LPC analysis unit 71 sequentially sets a frame of the audio signal supplied thereto as a frame of interest, performs LPC analysis on the audio signal of the frame of interest, thereby obtaining a P-order linear prediction coefficient, and a vector quantization unit 72 And supplied to the prediction filter 74.
[0103]
The vector quantization unit 72 stores a code book in which a code vector having a linear prediction coefficient as an element and a code are associated, and based on the code book, the linear prediction coefficient of the frame of interest from the LPC analysis unit 71 The vector vector is quantized and the A code obtained as a result of the vector quantization is supplied to the filter coefficient decoder 73 and the tap generators 78 and 79.
[0104]
The filter coefficient decoder 73 stores the same codebook as the vector quantization unit 72 stores, and based on the codebook, the A code from the vector quantization unit 72 is converted into a linear prediction coefficient. And supplied to the speech synthesis filter 77. Here, the filter coefficient decoder 42 in FIG. 3 and the filter coefficient decoder 73 in FIG. 6 have the same configuration.
[0105]
The prediction filter 74 uses the speech signal of the frame of interest supplied thereto and the linear prediction coefficient from the LPC analysis unit 71, for example, to perform a calculation according to equation (1), thereby obtaining a residual of the frame of interest. A signal is obtained and supplied to the vector quantization unit 75.
[0106]
That is, s in equation (1)nAnd enIf the Z transformation of is expressed as S and E, respectively, the expression (1) can be expressed as the following expression.
[0107]
E = (1 + α1z-1+ Α2z-2+ ... + αPz-P) S
(14)
From the equation (14), the prediction filter 74 for obtaining the residual signal e can be configured by an FIR (Finite Impulse Response) type digital filter.
[0108]
That is, FIG. 7 shows a configuration example of the prediction filter 74.
[0109]
The prediction filter 74 is supplied with a P-th order linear prediction coefficient from the LPC analysis unit 71. Accordingly, the prediction filter 74 includes P delay circuits (D) 91.1To 91P, P multipliers 921Thru 92P, And one adder 93.
[0110]
Multiplier 921Thru 92PIncludes a P-th order linear prediction coefficient α supplied from the LPC analysis unit 71, respectively.1, Α2, ..., αPIs set.
[0111]
On the other hand, the audio signal s of the frame of interest is the delay circuit 91.1To the adder 93. Delay circuit 91pDelays the input signal thereto by one sample of the residual signal and delays the delay circuit 91 in the subsequent stage.p + 1And the computing unit 92pOutput to. Multiplier 92pDelay circuit 91pAnd the linear prediction coefficient α set therepAnd the multiplication value is output to the adder 93.
[0112]
The adder 93 is a multiplier 92.1Thru 92PAre added to the audio signal s, and the addition result is output as a residual signal e.
[0113]
Returning to FIG. 6, the vector quantization unit 75 stores a code book in which a code vector having the sample value of the residual signal as an element and a code are associated with each other, and based on the code book, from the prediction filter 74. The residual vector composed of the sample values of the residual signal of the frame of interest is vector quantized, and the residual code obtained as a result of the vector quantization is stored in the residual codebook storage unit 76 and tap generation units 78 and 79. To supply.
[0114]
The residual codebook storage unit 76 stores the same codebook as the vector quantization unit 75 stores, and based on the codebook, the residual codebook storage unit 76 stores the residual code from the vector quantization unit 75. The residual signal is decoded and supplied to the speech synthesis filter 77. Here, the stored contents of the residual codebook storage unit 43 in FIG. 3 and the residual codebook storage unit 76 in FIG. 6 are the same.
[0115]
The speech synthesis filter 77 is an IIR filter configured in the same manner as the speech synthesis filter 44 of FIG. 3, and uses the linear prediction coefficient from the filter coefficient decoder 73 as a tap coefficient of the IIR filter and a residual codebook storage unit 75. The residual signal from is used as an input signal, and the input signal is filtered to generate a synthesized sound and supply it to the tap generators 78 and 79.
[0116]
The tap generation unit 78 supplies the synthesized sound supplied from the speech synthesis filter 77, the A code supplied from the vector quantization unit 72, and the vector quantization unit 75 as in the case of the tap generation unit 45 in FIG. A prediction tap is constructed from the residual code to be supplied to the normal equation adding circuit 81. The tap generation unit 79 is supplied from the synthesized sound supplied from the speech synthesis filter 77, the A code supplied from the vector quantization unit 72, and the vector quantization unit 75, as in the case of the tap generation unit 46 in FIG. From the residual code, a class tap is constructed and supplied to the class classification unit 80.
[0117]
Similar to the case of the class classification unit 47 of FIG. 3, the class classification unit 80 performs class classification based on the class tap supplied thereto, and supplies the resulting class code to the normal equation addition circuit 81. To do.
[0118]
The normal equation addition circuit 81 performs addition for the learning voice that is the high-quality sound of the frame of interest as the teacher data and the prediction tap as the student data from the tap generation unit 78.
[0119]
That is, the normal equation adder circuit 81 uses a prediction tap (student data) for each class corresponding to the class code supplied from the class classification unit 80, and is each component in the matrix A of Expression (13). Multiplication of student data (xinxim) And a calculation corresponding to summation (Σ).
[0120]
Furthermore, the normal equation adding circuit 81 uses the student data and the teacher data for each class corresponding to the class code supplied from the class classifying unit 80, and becomes each component in the vector v of Expression (13). , Multiplication of student data and teacher data (xinyi) And a calculation corresponding to summation (Σ).
[0121]
The normal equation adding circuit 81 performs the above addition using all the frames of the learning speech supplied thereto as the frame of interest, and thereby, for each class, the normal equation shown in the equation (13) is established. .
[0122]
The tap coefficient determination circuit 82 solves the normal equation generated for each class in the normal equation addition circuit 81 to obtain a tap coefficient for each class and supplies it to the address corresponding to each class in the coefficient memory 83.
[0123]
Depending on the speech signal prepared as the speech signal for learning, the normal equation addition circuit 81 may generate a class in which the number of normal equations necessary for obtaining tap coefficients cannot be obtained. The circuit 82 outputs, for example, a default tap coefficient for such a class.
[0124]
The coefficient memory 83 stores the tap coefficient for each class supplied from the tap coefficient determination circuit 82 at an address corresponding to the class.
[0125]
Next, processing (learning processing) of the learning device in FIG. 6 will be described with reference to the flowchart in FIG.
[0126]
A learning speech signal is supplied to the learning device, and the learning speech signal is supplied to the LPC analysis unit 71 and the prediction filter 74 and also supplied to the normal equation adding circuit 81 as teacher data. In step S11, student data is generated from the audio signal for learning.
[0127]
That is, the LPC analysis unit 71 sequentially sets frames of a speech signal for learning as a frame of interest, performs LPC analysis on the speech signal of the frame of interest, thereby obtaining a P-order linear prediction coefficient, and a vector quantization unit 72 To supply. The vector quantization unit 72 vector-quantizes the feature vector composed of the linear prediction coefficient of the frame of interest from the LPC analysis unit 71, and uses the A code obtained as a result of the vector quantization as student data, as a filter coefficient decoder 73 and the tap generators 78 and 79. The filter coefficient decoder 73 decodes the A code from the vector quantization unit 72 into a linear prediction coefficient, and supplies the linear prediction coefficient to the speech synthesis filter 77.
[0128]
On the other hand, the prediction filter 74 that has received the linear prediction coefficient of the frame of interest from the LPC analysis unit 71 uses the linear prediction coefficient and the speech signal for learning of the frame of interest to perform an operation according to Expression (1). Thus, the residual signal of the frame of interest is obtained and supplied to the vector quantization unit 75. The vector quantization unit 75 vector-quantizes a residual vector composed of sample values of the residual signal of the target frame from the prediction filter 74, and uses the residual code obtained as a result of the vector quantization as student data. The residual codebook storage unit 76 and the tap generation units 78 and 79 are supplied. The residual codebook storage unit 76 decodes the residual code from the vector quantization unit 75 into a residual signal and supplies it to the speech synthesis filter 77.
[0129]
As described above, when the speech synthesis filter 77 receives the linear prediction coefficient and the residual signal, the speech synthesis filter 77 performs speech synthesis using the linear prediction coefficient and the residual signal, and the resultant synthesized sound is used as student data. And output to the tap generators 78 and 79.
[0130]
Then, the process proceeds to step S12, where the tap generation unit 78 uses the synthesized sound supplied from the speech synthesis filter 77, the A code supplied from the vector quantization unit 72, and the residual code supplied from the vector quantization unit 75. , Generate a prediction tap and a class tap, respectively. The prediction tap is supplied to the normal equation adding circuit 81, and the class tap is supplied to the class classification unit 80.
[0131]
Thereafter, in step S13, the class classification unit 80 performs class classification based on the class tap from the tap generation unit 79, and supplies the class code obtained as a result to the normal equation addition circuit 81.
[0132]
Then, the process proceeds to step S 14, and the normal equation adding circuit 81 for the class supplied from the class classification unit 80, the sample value of the high-quality sound of the frame of interest as the teacher data supplied thereto, and the tap generation unit 78. The above-described addition of the matrix A and the vector v in Expression (13) for the prediction tap as the student data from is performed, and the process proceeds to step S15.
[0133]
In step S15, it is determined whether there is still an audio signal for learning a frame to be processed as the frame of interest. If it is determined in step S15 that there is still a learning audio signal for a frame to be processed as the frame of interest, the process returns to step S11, and the same processing is repeated thereafter with the next frame as a new frame of interest. .
[0134]
If it is determined in step S15 that there is no audio signal for learning a frame to be processed as the frame of interest, that is, if a normal equation is obtained for each class in the normal equation adding circuit 81, step S16. The tap coefficient determination circuit 82 calculates the tap coefficient for each class by solving the normal equation generated for each class, supplies it to the address corresponding to each class in the coefficient memory 83, and stores it. To end the process.
[0135]
As described above, the tap coefficients for each class stored in the coefficient memory 83 are stored in the coefficient memory 48 of FIG.
[0136]
Therefore, the tap coefficient stored in the coefficient memory 48 of FIG. 3 has a statistically minimum prediction error (square error in this case) of the prediction value of the high-quality sound obtained by performing the linear prediction calculation. Therefore, the speech output from the prediction unit 49 in FIG. 3 has a high sound quality in which the distortion of the synthesized sound generated by the speech synthesis filter 44 is reduced (eliminated). It will be a thing.
[0137]
In the speech synthesizer of FIG. 3, as described above, for example, when the tap generation unit 46 extracts class taps from linear prediction coefficients, residual signals, and the like, FIG. As shown by the dotted line in the figure, the tap generation unit 79 also has the same class tap from the linear prediction coefficients output from the filter coefficient decoder 73 and the residual signal output from the residual codebook storage unit 76. Need to be extracted. The same applies to the prediction taps generated by the tap generation unit 45 in FIG. 3 and the tap generation unit 78 in FIG. 6.
[0138]
In the above case, for the sake of simplicity, the class classification is performed by using the bit sequence constituting the class tap as the class code as it is, but in this case, the number of classes becomes enormous. There is. Therefore, in class classification, for example, a class tap can be compressed by vector quantization or the like, and a bit sequence obtained as a result of the compression can be used as a class code.
[0139]
Next, FIG. 9 shows a transmission system to which the present invention is applied (a system refers to a logical collection of a plurality of devices, regardless of whether or not each component device is in the same casing). 1 shows the configuration of an embodiment.
[0140]
In this transmission system, the mobile phone 1011And 1012Base station 1021And 1022While performing transmission / reception by radio | wireless between each, the base station 1021And 1022Each of them performs transmission / reception with the switching center 103, so that the cellular phone 101 is finally obtained.1And 1012Between the base station 102 and1And 1022In addition, voice can be transmitted and received through the exchange 103. The base station 1021And 1022May be the same base station or different base stations.
[0141]
Here, hereinafter, unless there is a particular need to distinguish, the mobile phone 1011And 1012Is described as a mobile phone 101.
[0142]
FIG. 10 shows a configuration example of the mobile phone 101 in FIG.
[0143]
The antenna 111 is connected to the base station 102.1Or 1022, And the received signal is supplied to the modem unit 112, and the signal from the modem unit 112 is transmitted as a radio wave to the base station 102.1Or 1022Send to. The modem unit 112 demodulates the signal from the antenna 111 and supplies the code data as described above with reference to FIG. Further, the modem unit 112 modulates the code data supplied from the transmission unit 113 as described with reference to FIG. 1 and supplies a modulation signal obtained as a result to the antenna 111. The transmission unit 113 is configured in the same manner as the transmission unit illustrated in FIG. 1, encodes the user's voice input thereto into code data, and supplies the code data to the modulation / demodulation unit 112. The receiving unit 114 receives the code data from the modulation / demodulation unit 112, and decodes and outputs the high-quality sound similar to that in the speech synthesizer of FIG. 3 from the code data.
[0144]
That is, FIG. 11 shows a configuration example of the receiving unit 114 of FIG. In the figure, portions corresponding to those in FIG. 2 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
[0145]
The tap generators 121 and 122 output the synthesized sound for each frame output from the speech synthesis filter 29 and the L code, G code, I code, and A for each frame (or subframe) output from the channel decoder 21. A code is supplied. The tap generation units 121 and 122 respectively extract a prediction tap and a class tap from the synthesized sound, L code, G code, I code, and A code supplied thereto. The prediction tap is supplied to the prediction unit 125, and the class tap is supplied to the class classification unit 123.
[0146]
The class classification unit 123 performs class classification based on the class tap supplied from the tap generation unit 122 and supplies a class code as a result of the class classification to the coefficient memory 124.
[0147]
The coefficient memory 124 stores tap coefficients for each class obtained by performing learning processing in the learning device of FIG. 12 to be described later, and is stored at an address corresponding to the class code output by the class classification unit 123. The tap coefficient is supplied to the prediction unit 125.
[0148]
Similar to the prediction unit 49 in FIG. 3, the prediction unit 125 acquires the prediction tap output from the tap generation unit 121 and the tap coefficient output from the coefficient memory 124, and uses the prediction tap and the tap coefficient, The linear prediction calculation shown in Expression (6) is performed. Thereby, the prediction unit 125 obtains (predicted value) of high-quality sound of the frame of interest and supplies it to the D / A conversion unit 30.
[0149]
The reception unit 114 configured as described above basically performs the same processing as the processing according to the flowchart illustrated in FIG. 5, thereby outputting a high-quality synthesized sound as a speech decoding result. Is done.
[0150]
That is, the channel decoder 21 separates the L code, the G code, the I code, and the A code from the code data supplied thereto, and stores them in the adaptive codebook storage unit 22, the gain decoder 23, and the excitation codebook storage. This is supplied to the unit 24 and the filter coefficient decoder 25. Further, the L code, the G code, the I code, and the A code are also supplied to the tap generation units 121 and 122.
[0151]
The adaptive codebook storage unit 22, the gain decoder 23, the excitation codebook storage unit 24, and the calculators 26 to 28 include the adaptive codebook storage unit 9, the gain decoder 10, the excitation codebook storage unit 11, FIG. The same processing as in the computing units 12 to 14 is performed, whereby the L code, the G code, and the I code are decoded into the residual signal e. This residual signal is supplied to the speech synthesis filter 29.
[0152]
Further, as described with reference to FIG. 1, the filter coefficient decoder 25 decodes the A code supplied thereto into a linear prediction coefficient and supplies it to the speech synthesis filter 29. The speech synthesis filter 29 performs speech synthesis using the residual signal from the arithmetic unit 28 and the linear prediction coefficient from the filter coefficient decoder 25 and supplies the resultant synthesized sound to the tap generation units 121 and 122. To do.
[0153]
The tap generation unit 121 sets the frame of the synthesized sound output from the speech synthesis filter 29 as the frame of interest, and predicts from the synthesized sound of the frame of interest and the L code, G code, I code, and A code in step S1. A tap is generated and supplied to the prediction unit 125. Further, in step S 1, the tap generation unit 122 also generates a class tap from the synthesized sound of the frame of interest and the L code, G code, I code, and A code, and supplies the generated class tap to the class classification unit 123.
[0154]
In step S2, the class classification unit 123 performs class classification based on the class tap supplied from the tap generation unit 122, and supplies the resulting class code to the coefficient memory 124. Proceed to
[0155]
In step S <b> 3, the coefficient memory 124 reads the tap coefficient from the address corresponding to the class code supplied from the class classification unit 123 and supplies the tap coefficient to the prediction unit 125.
[0156]
Then, the process proceeds to step S4, where the prediction unit 125 acquires the tap coefficient output from the coefficient memory 124, and uses the tap coefficient and the prediction tap from the tap generation unit 121 to calculate the product shown in Expression (6). A sum operation is performed to obtain a high-quality sound (predicted value) of the frame of interest.
[0157]
The high-quality sound obtained as described above is supplied from the prediction unit 125 to the speaker 31 via the D / A conversion unit 30, and as a result, high-quality sound is output from the speaker 31. The
[0158]
After the process of step S4, the process proceeds to step S5, where it is determined whether there is still a frame to be processed as a target frame. If it is determined that there is a frame, the process returns to step S1, Subsequently, the same processing is repeated as a new attention frame. If it is determined in step S5 that there is no frame to be processed as the frame of interest, the process ends.
[0159]
Next, FIG. 12 shows a configuration example of an embodiment of a learning device that performs learning processing of tap coefficients to be stored in the coefficient memory 124 of FIG.
[0160]
The microphone 201 to the code determination unit 215 are configured in the same manner as the microphone 1 to the code determination unit 15 of FIG. A learning audio signal is input to the microphone 1. Accordingly, the microphone 201 to the code determination unit 215 perform the same processing as that in FIG. 1 on the learning audio signal. Applied.
[0161]
The tap generation units 131 and 132 are supplied with the synthesized sound output from the speech synthesis filter 206 when the square error minimum determination unit 208 determines that the square error is minimized. Further, the L code, the G code, the I code, and the A code that are output when the code determination unit 215 receives the confirmation signal from the square error minimum determination unit 208 are also supplied to the tap generation units 131 and 132. The normal equation adding circuit 134 is supplied with the voice output from the A / D converter 202 as teacher data.
[0162]
The tap generation unit 131 uses the synthesized sound output from the speech synthesis filter 206 and the L code, G code, I code, and A code output from the code determination unit 215 to perform the same prediction as the tap generation unit 121 in FIG. A tap is configured and supplied to the normal equation adding circuit 134 as student data.
[0163]
The tap generation unit 132 also has the same class as the tap generation unit 122 in FIG. 11 from the synthesized sound output from the speech synthesis filter 206 and the L code, G code, I code, and A code output from the code determination unit 215. A tap is configured and supplied to the class classification unit 133.
[0164]
The class classification unit 133 performs the same class classification as the class classification unit 123 of FIG. 11 based on the class tap from the tap generation unit 132, and supplies the resulting class code to the normal equation addition circuit 134. To do.
[0165]
The normal equation adding circuit 134 receives the voice from the A / D conversion unit 202 as teacher data, receives the prediction tap from the tap generation unit 131 as student data, and targets the teacher data and student data. For each class code from the class classification unit 133, the normal equation shown in Expression (13) is established for each class by performing addition similar to that in the normal equation adding circuit 81 of FIG.
[0166]
The tap coefficient determination circuit 135 calculates a tap coefficient for each class by solving the normal equation generated for each class in the normal equation addition circuit 134, and supplies the tap coefficient to an address corresponding to each class in the coefficient memory 136.
[0167]
Depending on the speech signal prepared as the speech signal for learning, there may occur a class in which the number of normal equations necessary for obtaining the tap coefficients cannot be obtained in the normal equation adding circuit 134. The circuit 135 outputs, for example, a default tap coefficient for such a class.
[0168]
The coefficient memory 136 stores the linear prediction coefficient for each class supplied from the tap coefficient determination circuit 135 and the tap coefficient for the residual signal.
[0169]
In the learning apparatus configured as described above, tap coefficients for obtaining a high-quality synthesized sound are basically obtained by performing processing similar to the processing according to the flowchart shown in FIG. .
[0170]
That is, the learning apparatus is supplied with a learning audio signal, and teacher data and student data are generated from the learning audio signal in step S11.
[0171]
That is, the learning audio signal is input to the microphone 201, and the microphone 201 to the code determination unit 215 perform the same processing as in the case of the microphone 1 to the code determination unit 15 in FIG.
[0172]
As a result, the sound of the digital signal obtained by the A / D conversion unit 202 is supplied to the normal equation adding circuit 134 as teacher data. Further, when the square error minimum determination unit 208 determines that the square error is minimized, the synthesized sound output from the speech synthesis filter 206 is supplied to the tap generation units 131 and 132 as student data. Further, when the square error minimum determination unit 208 determines that the square error is minimized, the L code, the G code, the I code, and the A code output from the code determination unit 215 are also used as student data as a tap generation unit. 131 and 132 are supplied.
[0173]
Thereafter, the process proceeds to step S12, where the tap generation unit 131 sets the frame of the synthesized sound supplied as the student data from the speech synthesis filter 206 as the frame of interest, the synthesized sound of the frame of interest, the L code, the G code, the I code, Then, a prediction tap is generated from the A code and supplied to the normal equation adding circuit 134. Furthermore, in step S12, the tap generation unit 132 also generates a class tap from the synthesized sound of the frame of interest and the L code, G code, I code, and A code, and supplies the generated class tap to the class classification unit 133.
[0174]
After the processing of step S12, the process proceeds to step S13, where the class classification unit 133 performs class classification based on the class tap from the tap generation unit 132, and supplies the resulting class code to the normal equation addition circuit 134. To do.
[0175]
Then, the process proceeds to step S 14, where the normal equation adding circuit 134 uses the learning voice that is the high-quality sound of the frame of interest as the teacher data from the A / D converter 202 and the student data from the tap generation unit 132. The above-described addition of the matrix A and the vector v in Expression (13) is performed for each class code from the class classification unit 133, and the process proceeds to step S15.
[0176]
In step S15, it is determined whether there is still a frame to be processed as the frame of interest. If it is determined in step S15 that there is still a frame to be processed as a target frame, the process returns to step S11, and the same process is repeated thereafter with the next frame as a new target frame.
[0177]
If it is determined in step S15 that there is no frame to be processed as a frame of interest, that is, if a normal equation is obtained for each class in the normal equation adding circuit 134, the process proceeds to step S16 to determine a tap coefficient. The circuit 135 calculates the tap coefficient for each class by solving the normal equation generated for each class, supplies the tap coefficient to the address corresponding to each class in the coefficient memory 136, stores it, and ends the process. .
[0178]
As described above, the tap coefficient for each class stored in the coefficient memory 136 is stored in the coefficient memory 124 of FIG.
[0179]
Accordingly, the tap coefficients stored in the coefficient memory 124 of FIG. 11 are learned so that the prediction error (square error) of the high-quality sound prediction value obtained by performing the linear prediction calculation is statistically minimized. Since it is calculated | required by performing, the audio | voice which the estimation part 125 of FIG. 11 outputs becomes a thing of high sound quality.
[0180]
For example, in the embodiment shown in FIGS. 11 and 12, the class tap is generated from the synthesized sound output from the speech synthesis filter 206 and the L code, G code, I code, and A code. The class tap can be generated from one or more of L code, G code, I code, or A code and the synthesized sound output from the speech synthesis filter 206. The class tap is a linear prediction coefficient α obtained from the A code as shown by a dotted line in FIGS.pAnd gains β and γ obtained from the G code, and other information obtained from the L code, G code, I code, and A code (for example, the residual signal e and l, n, or 1 / β, n / γ, etc.). Furthermore, the class tap can be generated from the synthesized sound output from the speech synthesis filter 206 and the information described above obtained from the L code, G code, I code, or A code. In the CELP method, the code data may include list interpolation bits and frame energy. In this case, the class tap can be configured using soft interpolation bits and frame energy. The same applies to the prediction tap.
[0181]
Here, in FIG. 13, in the learning apparatus of FIG. 12, n is used to obtain the speech data s used as teacher data, the synthesized sound data ss used as student data, the residual signal e, and the residual signal. And l.
[0182]
Next, the series of processes described above can be performed by hardware or software. When a series of processing is performed by software, a program constituting the software is installed in a general-purpose computer or the like.
[0183]
Accordingly, FIG. 14 shows a configuration example of an embodiment of a computer in which a program for executing the above-described series of processing is installed.
[0184]
The program can be recorded in advance on a hard disk 305 or a ROM 303 as a recording medium built in the computer.
[0185]
Alternatively, the program is temporarily stored in a removable recording medium 311 such as a floppy disk, a CD-ROM (Compact Disc Read Only Memory), a MO (Magneto optical) disc, a DVD (Digital Versatile Disc), a magnetic disc, or a semiconductor memory. It can be stored permanently (recorded). Such a removable recording medium 311 can be provided as so-called package software.
[0186]
The program is installed in the computer from the removable recording medium 311 as described above, or transferred from the download site to the computer wirelessly via a digital satellite broadcasting artificial satellite, or a LAN (Local Area Network), The program can be transferred to a computer via a network such as the Internet. The computer can receive the program transferred in this way by the communication unit 308 and install it in the built-in hard disk 305.
[0187]
The computer includes a CPU (Central Processing Unit) 302. An input / output interface 310 is connected to the CPU 302 via the bus 301, and the CPU 302 is operated by an input unit 307 including a keyboard, a mouse, a microphone, and the like by the user via the input / output interface 310. When a command is input by the equalization, a program stored in a ROM (Read Only Memory) 303 is executed accordingly. Alternatively, the CPU 302 also transfers a program stored in the hard disk 305, a program transferred from a satellite or a network, received by the communication unit 308 and installed in the hard disk 305, or a removable recording medium 311 attached to the drive 309. The program read and installed in the hard disk 305 is loaded into a RAM (Random Access Memory) 304 and executed. Thereby, the CPU 302 performs processing according to the above-described flowchart or processing performed by the configuration of the above-described block diagram. Then, the CPU 302 outputs the processing result from the output unit 306 configured with an LCD (Liquid Crystal Display), a speaker, or the like, for example, via the input / output interface 310 as necessary, or from the communication unit 308. Transmission and further recording on the hard disk 305 are performed.
[0188]
Here, in the present specification, the processing steps for describing a program for causing the computer to perform various processes do not necessarily have to be processed in time series in the order described in the flowcharts, but in parallel or individually. This includes processing to be executed (for example, parallel processing or processing by an object).
[0189]
Further, the program may be processed by one computer or may be distributedly processed by a plurality of computers. Furthermore, the program may be transferred to a remote computer and executed.
[0190]
In the present embodiment, no particular mention is made as to what kind of speech signal is used as a learning speech signal. However, as a speech signal for learning, in addition to speech uttered by a person, for example, It is possible to employ music (music) or the like. Then, according to the learning process as described above, when a human speech is used as a speech signal for learning, a tap coefficient that improves the sound quality of the speech of such a person is obtained. When a song is used, a tap coefficient that improves the sound quality of the song can be obtained.
[0191]
In the embodiment of FIG. 11, the tap coefficient is stored in advance in the coefficient memory 124, but the tap coefficient stored in the coefficient memory 124 is stored in the mobile phone 101 in the base station 102 in FIG. 9. (Or the exchange 103), a WWW (World Wide Web) server (not shown), or the like can be downloaded. That is, as described above, tap coefficients suitable for a certain type of audio signal, such as for human speech and music, can be obtained by learning. Furthermore, depending on the teacher data and student data used for learning, tap coefficients that produce a difference in the quality of the synthesized sound can be obtained. Accordingly, such various tap coefficients can be stored in the base station 102 or the like, and the user can download the tap coefficients desired by the user. Such a tap coefficient download service can be performed free of charge or for a fee. Furthermore, when the tap coefficient download service is performed for a fee, the price for the tap coefficient download can be charged together with, for example, the call charge of the mobile phone 101.
[0192]
The coefficient memory 124 can be configured by a memory card that can be attached to and detached from the mobile phone 101. In this case, if a different memory card storing each of the various tap coefficients as described above is provided, the user can change the memory card storing the desired tap coefficient depending on the case, to the mobile phone. It is possible to use it mounted on 101.
[0193]
Furthermore, the present invention is synthesized from codes obtained as a result of encoding by CELP methods such as VSELP (Vector Sum Excited Liner Prediction), PSI-CELP (Pitch Synchronous Innovation CELP), CS-ACELP (Conjugate Structure Algebraic CELP), etc. It is widely applicable when generating sound.
[0194]
Further, the present invention is not limited to the case where a synthesized sound is generated from a code obtained as a result of encoding by the CELP method, but when a residual signal and a linear prediction coefficient are obtained from a certain code to generate a synthesized sound, Widely applicable.
[0195]
Furthermore, in the present embodiment, the prediction value of the residual signal and the linear prediction coefficient is obtained by linear primary prediction calculation using the tap coefficient. It is also possible to obtain by this prediction calculation.
[0196]
In this embodiment, class classification is performed by vector quantization of class taps, etc., but class classification can also be performed using, for example, ADRC processing.
[0197]
In class classification using ADRC, elements constituting the class tap (in this embodiment, sample values of synthesized sound, L code, G code, I code, A code, etc.) are subjected to ADRC processing and obtained as a result. The class is determined according to the ADRC code.
[0198]
Here, in the K-bit ADRC, for example, the maximum value MAX and the minimum value MIN of the elements constituting the class tap are detected, and DR = MAX-MIN is set as the local dynamic range of the set, and the dynamic range DR Based on this, the elements making up the class tap are requantized to K bits. That is, the minimum value MIN is subtracted from each element constituting the class tap, and the subtracted value is DR / 2.KDivide by (quantize). Then, a bit string obtained by arranging the K-bit values of the elements constituting the class tap in a predetermined order is output as an ADRC code.
[0199]
For example, Japanese Patent Application Laid-Open No. 8-202399 discloses a method for improving the sound quality of a synthesized sound by passing it through a high-frequency emphasis filter. However, in the present invention, tap coefficients are obtained by learning. And the tap coefficient used for the prediction calculation is different from the invention described in Japanese Patent Laid-Open No. 8-202339 in that the tap coefficient is adaptively determined by the classification result.
[0200]
【The invention's effect】
  Of the present invention1st and 2nd sideAccording to,It is possible to generate a high-quality synthesized sound.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an example of a transmission unit of a conventional mobile phone.
FIG. 2 is a block diagram illustrating an exemplary configuration of a receiving unit of a conventional mobile phone.
FIG. 3 is a block diagram showing a configuration example of an embodiment of a speech synthesizer to which the present invention is applied.
FIG. 4 is a block diagram illustrating a configuration example of a speech synthesis filter 44.
5 is a flowchart for explaining processing of the speech synthesizer of FIG. 3;
FIG. 6 is a block diagram illustrating a configuration example of an embodiment of a learning device to which the present invention has been applied.
7 is a block diagram illustrating a configuration example of a prediction filter 74. FIG.
FIG. 8 is a flowchart for explaining processing of the learning device in FIG. 6;
FIG. 9 is a diagram illustrating a configuration example of an embodiment of a transmission system to which the present invention is applied.
10 is a block diagram illustrating a configuration example of a mobile phone 101. FIG.
11 is a block diagram illustrating a configuration example of a reception unit 114. FIG.
FIG. 12 is a block diagram illustrating a configuration example of another embodiment of a learning device to which the present invention has been applied.
FIG. 13 is a diagram showing teacher data and student data.
FIG. 14 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present invention has been applied.
[Explanation of symbols]
21 channel decoder, 22 adaptive codebook storage unit, 23 gain decoder, 24 excitation codebook storage unit, 25 filter coefficient decoder, 26 to 28 arithmetic unit, 29 speech synthesis filter, 30 D / A conversion unit, 31 speaker, 41 Demultiplexer, 42 Filter coefficient decoder, 43 Residual codebook storage unit, 44 Speech synthesis filter, 45, 46 Tap generation unit, 47 Class classification unit, 48 Coefficient memory, 49 Prediction unit, 50 D / A conversion unit, 51 speakers, 61 adders, 621To 62P  Delay circuit 631Thru 63P  Multiplier, 71 LPC analysis unit, 72 vector quantization unit, 73 filter coefficient decoder, 74 prediction filter, 75 vector quantization unit, 76 residual codebook storage unit, 77 speech synthesis filter, 78, 79 tap generation unit, 80 class classification unit, 81 normal equation addition circuit, 82 tap coefficient determination circuit, 83 coefficient memory, 911To 91PDelay circuit, 921To 72P  Multiplier, 93 adder, 1011, 1012Mobile phone, 1021, 1022  Base station, 103 switching center, 111 antenna, 112 modulation / demodulation unit, 113 transmission unit, 114 reception unit, 121, 122 tap generation unit, 123 class classification unit, 124 coefficient memory, 125 prediction unit, 131, 132 tap generation unit, 133 Class classification unit, 134 normal equation addition circuit, 135 tap coefficient determination circuit, 136 coefficient memory, 201 microphone, 202 A / D conversion unit, 203 arithmetic unit, 204 LPC analysis unit, 205 vector quantization unit, 206 speech synthesis filter, 207 square error calculation unit, 208 square error minimum determination unit, 209 adaptive codebook storage unit, 210 gain decoder, 211 excitation codebook storage unit, 212 to 214 calculation unit, 215 code determination unit, 301 bus, 302 CPU, 303 ROM, 304 RAM, 305 hard disk, 306 output unit, 307 input unit, 308 communication unit, 309 drive, 310 input / output interface, 311 removable recording medium

Claims (15)

所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を求める音声処理装置であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出手段と、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類手段と、
学習を行うことにより求められた、前記クラスごとの前記タップ係数の中から、前記注目音声のクラスに対応する前記タップ係数を取得する取得手段と、
前記予測タップと、前記注目音声のクラスに対応する前記タップ係数を用いて、前記注目音声の予測値を求める予測手段と
を備える音声処理装置
A speech processing apparatus that obtains a predicted value of high-quality speech with improved sound quality from a synthesized sound obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a speech synthesis filter. ,
Prediction for extracting a prediction tap used for predicting the target speech from the synthesized sound and the code or information obtained from the code, using the high-quality sound for which the prediction value is to be obtained as the target speech. Tap extraction means;
Class tap extraction means for extracting a class tap used for classifying the target speech into any one of several classes from the synthesized sound and the code or information obtained from the code;
Based on the class tap, class classification means for performing class classification to obtain a class of the voice of interest;
Obtaining means for obtaining the tap coefficient corresponding to the class of the speech of interest from the tap coefficients for each class obtained by performing learning;
A speech processing apparatus comprising: the prediction tap; and a prediction unit that obtains a predicted value of the speech of interest using the tap coefficient corresponding to the class of speech of interest.
前記予測手段は、前記予測タップおよびタップ係数を用いて線形1次予測演算を行うことにより、前記注目音声の予測値を求める
請求項1に記載の音声処理装置。
The prediction means obtains a predicted value of the speech of interest by performing a linear primary prediction calculation using the prediction tap and tap coefficient.
The speech processing apparatus according to claim 1.
前記取得手段は、クラスごとの前記タップ係数を記憶している記憶手段から、前記注目音声に対応するクラスの前記タップ係数を取得する
請求項1に記載の音声処理装置。
The acquisition unit acquires the tap coefficient of the class corresponding to the speech of interest from a storage unit that stores the tap coefficient for each class.
The speech processing apparatus according to claim 1.
前記予測タップ抽出手段またはクラスタップ抽出手段は、前記予測タップまたはクラスタップを、前記合成音、前記コード、およびコードから得られる情報から抽出する
請求項1に記載の音声処理装置。
The prediction tap extraction unit or the class tap extraction unit extracts the prediction tap or the class tap from the synthesized sound, the code, and information obtained from the code.
The speech processing apparatus according to claim 1.
前記タップ係数は、前記予測タップおよびタップ係数を用いて所定の予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が、統計的に最小になるように、学習を行うことにより得られたものである
請求項1に記載の音声処理装置。
The tap coefficient is learned so that a prediction error of a predicted value of the high-quality sound obtained by performing a predetermined prediction calculation using the prediction tap and the tap coefficient is statistically minimized. It was obtained by
The speech processing apparatus according to claim 1.
前記音声合成フィルタをさらに備える
請求項1に記載の音声処理装置。
The speech synthesis filter is further provided
The speech processing apparatus according to claim 1.
前記コードは、音声を、CELP(Code Excited Liner Prediction coding)方式によって符号化することにより得られたものである
請求項1に記載の音声処理装置。
The code is obtained by encoding speech using a CELP (Code Excited Linear Prediction coding) method.
The speech processing apparatus according to claim 1.
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を求める音声処理方法であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出ステップと、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記コード合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出ステップと、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類ステップと、
学習を行うことにより求められた、前記クラスごとの前記タップ係数の中から、前記注目音声のクラスに対応する前記タップ係数を取得する取得ステップと、
前記予測タップと、前記注目音声のクラスに対応する前記タップ係数を用いて、前記注目音声の予測値を求める予測ステップと
を備える音声処理方法。
A speech processing method for obtaining a predicted value of a high-quality sound with improved sound quality from a synthesized sound obtained by applying a linear prediction coefficient generated from a predetermined code and a residual signal to a speech synthesis filter. ,
Prediction in which the high-quality sound for which the predicted value is to be obtained is the target speech, and a prediction tap used to predict the target speech is extracted from the synthesized sound and the code or information obtained from the code Tap extraction step;
A class tap extraction step for extracting a class tap used for classifying the speech of interest into any one of several classes from the chord synthesized sound and the chord or information obtained from the chord;
A class classification step for classifying the class of the target voice based on the class tap;
An obtaining step of obtaining the tap coefficient corresponding to the class of the speech of interest from the tap coefficients for each class obtained by performing learning;
A speech processing method comprising: the prediction tap; and a prediction step of obtaining a predicted value of the speech of interest using the tap coefficient corresponding to the class of speech of interest .
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を求める音声処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出手段と、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類手段と、
学習を行うことにより求められた、前記クラスごとの前記タップ係数の中から、前記注目音声のクラスに対応する前記タップ係数を取得する取得手段と、
前記予測タップと、前記注目音声のクラスに対応する前記タップ係数を用いて、前記注目音声の予測値を求める予測手段
して、コンピュータを機能させるためのプログラムが記録されている記録媒体。
The computer performs speech processing for obtaining a predicted value of high-quality speech with improved sound quality from a synthesized speech obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a speech synthesis filter. A recording medium on which a program to be executed is recorded,
Prediction for extracting a prediction tap used for predicting the target speech from the synthesized sound and the code or information obtained from the code, using the high-quality sound for which the prediction value is to be obtained as the target speech. Tap extraction means ;
Class tap extraction means for extracting a class tap used for classifying the target speech into any one of several classes from the synthesized sound and the code or information obtained from the code;
Class classification means for classifying the class of the target voice based on the class tap;
Obtaining means for obtaining the tap coefficient corresponding to the class of the speech of interest from the tap coefficients for each class obtained by performing learning;
Prediction means for obtaining a predicted value of the target speech using the prediction tap and the tap coefficient corresponding to the class of the target speech;
A recording medium on which a program for causing the computer to function is recorded.
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を、所定の予測演算によって求めるのに用いる所定のタップ係数を学習する学習装置であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出手段と、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類手段と、
前記タップ係数および予測タップを用いて予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、前記クラスごとのタップ係数を求める学習手段と
を備える習装置。
From a synthesized sound obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a speech synthesis filter, a predicted value of high-quality sound with improved sound quality is obtained by a predetermined prediction calculation. A learning device for learning a predetermined tap coefficient used for
Prediction for extracting a prediction tap used for predicting the target speech from the synthesized sound and the code or information obtained from the code, using the high-quality sound for which the prediction value is to be obtained as the target speech. Tap extraction means;
Class tap extraction means for extracting a class tap used for classifying the target speech into any one of several classes from the synthesized sound and the code or information obtained from the code;
Based on the class tap, class classification means for performing class classification to obtain a class of the voice of interest;
Learning is performed so as to statistically minimize the prediction error of the predicted value of the high-quality sound obtained by performing the prediction calculation using the tap coefficient and the prediction tap, and the tap coefficient for each class is obtained. learning apparatus and a learning means.
前記学習手段は、前記タップ係数および予測タップを用いて線形1次予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が、統計的に最小になるように学習を行う
求項10に記載の学習装置。
The learning means performs learning so that a prediction error of a predicted value of the high-quality sound obtained by performing linear primary prediction calculation using the tap coefficient and the prediction tap is statistically minimized.
Learning device according to Motomeko 10.
前記予測タップ抽出手段またはクラスタップ抽出手段は、前記予測タップまたはクラスタップを、前記合成音と、前記コード、および前記コードから得られる情報から抽出する
求項10に記載の学習装置。
The prediction tap extraction unit or the class tap extraction unit extracts the prediction tap or the class tap from the synthesized sound, the code, and information obtained from the code.
Learning device according to Motomeko 10.
前記コードは、音声を、CELP(Code Excited Liner Prediction coding)方式によって符号化することにより得られたものである
求項10に記載の学習装置。
The code is obtained by encoding speech using a CELP (Code Excited Linear Prediction coding) method.
Learning device according to Motomeko 10.
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を、所定の予測演算によって求めるのに用いる所定のタップ係数を学習する学習方法であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出ステップと、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類ステップと、
前記タップ係数および予測タップを用いて予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、前記クラスごとのタップ係数を求める学習ステップと
を備える習方法。
From a synthesized sound obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a speech synthesis filter, a predicted value of high sound quality speech with improved sound quality is obtained by a predetermined prediction calculation. A learning method for learning a predetermined tap coefficient used for
Prediction for extracting a prediction tap used for predicting the target speech from the synthesized sound and the code or information obtained from the code, using the high-quality sound for which the prediction value is to be obtained as the target speech. Tap extraction means;
A class tap extracting step of extracting a class tap used for classifying the target speech into any one of several classes from the synthesized sound and the code or information obtained from the code;
A class classification step for classifying the class of the target voice based on the class tap;
Learning is performed so as to statistically minimize the prediction error of the prediction value of the high-quality sound obtained by performing prediction calculation using the tap coefficient and the prediction tap, and the tap coefficient for each class is obtained. Manabu習方method and a learning step.
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を、所定の予測演算によって求めるのに用いる所定のタップ係数を学習する学習処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出手段と、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類手段と、
前記タップ係数および予測タップを用いて予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、前記クラスごとのタップ係数を求める学習手段
して、コンピュータを機能させるためのプログラムが記録されている記録媒体
From a synthesized sound obtained by applying a linear prediction coefficient and a residual signal generated from a predetermined code to a speech synthesis filter, a predicted value of high-quality sound with improved sound quality is obtained by a predetermined prediction calculation. A recording medium on which a program for causing a computer to perform a learning process for learning a predetermined tap coefficient used for the recording is recorded,
Prediction for extracting a prediction tap used for predicting the target speech from the synthesized sound and the code or information obtained from the code, using the high-quality sound for which the prediction value is to be obtained as the target speech. Tap extraction means;
Class tap extraction means for extracting a class tap used for classifying the target speech into any one of several classes from the synthesized sound and the code or information obtained from the code;
Class classification means for classifying the class of the target voice based on the class tap;
Learning is performed so as to statistically minimize the prediction error of the predicted value of the high-quality sound obtained by performing the prediction calculation using the tap coefficient and the prediction tap, and the tap coefficient for each class is obtained. Learning tools and
A recording medium on which a program for causing the computer to function is recorded .
JP2000346675A 2000-08-09 2000-11-14 Audio processing device, audio processing method, learning device, learning method, and recording medium Expired - Fee Related JP4517262B2 (en)

Priority Applications (14)

Application Number Priority Date Filing Date Title
JP2000346675A JP4517262B2 (en) 2000-11-14 2000-11-14 Audio processing device, audio processing method, learning device, learning method, and recording medium
DE60140020T DE60140020D1 (en) 2000-08-09 2001-08-03 Voice data processing apparatus and processing method
EP08003539A EP1944760B1 (en) 2000-08-09 2001-08-03 Voice data processing device and processing method
EP08003538A EP1944759B1 (en) 2000-08-09 2001-08-03 Voice data processing device and processing method
KR1020027004559A KR100819623B1 (en) 2000-08-09 2001-08-03 Voice data processing device and processing method
DE60134861T DE60134861D1 (en) 2000-08-09 2001-08-03 DEVICE FOR PROCESSING LANGUAGE DATA AND METHOD OF PROCESSING
EP01956800A EP1308927B9 (en) 2000-08-09 2001-08-03 Voice data processing device and processing method
DE60143327T DE60143327D1 (en) 2000-08-09 2001-08-03 Voice data processing apparatus and processing method
PCT/JP2001/006708 WO2002013183A1 (en) 2000-08-09 2001-08-03 Voice data processing device and processing method
TW090119402A TW564398B (en) 2000-08-09 2001-08-08 Device and method for processing sound data
NO20021631A NO326880B1 (en) 2000-08-09 2002-04-05 Speech data method and apparatus
US11/903,550 US7912711B2 (en) 2000-08-09 2007-09-21 Method and apparatus for speech data
NO20082403A NO20082403L (en) 2000-08-09 2008-05-26 Speech data method and apparatus
NO20082401A NO20082401L (en) 2000-08-09 2008-05-26 Speech data method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000346675A JP4517262B2 (en) 2000-11-14 2000-11-14 Audio processing device, audio processing method, learning device, learning method, and recording medium

Publications (2)

Publication Number Publication Date
JP2002149175A JP2002149175A (en) 2002-05-24
JP4517262B2 true JP4517262B2 (en) 2010-08-04

Family

ID=18820509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000346675A Expired - Fee Related JP4517262B2 (en) 2000-08-09 2000-11-14 Audio processing device, audio processing method, learning device, learning method, and recording medium

Country Status (1)

Country Link
JP (1) JP4517262B2 (en)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683400A (en) * 1992-06-04 1994-03-25 American Teleph & Telegr Co <Att> Speech-message processing method
JPH0750586A (en) * 1991-09-10 1995-02-21 At & T Corp Low delay celp coding method
JPH08248996A (en) * 1995-03-10 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> Filter coefficient descision method for digital filter
JPH08328591A (en) * 1995-05-17 1996-12-13 Fr Telecom Method for adaptation of noise masking level to synthetic analytical voice coder using short-term perception weightingfilter
JPH0990997A (en) * 1995-09-26 1997-04-04 Mitsubishi Electric Corp Speech coding device, speech decoding device, speech coding/decoding method and composite digital filter
JPH09258795A (en) * 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> Digital filter and sound coding/decoding device
JPH10242867A (en) * 1997-02-25 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> Sound signal encoding method
JP2000066700A (en) * 1998-08-17 2000-03-03 Oki Electric Ind Co Ltd Voice signal encoder and voice signal decoder
JP2001320277A (en) * 2000-05-09 2001-11-16 Sony Corp Device and method for processing data and recording medium
JP2001320587A (en) * 2000-05-09 2001-11-16 Sony Corp Data processor and data processing method, and recording medium

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0750586A (en) * 1991-09-10 1995-02-21 At & T Corp Low delay celp coding method
JPH0683400A (en) * 1992-06-04 1994-03-25 American Teleph & Telegr Co <Att> Speech-message processing method
JPH08248996A (en) * 1995-03-10 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> Filter coefficient descision method for digital filter
JPH08328591A (en) * 1995-05-17 1996-12-13 Fr Telecom Method for adaptation of noise masking level to synthetic analytical voice coder using short-term perception weightingfilter
JPH0990997A (en) * 1995-09-26 1997-04-04 Mitsubishi Electric Corp Speech coding device, speech decoding device, speech coding/decoding method and composite digital filter
JPH09258795A (en) * 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> Digital filter and sound coding/decoding device
JPH10242867A (en) * 1997-02-25 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> Sound signal encoding method
JP2000066700A (en) * 1998-08-17 2000-03-03 Oki Electric Ind Co Ltd Voice signal encoder and voice signal decoder
JP2001320277A (en) * 2000-05-09 2001-11-16 Sony Corp Device and method for processing data and recording medium
JP2001320587A (en) * 2000-05-09 2001-11-16 Sony Corp Data processor and data processing method, and recording medium

Also Published As

Publication number Publication date
JP2002149175A (en) 2002-05-24

Similar Documents

Publication Publication Date Title
US7912711B2 (en) Method and apparatus for speech data
CN101006495A (en) Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
JPH08179796A (en) Voice coding method
JP3344962B2 (en) Audio signal encoding device and audio signal decoding device
JP4857468B2 (en) Data processing apparatus, data processing method, program, and recording medium
JP4857467B2 (en) Data processing apparatus, data processing method, program, and recording medium
JP4517262B2 (en) Audio processing device, audio processing method, learning device, learning method, and recording medium
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for sound signal
JP4736266B2 (en) Audio processing device, audio processing method, learning device, learning method, program, and recording medium
JPH09127985A (en) Signal coding method and device therefor
JPH09127987A (en) Signal coding method and device therefor
US7283961B2 (en) High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
JP2002062899A (en) Device and method for data processing, device and method for learning and recording medium
JP4287840B2 (en) Encoder
JP3249144B2 (en) Audio coding device
JPH09127998A (en) Signal quantizing method and signal coding device
JP2002221998A (en) Method, device and program for encoding and decoding acoustic parameter and voice
JPH09127994A (en) Signal coding method and device therefor
JPH09127986A (en) Multiplexing method for coded signal and signal encoder
JP2002229597A (en) Vector quantizing device for lpc parameter

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100422

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100505

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees