JP2002222000A - データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 - Google Patents

データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体

Info

Publication number
JP2002222000A
JP2002222000A JP2001016870A JP2001016870A JP2002222000A JP 2002222000 A JP2002222000 A JP 2002222000A JP 2001016870 A JP2001016870 A JP 2001016870A JP 2001016870 A JP2001016870 A JP 2001016870A JP 2002222000 A JP2002222000 A JP 2002222000A
Authority
JP
Japan
Prior art keywords
data
tap
prediction
predetermined
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001016870A
Other languages
English (en)
Other versions
JP4857468B2 (ja
Inventor
Tetsujiro Kondo
哲二郎 近藤
Hiroto Kimura
裕人 木村
Tsutomu Watanabe
勉 渡辺
Masaaki Hattori
正明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2001016870A priority Critical patent/JP4857468B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority to US10/239,135 priority patent/US7269559B2/en
Priority to EP02716353A priority patent/EP1355297B1/en
Priority to PCT/JP2002/000491 priority patent/WO2002059877A1/ja
Priority to CN028007395A priority patent/CN1216367C/zh
Priority to KR1020027012612A priority patent/KR100875784B1/ko
Priority to DE60222627T priority patent/DE60222627T2/de
Publication of JP2002222000A publication Critical patent/JP2002222000A/ja
Application granted granted Critical
Publication of JP4857468B2 publication Critical patent/JP4857468B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 高音質の合成音等を得る。 【解決手段】 タップ生成部121は、CELP方式で符号
化された音声の符号化データを復号した合成音データの
うちの注目している注目データのサブフレームにおける
40サンプルの合成音データと、注目サブフレームか
ら、その注目サブフレームに配置されているLコードが
表すラグだけ過去の位置を始点とする40サンプルの合
成音データとから、予測タップを生成する。そして、予
測部125は、その予測タップと、係数メモリ124に
記憶されたタップ係数とを用いて、所定の予測演算を行
うことにより、高音質の音声データを復号する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データ処理装置お
よびデータ処理方法、並びにプログラムおよび記録媒体
に関し、特に、例えば、CELP(Code Excited Liner
Prediction coding)方式で符号化された音声を、高音質
の音声に復号することができるようにするデータ処理装
置およびデータ処理方法、並びにプログラムおよび記録
媒体に関する。
【0002】
【従来の技術】図1および図2は、従来の携帯電話機の
一例の構成を示している。
【0003】この携帯電話機では、音声を、CELP方
式により所定のコードに符号化して送信する送信処理
と、他の携帯電話機から送信されてくるコードを受信し
て、音声に復号する受信処理とが行われるようになって
おり、図1は、送信処理を行う送信部を、図2は、受信
処理を行う受信部を、それぞれ示している。
【0004】図1に示した送信部では、ユーザが発話し
た音声が、マイク(マイクロフォン)1に入力され、そ
こで、電気信号としての音声信号に変換され、A/D(A
nalog/Digital)変換部2に供給される。A/D変換部2
は、マイク1からのアナログの音声信号を、例えば、8
kHz等のサンプリング周波数でサンプリングすること
により、ディジタルの音声信号にA/D変換し、さら
に、所定のビット数で量子化を行って、演算器3とLP
C(Liner Prediction Coefficient)分析部4に供給す
る。
【0005】LPC分析部4は、A/D変換部2からの
音声信号を、例えば、160サンプル分の長さを1フレ
ームとし、その1フレームを40サンプルごとのサブフ
レームに分割して、サブフレームごとにLPC分析し、
P次の線形予測係数α1,α2,・・・,αPを求める。
そして、LPC分析部4は、このP次の線形予測係数α
p(p=1,2,・・・,P)を要素とするベクトル
を、音声の特徴ベクトルとして、ベクトル量子化部5に
供給する。
【0006】ベクトル量子化部5は、線形予測係数を要
素とするコードベクトルとコードとを対応付けたコード
ブックを記憶しており、そのコードブックに基づいて、
LPC分析部4からの特徴ベクトルαをベクトル量子化
し、そのベクトル量子化の結果得られるコード(以下、
適宜、Aコード(A_code)という)を、コード決定部15
に供給する。
【0007】さらに、ベクトル量子化部5は、Aコード
に対応するコードベクトルα’を構成する要素となって
いる線形予測係数α1’,α2’,・・・,αP’を、音
声合成フィルタ6に供給する。
【0008】音声合成フィルタ6は、例えば、IIR(I
nfinite Impulse Response)型のディジタルフィルタ
で、ベクトル量子化部5からの線形予測係数αp’(p
=1,2,・・・,P)をIIRフィルタのタップ係数
とするとともに、演算器14から供給される残差信号e
を入力信号として、音声合成を行う。
【0009】即ち、LPC分析部4で行われるLPC分
析は、現在時刻nの音声信号(のサンプル値)sn、お
よびこれに隣接する過去のP個のサンプル値sn-1,s
n-2,・・・,sn-Pに、式 sn+α1n-1+α2n-2+・・・+αPn-P=en ・・・(1) で示す線形1次結合が成立すると仮定し、現在時刻nの
サンプル値snの予測値(線形予測値)sn’を、過去の
P個の標本値sn-1,sn-2,・・・,sn-Pを用いて、
式 sn’=−(α1n-1+α2n-2+・・・+αPn-P) ・・・(2) によって線形予測したときに、実際のサンプル値sn
線形予測値sn’との間の自乗誤差を最小にする線形予
測係数αpを求めるものである。
【0010】ここで、式(1)において、{en}(・・
・,en-1,en,en+1,・・・)は、平均値が0で、分散
が所定値σ2の互いに無相関な確率変数である。
【0011】式(1)から、サンプル値snは、式 sn=en−(α1n-1+α2n-2+・・・+αPn-P) ・・・(3) で表すことができ、これを、Z変換すると、次式が成立
する。
【0012】 S=E/(1+α1-1+α2-2+・・・+αP-P) ・・・(4) 但し、式(4)において、SとEは、式(3)における
nとenのZ変換を、それぞれ表す。
【0013】ここで、式(1)および(2)から、en
は、式 en=sn−sn’ ・・・(5) で表すことができ、実際のサンプル値snと線形予測値
n’との間の残差信号と呼ばれる。
【0014】従って、式(4)から、線形予測係数αp
をIIRフィルタのタップ係数とするとともに、残差信
号enをIIRフィルタの入力信号とすることにより、
音声信号snを求めることができる。
【0015】そこで、音声合成フィルタ6は、上述した
ように、ベクトル量子化部5からの線形予測係数αp
をタップ係数とするとともに、演算器14から供給され
る残差信号eを入力信号として、式(4)を演算し、音
声信号(合成音データ)ssを求める。
【0016】なお、音声合成フィルタ6では、LPC分
析部4によるLPC分析の結果得られる線形予測係数α
pではなく、そのベクトル量子化の結果得られるコード
に対応するコードベクトルとしての線形予測係数αp
が用いられるため、音声合成フィルタ6が出力する合成
音信号は、A/D変換部2が出力する音声信号とは、基
本的に同一にはならない。
【0017】音声合成フィルタ6が出力する合成音デー
タssは、演算器3に供給される。演算器3は、音声合
成フィルタ6からの合成音データssから、A/D変換
部2が出力する音声信号sを減算し、その減算値を、自
乗誤差演算部7に供給する。自乗誤差演算部7は、演算
器3からの減算値の自乗和(第kサブフレームのサンプ
ル値についての自乗和)を演算し、その結果得られる自
乗誤差を、自乗誤差最小判定部8に供給する。
【0018】自乗誤差最小判定部8は、自乗誤差演算部
7が出力する自乗誤差に対応付けて、長期予測ラグを表
すコードとしてのLコード(L_code)、ゲインを表すコー
ドとしてのGコード(G_code)、および符号語(励起コー
ドブック)を表すコードとしてのIコード(I_code)を記
憶しており、自乗誤差演算部7が出力する自乗誤差に対
応するLコード、Gコード、およびLコードを出力す
る。Lコードは、適応コードブック記憶部9に、Gコー
ドは、ゲイン復号器10に、Iコードは、励起コードブ
ック記憶部11に、それぞれ供給される。さらに、Lコ
ード、Gコード、およびIコードは、コード決定部15
にも供給される。
【0019】適応コードブック記憶部9は、例えば7ビ
ットのLコードと、所定の遅延時間(ラグ)とを対応付
けた適応コードブックを記憶しており、演算器14から
供給される残差信号eを、自乗誤差最小判定部8から供
給されるLコードに対応付けられた遅延時間(長期予測
ラグ)だけ遅延して、演算器12に出力する。
【0020】ここで、適応コードブック記憶部9は、残
差信号eを、Lコードに対応する時間だけ遅延して出力
することから、その出力信号は、その遅延時間を周期と
する周期信号に近い信号となる。この信号は、線形予測
係数を用いた音声合成において、主として、有声音の合
成音を生成するための駆動信号となる。従って、Lコー
ドは、概念的には、音声のピッチ周期を表す。なお、CE
LPの規格によれば、レコードは、20乃至146の範囲
の整数値をとる。
【0021】ゲイン復号器10は、Gコードと、所定の
ゲインβおよびγとを対応付けたテーブルを記憶してお
り、自乗誤差最小判定部8から供給されるGコードに対
応付けられたゲインβおよびγを出力する。ゲインβと
γは、演算器12と13に、それぞれ供給される。ここ
で、ゲインβは、長期フィルタ状態出力ゲインと呼ばれ
るものであり、また、ゲインγは、励起コードブックゲ
インと呼ばれるものである。
【0022】励起コードブック記憶部11は、例えば9
ビットのIコードと、所定の励起信号とを対応付けた励
起コードブックを記憶しており、自乗誤差最小判定部8
から供給されるIコードに対応付けられた励起信号を、
演算器13に出力する。
【0023】ここで、励起コードブックに記憶されてい
る励起信号は、例えば、ホワイトノイズ等に近い信号で
あり、線形予測係数を用いた音声合成において、主とし
て、無声音の合成音を生成するための駆動信号となる。
【0024】演算器12は、適応コードブック記憶部9
の出力信号と、ゲイン復号器10が出力するゲインβと
を乗算し、その乗算値lを、演算器14に供給する。演
算器13は、励起コードブック記憶部11の出力信号
と、ゲイン復号器10が出力するゲインγとを乗算し、
その乗算値nを、演算器14に供給する。演算器14
は、演算器12からの乗算値lと、演算器13からの乗
算値nとを加算し、その加算値を、残差信号eとして、
音声合成フィルタ6と適応コードブック記憶部9に供給
する。
【0025】音声合成フィルタ6では、以上のようにし
て、演算器14から供給される残差信号eを入力信号
が、ベクトル量子化部5から供給される線形予測係数α
p’をタップ係数とするIIRフィルタでフィルタリン
グされ、その結果得られる合成音データが、演算器3に
供給される。そして、演算器3および自乗誤差演算部7
において、上述の場合と同様の処理が行われ、その結果
得られる自乗誤差が、自乗誤差最小判定部8に供給され
る。
【0026】自乗誤差最小判定部8は、自乗誤差演算部
7からの自乗誤差が最小(極小)になったかどうかを判
定する。そして、自乗誤差最小判定部8は、自乗誤差が
最小になっていないと判定した場合、上述のように、そ
の自乗誤差に対応するLコード、Gコード、およびLコ
ードを出力し、以下、同様の処理が繰り返される。
【0027】一方、自乗誤差最小判定部8は、自乗誤差
が最小になったと判定した場合、確定信号を、コード決
定部15に出力する。コード決定部15は、ベクトル量
子化部5から供給されるAコードをラッチするととも
に、自乗誤差最小判定部8から供給されるLコード、G
コード、およびIコードを順次ラッチするようになって
おり、自乗誤差最小判定部8から確定信号を受信する
と、そのときラッチしているAコード、Lコード、Gコ
ード、およびIコードを、チャネルエンコーダ16に供
給する。チャネルエンコーダ16は、コード決定部15
からのAコード、Lコード、Gコード、およびIコード
を多重化し、コードデータとして出力する。このコード
データは、伝送路を介して送信される。
【0028】以上から、コードデータは、復号に用いら
れる情報であるAコード、Lコード、Gコード、および
Iコードを、サブフレーム単位ごとに有する符号化デー
タとなっている。
【0029】なお、ここでは、Aコード、Lコード、G
コード、およびIコードは、サブフレームごとに求めら
れるものとしているが、例えば、Aコードについては、
フレームごとに求められる場合があり、この場合、その
フレームを構成する4つのサブフレームの復号には、同
一のAコードが用いられる。但し、この場合でも、その
1フレームを構成する4つのサブフレームそれぞれが、
同一のAコードを有していると見ることができ、そのよ
うに考えることによって、コードデータは、復号に用い
られる情報であるAコード、Lコード、Gコード、およ
びIコードを、サブフレーム単位ごとに有する符号化デ
ータとなっているとみなすことができる。
【0030】ここで、図1(後述する図2、図5、図
9、図11、図16、図18、および図21においても
同様)では、各変数に、[k]が付され、配列変数とされ
ている。このkは、サブフレーム数を表すが、明細書中
では、その記述は、適宜省略する。
【0031】次に、以上のようにして、他の携帯電話機
の送信部から送信されてくるコードデータは、図2に示
した受信部のチャネルデコーダ21で受信される。チャ
ネルデコーダ21は、コードデータから、Lコード、G
コード、Iコード、Aコードを分離し、それぞれを、適
応コードブック記憶部22、ゲイン復号器23、励起コ
ードブック記憶部24、フィルタ係数復号器25に供給
する。
【0032】適応コードブック記憶部22、ゲイン復号
器23、励起コードブック記憶部24、演算器26乃至
28は、図1の適応コードブック記憶部9、ゲイン復号
器10、励起コードブック記憶部11、演算器12乃至
14とそれぞれ同様に構成されるもので、図1で説明し
た場合と同様の処理が行われることにより、Lコード、
Gコード、およびIコードが、残差信号eに復号され
る。この残差信号eは、音声合成フィルタ29に対し
て、入力信号として与えられる。
【0033】フィルタ係数復号器25は、図1のベクト
ル量子化部5が記憶しているのと同一のコードブックを
記憶しており、Aコードを、線形予測係数αp’に復号
し、音声合成フィルタ29に供給する。
【0034】音声合成フィルタ29は、図1の音声合成
フィルタ6と同様に構成されており、フィルタ係数復号
器25からの線形予測係数αp’をタップ係数とすると
ともに、演算器28から供給される残差信号eを入力信
号として、式(4)を演算し、これにより、図1の自乗
誤差最小判定部8において自乗誤差が最小と判定された
ときの合成音データを生成する。この合成音データは、
D/A(Digital/Analog)変換部30に供給される。D/
A変換部30は、音声合成フィルタ29からの合成音デ
ータを、ディジタル信号からアナログ信号にD/A変換
し、スピーカ31に供給して出力させる。
【0035】なお、コードデータにおいて、Aコード
が、サブフレーム単位でなく、フレーム単位で配置され
ている場合、図2の受信部では、フレームを構成する4
つのサブフレームすべての復号に、そのフレームに配置
されたAコードに対応する線形予測係数を用いることが
できる他、各サブフレームについて、隣接するフレーム
のAコードに対応する線形予測係数を用いて補間を行
い、その補間の結果得られる線形予測係数を、各サブフ
レームの復号に用いることが可能である。
【0036】
【発明が解決しようとする課題】以上のように、携帯電
話機の送信部では、受信部の音声合成フィルタ29に与
えられる入力信号としての残差信号と線形予測係数がコ
ード化されて送信されてくるため、受信部では、そのコ
ードが、残差信号と線形予測係数に復号される。しかし
ながら、この復号された残差信号や線形予測係数(以
下、適宜、それぞれを、復号残差信号または復号線形予
測係数という)には、量子化誤差等の誤差が含まれるた
め、音声をLPC分析して得られる残差信号と線形予測
係数には一致しない。
【0037】このため、受信部の音声合成フィルタ29
が出力する合成音データは、歪み等を有する、音質の劣
化したものとなる。
【0038】本発明は、このような状況に鑑みてなされ
たものであり、高音質の合成音等を得ることができるよ
うにするものである。
【0039】
【課題を解決するための手段】本発明の第1のデータ処
理装置は、所定のデータのうちの注目している注目デー
タにつき、周期情報に応じて、所定のデータを抽出する
ことにより、所定の処理に用いるタップを生成するタッ
プ生成手段と、タップを用いて、注目データについて、
所定の処理を行う処理手段とを備えることを特徴とす
る。
【0040】本発明の第1のデータ処理方法は、所定の
データのうちの注目している注目データにつき、周期情
報に応じて、所定のデータを抽出することにより、所定
の処理に用いるタップを生成するタップ生成ステップ
と、タップを用いて、注目データについて、所定の処理
を行う処理ステップとを備えることを特徴とする。
【0041】本発明の第1のプログラムは、所定のデー
タのうちの注目している注目データにつき、周期情報に
応じて、所定のデータを抽出することにより、所定の処
理に用いるタップを生成するタップ生成ステップと、タ
ップを用いて、注目データについて、所定の処理を行う
処理ステップとを備えることを特徴とする。
【0042】本発明の第1の記録媒体は、所定のデータ
のうちの注目している注目データにつき、周期情報に応
じて、所定のデータを抽出することにより、所定の処理
に用いるタップを生成するタップ生成ステップと、タッ
プを用いて、注目データについて、所定の処理を行う処
理ステップとを備えるプログラムが記録されていること
を特徴とする。
【0043】本発明の第2のデータ処理装置は、学習の
教師となる教師データから、所定のデータと周期情報
を、学習の生徒となる生徒データとして生成する生徒デ
ータ生成手段と、生徒データとしての所定のデータのう
ちの注目している注目データにつき、周期情報に応じ
て、所定のデータを抽出することにより、教師データを
予測するのに用いる予測タップを生成する予測タップ生
成手段と、予測タップとタップ係数とを用いて、所定の
予測演算を行うことにより得られる教師データの予測値
の予測誤差が、統計的に最小になるように学習を行い、
タップ係数を求める学習手段とを備えることを特徴とす
る。
【0044】本発明の第2のデータ処理方法は、学習の
教師となる教師データから、所定のデータと周期情報
を、学習の生徒となる生徒データとして生成する生徒デ
ータ生成ステップと、生徒データとしての所定のデータ
のうちの注目している注目データにつき、周期情報に応
じて、所定のデータを抽出することにより、教師データ
を予測するのに用いる予測タップを生成する予測タップ
生成ステップと、予測タップとタップ係数とを用いて、
所定の予測演算を行うことにより得られる教師データの
予測値の予測誤差が、統計的に最小になるように学習を
行い、タップ係数を求める学習ステップとを備えること
を特徴とする。
【0045】本発明の第2のプログラムは、学習の教師
となる教師データから、所定のデータと周期情報を、学
習の生徒となる生徒データとして生成する生徒データ生
成ステップと、生徒データとしての所定のデータのうち
の注目している注目データにつき、周期情報に応じて、
所定のデータを抽出することにより、教師データを予測
するのに用いる予測タップを生成する予測タップ生成ス
テップと、予測タップとタップ係数とを用いて、所定の
予測演算を行うことにより得られる教師データの予測値
の予測誤差が、統計的に最小になるように学習を行い、
タップ係数を求める学習ステップとを備えることを特徴
とする。
【0046】本発明の第2の記録媒体は、学習の教師と
なる教師データから、所定のデータと周期情報を、学習
の生徒となる生徒データとして生成する生徒データ生成
ステップと、生徒データとしての所定のデータのうちの
注目している注目データにつき、周期情報に応じて、所
定のデータを抽出することにより、教師データを予測す
るのに用いる予測タップを生成する予測タップ生成ステ
ップと、予測タップとタップ係数とを用いて、所定の予
測演算を行うことにより得られる教師データの予測値の
予測誤差が、統計的に最小になるように学習を行い、タ
ップ係数を求める学習ステップとを備えるプログラムが
記録されていることを特徴とする。
【0047】本発明の第1のデータ処理装置およびデー
タ処理方法、並びにプログラムおよび記録媒体において
は、所定のデータのうちの注目している注目データにつ
き、周期情報に応じて、所定のデータを抽出することに
より、所定の処理に用いるタップが生成され、そのタッ
プを用いて、注目データについて、所定の処理が行われ
る。
【0048】本発明の第2のデータ処理装置およびデー
タ処理方法、並びにプログラムおよび記録媒体において
は、学習の教師となる教師データから、所定のデータと
周期情報が、学習の生徒となる生徒データとして生成さ
れる。そして、生徒データとしての所定のデータのうち
の注目している注目データにつき、周期情報に応じて、
所定のデータを抽出することにより、教師データを予測
するのに用いる予測タップが生成され、予測タップとタ
ップ係数とを用いて、所定の予測演算を行うことにより
得られる教師データの予測値の予測誤差が、統計的に最
小になるように学習が行われ、タップ係数が求められ
る。
【0049】
【発明の実施の形態】図3は、本発明を適用した伝送シ
ステム(システムとは、複数の装置が論理的に集合した
物をいい、各構成の装置が同一筐体中にあるか否かは問
わない)の一実施の形態の構成を示している。
【0050】この伝送システムでは、携帯電話機101
1と1012が、基地局1021と1022それぞれとの間
で、無線による送受信を行うとともに、基地局1021
と1022それぞれが、交換局103との間で送受信を
行うことにより、最終的には、携帯電話機1011と1
012との間において、基地局1021および1022
並びに交換局103を介して、音声の送受信を行うこと
ができるようになっている。なお、基地局1021と1
022は、同一の基地局であっても良いし、異なる基地
局であっても良い。
【0051】ここで、以下、特に区別する必要がない限
り、携帯電話機1011と1012を、携帯電話機101
と記述する。
【0052】次に、図4は、図3の携帯電話機101の
構成例を示している。
【0053】この携帯電話機101では、CELP方式によ
って、音声の送受信が行われるようになっている。
【0054】即ち、アンテナ111は、基地局1021
または1022からの電波を受信し、その受信信号を、
変復調部112に供給するとともに、変復調部112か
らの信号を、電波で、基地局1021または1022に送
信する。変復調部112は、アンテナ111からの信号
を復調し、その結果得られる、図1で説明したようなコ
ードデータを、受信部114に供給する。また、変復調
部112は、送信部113から供給される、図1で説明
したようなコードデータを変調し、その結果得られる変
調信号を、アンテナ111に供給する。送信部113
は、図1に示した送信部と同様に構成され、そこに入力
されるユーザの音声を、CELP方式によって、コードデー
タに符号化して、変復調部112に供給する。受信部1
14は、変復調部112からのコードデータを受信して
CELP方式により復号し、さらに、高音質の音声を復号し
て出力する。
【0055】即ち、受信部114では、例えば、クラス
分類適応処理を利用して、CELP方式で復号された合成音
が、さらに、真の高音質の音声(の予測値)に復号され
る。
【0056】ここで、クラス分類適応処理は、クラス分
類処理と適応処理とからなり、クラス分類処理によっ
て、データを、その性質に基づいてクラス分けし、各ク
ラスごとに適応処理を施すものであり、適応処理は、以
下のような手法のものである。
【0057】即ち、適応処理では、例えば、合成音と、
所定のタップ係数との線形結合により、高音質の音声の
予測値が求められる。
【0058】具体的には、例えば、いま、高音質の音声
(のサンプル値)を教師データとするとともに、その高
音質の音声を、CELP方式によって、Lコード、Gコ
ード、Iコード、およびAコードに符号化し、それらの
コードを、図2に示した受信部で復号することにより得
られる合成音を生徒データとして、教師データである高
音質の音声yの予測値E[y]を、幾つかの合成音(の
サンプル値)x1,x2,・・・の集合と、所定のタップ
係数w1,w2,・・・の線形結合により規定される線形
1次結合モデルにより求めることを考える。この場合、
予測値E[y]は、次式で表すことができる。
【0059】 E[y]=w11+w22+・・・ ・・・(6)
【0060】式(6)を一般化するために、タップ係数
jの集合でなる行列W、生徒データxijの集合でなる
行列X、および予測値E[yj]の集合でなる行列Y’
を、
【数1】 で定義すると、次のような観測方程式が成立する。
【0061】 XW=Y’ ・・・(7) ここで、行列Xの成分xijは、i件目の生徒データの集
合(i件目の教師データyiの予測に用いる生徒データ
の集合)の中のj番目の生徒データを意味し、行列Wの
成分wjは、生徒データの集合の中のj番目の生徒デー
タとの積が演算されるタップ係数を表す。また、y
iは、i件目の教師データを表し、従って、E[yi
は、i件目の教師データの予測値を表す。なお、式
(6)の左辺におけるyは、行列Yの成分yiのサフィ
ックスiを省略したものであり、また、式(6)の右辺
におけるx1,x2,・・・も、行列Xの成分xijのサフ
ィックスiを省略したものである。
【0062】そして、この観測方程式に最小自乗法を適
用して、真の高音質の音声yに近い予測値E[y]を求
めることを考える。この場合、教師データとなる真の高
音質の音声yの集合でなる行列Y、および高音質の音声
yに対する予測値E[y]の残差eの集合でなる行列E
を、
【数2】 で定義すると、式(7)から、次のような残差方程式が
成立する。
【0063】 XW=Y+E ・・・(8)
【0064】この場合、元の高音質の音声yに近い予測
値E[y]を求めるためのタップ係数wjは、自乗誤差
【数3】 を最小にすることで求めることができる。
【0065】従って、上述の自乗誤差をタップ係数wj
で微分したものが0になる場合、即ち、次式を満たすタ
ップ係数wjが、元の高音質の音声yに近い予測値E
[y]を求めるため最適値ということになる。
【0066】
【数4】 ・・・(9)
【0067】そこで、まず、式(8)を、タップ係数w
jで微分することにより、次式が成立する。
【0068】
【数5】 ・・・(10)
【0069】式(9)および(10)より、式(11)
が得られる。
【0070】
【数6】 ・・・(11)
【0071】さらに、式(8)の残差方程式における生
徒データxij、タップ係数wj、教師データyi、および
誤差eiの関係を考慮すると、式(11)から、次のよ
うな正規方程式を得ることができる。
【0072】
【数7】 ・・・(12)
【0073】なお、式(12)に示した正規方程式は、
行列(共分散行列)Aおよびベクトルvを、
【数8】 で定義するとともに、ベクトルWを、数1で示したよう
に定義すると、式 AW=v ・・・(13) で表すことができる。
【0074】式(12)における各正規方程式は、生徒
データxijおよび教師データyiのセットを、ある程度
の数だけ用意することで、求めるべきタップ係数wj
数Jと同じ数だけたてることができ、従って、式(1
3)を、ベクトルWについて解くことで(但し、式(1
3)を解くには、式(13)における行列Aが正則であ
る必要がある)、最適なタップ係数(ここでは、自乗誤
差を最小にするタップ係数)wjを求めることができ
る。なお、式(13)を解くにあたっては、例えば、掃
き出し法(Gauss-Jordanの消去法)などを用いることが
可能である。
【0075】以上のようにして、最適なタップ係数wj
を求めておき、さらに、そのタップ係数wjを用い、式
(6)により、真の高音質の音声yに近い予測値E
[y]を求めるのが適応処理である。
【0076】なお、例えば、教師データとして、高いサ
ンプリング周波数でサンプリングした音声信号、または
多ビットを割り当てた音声信号を用いるとともに、生徒
データとして、その教師データとしての音声信号を間引
いたり、低ビットで再量子化したした音声信号をCEL
P方式により符号化し、その符号化結果を復号して得ら
れる合成音を用いた場合、タップ係数としては、高いサ
ンプリング周波数でサンプリングした音声信号、または
多ビットを割り当てた音声信号を生成するのに、予測誤
差が、統計的に最小となる高音質の音声が得られること
になる。従って、この場合、より高音質の合成音を得る
ことが可能となる。
【0077】図4の受信部114では、以上のようなク
ラス分類適応処理により、コードデータを復号して得ら
れる合成音を、さらに、高音質の音声に復号するように
なっている。
【0078】即ち、図5は、図4の受信部114の第1
の構成例を示している。なお、図中、図2における場合
と対応する部分については、同一の符号を付してあり、
以下では、その説明は、適宜省略する。
【0079】タップ生成部121と122には、音声合
成フィルタ29が出力する、サブフレームごとの合成音
データと、チャネルデコーダ21が出力する、サブフレ
ームごとのLコード、Gコード、Iコード、Aコードの
うちのLコードとが供給されるようになっている。タッ
プ生成部121と122は、そこに供給される合成音デ
ータから、高音質の音声の予測値を予測するのに用いる
予測タップとするものと、クラス分類に用いるクラスタ
ップとするものを、Lコードに基づいて、それぞれ抽出
する。予測タップは、予測部125に供給され、クラス
タップは、クラス分類部123に供給される。
【0080】クラス分類部123は、タップ生成部12
2から供給されるクラスタップに基づいて、クラス分類
を行い、そのクラス分類結果としてのクラスコードを、
係数メモリ124に供給する。
【0081】ここで、クラス分類部123におけるクラ
ス分類の方法としては、例えば、KビットADRC(Adaptive
Dynamic Range Coding)処理を利用した方法等がある。
【0082】ここで、KビットADRC処理においては、例
えば、クラスタップを構成するデータの最大値MAXと最
小値MINが検出され、DR=MAX-MINを、集合の局所的なダ
イナミックレンジとし、このダイナミックレンジDRに基
づいて、クラスタップを構成する各データがKビットに
再量子化される。即ち、クラスタップを構成する各デー
タから、最小値MINが減算され、その減算値がDR/2Kで除
算(量子化)される。そして、以上のようにして得られ
る、クラスタップを構成する各データのKビットの値
を、所定の順番で並べたビット列が、ADRCコードとして
出力される。
【0083】このようなKビットADRC処理を、クラス分
類に利用する場合には、例えば、そのKビットADRC処理
の結果得られるADRCコードを、クラスコードとすること
が可能である。
【0084】なお、クラス分類は、その他、例えば、ク
ラスタップを、それを構成する各データを要素とするベ
クトルと見なして、そのベクトルとしてのクラスタップ
をベクトル量子化すること等によって行うことも可能で
ある。
【0085】係数メモリ124は、後述する図9の学習
装置において学習処理が行われることにより得られる、
クラスごとのタップ係数を記憶しており、クラス分類部
123が出力するクラスコードに対応するアドレスに記
憶されているタップ係数を、予測部125に供給する。
【0086】予測部125は、タップ生成部121が出
力する予測タップと、係数メモリ124が出力するタッ
プ係数とを取得し、その予測タップとタップ係数とを用
いて、式(6)に示した線形予測演算を行う。これによ
り、予測部125は、注目している注目サブフレームに
ついて、高音質の音声(の予測値)を求めて、D/A変
換部30に供給する。
【0087】次に、図6のフローチャートを参照して、
図5の受信部114の処理について説明する。
【0088】チャネルデコーダ21は、そこに供給され
るコードデータから、Lコード、Gコード、Iコード、
Aコードを分離し、それぞれを、適応コードブック記憶
部22、ゲイン復号器23、励起コードブック記憶部2
4、フィルタ係数復号器25に供給する。さらに、Lコ
ードは、タップ生成部121および122にも供給され
る。
【0089】そして、適応コードブック記憶部22、ゲ
イン復号器23、励起コードブック記憶部24、演算器
26乃至28は、図2における場合と同様の処理を行
い、これにより、Lコード、Gコード、およびIコード
が、残差信号eに復号される。この残差信号は、音声合
成フィルタ29に供給される。
【0090】さらに、フィルタ係数復号器25は、図2
で説明したように、そこに供給されるAコードを、線形
予測係数に復号し、音声合成フィルタ29に供給する。
音声合成フィルタ29は、演算器28からの残差信号
と、フィルタ係数復号器25からの線形予測係数を用い
て音声合成を行い、その結果得られる合成音を、タップ
生成部121と122に供給する。
【0091】タップ生成部121は、音声合成フィルタ
29が順次出力する合成音のサブフレームを、順次、注
目サブフレームとし、ステップS1において、その注目
サブフレームの合成音データを抽出するとともに、その
注目サブフレームから見て時間的に過去方向または未来
方向の合成音データを、そこに供給されるLコードに基
づいて抽出することにより、予測タップを生成し、予測
部125に供給する。さらに、ステップS1では、タッ
プ生成部122が、例えば、やはり、注目サブフレーム
の合成音データを抽出するとともに、その注目サブフレ
ームから見て時間的に過去方向または未来方向の合成音
データを、そこに供給されるLコードに基づいて抽出す
ることにより、クラスタップを生成し、クラス分類部1
23に供給する。
【0092】そして、ステップS2に進み、クラス分類
部123は、タップ生成部122から供給されるクラス
タップに基づいて、クラス分類を行い、その結果得られ
るクラスコードを、係数メモリ124に供給して、ステ
ップS3に進む。
【0093】ステップS3では、係数メモリ124は、
クラス分類部123から供給されるクラスコードに対応
するアドレスから、タップ係数を読み出し、予測部12
5に供給する。
【0094】そして、ステップS4に進み、予測部12
5は、係数メモリ124が出力するタップ係数を取得
し、そのタップ係数と、タップ生成部121からの予測
タップとを用いて、式(6)に示した積和演算を行い、
注目サブフレームの高音質の音声データ(の予測値)を
得る。
【0095】なお、ステップS1乃至S4の処理は、注
目サブフレームの合成音データのサンプル値それぞれ
を、注目データとして行われる。即ち、サブフレームの
合成音データは、前述したことから、40サンプルで構
成されるから、その40サンプルの合成音データそれぞ
れについて、ステップS1乃至S4の処理が行われる。
【0096】以上のようにして得られた高音質の音声デ
ータは、予測部125から、D/A変換部30を介し
て、スピーカ31に供給され、これにより、スピーカ3
1からは、高音質の音声が出力される。
【0097】ステップS4の処理後は、ステップS5に
進み、まだ、注目サブフレームとして処理すべきサブフ
レームがあるかどうかが判定され、あると判定された場
合、ステップS1に戻り、次に注目サブフレームとすべ
きサブフレームを、新たに注目サブフレームとして、以
下、同様の処理を繰り返す。また、ステップS5におい
て、注目サブフレームとして処理すべきサブフレームが
ないと判定された場合、処理を終了する。
【0098】次に、図7および図8を参照して、図5の
タップ生成部121での予測タップの生成方法について
説明する。
【0099】タップ生成部121は、例えば、図7に示
すように、注目サブフレームにおける40サンプルの合
成音データを抽出するとともに、注目サブフレームか
ら、その注目サブフレームに配置されているLコードが
表すラグだけ過去の位置を始点とする40サンプルの合
成音データ(以下、適宜、ラグ対応の過去データとい
う)を抽出し、注目データについての予測タップとす
る。
【0100】あるいは、タップ生成部121は、例え
ば、図8に示すように、注目サブフレームの40サンプ
ルの合成音データを抽出するとともに、Lコードが表す
ラグだけ過去の位置が注目サブフレーム内の合成音デー
タ(例えば、注目データ等)の位置となるLコードが配
置された、注目サブフレームから見て未来方向のサブフ
レームに配置された40サンプルの合成音データ(以
下、適宜、ラグ対応の未来データという)を抽出し、注
目データについての予測タップとする。
【0101】また、タップ生成部121は、例えば、注
目サブフレームの合成音データ、ラグ対応の過去デー
タ、およびラグ対応の未来データを抽出し、注目データ
についての予測タップとする。
【0102】ここで、注目データを、クラス分類適応処
理によって予測するにあたり、注目サブフレームの合成
音データの他、注目サブフレーム以外のサブフレームの
合成音データを、予測タップとして用いることにより、
より高音質の音声を得ることができると考えられる。そ
して、この場合、予測タップは、例えば、単純に、注目
サブフレームの合成音データの他、注目サブフレームの
直前と直後のサブフレームの合成音データによって構成
することが考えられる。
【0103】しかしながら、このように、予測タップ
を、単純に、注目サブフレームの合成音データ、および
注目サブフレームの直前と直後のサブフレームの合成音
データによって構成する場合には、予測タップの構成の
仕方に、合成音データの波形特性がほとんど考慮されて
いないことから、その分、高音質化に影響が生じると考
えられる。
【0104】そこで、タップ生成部121は、上述のよ
うに、予測タップとする合成音データを、Lコードに基
づいて抽出するようになっている。
【0105】即ち、サブフレームに配置されているLコ
ードが表すラグ(長期予測ラグ)は、注目データ部分の
合成音の波形が、過去のどの時点における合成音の波形
に類似しているかを表すので、注目データの部分の波形
と、ラグ対応の過去データやラグ対応の未来データの部
分の波形とは、大きな相関性を有する。
【0106】従って、予測タップを、注目サブフレーム
の合成音データと、その合成音データに対して大きな相
関を有するラグ対応の過去データもしくはラグ対応の未
来データのうちの一方または両方とによって構成するこ
とにより、さらに高音質の音声を得ることが可能とな
る。
【0107】ここで、図5のタップ生成部122におい
ても、例えば、タップ生成部121における場合と同様
にして、注目サブフレームの合成音データと、ラグ対応
の過去データもしくはラグ対応の未来データのうちの一
方または両方とからクラスタップを生成することが可能
であり、図5の実施の形態では、そのようになってい
る。
【0108】なお、予測タップやクラスタップの構成パ
ターンは、上述したパターンのものに限定されるもので
はない。即ち、予測タップやクラスタップには、注目サ
ブフレームのすべての合成音データを含める他、1サン
プルおき等の合成音データだけを含めるようにしたり、
注目サブフレームに配置されているLコードが表すラグ
だけ過去の位置のサブフレームから、そのサブフレーム
に配置されているLコードが表すラグだけ過去の位置の
サブフレームの合成音データ等を含めるようにすること
等が可能である。
【0109】また、上述の場合には、クラスタップと予
測タップを同一構成にするようにしたが、クラスタップ
と予測タップは、異なる構成とすることができる。
【0110】さらに、上述の場合には、Lコードが表す
ラグだけ過去の位置が注目サブフレーム内の合成音デー
タ(例えば、注目データ等)の位置となるLコードが配
置された、注目サブフレームから見て未来方向のサブフ
レームに配置された40サンプルの合成音データを、ラ
グ対応の未来データとして、予測タップに含めるように
したが、ラグ対応の未来データとしては、その他、例え
ば、次のような合成音データを用いるようにすることも
可能である。
【0111】即ち、CELP方式において符号化データ
に含まれるLコードは、上述したように、そのLコード
が配置されているサブフレームの合成音データの波形と
類似する過去の合成音データの位置を表すが、符号化デ
ータには、そのような過去の類似波形の位置を表すLコ
ードの他、未来の類似波形の位置を表すLコード(以
下、適宜、未来Lコードという)を含めるようにするこ
とが可能である。この場合、注目データについてのラグ
対応の未来データとしては、注目サブフレームに配置さ
れている未来Lコードが表すラグだけ未来の位置にある
合成音データを始点とする1以上のサンプルを用いるこ
とが可能である。
【0112】次に、図9は、図5の係数メモリ124に
記憶させるタップ係数の学習処理を行う学習装置の一実
施の形態の構成例を示している。
【0113】マイク201乃至コード決定部215は、
図1のマイク1乃至コード決定部15とそれぞれ同様に
構成される。マイク1には、学習用の音声信号が入力さ
れるようになっており、従って、マイク201乃至コー
ド決定部215では、その学習用の音声信号に対して、
図1における場合と同様の処理が施される。
【0114】但し、コード決定部215は、Lコード、
Gコード、Iコード、およびAコードのうち、本実施の
形態において予測タップやクラスタップを構成する合成
音データを抽出するのに用いられるLコードだけを出力
するようになっている。
【0115】そして、タップ生成部131と132に
は、自乗誤差最小判定部208において自乗誤差が最小
になったと判定されたときの音声合成フィルタ206が
出力する合成音データが供給される。さらに、タップ生
成部131と132には、コード決定部215が、自乗
誤差最小判定部208から確定信号を受信したときに出
力するLコードも供給される。また、正規方程式加算回
路134には、A/D変換部202が出力する音声デー
タが、教師データとして供給される。
【0116】タップ生成部131は、音声合成フィルタ
206が出力する合成音データから、コード決定部21
5が出力するLコードに基づいて、図5のタップ生成部
121における場合と同一の予測タップを生成し、生徒
データとして、正規方程式加算回路134に供給する。
【0117】タップ生成部132も、音声合成フィルタ
206が出力する合成音データから、コード決定部21
5が出力するLコードに基づいて、図5のタップ生成部
122における場合と同一のクラスタップを生成し、ク
ラス分類部133に供給する。
【0118】クラス分類部133は、タップ生成部13
2からのクラスタップに基づいて、図5のクラス分類部
123における場合と同様のクラス分類を行い、その結
果得られるクラスコードを、正規方程式加算回路134
に供給する。
【0119】正規方程式加算回路134は、A/D変換
部202からの音声データを、教師データとして受信す
るとともに、タップ生成部131からの予測タップを、
生徒データとして受信し、その教師データおよび生徒デ
ータを対象として、クラス分類部133からのクラスコ
ードごとに足し込みを行う。
【0120】即ち、正規方程式加算回路134は、クラ
ス分類部133から供給されるクラスコードに対応する
クラスごとに、予測タップ(生徒データ)を用い、式
(13)の行列Aにおける各コンポーネントとなってい
る、生徒データどうしの乗算(xinim)と、サメーシ
ョン(Σ)に相当する演算を行う。
【0121】さらに、正規方程式加算回路134は、や
はり、クラス分類部133から供給されるクラスコード
に対応するクラスごとに、生徒データおよび教師データ
を用い、式(13)のベクトルvにおける各コンポーネ
ントとなっている、生徒データと教師データの乗算(x
ini)と、サメーション(Σ)に相当する演算を行
う。
【0122】正規方程式加算回路134は、以上の足し
込みを、そこに供給される学習用の音声データのサブフ
レームすべてを注目サブフレームとし、かつその注目サ
ブフレームの音声データすべてを注目データとして行
い、これにより、各クラスについて、式(13)に示し
た正規方程式をたてる。
【0123】タップ係数決定回路135は、正規方程式
加算回路134においてクラスごとに生成された正規方
程式を解くことにより、クラスごとに、タップ係数を求
め、係数メモリ136の、各クラスに対応するアドレス
に供給する。
【0124】なお、学習用の音声信号として用意した音
声信号によっては、正規方程式加算回路134におい
て、タップ係数を求めるのに必要な数の正規方程式が得
られないクラスが生じる場合があり得るが、タップ係数
決定回路135は、そのようなクラスについては、例え
ば、デフォルトのタップ係数を出力する。
【0125】係数メモリ136は、タップ係数決定回路
135から供給されるクラスごとのタップ係数を、その
クラスに対応するアドレスに記憶する。
【0126】次に、図10のフローチャートを参照し
て、図9の学習装置で行われる、高音質の音声を復号す
るためのタップ係数を求める学習処理について説明す
る。
【0127】学習装置には、学習用の音声信号が供給さ
れ、ステップS11では、その学習用の音声信号から、
教師データと生徒データが生成される。
【0128】即ち、学習用の音声信号は、マイク201
に入力され、マイク201乃至コード決定部215は、
図1のマイク1乃至コード決定部15における場合とそ
れぞれ同様の処理を行う。
【0129】その結果、A/D変換部202で得られる
ディジタル信号の音声データは、教師データとして、正
規方程式加算回路134に供給される。また、自乗誤差
最小判定部208において自乗誤差が最小になったと判
定されたときに、音声合成フィルタ206が出力する合
成音データは、生徒データとして、タップ生成部131
と132に供給される。さらに、自乗誤差最小判定部2
08において自乗誤差が最小になったと判定されたとき
に、コード決定部215が出力するLコードも、生徒デ
ータとして、タップ生成部131と132に供給され
る。
【0130】その後、ステップS12に進み、タップ生
成部131は、音声合成フィルタ206から生徒データ
として供給される合成音のサブフレームを注目サブフレ
ームとし、さらに、その注目サブフレームの合成音デー
タを、順次、注目データとして、各注目データについ
て、音声合成フィルタ206からの合成音データを用
い、コード決定部215からのLコードに基づいて、図
5のタップ生成部121における場合と同様にして、予
測タップを生成し、正規方程式加算回路134に供給す
る。さらに、ステップS12では、タップ生成部132
が、やはり、合成音データを用い、Lコードに基づい
て、図5のタップ生成部122における場合と同様にし
て、クラスタップを生成し、クラス分類部133に供給
する。
【0131】ステップS12の処理後は、ステップS1
3に進み、クラス分類部133が、タップ生成部132
からのクラスタップに基づいて、クラス分類を行い、そ
の結果得られるクラスコードを、正規方程式加算回路1
34に供給する。
【0132】そして、ステップS14に進み、正規方程
式加算回路134は、A/D変換器202からの教師デ
ータとしての高音質の音声データである学習用の音声デ
ータのうちの注目データに対応するもの、およびタップ
生成部132からの生徒データとしての予測タップを対
象として、式(13)の行列Aとベクトルvの、上述し
たような足し込みを、クラス分類部133からの注目デ
ータについてのクラスコードごとに行い、ステップS1
5に進む。
【0133】ステップS15では、まだ、注目サブフレ
ームとして処理すべきサブフレームがあるかどうかが判
定される。ステップS15において、まだ、注目サブフ
レームとして処理すべきサブフレームがあると判定され
た場合、ステップS11に戻り、次のサブフレームを新
たに注目サブフレームとして、以下、同様の処理が繰り
返される。
【0134】また、ステップS15において、注目サブ
フレームとして処理すべきサブフレームがないと判定さ
れた場合、ステップS16に進み、タップ係数決定回路
135は、正規方程式加算回路134で各クラスごとに
生成された正規方程式を解くことにより、各クラスごと
に、タップ係数を求め、係数メモリ136の、各クラス
に対応するアドレスに供給して記憶させ、処理を終了す
る。
【0135】以上のようにして、係数メモリ136に記
憶された各クラスごとのタップ係数が、図5の係数メモ
リ124に記憶されている。
【0136】以上のように、図5の係数メモリ124に
記憶されたタップ係数は、線形予測演算を行うことによ
り得られる高音質の音声予測値の予測誤差(自乗誤差)
が、統計的に最小になるように学習を行うことにより求
められたものであるから、図5の予測部125が出力す
る音声は、高音質のものとなる。
【0137】なお、例えば、図5および図9の実施の形
態では、予測タップやクラスタップを、音声合成フィル
タ206が出力する合成音データから構成するようにし
たが、予測タップやクラスタップは、図5および図9に
おいて点線で示すように、Iコードや、Lコード、Gコ
ード、Aコード、Aコードから得られる線形予測係数α
p、Gコードから得られるゲインβ,γ、その他の、L
コード、Gコード、Iコード、またはAコードから得ら
れる情報(例えば、残差信号eや、残差信号eを得るた
めのl,n、さらには、l/β,n/γなど)のうちの
1以上を含めて構成することが可能である。また、CE
LP方式では、符号化データとしてのコードデータに、
リスト補間ビットやフレームエネルギ等が含められる場
合があるが、この場合、予測タップやクラスタップは、
ソフト補間ビットやフレームエネルギ等を含めて構成す
ることも可能である。
【0138】次に、図11は、図4の受信部114の第
2の構成例を示している。なお、図中、図5における場
合と対応する部分については、同一の符号を付してあ
り、以下では、その説明は、適宜省略する。即ち、図1
1の受信部114は、タップ生成部121と122に替
えて、タップ生成部301と302がそれぞれ設けられ
ている他は、図5における場合と同様に構成されてい
る。
【0139】図5の実施の形態においては、タップ生成
部121や122において(図9のタップ生成部131
と132においても同様)、予測タップやクラスタップ
が、注目サブフレームにおける40サンプルの合成音デ
ータの他、ラグ対応の過去データもしくはラグ対応の未
来データのうちの一方または両方から構成されるが、ラ
グ対応の過去データだけ、ラグ対応の未来データだけ、
またはその両方のうちのいずれを予測タップやクラスタ
ップに含めるかを、特に制御するようにはなっていない
ことから、いずれを含めるかを、あらかじめ決めてお
き、固定にしておく必要がある。
【0140】しかしながら、注目サブフレームを含むフ
レーム(以下、適宜、注目フレームという)等が、例え
ば、発話の開始時等に相当する場合には、図12(A)
に示すように、注目フレームよりも過去のフレーム等
は、無音の状態(雑音だけが存在するのと等しい状態)
となっていると考えられる。同様に、注目フレームが、
例えば、発話の終了時等に相当する場合には、図12
(B)に示すように、注目フレームよりも未来のフレー
ム等は、無音の状態となっていると考えられる。そし
て、このような無音部分については、予測タップやクラ
スタップに含めても、音質の向上にほとんど寄与せず、
むしろ、最悪の場合には、音質の向上を妨げるおそれが
ある。
【0141】一方、注目フレームが、発話の開始時や終
了時等以外の定常な発話が行われている状態に相当する
場合には、図12(C)に示すように、注目フレームか
ら過去方向および未来方向のいずれにも、定常的な音声
に相当する合成音データが存在すると考えられる。そし
て、このような場合には、ラグ対応の過去データと、ラ
グ対応の未来データのうちのいずれか一方だけでなく、
その両方を、予測タップやクラスタップに含めることに
よって、さらなる音質の向上を図ることができると考え
られる。
【0142】そこで、図11のタップ生成部301と3
02は、合成音データの波形の推移が、例えば、図12
(A)乃至図12(C)に示したうちのいずれであるか
を判定し、その判定結果に基づいて、予測タップとクラ
スタップを、それぞれ生成するようになっている。
【0143】即ち、図13は、図11のタップ生成部3
01の構成例を示している。
【0144】合成音メモリ311には、音声合成フィル
タ29(図11)が出力する合成音データが順次供給さ
れるようになっており、合成音メモリ311は、その合
成音データを、順次記憶する。なお、合成音メモリ31
1は、注目データとされる合成音データについて予測タ
ップとされる可能性のある合成音データのうちの、最も
過去のサンプルから、最も未来のサンプルまでの間の合
成音データを記憶することのできる記憶容量を少なくと
も有している。また、合成音メモリ311は、その記憶
容量分だけ、合成音データを記憶すると、次に供給され
る合成音データを、最も古い記憶値に上書きする形で記
憶するようになっている。
【0145】Lコードメモリ312には、チャネルデコ
ーダ21(図11)が出力するサブフレーム単位のLコ
ードが順次供給されるようになっており、Lコードメモ
リ312は、そのLコードを、順次記憶する。なお、L
コードメモリ312は、注目データとされる合成音デー
タについて予測タップとされる可能性のある合成音デー
タのうちの、最も過去のサンプルが配置されるサブフレ
ームから、最も未来のサンプルが配置されるサブフレー
ムまでの間のLコードを記憶することのできる記憶容量
を少なくとも有しており、また、その記憶容量分だけ、
Lコードを記憶すると、次に供給されるLコードを、最
も古い記憶値に上書きする形で記憶するようになってい
る。
【0146】フレームパワー計算部313は、合成音メ
モリ311に記憶された合成音データを用い、所定のフ
レーム単位で、そのフレームにおける合成音データのパ
ワーを求め、バッファ314に供給する。なお、フレー
ムパワー計算部313でパワーを求める単位であるフレ
ームは、CELP方式におけるフレームやサブフレームに一
致していても良いし、一致していなくても良い。従っ
て、フレームパワー計算部313でパワーを求める単位
であるフレームは、CELP方式におけるフレームを構成す
る160サンプルや、サブフレームを構成する40サン
プル以外の値である、例えば、128サンプル等で構成
することが可能である。但し、本実施の形態では、説明
を簡単にするため、フレームパワー計算部313でパワ
ーを求める単位であるフレームは、CELP方式におけるフ
レームと一致するものとする。
【0147】バッファ314は、フレームパワー計算部
313から順次供給される合成音データのパワーを、順
次記憶する。なお、バッファ314は、少なくとも、注
目フレーム、およびその直前と直後のフレームの、合計
で3フレーム分の合成音データのパワーを記憶すること
ができるようになっており、また、その記憶容量分だ
け、パワーを記憶すると、次にフレームパワー計算部3
13から供給されるパワーを、最も古い記憶値に上書き
する形で記憶するようになっている。
【0148】状態判定部315は、バッファ314に記
憶されたパワーに基づき、注目データ付近の合成音デー
タの波形の推移を判定する。即ち、状態判定部315
は、注目データ付近の合成音データの波形の推移が、図
12(A)に示したように、注目フレームの直前のフレ
ームが無音の状態(以下、適宜、立ち上がり状態とい
う)、図12(B)に示したように、注目フレームの直
後のフレームが無音の状態(以下、適宜、たち下がり状
態という)、または図12(C)に示したように、注目
フレームの直前から直後にかけて定常になっている状態
(以下、適宜、定常状態という)のうちのいずれの状態
になっているかを判定する。そして、状態判定部315
は、その判定結果を、データ抽出部316に供給する。
【0149】データ抽出部316は、合成音メモリ31
1から、注目サブフレームの合成音データを読み出すこ
とにより抽出する。さらに、データ抽出部316は、状
態判定部315からの波形の推移の判定結果に基づき、
Lコードメモリ312を参照して、合成音メモリ311
から、ラグ対応の過去データもしくはラグ対応の未来デ
ータのうちの一方または両方を読み出すことにより抽出
する。そして、データ抽出部316は、合成音メモリ3
11から読み出した注目サブフレームの合成音データ
と、ラグ対応の過去データもしくはラグ対応の未来デー
タのうちの一方または両方とを、予測タップとして出力
する。
【0150】次に、図14のフローチャートを参照し
て、図13のタップ生成部301の処理について説明す
る。
【0151】合成音メモリ311には、音声合成フィル
タ29(図11)が出力する合成音データが順次供給さ
れ、合成音メモリ311は、その合成音データを、順次
記憶する。また、Lコードメモリ312には、チャネル
デコーダ21(図11)が出力するサブフレーム単位の
Lコードが順次供給され、Lコードメモリ312は、そ
のLコードを、順次記憶する。
【0152】一方、フレームパワー計算部313は、合
成音メモリ311に記憶された合成音データを、フレー
ム単位で順次読み出し、各フレームにおける合成音デー
タのパワーを求めて、バッファ314に記憶させてい
る。
【0153】そして、状態判定部315は、ステップS
21において、バッファ314から、注目フレームのパ
ワーPn、その直前のフレームのパワーPn-1、およびそ
の直後のフレームのパワーPn+1を読み出し、注目フレ
ームのパワーPnと、直前のフレームのパワーPn-1との
差分値Pn−Pn-1を計算するとともに、直後のフレーム
のパワーPn+1と、注目フレームのパワーPnとの差分値
n+1−Pnとを計算して、ステップS22に進む。
【0154】ステップS22では、状態判定部315
は、差分値Pn−Pn-1の絶対値、および差分値Pn+1
nの絶対値が、いずれも、所定の閾値εよりも大であ
るか(以上であるか)どうかを判定する。
【0155】ステップS22において、差分値Pn−P
n-1の絶対値、または差分値Pn+1−Pnの絶対値のうち
の少なくとも一方が、所定の閾値εより大でないと判定
された場合、状態判定部315は、注目データ付近の合
成音データの波形の推移が、図12(C)に示したよう
に、注目フレームの直前から直後にかけて定常になって
いる定常状態になっていると判定し、その旨を表す「定
常状態」メッセージを、データ抽出部316に供給し
て、ステップS23に進む。
【0156】ステップS23では、データ抽出部316
は、状態判定部315から「定常状態」メッセージを受
信すると、合成音メモリ311から、注目サブフレーム
の合成音データを読み出すとともに、さらに、Lコード
メモリ312を参照して、タグ対応の過去データおよび
タグ対応の未来データとしての合成音データを読み出
す。そして、データ抽出部316は、これらの合成音デ
ータを予測タップとして出力し、処理を終了する。
【0157】また、ステップS22において、差分値P
n−Pn-1の絶対値、および差分値P n+1−Pnの絶対値
が、いずれも、所定の閾値εより大であると判定された
場合、ステップS24に進み、状態判定部315は、差
分値Pn−Pn-1と、差分値Pn+ 1−Pnが、いずれも正で
あるかどうかを判定する。ステップS24において、差
分値Pn−Pn-1と、差分値Pn+1−Pnが、いずれも正で
あると判定された場合、状態判定部315は、注目デー
タ付近の合成音データの波形の推移が、図12(A)に
示したように、注目フレームの直前のフレームが無音の
状態である立ち上がり状態になっていると判定し、その
旨を表す「立ち上がり状態」メッセージを、データ抽出
部316に供給して、ステップS25に進む。
【0158】ステップS25では、データ抽出部316
は、状態判定部315から「立ち上がり状態」メッセー
ジを受信すると、合成音メモリ311から、注目サブフ
レームの合成音データを読み出すとともに、さらに、L
コードメモリ312を参照して、タグ対応の未来データ
としての合成音データを読み出す。そして、データ抽出
部316は、これらの合成音データを予測タップとして
出力し、処理を終了する。
【0159】一方、ステップS24において、差分値P
n−Pn-1と、差分値Pn+1−Pnのうちの少なくとも一方
が、正でないと判定された場合、ステップS26に進
み、状態判定部315は、差分値Pn−Pn-1と、差分値
n+1−Pnが、いずれも負であるかどうかを判定する。
ステップS26において、差分値Pn−Pn-1と、差分値
n+1−Pnのうちの少なくとも一方が、負でないと判定
された場合、状態判定部315は、注目データ付近の合
成音データの波形の推移が、定常状態になっていると判
定し、その旨を表す「定常状態」メッセージを、データ
抽出部316に供給して、ステップS23に進む。
【0160】ステップS23では、データ抽出部316
は、上述したように、合成音メモリ311から、注目サ
ブフレームの合成音データと、タグ対応の過去データお
よびタグ対応の未来データを読み出し、予測タップとし
て出力して、処理を終了する。
【0161】また、ステップS26において、差分値P
n−Pn-1と、差分値Pn+1−Pnが、いずれも負であると
判定された場合、状態判定部315は、注目データ付近
の合成音データの波形の推移が、図12(B)に示した
ように、注目フレームの直後のフレームが無音の状態で
ある立ち下がり状態になっていると判定し、その旨を表
す「立ち下がり状態」メッセージを、データ抽出部31
6に供給して、ステップS27に進む。
【0162】ステップS27では、データ抽出部316
は、状態判定部315から「立ち下がり状態」メッセー
ジを受信すると、合成音メモリ311から、注目サブフ
レームの合成音データを読み出すとともに、さらに、L
コードメモリ312を参照して、タグ対応の過去データ
としての合成音データを読み出す。そして、データ抽出
部316は、これらの合成音データを予測タップとして
出力し、処理を終了する。
【0163】なお、図11のタップ生成部302も、図
13に示したタップ生成部301と同様に構成すること
ができ、この場合、図14で説明したようにして、クラ
スタップを構成させることができる。但し、図13にお
いて、合成音メモリ311、Lコードメモリ312、フ
レーパワー計算部313、バッファ314、および状態
判定部315は、タップ生成部301と302とで兼用
することが可能である。
【0164】また、上述の場合には、注目フレームと、
その直前または直後のフレームそれぞれとにおけるパワ
ーを比較して、注目データ付近の合成音データの波形の
推移を判定するようにしたが、注目データ付近の合成音
データの波形の推移を判定は、その他、例えば、注目フ
レームと、より過去または未来に亘るフレームそれぞれ
とにおけるパワーを比較して行うことも可能である。
【0165】さらに、上述の場合には、注目データ付近
の合成音データの波形の推移を、「定常状態」、「立ち
上がり状態」、または「たち下がり状態」の3つの状態
のうちのいずれかに判定するようにしたが、4以上の状
態のいずれかに判定することも可能である。即ち、例え
ば、図14では、ステップS22において、差分値P n
−Pn-1の絶対値、および差分値Pn+1−Pnの絶対値
を、いずれも、1つの閾値εと比較し、その大小関係を
判定しているが、差分値Pn−Pn-1の絶対値や、差分値
n+1−Pnの絶対値を、複数の閾値と比較するようにす
ることで、注目データ付近の合成音データの波形の推移
を、4以上の状態のいずれかに判定することが可能であ
る。
【0166】そして、このように、注目データ付近の合
成音データの波形の推移を、4以上の状態のいずれかに
判定する場合においては、予測タップは、注目サブフレ
ームの合成音データと、タグ対応の過去データまたはタ
グ対応の未来データの他、例えば、そのタグ対応の過去
データまたはタグ対応の未来データを注目データとした
ときに、タグ対応の過去データまたはタグ対応の未来デ
ータとなる合成音データを含めて構成すること等が可能
である。
【0167】ところで、タップ生成部301において、
以上のように予測タップを生成する場合には、その予測
タップを構成する合成音データのサンプル数は変化す
る。このことは、タップ生成部302において生成され
るクラスタップについても同様である。
【0168】予測タップについては、それを構成するデ
ータの数(タップ数)が変化しても、その予測タップと
同一の数のタップ係数を、後述する図16の学習装置に
おいて学習し、係数メモリ124に記憶させておけば良
いから問題はない。
【0169】一方、クラスタップについては、それを構
成するタップ数が変化すると、各タップ数のクラスタッ
プごとに得られる全クラス数が変化することから、処理
が複雑になるおそれがある。そこで、クラスタップのタ
ップ数が変化しても、そのクラスタップにより得られる
クラス数が変化しないようなクラス分類を行うのが望ま
しい。
【0170】このように、クラスタップのタップ数が変
化しても、そのクラスタップにより得られるクラス数が
変化しないようなクラス分類を行う方法としては、クラ
ス分類において、例えば、クラスタップの構成を考慮す
る方法がある。
【0171】即ち、本実施の形態では、クラスタップ
が、注目サブフレームの合成音データの他に、タグ対応
の過去データもしくはタグ対応の未来データの一方また
は両方を含めて構成されることによって、クラスタップ
のタップ数が増減する。そこで、例えば、いま、クラス
タップが、注目サブフレームの合成音データと、タグ対
応の過去データもしくはタグ対応の未来データの一方と
から構成される場合に、そのタップ数がS個であると
し、クラスタップが、注目サブフレームの合成音データ
と、タグ対応の過去データおよびタグ対応の未来データ
の両方とから構成される場合に、そのタップ数がL(>
S)個であるとする。そして、タップ数がS個の場合
は、nビットのクラスコードが得られ、タップ数がL個
の場合は、n+mビットのクラスコードが得られるとす
る。
【0172】この場合、クラスコードとして、n+m+
2ビットを用いるとともに、そのn+m+2ビットのう
ちの、例えば、上位ビットの2ビットを、クラスタップ
が、タグ対応の過去データを含む場合、タグ対応の未来
データを含む場合、その両方を含む場合の3つの場合と
で、それぞれ、例えば、”00”,”01”,”10”
に設定することにより、タップ数がS個とL個のいずれ
であっても、全クラス数が2n+m+2クラスのクラス分類
が可能となる。
【0173】即ち、クラスタップが、タグ対応の過去デ
ータと、タグ対応の未来データの両方を含み、そのタッ
プ数がL個の場合には、n+mビットのクラスコードが
得られるクラス分類を行い、そのn+mビットのクラス
コードに、その上位2ビットとして、クラスタップが、
タグ対応の過去データと、タグ対応の未来データの両方
を含むことを表す”10”を付加したn+m+2ビット
を最終的なクラスコードとすれば良い。
【0174】また、クラスタップが、タグ対応の過去デ
ータを含み、そのタップ数がS個の場合には、nビット
のクラスコードが得られるクラス分類を行い、そのnビ
ットのクラスコードに、その上位ビットとして、mビッ
トの”0”を付加してn+mビットとし、さらに、その
n+mビットに、上位ビットとして、クラスタップが、
タグ対応の過去データを含むことを表す”00”を付加
したn+m+2ビットを最終的なクラスコードとすれば
良い。
【0175】さらに、クラスタップが、タグ対応の未来
データを含み、そのタップ数がS個の場合には、nビッ
トのクラスコードが得られるクラス分類を行い、そのn
ビットのクラスコードに、その上位ビットとして、mビ
ットの”0”を付加してn+mビットとし、さらに、そ
のn+mビットに、上位ビットとして、クラスタップ
が、タグ対応の未来データを含むことを表す”01”を
付加したn+m+2ビットを最終的なクラスコードとす
れば良い。
【0176】次に、図13のタップ生成部301では、
フレームパワー計算部313において、合成音データか
ら、そのフレーム単位のパワーを計算するようにした
が、CELP方式によって、音声を符号化した符号化データ
(コードデータ)には、上述したように、フレームエネ
ルギが含められる場合があり、この場合には、そのフレ
ームエネルギを、そのフレームにおける合成音のパワー
として採用することが可能である。
【0177】図15は、フレームエネルギを、そのフレ
ームにおける合成音のパワーとして採用する場合の、図
11のタップ生成部301の構成例を示している。な
お、図中、図13における場合と対応する部分について
は、同一の符号を付してある。即ち、図15のタップ生
成部301は、フレームパワー計算部313が設けられ
ていない他は、図13における場合と同様に構成されて
いる。
【0178】但し、バッファ314には、受信部114
(図11)に供給される符号化データ(コードデータ)
に含まれる、フレームごとのフレームエネルギが供給さ
れているようになっており、バッファ314は、このフ
レームエネルギを記憶するようになっている。そして、
状態判定部315は、このフレームエネルギを、上述し
た、合成音データから求められるフレーム単位のパワー
と同様に用いて、注目データ付近の合成音データの波形
の推移を判定する。
【0179】ここで、符号化データに含まれる、フレー
ムごとのフレームエネルギは、チャネルエンコーダ21
において、符号化データから分離され、タップ生成部3
01に供給される。
【0180】なお、タップ生成部302も、図15に示
したように構成することが可能である。
【0181】次に、図16は、受信部114が図11に
示したように構成される場合に、その係数メモリ124
に記憶されるタップ係数を学習する学習装置の一実施の
形態の構成例を示している。なお、図中、図9における
場合と対応する部分については、同一の符号を付してあ
り、以下では、その説明は、適宜省略する。即ち、図1
6の学習装置は、タップ生成部131と132に替え
て、タップ生成部321と322がそれぞれ設けられて
いる他は、図9における場合と同様に構成される。
【0182】タップ生成部321と322は、図11の
タップ生成部301と302における場合とそれぞれ同
様にして、予測タップとクラスタップを構成する。
【0183】従って、この場合、より高音質の音声を復
号することのできるタップ係数を得ることができる。
【0184】なお、学習装置において、予測タップやク
ラスタップの生成にあたり、注目データ付近の合成音デ
ータの波形の推移の判定を、図15で説明したように、
フレームごとのフレームエネルギを用いて行う場合に
は、そのフレームエネルギは、LPC分析部204にお
けるLPC分析の過程で得られる自己相関係数を用いて
計算することができる。
【0185】そこで、図17は、自己相関係数からフレ
ームエネルギを求める場合の図16のタップ生成部32
1の構成例を示している。なお、図中、図13のタップ
生成部301における場合と対応する部分については、
同一の符号を付してあり、以下では、その説明は、適宜
省略する。即ち、図17のタップ生成部321は、フレ
ームパワー計算部313に替えてフレームエネルギ計算
部331が設けられている他は、図13におけるタップ
生成部301と同様に構成されている。
【0186】フレームエネルギ計算部331には、図1
6のLPC分析部204がLPC分析を行う過程で求め
られる音声の自己相関係数が供給されるようになってお
り、フレームエネルギ計算部331は、その自己相関係
数から、符号化データ(コードデータ)に含められるフ
レームエネルギを計算し、バッファ314に供給する。
【0187】従って、図17の実施の形態では、状態判
定部315は、このフレームエネルギを、上述した、合
成音データから求められるフレーム単位のパワーと同様
に用いて、注目データ付近の合成音データの波形の推移
を判定する。
【0188】なお、図16のクラスタップを生成するタ
ップ生成部322も、図17に示したように構成するこ
とが可能である。
【0189】次に、図18は、図4の受信部114の第
3の構成例を示している。なお、図中、図5または図1
1における場合と対応する部分については、同一の符号
を付してあり、その説明は、適宜省略する。
【0190】図5や図11の受信部114は、音声合成
フィルタ29が出力する合成音データに対して、クラス
分類適応処理を施すことによって、高音質の音声を復号
するようになっていたが、図18の受信部114は、音
声合成フィルタ29に入力される残差信号(復号残差信
号)と、線形予測係数(復号線形予測係数)に対して、
クラス分類適応処理を施すことによって、高音質の音声
を復号するようになっている。
【0191】即ち、適応コードブック記憶部22、ゲイ
ン復号器23、励起コードブック記憶部24、および演
算器26乃至28において、Lコード、Gコード、およ
びIコードから復号される残差信号である復号残差信号
や、フィルタ係数復号器25において、Aコードから復
号される線形予測係数である復号線形予測係数は、前述
したように、誤差を含むものとなっており、そのまま音
声合成フィルタ29に入力したのでは、音声合成フィル
タ29から出力される合成音データの音質が劣化する。
【0192】そこで、図18の受信部114では、学習
により求めたタップ係数を用いた予測演算を行うことに
より、真の残差信号と線形予測係数の予測値を求め、こ
れらを音声合成フィルタ29に与えることで、高音質の
合成音を生成するようになっている。
【0193】即ち、図18の受信部114では、例え
ば、クラス分類適応処理を利用して、復号残差信号が、
真の残差信号(の予測値)に復号されるとともに、復号
線形予測係数が、真の線形予測係数(の予測値)に復号
され、その残差信号と線形予測係数を、音声合成フィル
タ29に与えることで、高音質の合成音データが求めら
れる。
【0194】そのために、演算器28が出力する復号残
差信号は、タップ生成部341と32に供給される。ま
た、タップ生成部341と342には、チャネルデコー
ダ21が出力するLコードも供給されるようになってい
る。
【0195】そして、タップ生成部341は、図5のタ
ップ生成部121や図11のタップ生成部301と同様
にして、そこに供給される復号残差信号から、予測タッ
プとするサンプルを、Lコードに基づいて抽出し、予測
部345に供給する。
【0196】タップ生成部342も、図5のタップ生成
部122や図11のタップ生成部302と同様にして、
そこに供給される復号残差信号から、クラスタップとす
るサンプルを、Lコードに基づいて抽出し、予測部34
5に供給する。
【0197】クラス分類部343は、タップ生成部34
2から供給されるクラスタップに基づいて、クラス分類
を行い、そのクラス分類結果としてのクラスコードを、
係数メモリ344に供給する。
【0198】係数メモリ344は、後述する図21の学
習装置において学習処理が行われることにより得られ
る、クラスごとの残差信号についてのタップ係数w(e)
を記憶しており、クラス分類部343が出力するクラス
コードに対応するアドレスに記憶されているタップ係数
を、予測部345に供給する。
【0199】予測部345は、タップ生成部341が出
力する予測タップと、係数メモリ344が出力する残差
信号についてのタップ係数とを取得し、その予測タップ
とタップ係数とを用いて、式(6)に示した線形予測演
算を行う。これにより、予測部345は、注目サブフレ
ームの残差信号(の予測値)emを求めて、音声合成フ
ィルタ29に、入力信号として供給する。
【0200】タップ生成部351と352には、フィル
タ係数復号器25が出力する、サブフレームごとの復号
線形予測係数αp’が供給されるようになっており、タ
ップ生成部351と352は、その復号線形予測係数か
ら、予想タップとクラスタップとするものをそれぞれ抽
出する。ここで、タップ生成部351と352は、例え
ば、注目サブフレームの線形予測係数すべてを、それぞ
れ、予測タップとクラスタップとする。予測タップは、
タップ生成部351から予測部355に供給され、クラ
スタップは、タップ生成部352からクラス分類部35
3に供給される。
【0201】クラス分類部353は、タップ生成部35
2から供給されるクラスタップに基づいて、クラス分類
を行い、そのクラス分類結果としてのクラスコードを、
係数メモリ354に供給する。
【0202】係数メモリ354は、後述する図21の学
習装置において学習処理が行われることにより得られ
る、クラスごとの線形予測係数についてのタップ係数w
(a)を記憶しており、クラス分類部353が出力するク
ラスコードに対応するアドレスに記憶されているタップ
係数を、予測部355に供給する。
【0203】予測部355は、タップ生成部351が出
力する予測タップと、係数メモリ354が出力する線形
予測係数についてのタップ係数とを取得し、その予測タ
ップとタップ係数とを用いて、式(6)に示した線形予
測演算を行う。これにより、予測部355は、注目サブ
フレームの線形予測係数(の予測値)mαpを求めて、
音声合成フィルタ29に供給する。
【0204】次に、図19のフローチャートを参照し
て、図18の受信部114の処理について説明する。
【0205】チャネルデコーダ21は、そこに供給され
るコードデータから、Lコード、Gコード、Iコード、
Aコードを分離し、それぞれを、適応コードブック記憶
部22、ゲイン復号器23、励起コードブック記憶部2
4、フィルタ係数復号器25に供給する。さらに、Lコ
ードは、タップ生成部341と342にも供給される。
【0206】そして、適応コードブック記憶部22、ゲ
イン復号器23、励起コードブック記憶部24、演算器
26乃至28では、図1の適応コードブック記憶部9、
ゲイン復号器10、励起コードブック記憶部11、演算
器12乃至14における場合と同様の処理が行われ、こ
れにより、Lコード、Gコード、およびIコードが、残
差信号eに復号される。この復号残差信号は、演算器2
8からタップ生成部341と342に供給される。
【0207】さらに、フィルタ係数復号器25は、図2
で説明したように、そこに供給されるAコードを、復号
線形予測係数に復号し、タップ生成部351と352に
供給する。
【0208】そして、ステップS31において、予測タ
ップとクラスタップが生成される。
【0209】即ち、タップ生成部341は、そこに供給
される復号残差信号のサブフレームを、順次、注目サブ
フレームとし、さらに、その注目サブフレームの復号残
差信号のサンプル値を、順次、注目データとして、注目
サブフレームにおける復号残差信号を抽出するととも
に、チャネルデコーダ21が出力する注目サブフレーム
に配置されたLコード等に基づいて、注目サブフレーム
以外の復号残差信号を抽出し、即ち、注目サブフレーム
に配置されているLコードが表すラグだけ過去の位置を
始点とする40サンプルの復号残差信号(これも、以
下、適宜、ラグ対応の過去データという)、またはLコ
ードが表すラグだけ過去の位置が注目データの位置とな
るLコードが配置された、注目サブフレームから見て未
来方向のサブフレームに配置された40サンプルの復号
残差信号(これも、以下、適宜、ラグ対応の未来データ
という)を抽出し、予測タップを生成する。タップ生成
部342も、タップ生成部341と同様にして、クラス
タップを生成する。
【0210】さらに、ステップS31では、タップ生成
部351と352が、フィルタ係数復号器35が出力す
る注目サブフレームの復号線形予測係数を、それぞれ、
予測タップとクラスタップとして抽出する。
【0211】そして、タップ生成部341で得られた予
測タップは予測部345に、タップ生成部342で得ら
れたクラスタップはクラス分類部343に、タップ生成
部351で得られた予測タップは予測部355に、タッ
プ生成部352で得られたクラスタップはクラス分類部
353に、それぞれ供給される。
【0212】そして、ステップS32に進み、クラス分
類部343が、タップ生成部342から供給されるクラ
スタップに基づいて、クラス分類を行い、その結果得ら
れるクラスコードを、係数メモリ344に供給するとと
もに、クラス分類部353が、タップ生成部352から
供給されるクラスタップに基づいて、クラス分類を行
い、その結果得られるクラスコードを、係数メモリ35
4に供給して、ステップS33に進む。
【0213】ステップS33では、係数メモリ344
が、クラス分類部343から供給されるクラスコードに
対応するアドレスから、残差信号についてのタップ係数
を読み出し、予測部345に供給するとともに、係数メ
モリ354が、クラス分類部343から供給されるクラ
スコードに対応するアドレスから、線形予測係数につい
てのタップ係数を読み出し、予測部355に供給する。
【0214】そして、ステップS34に進み、予測部3
45は、係数メモリ344が出力する残差信号について
のタップ係数を取得し、そのタップ係数と、タップ生成
部341からの予測タップとを用いて、式(6)に示し
た積和演算を行い、注目サブフレームの真の残差信号
(の予測値)を得る。さらに、ステップS34では、予
測部355は、係数メモリ344が出力する線形予測係
数についてのタップ係数を取得し、そのタップ係数と、
タップ生成部351からの予測タップとを用いて、式
(6)に示した積和演算を行い、注目サブフレームの真
の線形予測係数(の予測値)を得る。
【0215】以上のようにして得られた残差信号および
線形予測係数は、音声合成フィルタ29に供給され、音
声合成フィルタ29では、その残差信号および線形予測
係数を用いて、式(4)の演算が行われることにより、
注目サブフレームの注目データに対応する合成音データ
が生成される。この合成音データは、音声合成フィルタ
29から、D/A変換部30を介して、スピーカ31に
供給され、これにより、スピーカ31からは、その合成
音データに対応する合成音が出力される。
【0216】予測部345と355において、残差信号
と線形予測係数がそれぞれ得られた後は、ステップS3
5に進み、まだ、注目サブフレームとして処理すべきサ
ブフレームのLコード、Gコード、Iコード、およびA
コードがあるかどうかが判定される。ステップS35に
おいて、まだ、注目サブフレームとして処理すべきフレ
ームのLコード、Gコード、Iコード、およびAコード
があると判定された場合、ステップS31に戻り、次に
注目サブフレームとすべきサブフレームを、新たに注目
サブフレームとして、以下、同様の処理を繰り返す。ま
た、ステップS35において、注目サブフレームとして
処理すべきフレームのLコード、Gコード、Iコード、
およびAコードがないと判定された場合、処理を終了す
る。
【0217】次に、図18のタップ生成部341におい
ては(クラスタップを生成するタップ生成部342につ
いても同様)、予測タップが、注目サブフレームの復号
残差信号と、ラグ対応の過去データもしくはラグ対応の
未来データのうちの一方または両方から構成されるが、
その構成は、固定とすることもできるが、残差信号の波
形の推移に基づいて可変にすることもできる。
【0218】図20は、残差信号の波形の推移に基づい
て、予測タップの構成を可変にする場合のタップ生成部
341の構成例を示している。なお、図中、図13にお
ける場合と対応する部分については、同一の符号を付し
てあり、以下では、その説明は、適宜省略する。即ち、
図20のタップ生成部341は、合成音メモリ311と
フレームパワー計算部313に替えて、残差信号メモリ
361とフレームパワー計算部363が設けられている
他は、図13のタップ生成部301と同様に構成されて
いる。
【0219】残差信号メモリ361には、演算器28
(図18)が出力する復号残差信号が順次供給されるよ
うになっており、残差信号メモリ361は、その復号残
差信号を、順次記憶する。なお、残差信号メモリ361
は、注目データについて予測タップとされる可能性のあ
る復号残差信号のうちの、最も過去のサンプルから、最
も未来のサンプルまでの間の復号残差信号を記憶するこ
とのできる記憶容量を少なくとも有している。また、残
差信号メモリ361は、その記憶容量分だけ、復号残差
信号を記憶すると、次に供給される復号残差信号のサン
プル値を、最も古い記憶値に上書きする形で記憶するよ
うになっている。
【0220】フレームパワー計算部363は、残差信号
メモリ361に記憶された残差信号を用い、所定のフレ
ーム単位で、そのフレームにおける残差信号のパワーを
求め、バッファ314に供給する。なお、フレームパワ
ー計算部363でパワーを求める単位であるフレーム
は、図13のフレームパワー計算部313における場合
と同様に、CELP方式におけるフレームやサブフレームに
一致していても良いし、一致していなくても良い。
【0221】従って、図20のタップ生成部341で
は、合成音データのパワーでなく、復号残差信号のパワ
ーが求められ、そのパワーに基づいて、残差信号の波形
の推移が、例えば、図12で説明したように、立ち上が
り状態、たち下がり状態、定常状態のうちのいずれであ
るかが判定される。そして、その判定結果に基づいて、
注目サブフレームの復号残差信号の他、ラグ対応の過去
データもしくはラグ対応の未来データのうちの一方また
は両方が抽出され、予測タップが生成される。
【0222】なお、図18のタップ生成部342も、図
20に示したタップ生成部341と同様に構成すること
ができる。
【0223】また、図18の実施の形態では、復号残差
信号についてだけ、Lコードに基づいて、予測タップや
クラスタップを生成するようにしたが、復号線形予測係
数についても、Lコードに基づいて、注目サブフレーム
以外の復号線形予測係数を抽出し、予測タップやクラス
タップを生成するようにすることが可能である。この場
合、図18において点線で示すように、チャネルデコー
ダ21が出力するLコードを、タップ生成部351や3
52に供給するようにすれば良い。
【0224】さらに、上述の場合においては、予測タッ
プやクラスタップを、合成音データから生成するときに
は、合成音データのパワーを求め、そのパワーに基づ
き、合成音データの波形の推移を判定し、また、復号残
差信号から生成するときには、復号残差信号のパワーを
求め、そのパワーに基づき、合成音データの波形の推移
を判定するようにしたが、合成音データの波形の推移
は、残差信号のパワーに基づいて判定することが可能で
あり、同様に、残差信号の波形の推移は、合成音データ
のパワーに基づいて判定することが可能である。
【0225】次に、図21は、図18の係数メモリ34
4と354に記憶させるタップ係数の学習処理を行う学
習装置の一実施の形態の構成例を示している。なお、図
中、図16における場合と対応する部分については、同
一の符号を付してあり、以下では、その説明は、適宜省
略する。
【0226】予測フィルタ370には、A/D変換部2
02が出力する、ディジタル信号とされた学習用の音声
信号と、LPC分析部204が出力する線形予測係数が
供給される。また、タップ生成部371と372には、
演算器214が出力する復号残差信号(音声合成フィル
タ206に供給されるのと同一の残差信号)、およびコ
ード決定部215が出力するLコードが供給され、タッ
プ生成部381と382には、ベクトル量子化部205
が出力する復号線形予測係数(ベクトル量子化に用いら
れるコードブックのコードベクトル(セントロイドベク
トル)を構成する線形予測係数)が供給される。さら
に、正規方程式加算回路384には、LPC分析部20
4が出力する線形予測係数が供給される。
【0227】予測フィルタ370は、A/D変換部20
2から供給される学習用の音声信号のサブフレームを、
順次、注目サブフレームとして、その注目サブフレーム
の音声信号と、LPC分析部204から供給される線形
予測係数を用いて、例えば、式(1)にしたがった演算
を行うことにより、注目フレームの残差信号を求める。
この残差信号は、教師データとして、正規方程式加算回
路374に供給される。
【0228】タップ生成部371は、演算器214から
供給される復号残差信号を用い、コード決定部215が
出力するLコードに基づいて、図18のタップ生成部3
41における場合と同一の予測タップを生成し、正規方
程式加算回路374に供給する。タップ生成部372
も、演算器214から供給される復号残差信号を用い、
コード決定部215が出力するLコードに基づいて、図
18のタップ生成部342における場合と同一のクラス
タップを生成し、クラス分類部373に供給する。
【0229】クラス分類部373は、タップ生成部37
1から供給されるクラスタップに基づき、図18のクラ
ス分類部343における場合と同様にのクラス分類を行
い、その結果得られるクラスコードを、正規方程式加算
回路374に供給する。
【0230】正規方程式加算回路374は、予測フィル
タ370からの注目サブフレームの残差信号を、教師デ
ータとして受信するとともに、タップ生成部371から
の予測タップを、生徒データとして受信し、その教師デ
ータおよび生徒データを対象として、クラス分類部37
3からのクラスコードごとに、図9や図16の正規方程
式加算回路134における場合と同様の足し込みを行う
ことにより、各クラスについて、残差信号に関する式
(13)に示した正規方程式をたてる。
【0231】タップ係数決定回路375は、正規方程式
加算回路374においてクラスごとに生成された正規方
程式それぞれを解くことにより、クラスごとに、残差信
号についてのタップ係数をそれぞれ求め、係数メモリ3
76の、各クラスに対応するアドレスにそれぞれ供給す
る。
【0232】係数メモリ376は、タップ係数決定回路
375から供給されるクラスごとの残差信号についての
タップ係数を記憶する。
【0233】タップ生成部381は、ベクトル量子化部
205から供給される、コードベクトルの要素となって
いる線形予測係数、即ち、復号線形予測係数を用いて、
図18のタップ生成部351における場合と同一の予測
タップを生成し、正規方程式加算回路384に供給す
る。タップ生成部382も、ベクトル量子化部205か
ら供給される復号線形予測係数を用い、図18のタップ
生成部352における場合と同一のクラスタップを生成
し、クラス分類部383に供給する。
【0234】なお、図18の実施の形態において、復号
線形予測係数につき、Lコードに基づいて、注目サブフ
レーム以外の復号線形予測係数を抽出して、予測タップ
やクラスタップを生成する場合には、図21のタップ生
成部381や382においても、同様にして、予測タッ
プやクラスタップを生成する必要があり、この場合、タ
ップ生成部381や382には、図21において点線で
示すように、コード決定部215が出力するLコードが
供給される。
【0235】クラス分類部383は、図18のクラス分
類部353における場合と同様に、タップ生成部382
からのクラスタップに基づいて、クラス分類を行い、そ
の結果得られるクラスコードを、正規方程式加算回路3
84に供給する。
【0236】正規方程式加算回路384は、LPC分析
部204からの注目サブフレームの線形予測係数を、教
師データとして受信するとともに、タップ生成部381
からの予測タップを、生徒データとして受信し、その教
師データおよび生徒データを対象として、クラス分類部
383からのクラスコードごとに、図9や図16の正規
方程式加算回路134における場合と同様の足し込みを
行うことにより、各クラスについて、線形予測係数に関
する式(13)に示した正規方程式をたてる。
【0237】タップ係数決定回路385は、正規方程式
加算回路384においてクラスごとに生成された正規方
程式を解くことにより、クラスごとに、線形予測係数に
ついてのタップ係数をそれぞれ求め、係数メモリ386
の、各クラスに対応するアドレスに供給する。
【0238】係数メモリ386は、タップ係数決定回路
385から供給されるクラスごとの線形予測係数につい
てのタップ係数を記憶する。
【0239】なお、学習用の音声信号として用意する音
声信号によっては、正規方程式加算回路374や384
において、タップ係数を求めるのに必要な数の正規方程
式が得られないクラスが生じる場合があり得るが、タッ
プ係数決定回路375と385は、そのようなクラスに
ついては、例えば、デフォルトのタップ係数を出力す
る。
【0240】次に、図22のフローチャートを参照し
て、図21の学習装置が行う、残差信号と線形予測係数
それぞれについてのタップ係数を求める学習処理につい
て説明する。
【0241】学習装置には、学習用の音声信号が供給さ
れ、ステップS41において、その学習用の音声信号か
ら、教師データと生徒データが生成される。
【0242】即ち、学習用の音声信号は、マイク201
に入力され、マイク201乃至コード決定部215は、
図1のマイク1乃至コード決定部15における場合とそ
れぞれ同様の処理を行う。
【0243】その結果、LPC分析部204で得られる
線形予測係数は、教師データとして、正規方程式加算回
路384に供給される。また、この線形予測係数は、予
測フィルタ370にも供給される。さらに、演算器21
4で得られる復号残差信号は、生徒データとして、タッ
プ生成部371および372に供給される。
【0244】また、A/D変換部202が出力するディ
ジタルの音声信号は、予測フィルタ370に供給され、
ベクトル量子化部205が出力する復号線形予測係数
は、生徒データとして、タップ生成部381および38
2に供給される。さらに、コード決定部215は、自乗
誤差最小判定部208から確定信号を受信したときの、
自乗誤差最小判定部208からのLコードを、タップ生
成部371および372に供給する。
【0245】そして、予測フィルタ370は、A/D変
換部202から供給される学習用の音声信号のサブフレ
ームを、順次、注目サブフレームとして、その注目サブ
フレームの音声信号と、LPC分析部204から供給さ
れる線形予測係数(注目サブフレームの音声信号から求
められた線形予測係数)を用いて、式(1)にしたがっ
た演算を行うことにより、注目サブフレームの残差信号
を求める。この予測フィルタ370で得られる残差信号
は、教師データとして、正規方程式加算回路374に供
給される。
【0246】以上のようにして、教師データと生徒デー
タが得られた後は、ステップS42に進み、タップ生成
部371と372が、演算器214から供給される復号
残差信号を用い、コード決定部215からのLコードに
基づいて、残差信号についての予測タップとクラスタッ
プをそれぞれ生成する。即ち、タップ生成部371と3
72は、演算器214からの注目サブフレームの復号残
差信号と、ラグ対応の過去データまたはラグ対応の未来
データとから、残差信号についての予測タップとクラス
タップをそれぞれ生成する。
【0247】さらに、ステップS42では、タップ生成
部381と382が、ベクトル量子化部205から供給
される注目サブフレームの線形予測係数から、線形予測
係数についての予測タップとクラスタップを生成する。
【0248】そして、残差信号についての予測タップ
は、タップ生成部371から正規方程式加算回路374
に供給され、残差信号についてのクラスタップは、タッ
プ生成部372からクラス分類部373に供給される。
また、線形予測係数についての予測タップは、タップ生
成部381から正規方程式加算回路384に供給され、
線形予測係数についてのクラスタップは、タップ生成部
382からクラス分類回路383に供給される。
【0249】その後、ステップS43において、クラス
分類部373と383が、そこに供給されるクラスタッ
プに基づいて、クラス分類を行い、その結果得られるク
ラスコードを、正規方程式加算回路384と374に、
それぞれ供給する。
【0250】そして、ステップS44に進み、正規方程
式加算回路374が、予測フィルタ370からの教師デ
ータとしての注目サブフレームの残差信号、およびタッ
プ生成部371からの生徒データとしての予測タップを
対象として、式(13)の行列Aとベクトルvの、上述
したような足し込みを、クラス分類部373からのクラ
スコードごとに行う。さらに、ステップS44では、正
規方程式加算回路384が、LPC分析部204からの
教師データとしての注目サブフレームの線形予測係数、
およびタップ生成部381からの生徒データとしての予
測タップを対象として、式(13)の行列Aとベクトル
vの、上述したような足し込みを、クラス分類部383
からのクラスコードごとに行い、ステップS45に進
む。
【0251】ステップS45では、まだ、注目サブフレ
ームとして処理すべきフレームの学習用の音声信号があ
るかどうかが判定される。ステップS45において、ま
だ、注目サブフレームとして処理すべきサブフレームの
学習用の音声信号があると判定された場合、ステップS
41に戻り、次のサブフレームを新たに注目サブフレー
ムとして、以下、同様の処理が繰り返される。
【0252】また、ステップS45において、注目サブ
フレームとして処理すべきサブフレームの学習用の音声
信号がないと判定された場合、ステップS46に進み、
タップ係数決定回路375は、各クラスごとに生成され
た正規方程式を解くことにより、各クラスごとに、残差
信号についてのタップ係数を求め、係数メモリ376
の、各クラスに対応するアドレスに供給して記憶させ
る。さらに、タップ係数決定回路385も、各クラスご
とに生成された正規方程式を解くことにより、各クラス
ごとに、線形予測係数についてのタップ係数を求め、係
数メモリ386の、各クラスに対応するアドレスに供給
して記憶させ、処理を終了する。
【0253】以上のようにして、係数メモリ376に記
憶された各クラスごとの残差信号についてのタップ係数
が、図18の係数メモリ344に記憶され、係数メモリ
386に記憶された各クラスごとの線形予測係数につい
てのタップ係数が、図18の係数メモリ354に記憶さ
れている。
【0254】従って、図18の係数メモリ344と35
4に記憶されたタップ係数は、それぞれ、線形予測演算
を行うことにより得られる真の残差信号と線形予測係数
の予測値の予測誤差(自乗誤差)が、統計的に最小にな
るように学習を行うことにより求められたものであるか
ら、図18の予測部345と355が出力する残差信号
と線形予測係数は、それぞれ真の残差信号と線形予測係
数にほぼ一致することとなり、その結果、これらの残差
信号と線形予測係数によって生成される合成音は、歪み
の少ない、高音質のものとなる。
【0255】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
【0256】そこで、図23は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
【0257】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク405やROM4
03に予め記録しておくことができる。
【0258】あるいはまた、プログラムは、フロッピー
(登録商標)ディスク、CD-ROM(Compact Disc Read Onl
y Memory),MO(Magneto optical)ディスク,DVD(Digita
l Versatile Disc)、磁気ディスク、半導体メモリなど
のリムーバブル記録媒体411に、一時的あるいは永続
的に格納(記録)しておくことができる。このようなリ
ムーバブル記録媒体411は、いわゆるパッケージソフ
トウエアとして提供することができる。
【0259】なお、プログラムは、上述したようなリム
ーバブル記録媒体411からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部408で受信し、内蔵するハード
ディスク405にインストールすることができる。
【0260】コンピュータは、CPU(Central Processing
Unit)402を内蔵している。CPU402には、バス4
01を介して、入出力インタフェース410が接続され
ており、CPU402は、入出力インタフェース410を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部407が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)403に格納されているプログラムを実行
する。あるいは、また、CPU402は、ハードディスク
405に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部408で受信されてハー
ドディスク405にインストールされたプログラム、ま
たはドライブ409に装着されたリムーバブル記録媒体
411から読み出されてハードディスク405にインス
トールされたプログラムを、RAM(Random Access Memor
y)404にロードして実行する。これにより、CPU40
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU402は、その処理結果を、必要に応
じて、例えば、入出力インタフェース410を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部406から出力、あるいは、通信部408から
送信、さらには、ハードディスク405に記録等させ
る。
【0261】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0262】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0263】なお、本実施の形態においては、学習用の
音声信号として、どのようなものを用いるかについて
は、特に言及しなかったが、学習用の音声信号として
は、人が発話した音声の他、例えば、曲(音楽)等を採
用することが可能である。そして、上述したような学習
処理によれば、学習用の音声信号として、人の発話を用
いた場合には、そのような人の発話の音声の音質を向上
させるようなタップ係数が得られ、曲を用いた場合に
は、曲の音質を向上させるようなタップ係数が得られる
ことになる。
【0264】また、係数メモリ124等には、タップ係
数をあらかじめ記憶させておくようにしたが、係数メモ
リ124等に記憶させるタップ係数は、携帯電話機10
1において、図3の基地局102(あるいは交換局10
3)や、図示しないWWW(World Wide Web)サーバ等か
らダウンロードするようにすることができる。即ち、上
述したように、タップ係数は、人の発話用や曲用等のよ
うに、ある種類の音声信号に適したものを、学習によっ
て得ることができる。さらに、学習に用いる教師データ
および生徒データによっては、合成音の音質に差が生じ
るタップ係数を得ることができる。従って、そのような
各種のタップ係数を、基地局102等に記憶させてお
き、ユーザには、自身の所望するタップ係数をダウンロ
ードさせるようにすることができる。そして、このよう
なタップ係数のダウンロードサービスは、無料で行うこ
ともできるし、有料で行うこともできる。さらに、タッ
プ係数のダウンロードサービスを有料で行う場合には、
タップ係数のダウンロードに対する対価としての代金
は、例えば、携帯電話機101の通話料等とともに請求
するようにすることが可能である。
【0265】また、係数メモリ124等は、携帯電話機
101に対して着脱可能なメモリカード等で構成するこ
とができる。この場合、上述したような各種のタップ係
数それぞれを記憶させた、異なるメモリカードを提供す
るようにすれば、ユーザは、場合に応じて、所望のタッ
プ係数が記憶されたメモリカードを、携帯電話機101
に装着して使用することが可能となる。
【0266】さらに、本発明は、例えば、VSELP(V
ector Sum Excited Liner Prediction),PSI−CE
LP(Pitch Synchronous Innovation CELP),CS−A
CELP(Conjugate Structure Algebraic CELP)等のC
ELP方式による符号化の結果得られるコードから合成
音を生成する場合に、広く適用可能である。
【0267】また、本発明は、CELP方式による符号
化の結果得られるコードから合成音を生成する場合に限
らず、あるコードから、残差信号と線形予測係数を得
て、合成音を生成する場合に、広く適用可能である。
【0268】さらに、本発明は、音声に限らず、例え
ば、画像等にも適用可能である。即ち、本発明は、Lコ
ードのような、周期を表す周期情報を用いて処理される
データに、広く適用可能である。
【0269】また、本実施の形態では、タップ係数を用
いた線形1次予測演算によって、高音質の音声や、残差
信号、線形予測係数の予測値を求めるようにしたが、こ
の予測値は、その他、2次以上の高次の予測演算によっ
て求めることも可能である。
【0270】さらに、本実施の形態では、係数メモリ1
24等に、タップ係数自体を記憶させておくようにした
が、係数メモリ124等には、その他、例えば、無段階
の調整が可能な(アナログ的な変化が可能な)タップ係
数の元(種)となる情報としての係数種を記憶させてお
き、ユーザの操作に応じて、その係数種から、ユーザの
所望する音質の音声が得られるようなタップ係数を生成
するようにすることが可能である。
【0271】
【発明の効果】本発明の第1のデータ処理装置およびデ
ータ処理方法、並びにプログラムおよび記録媒体によれ
ば、所定のデータのうちの注目している注目データにつ
き、周期情報に応じて、所定のデータを抽出することに
より、所定の処理に用いるタップが生成され、そのタッ
プを用いて、注目データについて、所定の処理が行われ
る。従って、従って、例えば、品質の良いデータの復号
等が可能となる。
【0272】本発明の第2のデータ処理装置およびデー
タ処理方法、並びにプログラムおよび記録媒体によれ
ば、学習の教師となる教師データから、所定のデータと
周期情報が、学習の生徒となる生徒データとして生成さ
れる。そして、生徒データとしての所定のデータのうち
の注目している注目データにつき、周期情報に応じて、
所定のデータを抽出することにより、教師データを予測
するのに用いる予測タップが生成され、予測タップとタ
ップ係数とを用いて、所定の予測演算を行うことにより
得られる教師データの予測値の予測誤差が、統計的に最
小になるように学習が行われ、タップ係数が求められ
る。従って、例えば、品質の良いデータを得るためのタ
ップ係数を得ることが可能となる。
【図面の簡単な説明】
【図1】従来の携帯電話機の送信部の一例の構成を示す
ブロック図である。
【図2】従来の携帯電話機の受信部の一例の構成を示す
ブロック図である。
【図3】本発明を適用した伝送システムの一実施の形態
の構成例を示す図である。
【図4】携帯電話機1011と1012の構成例を示すブ
ロック図である。
【図5】受信部114の第1の構成例を示すブロック図
である。
【図6】図5の受信部114の処理を説明するフローチ
ャートである。
【図7】予測タップとクラスタップの生成方法を説明す
る図である。
【図8】予測タップとクラスタップの生成方法を説明す
る図である。
【図9】本発明を適用した学習装置の第1実施の形態の
構成例を示すブロック図である。
【図10】図9の学習装置の処理を説明するフローチャ
ートである。
【図11】受信部114の第2の構成例を示すブロック
図である。
【図12】合成音データの波形の推移を示す図である。
【図13】タップ生成部301と302の構成例を示す
ブロック図である。
【図14】タップ生成部301と302の処理を説明す
るフローチャートである。
【図15】タップ生成部301と302の他の構成例を
示すブロック図である。
【図16】本発明を適用した学習装置の第2実施の形態
の構成例を示すブロック図である。
【図17】タップ生成部321と322の構成例を示す
ブロック図である。
【図18】受信部114の第3の構成例を示すブロック
図である。
【図19】図18の受信部114の処理を説明するフロ
ーチャートである。
【図20】タップ生成部341と342の構成例を示す
ブロック図である。
【図21】本発明を適用した学習装置の第3実施の形態
の構成例を示すブロック図である。
【図22】図21の学習装置の処理を説明するフローチ
ャートである。
【図23】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】
21 チャネルデコーダ, 22 適応コードブック記
憶部, 23 ゲイン復号器, 24 励起コードブッ
ク記憶部, 25 フィルタ係数復号器, 26乃至2
8 演算器, 29 音声合成フィルタ, 30 D/
A変換部, 31 スピーカ, 1011,1012
帯電話機, 1021,1022 基地局, 103 交
換局, 111 アンテナ, 112 変復調部, 1
13 送信部, 114 受信部, 121,122
タップ生成部, 123 クラス分類部, 124 係
数メモリ, 125 予測部, 131,132 タッ
プ生成部, 133 クラス分類部, 134 正規方
程式加算回路, 135タップ係数決定回路, 136
係数メモリ, 201 マイク, 202 A/D変
換部, 203 演算器, 204 LPC分析部,
205 ベクトル量子化部, 206 音声合成フィル
タ, 207 自乗誤差演算部, 208自乗誤差最小
判定部, 209 適応コードブック記憶部, 210
ゲイン復号器, 211 励起コードブック記憶部,
212乃至214 演算器,301,302 タップ
生成部, 311 合成音メモリ, 312 Lコード
メモリ, 313 フレームパワー計算部, 314
バッファ, 315 状態判定部, 316 データ抽
出部, 321,322 タップ生成部, 331 フ
レームエネルギ計算部, 341,342 タップ生成
部, 343 クラス分類部, 344 係数メモリ,
345 予測部, 351,352 タップ生成部,
353 クラス分類部, 354 係数メモリ, 3
55 予測部, 361 残差信号メモリ, 363
フレームパワー計算部, 370予測フィルタ, 37
1,372 タップ生成部, 373 クラス分類部,
374 正規方程式加算回路, 375 タップ係数決
定回路, 376 係数メモリ, 381,382 タ
ップ生成部, 383 クラス分類部, 384正規方
程式加算回路, 385 タップ係数決定回路, 38
6 係数メモリ, 401 バス, 402 CPU,
403 ROM, 404 RAM, 405ハードディス
ク, 406 出力部, 407 入力部, 408
通信部,409 ドライブ, 410 入出力インタフ
ェース, 411 リムーバブル記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 渡辺 勉 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 服部 正明 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D045 CA01 5J064 AA01 BB03 BC14 BC28 BD03

Claims (33)

    【特許請求の範囲】
  1. 【請求項1】 所定のデータと、周期を表す周期情報と
    を処理するデータ処理装置であって、 前記所定のデータのうちの注目している注目データにつ
    き、前記周期情報に応じて、前記所定のデータを抽出す
    ることにより、所定の処理に用いるタップを生成するタ
    ップ生成手段と、 前記タップを用いて、前記注目データについて、所定の
    処理を行う処理手段とを備えることを特徴とするデータ
    処理装置。
  2. 【請求項2】 学習を行うことにより求められたタップ
    係数を取得するタップ係数取得手段をさらに備え、 前記タップ生成手段は、前記タップ係数との所定の予測
    演算を行う予測タップを生成し、 前記処理手段は、前記予測タップとタップ係数とを用い
    て、所定の予測演算を行うことにより、前記学習におい
    て教師として用いられた教師データに対応する予測値を
    求めることを特徴とする請求項1に記載のデータ処理装
    置。
  3. 【請求項3】 前記処理手段は、前記予測タップとタッ
    プ係数とを用いて、線形1次予測演算を行うことによ
    り、前記予測値を求めることを特徴とする請求項2に記
    載のデータ処理装置。
  4. 【請求項4】 前記タップ生成手段は、前記注目データ
    をクラス分けするクラス分類を行うのに用いるクラスタ
    ップを生成し、 前記処理手段は、前記クラスタップに基づき、前記注目
    データについて、クラス分類を行うことを特徴とする請
    求項1に記載のデータ処理装置。
  5. 【請求項5】 前記タップ生成手段は、学習を行うこと
    により求められたタップ係数との所定の予測演算を行う
    予測タップを生成するとともに、前記注目データをクラ
    ス分けするクラス分類を行うのに用いられるクラスタッ
    プを生成し、 前記処理手段は、前記クラスタップに基づき、前記注目
    データについて、クラス分類を行い、そのクラス分類の
    結果得られるクラスに対応する前記タップ係数と、前記
    予測タップとを用いて、所定の予測演算を行うことによ
    り、前記学習において教師として用いられた教師データ
    に対応する予測値を求めることを特徴とする請求項1に
    記載のデータ処理装置。
  6. 【請求項6】 前記所定のデータと周期情報は、音声を
    符号化した符号化データから得られるものであることを
    特徴とする請求項1に記載のデータ処理装置。
  7. 【請求項7】 前記符号化データは、音声を、CELP
    (Code Excited Liner Prediction coding)方式によって
    符号化したものであることを特徴とする請求項6に記載
    のデータ処理装置。
  8. 【請求項8】 前記周期情報は、CELP方式で規定さ
    れている長期予測ラグであることを特徴とする請求項7
    に記載のデータ処理装置。
  9. 【請求項9】 前記所定のデータは、前記符号化データ
    を復号した復号音声データであることを特徴とする請求
    項6に記載のデータ処理装置。
  10. 【請求項10】 前記所定のデータは、前記符号化デー
    タを音声データに復号するのに用いられる残差信号であ
    ることを特徴とする請求項6に記載のデータ処理装置。
  11. 【請求項11】 前記所定のデータは、時系列のデータ
    であり、 前記タップ生成手段は、前記注目データから、前記周期
    情報に対応する時間だけ離れた位置の前記所定のデータ
    を抽出することにより、前記タップを生成することを特
    徴とする請求項1に記載のデータ処理装置。
  12. 【請求項12】 前記タップ生成手段は、前記注目デー
    タから、前記周期情報に対応する時間だけ過去方向もし
    くは未来方向に離れた位置の前記所定のデータのうちの
    一方または両方を抽出することにより、前記タップを生
    成することを特徴とする請求項11に記載のデータ処理
    装置。
  13. 【請求項13】 前記所定のデータの波形の推移を判定
    する判定手段をさらに備え、 前記タップ生成手段は、前記判定手段による判定結果に
    基づいて、前記周期情報に対応する時間だけ過去方向も
    しくは未来方向に離れた位置の前記所定のデータのうち
    の一方または両方を抽出することを特徴とする請求項1
    2に記載のデータ処理装置。
  14. 【請求項14】 前記判定手段は、前記所定のデータの
    パワーに基づいて、その波形の推移を判定することを特
    徴とする請求項13に記載のデータ処理装置。
  15. 【請求項15】 所定のデータと、周期を表す周期情報
    とを処理するデータ処理方法であって、 前記所定のデータのうちの注目している注目データにつ
    き、前記周期情報に応じて、前記所定のデータを抽出す
    ることにより、所定の処理に用いるタップを生成するタ
    ップ生成ステップと、 前記タップを用いて、前記注目データについて、所定の
    処理を行う処理ステップとを備えることを特徴とするデ
    ータ処理方法。
  16. 【請求項16】 所定のデータと、周期を表す周期情報
    とを、コンピュータに処理させるプログラムであって、 前記所定のデータのうちの注目している注目データにつ
    き、前記周期情報に応じて、前記所定のデータを抽出す
    ることにより、所定の処理に用いるタップを生成するタ
    ップ生成ステップと、 前記タップを用いて、前記注目データについて、所定の
    処理を行う処理ステップとを備えることを特徴とするプ
    ログラム。
  17. 【請求項17】 所定のデータと、周期を表す周期情報
    とを、コンピュータに処理させるプログラムが記録され
    ている記録媒体であって、 前記所定のデータのうちの注目している注目データにつ
    き、前記周期情報に応じて、前記所定のデータを抽出す
    ることにより、所定の処理に用いるタップを生成するタ
    ップ生成ステップと、 前記タップを用いて、前記注目データについて、所定の
    処理を行う処理ステップとを備えるプログラムが記録さ
    れていることを特徴とする記録媒体。
  18. 【請求項18】 所定のデータと、周期を表す周期情報
    とを処理するのに用いられる所定のタップ係数を学習す
    るデータ処理装置であって、 学習の教師となる教師データから、前記所定のデータと
    周期情報を、学習の生徒となる生徒データとして生成す
    る生徒データ生成手段と、 前記生徒データとしての所定のデータのうちの注目して
    いる注目データにつき、前記周期情報に応じて、前記所
    定のデータを抽出することにより、前記教師データを予
    測するのに用いる予測タップを生成する予測タップ生成
    手段と、 前記予測タップとタップ係数とを用いて、所定の予測演
    算を行うことにより得られる前記教師データの予測値の
    予測誤差が、統計的に最小になるように学習を行い、前
    記タップ係数を求める学習手段とを備えることを特徴と
    するデータ処理装置。
  19. 【請求項19】 前記学習手段は、前記予測タップとタ
    ップ係数とを用いて、線形一次予測演算を行うことによ
    り得られる前記教師データの予測値の予測誤差が、統計
    的に最小になるように学習を行うことを特徴とする請求
    項18に記載のデータ処理装置。
  20. 【請求項20】 前記生徒データとしての所定のデータ
    から、前記注目データをクラス分けするクラス分類を行
    うのに用いるクラスタップとするものを生成するクラス
    タップ生成手段と、 前記クラスタップに基づき、前記注目データについて、
    クラス分類を行うクラス分類手段とをさらに備え、 前記学習手段は、前記クラス分類手段によるクラス分類
    の結果得られるクラスごとに、前記タップ係数を求める
    ことを特徴とする請求項18に記載のデータ処理装置。
  21. 【請求項21】 前記クラスタップ生成手段は、前記注
    目データにつき、前記周期情報に応じて、前記所定のデ
    ータを抽出することにより、前記クラスタップを生成す
    ることを特徴とする請求項20に記載のデータ処理装
    置。
  22. 【請求項22】 前記教師データは、音声データであ
    り、 前記所定のデータと周期情報は、前記教師データとして
    の音声データを符号化した符号化データから得られるも
    のであることを特徴とする請求項18に記載のデータ処
    理装置。
  23. 【請求項23】 前記符号化データは、音声データを、
    CELP(Code Excited Liner Prediction coding)方式
    によって符号化したものであることを特徴とする請求項
    22に記載のデータ処理装置。
  24. 【請求項24】 前記周期情報は、CELP方式で規定
    されている長期予測ラグであることを特徴とする請求項
    23に記載のデータ処理装置。
  25. 【請求項25】 前記所定のデータは、前記符号化デー
    タを復号した復号音声データであることを特徴とする請
    求項22に記載のデータ処理装置。
  26. 【請求項26】 前記所定のデータは、前記符号化デー
    タを音声データに復号するのに用いられる残差信号であ
    ることを特徴とする請求項22に記載のデータ処理装
    置。
  27. 【請求項27】 前記所定のデータは、時系列のデータ
    であり、 前記予測タップ生成手段は、前記注目データから、前記
    周期情報に対応する時間だけ離れた位置の前記所定のデ
    ータを抽出することにより、前記予測タップを生成する
    ことを特徴とする請求項18に記載のデータ処理装置。
  28. 【請求項28】 前記予測タップ生成手段は、前記注目
    データから、前記周期情報に対応する時間だけ過去方向
    もしくは未来方向に離れた位置の前記所定のデータのう
    ちの一方または両方を抽出することにより、前記予測タ
    ップを生成することを特徴とする請求項27に記載のデ
    ータ処理装置。
  29. 【請求項29】 前記所定のデータの波形の推移を判定
    する判定手段をさらに備え、 前記予測タップ生成手段は、前記判定手段による判定結
    果に基づいて、前記周期情報に対応する時間だけ過去方
    向もしくは未来方向に離れた位置の前記所定のデータの
    うちの一方または両方を抽出することを特徴とする請求
    項28に記載のデータ処理装置。
  30. 【請求項30】 前記判定手段は、前記所定のデータの
    パワーに基づいて、その波形の推移を判定することを特
    徴とする請求項29に記載のデータ処理装置。
  31. 【請求項31】 所定のデータと、周期を表す周期情報
    とを処理するのに用いられる所定のタップ係数を学習す
    るデータ処理方法であって、 学習の教師となる教師データから、前記所定のデータと
    周期情報を、学習の生徒となる生徒データとして生成す
    る生徒データ生成ステップと、 前記生徒データとしての所定のデータのうちの注目して
    いる注目データにつき、前記周期情報に応じて、前記所
    定のデータを抽出することにより、前記教師データを予
    測するのに用いる予測タップを生成する予測タップ生成
    ステップと、 前記予測タップとタップ係数とを用いて、所定の予測演
    算を行うことにより得られる前記教師データの予測値の
    予測誤差が、統計的に最小になるように学習を行い、前
    記タップ係数を求める学習ステップとを備えることを特
    徴とするデータ処理方法。
  32. 【請求項32】 所定のデータと、周期を表す周期情報
    とを処理するのに用いられる所定のタップ係数を学習す
    るデータ処理を、コンピュータに行わせるプログラムで
    あって、 学習の教師となる教師データから、前記所定のデータと
    周期情報を、学習の生徒となる生徒データとして生成す
    る生徒データ生成ステップと、 前記生徒データとしての所定のデータのうちの注目して
    いる注目データにつき、前記周期情報に応じて、前記所
    定のデータを抽出することにより、前記教師データを予
    測するのに用いる予測タップを生成する予測タップ生成
    ステップと、 前記予測タップとタップ係数とを用いて、所定の予測演
    算を行うことにより得られる前記教師データの予測値の
    予測誤差が、統計的に最小になるように学習を行い、前
    記タップ係数を求める学習ステップとを備えることを特
    徴とするプログラム。
  33. 【請求項33】 所定のデータと、周期を表す周期情報
    とを処理するのに用いられる所定のタップ係数を学習す
    るデータ処理を、コンピュータに行わせるプログラムが
    記録されている記録媒体であって、 学習の教師となる教師データから、前記所定のデータと
    周期情報を、学習の生徒となる生徒データとして生成す
    る生徒データ生成ステップと、 前記生徒データとしての所定のデータのうちの注目して
    いる注目データにつき、前記周期情報に応じて、前記所
    定のデータを抽出することにより、前記教師データを予
    測するのに用いる予測タップを生成する予測タップ生成
    ステップと、 前記予測タップとタップ係数とを用いて、所定の予測演
    算を行うことにより得られる前記教師データの予測値の
    予測誤差が、統計的に最小になるように学習を行い、前
    記タップ係数を求める学習ステップとを備えるプログラ
    ムが記録されていることを特徴とする記録媒体。
JP2001016870A 2001-01-25 2001-01-25 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 Expired - Fee Related JP4857468B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2001016870A JP4857468B2 (ja) 2001-01-25 2001-01-25 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
EP02716353A EP1355297B1 (en) 2001-01-25 2002-01-24 Data processing device
PCT/JP2002/000491 WO2002059877A1 (fr) 2001-01-25 2002-01-24 Appareil de traitement de donnees
CN028007395A CN1216367C (zh) 2001-01-25 2002-01-24 数据处理装置
US10/239,135 US7269559B2 (en) 2001-01-25 2002-01-24 Speech decoding apparatus and method using prediction and class taps
KR1020027012612A KR100875784B1 (ko) 2001-01-25 2002-01-24 데이터 처리 장치
DE60222627T DE60222627T2 (de) 2001-01-25 2002-01-24 Datenverarbeitungsgerät

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001016870A JP4857468B2 (ja) 2001-01-25 2001-01-25 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2002222000A true JP2002222000A (ja) 2002-08-09
JP4857468B2 JP4857468B2 (ja) 2012-01-18

Family

ID=18883165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001016870A Expired - Fee Related JP4857468B2 (ja) 2001-01-25 2001-01-25 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体

Country Status (7)

Country Link
US (1) US7269559B2 (ja)
EP (1) EP1355297B1 (ja)
JP (1) JP4857468B2 (ja)
KR (1) KR100875784B1 (ja)
CN (1) CN1216367C (ja)
DE (1) DE60222627T2 (ja)
WO (1) WO2002059877A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008309956A (ja) * 2007-06-13 2008-12-25 Mitsubishi Electric Corp 音声符号化装置及び音声復号装置
JP2015519740A (ja) * 2012-04-26 2015-07-09 アプライド マテリアルズ インコーポレイテッドApplied Materials,Incorporated 研磨のインシトゥ監視時にデータをフィルタリングするための線形予測

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60140020D1 (de) * 2000-08-09 2009-11-05 Sony Corp Sprachdatenverarbeitungsvorrichtung und -verarbeitungsverfahren
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
EP1484841B1 (en) * 2002-03-08 2018-12-26 Nippon Telegraph And Telephone Corporation DIGITAL SIGNAL ENCODING METHOD, DECODING METHOD, ENCODING DEVICE, DECODING DEVICE and DIGITAL SIGNAL DECODING PROGRAM
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
WO2008114075A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation An encoder
CN101604526B (zh) * 2009-07-07 2011-11-16 武汉大学 基于权重的音频关注度计算系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6111800A (ja) * 1984-06-27 1986-01-20 日本電気株式会社 残差励振型ボコ−ダ
JPH0750586A (ja) * 1991-09-10 1995-02-21 At & T Corp 低遅延celp符号化方法
JPH08328591A (ja) * 1995-05-17 1996-12-13 Fr Telecom 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
JPH10242867A (ja) * 1997-02-25 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4776014A (en) * 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPH01205199A (ja) * 1988-02-12 1989-08-17 Nec Corp 音声符号化方式
US5359696A (en) 1988-06-28 1994-10-25 Motorola Inc. Digital speech coder having improved sub-sample resolution long-term predictor
CA2037899C (en) * 1989-09-01 1996-09-17 Ira A. Gerson Digital speech coder having improved long-term predictor
US4980916A (en) * 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
JP3077944B2 (ja) * 1990-11-28 2000-08-21 シャープ株式会社 信号再生装置
JP3077943B2 (ja) 1990-11-29 2000-08-21 シャープ株式会社 信号符号化装置
JP2800599B2 (ja) * 1992-10-15 1998-09-21 日本電気株式会社 基本周期符号化装置
CA2102080C (en) * 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
SG47025A1 (en) * 1993-03-26 1998-03-20 Motorola Inc Vector quantizer method and apparatus
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5692101A (en) * 1995-11-20 1997-11-25 Motorola, Inc. Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP3435310B2 (ja) * 1997-06-12 2003-08-11 株式会社東芝 音声符号化方法および装置
JP3263347B2 (ja) * 1997-09-20 2002-03-04 松下電送システム株式会社 音声符号化装置及び音声符号化におけるピッチ予測方法
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
DE60140020D1 (de) * 2000-08-09 2009-11-05 Sony Corp Sprachdatenverarbeitungsvorrichtung und -verarbeitungsverfahren

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6111800A (ja) * 1984-06-27 1986-01-20 日本電気株式会社 残差励振型ボコ−ダ
JPH0750586A (ja) * 1991-09-10 1995-02-21 At & T Corp 低遅延celp符号化方法
JPH08328591A (ja) * 1995-05-17 1996-12-13 Fr Telecom 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
JPH10242867A (ja) * 1997-02-25 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008309956A (ja) * 2007-06-13 2008-12-25 Mitsubishi Electric Corp 音声符号化装置及び音声復号装置
JP2015519740A (ja) * 2012-04-26 2015-07-09 アプライド マテリアルズ インコーポレイテッドApplied Materials,Incorporated 研磨のインシトゥ監視時にデータをフィルタリングするための線形予測

Also Published As

Publication number Publication date
DE60222627T2 (de) 2008-07-17
CN1216367C (zh) 2005-08-24
JP4857468B2 (ja) 2012-01-18
US7269559B2 (en) 2007-09-11
WO2002059877A1 (fr) 2002-08-01
CN1459093A (zh) 2003-11-26
EP1355297B1 (en) 2007-09-26
EP1355297A4 (en) 2005-09-07
EP1355297A1 (en) 2003-10-22
DE60222627D1 (de) 2007-11-08
US20030163317A1 (en) 2003-08-28
KR100875784B1 (ko) 2008-12-26
KR20020088088A (ko) 2002-11-25

Similar Documents

Publication Publication Date Title
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
CN101496098B (zh) 用于以与音频信号相关联的帧修改窗口的系统及方法
CN100362568C (zh) 用于预测量化有声语音的方法和设备
CN113223540B (zh) 在声音信号编码器和解码器中使用的方法、设备和存储器
JPH10307599A (ja) スプラインを使用する波形補間音声コーディング
JP4857468B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
US20080027720A1 (en) Method and apparatus for speech data
JPH10319996A (ja) 雑音の効率的分解と波形補間における周期信号波形
JP4857467B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2003005795A (ja) 送信装置および送信方法、受信装置および受信方法、プログラムおよび記録媒体、並びに送受信装置
JP3353852B2 (ja) 音声の符号化方法
JPH09127985A (ja) 信号符号化方法及び装置
JP4736266B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びにプログラムおよび記録媒体
JP4517262B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JPH09127987A (ja) 信号符号化方法及び装置
JP4287840B2 (ja) 符号化装置
JP3153075B2 (ja) 音声符号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
US7283961B2 (en) High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
JP3249144B2 (ja) 音声符号化装置
JP2002062899A (ja) データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JP3094522B2 (ja) ベクトル量子化方法及びその装置
JPH07160295A (ja) 音声符号化装置
Gao et al. A new approach to generating Pitch Cycle Waveform (PCW) for Waveform Interpolation codec
GB2398981A (en) Speech communication unit and method for synthesising speech therein

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111017

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees