JPH05303398A - 音声符号化装置 - Google Patents

音声符号化装置

Info

Publication number
JPH05303398A
JPH05303398A JP4106727A JP10672792A JPH05303398A JP H05303398 A JPH05303398 A JP H05303398A JP 4106727 A JP4106727 A JP 4106727A JP 10672792 A JP10672792 A JP 10672792A JP H05303398 A JPH05303398 A JP H05303398A
Authority
JP
Japan
Prior art keywords
linear prediction
coefficient
error
speech
linear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4106727A
Other languages
English (en)
Other versions
JP3183944B2 (ja
Inventor
Takashi Yoshihara
隆史 吉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP10672792A priority Critical patent/JP3183944B2/ja
Priority to US08/052,658 priority patent/US5432883A/en
Publication of JPH05303398A publication Critical patent/JPH05303398A/ja
Application granted granted Critical
Publication of JP3183944B2 publication Critical patent/JP3183944B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】ニューラルネットワークの学習機能を用いて桁
落ち及び量子化誤差による精度低下を防止すること。 【構成】音声入力部5より音声が入力されると、線形予
測分析部15が一定の時間間隔で標本化された入力音声
より線形予測係数を分析次数分だけ算出し、線形予測係
数量子化部16がこの線形予測係数を量子化し、線形予
測器17がこの量子化された信号とコードブックからの
情報に基づいて線形予測音声を算出する。そして、聴覚
重み付けフィルタ18が上記入力音声と上記線形予測音
声の差分値である線形予測誤差に対して雑音感低減を行
い、平均2乗誤差計算部19が、この聴覚重み付けフィ
ルタ18からの出力信号より平均2乗誤差を算出し最小
の平均2乗誤差とその時の励起ベクトルを保持する。そ
して、ゼロ状態応答算出部13が、上記励起ベクトルと
上記線形予測係数を受け、該励起ベクトルのみによる応
答値を算出し、入力音声とこの応答値の差分値を2層の
階層型ニューラルネットワーク1の教師データとして出
力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声符号化装置に係り、
特に分析合成方式を用いた音声符号化装置に関する。
【0002】
【従来の技術】従来より音声符号化装置に採用されてい
る分析合成方式の代表例には線形予測分析がある。そし
て、この線形予測分析は、音声波形を一定の時間間隔で
標本化した時間離散的信号をxt (t :時間を表す整
数)とすると、現時点における標本値xt と、これに隣
接する過去のP個の標本値との間に相関があり、下記の
(1)式で示される線形方程式からxt の線形予測値を
求めるものである。
【0003】
【数1】
【0004】上記(1)式において、αi は標本値xt
と線形予測値との間の予測誤差etの2乗和を最小とす
るように定める。尚、このαi の解法としては共分散法
と自己相関法がある。一方、上記線形予測分析を用いた
ものにCELP(Code-Excited Linear Prediction)符号
化がある。
【0005】図9は上記CELP符号化を採用した符号
器の構成例を示す図であり、同図に示すように、音声入
力部5から入力された音声は線形予測分析部15に供給
され線形予測係数αi が求められる。そして、この線形
予測係数αi は線形予測係数量子化部16にてスカラー
量子化され、後段の線形予測器17に供給される。
【0006】この線形予測器17には、同時にコードブ
ック22からの励起ベクトルbj も入力され、入力音声
xとその線形予測音声との差分がとられ、予測誤差ej
が求まる。そして、この予測誤差ej は聴覚重み付けフ
ィルタ18を介することで聴覚的雑音感が低減され、後
段の平均2乗誤差計算部19に供給される。この平均2
乗誤差計算部19では、予測誤差ej の平均2乗誤差を
求め、最小の平均2乗誤差と、その時の励起ベクトルb
j を保持する。
【0007】このような処理をコードブック22の全て
の励起ベクトルについて行った後、音声復合器21に、
量子化された線形予測係数αi と励起ベクトルbj が送
出される。
【0008】
【発明が解決しようとする課題】しかしながら、上述し
た線形予測分析は、線形モデルを用いた予測分析であ
り、その予測誤差et を線形最小2乗法で解くため、桁
落ちにより精度が落ちるという欠点がある。
【0009】さらに、上記線形モデルでは、短区間の音
声信号は定常であるとの仮定を用いているが、実際には
定常ではないため線形予測誤差がそれほど小さくならな
い。また、上記CELP符号化では、聴覚重み付けフィ
ルタにより処理された予測誤差の平均2乗誤差を最小と
する励起ベクトルをコードブックの中からサーチしてい
るだけである為、その量子化誤差により予測誤差がそれ
ほど小さくならない。本発明は上記問題に鑑みてなされ
たもので、ニューラルネットワークの学習機能を用いて
桁落ち及び量子化誤差による精度低下を防止することに
ある。
【0010】
【課題を解決するための手段】上記目的を達成するため
に、本発明の音声符号化装置は、一定の時間間隔で標本
化された入力音声より線形予測係数を分析次数分だけ計
算する線形予測分析手段と、上記線形予測分析手段によ
り算出された線形予測係数を量子化する線形予測係数量
子化手段と、上記線形予測係数量子化手段により量子化
された信号と、コードブックからの情報に基づいて線形
予測音声を算出する線形予測手段と、上記入力音声と上
記線形予測音声の差分値である線形予測誤差に対して雑
音感低減を行うフィルタ手段と、上記フィルタ手段から
の出力信号より平均2乗誤差を算出し、最小の平均2乗
誤差と、その時の励起ベクトルを保持する平均2乗誤差
計算手段と、入力層と出力層からなる2層の階層型ニュ
ーラルネットワーク手段と、上記励起ベクトルと上記線
形予測係数を受け、該励起ベクトルのみによる応答値を
算出し、入力音声とこの応答値の差分値を上記階層型ニ
ューラルネットワーク手段の教師データとして出力する
ゼロ状態応答算出手段とを具備し、上記階層型ニューラ
ルネット手段のシナプス結合係数の初期値として、あら
かじめ計算された入力音声の線形予測係数を用いて学習
し更新することを特徴とする。
【0011】
【作用】即ち、本発明の音声符号化装置では、線形予測
分析手段により一定の時間間隔で標本化された入力音声
より線形予測係数が分析次数分だけ算出されると、線形
予測係数量子化手段によりこの線形予測係数が量子化さ
れ、線形予測手段によりこの量子化された信号とコード
ブックからの情報に基づいて線形予測音声が算出され
る。そして、フィルタ手段により上記入力音声と上記線
形予測音声の差分値である線形予測誤差に対して雑音感
低減が行われ、平均2乗誤差計算手段により、このフィ
ルタ手段からの出力信号より平均2乗誤差が算出され、
最小の平均2乗誤差とその時の励起ベクトルが保持され
る。そして、ゼロ状態応答算出手段により、上記励起ベ
クトルと上記線形予測係数を受け、該励起ベクトルのみ
による応答値を算出し、入力音声とこの応答値の差分値
が2層の階層型ニューラルネットワーク手段の教師デー
タとして出力される。この階層型ニューラルネット手段
のシナプス結合係数の初期値は、あらかじめ計算された
入力音声の線形予測係数が用いて学習され、更新され
る。
【0012】
【実施例】以下、本発明の原理について説明する。線形
予測値は線形予測係数αi と過去の標本値xt-i とか
ら、上記(1)式のように表すことができるが、その予
測誤差et は(2)式のように示される。
【0013】
【数2】
【0014】ここで、図2に示すような2層の階層型線
形ニューラルネットワーク1を考えると、過去の標本値
xt-i を入力層2の各ニューロンユニットへの入力値、
線形予測係数αi を入出力層間のシナプス結合係数、線
形予測値を出力層3の各ニューロンネットの出力値とみ
なすことができる。
【0015】そこで、教師信号として現時点における標
本値xt を用い、予測誤差et の2乗和を最小化するよ
うに、シナプス結合係数、即ち線形予測係数αi の学習
を行う。
【0016】同図に示す階層型線形ニューラルネットワ
ーク1において、入力層2に過去の標本値xt-i が線形
予測分析の次数分入力されると、線形予測係数に相当す
るシナプス結合係数との積和がとられ、線形予測値が得
られる。学習については、その誤差Eを(3)式のよう
定めることができる。
【0017】
【数3】 そして、(4)式のようなバックプロパゲーション学習
と呼ばれる方法を採用する。
【0018】
【数4】
【0019】次に、図3は、先に図2に示した階層型線
形ニューラルネットワーク1に非線形ニューロンユニッ
ト4を入出力層間に付加し、本来非線形であるため線形
予測だけでは困難な音声の特徴を予測可能としているも
のである。同図に示す非線形ニューロンユニット4は、
入力層2からの入力値とシナプス結合係数との積和を非
線形関数f(x)により変換して出力する。このとき、
非線形ニューロンユニットkの出力値Ytkは(5)式の
ように示される。
【0020】
【数5】
【0021】尚、f(x)=1/(1+exp(−
x))のようなシグモイド関数を用い、前述したように
バックプロパゲーション学習法を用いる。P´は入力層
のニューロンユニットと非線形ニューロンユニット間の
シナプス結合の数である。以下、前述したような原理に
基づく本発明の実施例について説明する。図4は本発明
の第1の実施例の構成を示す図である。
【0022】同図に示すように、符号器20では、音声
入力部5が2層の階層型線形ニューラルネットワーク1
の入力層2に接続されており、該ニューラルネットワー
ク1の出力層3はシナプス結合係数学習部8に接続され
ている。そして、上記入力音声5は、更に入力音声から
線形予測係数を分析次数分求めるための線形予測係数計
算部6、及びバックプロパゲーション学習によりシナプ
ス結合係数の学習演算を行うシナプス結合係数学習部
8、予測誤差et を求めるための予測誤差計算部10に
それぞれ接続されている。
【0023】上記線形予測係数計算部6、及びシナプス
結合係数学習部8はシナプス結合係数設定部7に接続さ
れており、該シナプス結合係数設定部7は、階層型線形
ニューラルネット1に接続されている。そして、上記階
層型線形ニューラルネットワーク1は、そのシナプス結
合係数を量子化するシナプス結合係数量子化部9にも接
続されており、該シナプス結合係数量子化部9は上記予
測誤差計算部10、及び入力音声に係るシナプス結合係
数と予測誤差の量子化したデータを基に音声波形を合成
する音声符号器21に接続されている。
【0024】上記予測誤差計算部10には、予測誤差を
量子化するための予測誤差量子化部11が接続されてお
り、該予測誤差量子化部11は音声復号器21に接続さ
れている。
【0025】このような構成において、一定の時間間隔
で標本化された音声が音声入力部5より所定個数分の音
声が線形予測係数計算部6に入力されると、公知の技術
である共分散法または自己相関法により線形予測係数が
分析次数分だけ計算される。通常、この分析次数Pは1
0程度である。この計算結果はシナプス結合係数設定部
7に供給され、階層型線形ニューラルネットワーク1の
シナプス結合係数αi の初期値として設定される。
【0026】こうして初期値が設定されると、順次、入
力値xt-i を分析係数P分入力しながら階層型線形ニュ
ーラルネットワーク1が動作され、現音声波形の線形予
測値がシナプス結合係数学習部8に出力される。
【0027】このシナプス結合係数学習部8では、線形
予測値とシナプス結合係数αi と現時点における標本値
xt 及び入力層2への入力値xt-i を用いて、シナプス
結合係数αi がバックプロパゲーション学習により更新
学習される。そして、この更新されたシナプス結合係数
αi はシナプス結合係数設定部7に供給され、階層型線
形ニューラルネットワーク1の新たなシナプス係数とし
て設定される。
【0028】上記バックプロパゲーション学習は、誤差
Eの減少がなくなるまで行われるが、予測誤差et があ
る閾値以上の場合にのみ、その閾値以内に誤差がおさま
るまで学習するようにする事もできる。これにより、従
来予測誤差から音源情報としてのピッチを抽出していた
が、この処理を省略する事が可能となる。
【0029】逆に、上記バックプロパゲーション学習を
予測誤差et がある閾値以下の場合にのみ行うとする
と、予測誤差がパルス化即ち電力集中が起きることにな
り、効率的符号化が可能となる。
【0030】尚、通常ピッチ成分は予測誤差における周
期的インパルスとして残存しているが、閾値処理により
効果的にこの誤差を取り除ける。さらに、予測誤差を閾
値以下にするため、そのダイナミックレンジが小さくな
り符号量の低減に寄与する。こうしてバックプロパゲー
ション学習が終了すると、シナプス結合係数量子化部9
において、階層型線形ニューラルネットワーク1のシナ
プス結合係数が読み取られ、所定の量子化ビット数で量
子化される。
【0031】予測誤差計算部10では、この量子化され
たシナプス結合係数から求められる予測値と、現時点に
おける標本値xt との予測誤差et が算出され、予測誤
差量子化部11では、その予測誤差の量子化が行われ
る。こうして、シナプス結合係数及び予測誤差の量子化
データが音声複号器21に供給され音声合成が行われ
る。次に、図5は本発明の第2実施例の構成を示す図で
ある。
【0032】本実施例は、第1の実施例の構成の他に乱
数発生部12が設けられ、さらに階層型線形ニューラル
ネットワーク1に非線形ニューロンユニット4が入出力
層間の設けられていることに特徴を有する。
【0033】このような構成において、シナプス結合係
数設定部7は線形予測係数計算部6からシナプス結合係
数αi の初期値を受けると同時に、乱数発生部12より
入力層と非線形ニューロンユニット間のシナプス結合係
数βikの初期値及び非線形ニューロンユニットと出力層
間のシナプス結合係数jkの初期値として微小な乱数を受
けると、階層型ニューラルネットワーク1´にその値を
設定する。そして、初期値が設定されると第1実施例と
同様の処理を行うが、現音声形の予測値は(6)式で示
される。
【0034】
【数6】 ここで、Kは非線形ニューロンユニットの個数、Jは入
力層と非線形ニューロンユニット間のシナプス結合の数
を示し、P≧Jの関係を持つ。本実施例では、非線形ニ
ューロンユニット4を付加したことで、音声波形の非線
形予測が可能となり、予測誤差をさらに小さくすること
ができる。
【0035】尚、線形予測係数αi が学習初期で大きく
変化することがないように、学習初期にはαi を固定
し、非線形ニューロンユニットに関する係数βik、γk
のみ更新を行い、次の段階で全シナプス結合係数を学
習、更新するという方法も可能である。
【0036】以上、線形予測分析に本発明を適用した場
合の実施例について説明したが、次に、線形予測分析を
用いたCELP符号化に適用した場合の本発明の実施例
について説明するまず、図6を参照して、本発明にCE
LP符号化を取り入れた音声符号化装置の概要につて説
明する。
【0037】同図に示すように、符号器20にはゼロ状
態応答算出部13が接続されており、該ゼロ状態応答算
出部13及び音声入力部5は差分器14を介して階層型
ニューラルネットワーク1に接続されている。そして、
上記符号器20は更に階層型ニューラルネットワーク1
にも接続されており、該階層型ニューラルネットワーク
1は復号器21に接続されている。
【0038】このような構成において、符号器20より
出力された最適励起ベクトルbj はゼロ状態応答算出部
13に供給され、ゼロ状態応答St が計算され出力され
る。そして、ゼロ状態応答St は線形予測器と同様に線
形予測係数αi と励起ベクトルbj を用いて(7)式の
ように表すことができる。
【0039】
【数7】
【0040】ただし、計算時における初期状態St-i の
値が全てゼロ値となるという点が線形予測器とは異な
る。そして、差分器14では、入力音声xと励起ベクト
ルbjのゼロ状態応答Sとの差分x´(=x−S)がと
られ、階層型ニューラルネットワーク1に供給される。
【0041】この階層型ニューラルネットワーク1は入
力層2と出力層3の2層の線形ニューラルネットワーク
で、入力層2と出力層3は互いにシナプス結合により結
線されている。そして、階層型ニューラルネットワーク
1のシナプス結合係数の初期値として符号器20で得ら
れた線形予測係数αi を用いる。
【0042】階層型ニューラルネットワーク1の入力層
2に過去の出力値xt-i が入力されると、例えば誤差E
を(8)式により算出し、この誤差Eを最小化するよう
に、上記(4)式に示すようなバックプロパゲーション
学習法を行う。
【0043】
【数8】
【0044】上記(8)式で、第1項は差分器14から
の出力値x´を教師データとする通常の出力誤差最小化
項であるが、第2項は線形予測係数αi がその量子化テ
ーブルvi 中のいずれかの要素vimに近ければ値が小さ
くなる式である。ここで、εは“0”に近い正定数であ
る。
【0045】バックプロパゲーション学習は1音声信号
x´t 毎にシナプス結合係数を更新する逐次学習法も可
能であるが、ここでは分析フレーム区間T毎に一括して
シナプス結合係数を更新する一括学習法を用いてシナプ
ス結合係数が更新される毎にゼロ状態応答算出部の線形
予測係数αi を階層型ニューラルネットワーク1のシナ
プス結合係数αi で更新する。
【0046】そして、この動作をゼロ状態応答を再計算
することを誤差Eが十分小さくなるまで繰り返し、十分
小さくなったらシナプス結合係数αi を量子化して、よ
り最適な線形予測係数として出力する。図1は本発明の
第3実施例の構成を示す図である。
【0047】同図に示すように、音声入力部5は線形予
測分析部15に接続されており、該線形予測分析部15
は線形予測係数量子化部16に接続されている。そし
て、線形予測係数量子化部16は線形予測器17に接続
されており、この線形予測器17には、コードブック2
2より得られた励起ベクトルbj にゲインγを与えるゲ
イン付加器23が接続されている。
【0048】さらに、上記音声入力部5及び上記線形予
測器17は、差分器14aを介して聴覚重み付けフィル
タに接続されており、該聴覚重み付けフィルタ18は平
均2乗誤差計算部19に接続されている。そして、この
平均2乗誤差計算部19はシナプス結合係数設定部7及
びゼロ状態応答算出部13に接続されている。
【0049】このゼロ状態応答算出部13及び音声入力
部5は差分器14bを介してシナプス結合係数学習部8
に接続されており、該シナプス結合係数学習部8はシナ
プス結合係数設定部7に接続されている。
【0050】そして、上記シナプス結合係数設定部7は
階層型ニューラルネットワーク1に接続されており、該
階層型ニューラルネットワーク1は上記シナプス結合係
数学習部8、シナプス結合係数量子化部9にそれぞれ接
続されている。このシナプス結合係数量子化部9は音声
復号器21に接続されており、該音声復号器21は平均
2乗誤差計算部19に接続されている。
【0051】このような構成において、一定の時間間隔
で標本化された入力音声が、所定個数だけ線形予測分析
部15に入力されると、公知の技術である共分散法ある
いは自己相関法により線形予測係数が分析次数分だけ計
算される。通常、分析次数Pは10程度である。そし
て、この計算結果は線形予測係数量子化部16に供給さ
れ、図示しない量子化テーブルを参照してスカラー量子
化され、線形予測器17に供給される。さらに、この線
形予測器17には、同時にコードブック22からの励起
ベクトルbj がゲイン付加器23にてγ倍されて供給さ
れ線形予測音声が求まる。
【0052】次に、入力音声と線形予測音声の差分値、
つまり線形予測誤差ej が聴覚重み付けフィルタ18に
供給され、人間の聴覚特性に基づいた雑音感低減が行わ
れる。そして、このフィルタ出力は平均2乗誤差計算部
19において平均2乗誤差が計算されて、最小の平均2
乗誤差と、その時の励起ベクトルγbj を保持する。
【0053】この動作がコードブック22の全ての励起
ベクトルについて行われ、その結果である最小誤差励起
ベクトルγbj と線形予測係数αi がゼロ状態応答算出
部13に供給される。
【0054】ここでは、励起ベクトルγbj のみによる
応答値、即ちゼロ状態応答が計算され、入力音声xとこ
のゼロ状態応答Sの差分値x´が階層型ニューラルネッ
トワーク1の教師データとしてシナプス結合係数学習部
8に供給される。
【0055】上記階層型ニューラルネットワーク1のシ
ナプス結合係数の初期値として平均2乗誤差計算部19
から送出される線形予測係数αi がシナプス結合係数設
定部7を介して設定される。
【0056】そして、階層型ニューラルネットワーク1
を上記(1)式に基づいて動作させながら、シナプス結
合係数学習部8にてバックプロパゲーション学習部を行
うが、バックプロパゲーション学習で最小化する誤差式
は、例えば上記(8)式のように定義する。これは、線
形予測係数αi を図示しない線形予測係数量子化テーブ
ルの要素の1つのVimに近付けながら、以下に示す
(9)式で示される誤差を最小化するというものであ
る。
【0057】
【数9】
【0058】即ち、線形予測係数のスカラー量子化と出
力誤差の最小化を同時に最適化していることになる。こ
こでのバックプロパゲーション学習は、分析フレーム区
間T毎にシナプス結合係数を更新する一括学習法をと
り、その更新毎にゼロ状態応答算出部13の線形予測係
数αi を更新する。
【0059】さらに、シナプス結合係数設定部7を介し
て階層型ニューラルネットワーク1の学習を誤差Eが十
分小さくなるまで繰り返した後、そのシナプス結合係数
をシナプス結合係数量子化部9でスカラー量子化して、
音声復号器21に出力する。この音声復号器21では平
均2乗誤差計算部19から最適励起ベクトルγbjも同
時に受取り音声の合成を行う。次に、図7は本発明の第
4の実施例の構成を示す図である。
【0060】同図に示すように、本実施例は、第1の実
施例の構成と比べてゼロ状態応答算出部13が削除さ
れ、その代わりに階層型ニューラルネットワーク1に励
起ベクトルbjtの入力ユニットが付加され、さらに、そ
のシナプス結合係数としてゲインγが初期設定されてい
る点に特徴を有する。
【0061】このような構成において、平均2乗誤差計
算部19から送出される励起ベクトルbj のゲインγ
は、シナプス結合係数設定部7を介して階層型ニューラ
ルネットワーク1に初期設定される。
【0062】そして、励起ベクトルbj のt時点におけ
る要素bjtが階層型ニューラルネットワーク1に入力さ
れることで、学習動作を開始する。ゲインγは線形予測
係数αと同様に図示しない量子化テーブルまたは量子化
ステップに近似するように学習される。即ち、前記の誤
差Eを示す式に(10)式が付加される。
【0063】
【数10】 ここで、Un はゲインγの量子化テーブルUの一要素で
あり、nはテーブル内の要素数である。
【0064】こうして、音声符号器21はシナプス結合
係数量子化部9より最適化された線形予測係数αi と励
起ベクトルのゲインγを平均2乗誤差算出部19より励
起ベクトルbj を受取り音声の合成を行う。図8は本発
明の第5実施例の構成を示す図である。
【0065】本実施例は、図9に示した従来例と比較し
て、ゼロ状態応答算出部13がコードブック22による
量子化誤差を線形予測分析部15にフィードバックする
ように設けられている点に特徴を有する。
【0066】このような構成において、平均2乗誤差計
算部19で最適励起ベクトルγbjが求まると、ゼロ状
態応答算出部13に送出され、最適励起ベクトルγbj
のゼロ状態応答Sが算出され、入力音声xとの差分値x
´を基に、線形予測分析部15にて、新規の線形予測係
数αi が求められる。
【0067】そして、この線形予測係数を量子化したも
のを、ただちに音声符号器21に送り出すことも可能で
あるが、さらに、符号化精度を向上させるために最適な
励起ベクトルを求め直す。そして、線形予測係数の量子
化データが変化しなくなるまで、上記処理を繰り返す。
本実施例では、このような動作により、線形予測計数及
び励起ベクトル共に最適化することが可能となる。以
上、本発明の実施例について説明したが、本発明はこれ
に限定されることなく種々の改良、変更が可能であるこ
とは勿論である。
【0068】例えば、上記した第3及び第4実施例で使
用した階層型ニューラルネットワーク1は2層の線形ネ
ットワークであるが、入出力層間に非線形ニューラルネ
ットワークを付加することも可能である。
【0069】
【発明の効果】本発明によれば、従来数値計算での桁落
ちによる線形予測係数の精度低下を階層型ニューラルネ
ットワークの学習処理により防止する事ができる。さら
に、非線形ニューロンユニットを追加することで、定常
ではない音声波形の非線形予測を可能とし、予測誤差を
より小さくすることができる。
【0070】そして、入力音声の線形予測誤差及びその
量子化誤差を用いて階層型ニューラルネットワークを学
習させることで線形予測係数を最適化するので、入力音
声の符号化を高能率に行うことができる。
【図面の簡単な説明】
【図1】本発明の第3の実施例に係る音声符号化装置の
構成を示す図である。
【図2】階層型線形ニューラルネットワーク1の構成を
示す図である。
【図3】階層型非線形ニューラルネットワーク1´の構
成を示す図である。
【図4】本発明の第1の実施例に係る音声符号化装置の
構成を示す図である。
【図5】本発明の第2の実施例に係る音声符号化装置の
構成を示す図である。
【図6】本発明をCELP符号化に採用した場合の概念
図を示す。
【図7】本発明の第4の実施例に係る音声符号化装置の
構成を示す図である。
【図8】本発明の第5の実施例に係る音声符号化装置の
構成を示す図である。
【図9】従来の音声符号化装置の構成を示す図である。
【符号の説明】
1…階層型ニューラルネットワーク、2…入力層、3…
出力層、4…中間層、5…音声入力部、6…線形予測係
数計算部、7…シナプス結合係数設定部、8…シナプス
結合係数学習部、9…シナプス結合係数量子化部、10
…予測誤差計算部、11…予測誤差量子化部、12…乱
数発生部、13…ゼロ状態応答算出部、14…差分器、
15…線形予測分析部、16…線形予測係数量子化部、
17…線形予測器、18…聴覚重み付けフィルタ、19
…平均2乗誤差計算部、20…符号器、21…復号器、
22…コードブック、23…ゲイン付加器。
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成5年3月23日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正内容】
【0006】この線形予測器17には、同時にコードブ
ック22からの励起ベクトルbj も入力され、入力音声
xとその線形予測音声との差分がとられ、予測誤差ej
が求まる。そして、この予測誤差ej は聴覚重み付けフ
ィルタ18を介することで聴覚的雑音感が低減され、後
段の平均2乗誤差計算部19に供給される。この平均2
乗誤差計算部19では、予測誤差e'jの平均2乗誤差を
求め、最小の平均2乗誤差と、その時の励起ベクトルb
j を保持する。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正内容】
【0007】このような処理をコードブック22の全て
の励起ベクトルについて行った後、音声復器21に、
量子化された線形予測係数αi と励起ベクトルbj が送
出される。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0023
【補正方法】変更
【補正内容】
【0023】上記線形予測係数計算部6、及びシナプス
結合係数学習部8はシナプス結合係数設定部7に接続さ
れており、該シナプス結合係数設定部7は、階層型線形
ニューラルネット1に接続されている。そして、上記階
層型線形ニューラルネットワーク1は、そのシナプス結
合係数を量子化するシナプス結合係数量子化部9にも接
続されており、該シナプス結合係数量子化部9は上記予
測誤差計算部10、及び入力音声に係るシナプス結合係
数と予測誤差の量子化したデータを基に音声波形を合成
する音声復号器21に接続されている。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0033
【補正方法】変更
【補正内容】
【0033】このような構成において、シナプス結合係
数設定部7は線形予測係数計算部6からシナプス結合係
数αi の初期値を受けると同時に、乱数発生部12より
入力層と非線形ニューロンユニット間のシナプス結合係
数βikの初期値及び非線形ニューロンユニットと出力層
間のシナプス結合係数γk の初期値として微小な乱数を
受けると、階層型ニューラルネットワーク1´にその値
を設定する。そして、初期値が設定されると第1実施例
と同様の処理を行うが、現音声形の予測値は(6)式で
示される。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0067
【補正方法】変更
【補正内容】
【0067】そして、この線形予測係数を量子化したも
のを、ただちに音声符号器21に送り出すことも可能で
あるが、さらに、符号化精度を向上させるために最適な
励起ベクトルを求め直す。そして、線形予測係数の量子
化データが変化しなくなるまで、上記処理を繰り返す。
本実施例では、このような動作により、線形予測係数
び励起ベクトル共に最適化することが可能となる。以
上、本発明の実施例について説明したが、本発明はこれ
に限定されることなく種々の改良、変更が可能であるこ
とは勿論である。
【手続補正6】
【補正対象書類名】図面
【補正対象項目名】図3
【補正方法】変更
【補正内容】
【図3】

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 一定の時間間隔で標本化された入力音声
    より線形予測係数を分析次数分だけ計算する線形予測分
    析手段と、 上記線形予測分析手段により算出された線形予測係数を
    量子化する線形予測係数量子化手段と、 上記線形予測係数量子化手段により量子化された信号と
    コードブックからの情報に基づいて線形予測音声を算出
    する線形予測手段と、 上記入力音声と上記線形予測音声の差分値である線形予
    測誤差に対して雑音感低減を行うフィルタ手段と、 上記フィルタ手段からの出力信号より平均2乗誤差を算
    出し、最小の平均2乗誤差と、その時の励起ベクトルを
    保持する平均2乗誤差計算手段と、 入力層と出力層からなる2層の階層型ニューラルネット
    ワーク手段と、 上記励起ベクトルと上記線形予測係数を受け、該励起ベ
    クトルのみによる応答値を算出し、入力音声とこの応答
    値の差分値を上記階層型ニューラルネットワーク手段の
    教師データとして出力するゼロ状態応答算出手段と、を
    具備し、 上記階層型ニューラルネット手段のシナプス結合係数の
    初期値として、あらかじめ計算された入力音声の線形予
    測係数を用いて学習し更新することを特徴とする音声符
    号化装置。
JP10672792A 1992-04-24 1992-04-24 音声符号化装置 Expired - Fee Related JP3183944B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10672792A JP3183944B2 (ja) 1992-04-24 1992-04-24 音声符号化装置
US08/052,658 US5432883A (en) 1992-04-24 1993-04-26 Voice coding apparatus with synthesized speech LPC code book

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10672792A JP3183944B2 (ja) 1992-04-24 1992-04-24 音声符号化装置

Publications (2)

Publication Number Publication Date
JPH05303398A true JPH05303398A (ja) 1993-11-16
JP3183944B2 JP3183944B2 (ja) 2001-07-09

Family

ID=14440974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10672792A Expired - Fee Related JP3183944B2 (ja) 1992-04-24 1992-04-24 音声符号化装置

Country Status (1)

Country Link
JP (1) JP3183944B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005795A (ja) * 2001-06-26 2003-01-08 Sony Corp 送信装置および送信方法、受信装置および受信方法、プログラムおよび記録媒体、並びに送受信装置
KR101008264B1 (ko) * 2009-02-27 2011-01-13 전자부품연구원 선형예측계수 차수 선택방법 및 이를 이용한 신호처리장치
US8335260B2 (en) 2006-12-05 2012-12-18 Huawei Technologies Co., Ltd. Method and device for vector quantization
EP3726372A1 (en) 2019-04-19 2020-10-21 Fujitsu Limited Information processing device, information processing method, and information processing program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5517031B2 (ja) * 2009-03-31 2014-06-11 新日鐵住金株式会社 管のねじ継手の締結状態評価方法、管のねじ継手の締結方法、及び、管のねじ継手の締結状態評価装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005795A (ja) * 2001-06-26 2003-01-08 Sony Corp 送信装置および送信方法、受信装置および受信方法、プログラムおよび記録媒体、並びに送受信装置
JP4711099B2 (ja) * 2001-06-26 2011-06-29 ソニー株式会社 送信装置および送信方法、送受信装置および送受信方法、並びにプログラムおよび記録媒体
US8335260B2 (en) 2006-12-05 2012-12-18 Huawei Technologies Co., Ltd. Method and device for vector quantization
KR101008264B1 (ko) * 2009-02-27 2011-01-13 전자부품연구원 선형예측계수 차수 선택방법 및 이를 이용한 신호처리장치
EP3726372A1 (en) 2019-04-19 2020-10-21 Fujitsu Limited Information processing device, information processing method, and information processing program
US11675567B2 (en) 2019-04-19 2023-06-13 Fujitsu Limited Quantization device, quantization method, and recording medium

Also Published As

Publication number Publication date
JP3183944B2 (ja) 2001-07-09

Similar Documents

Publication Publication Date Title
US5432883A (en) Voice coding apparatus with synthesized speech LPC code book
JP3235703B2 (ja) ディジタルフィルタのフィルタ係数決定方法
JPH0353300A (ja) 音声符号化装置
JPH10187196A (ja) 低ビットレートピッチ遅れコーダ
JPH04171500A (ja) 音声パラメータ符号化方法
Wu et al. Fully vector-quantized neural network-based code-excited nonlinear predictive speech coding
JP3273455B2 (ja) ベクトル量子化方法及びその復号化器
JP3180786B2 (ja) 音声符号化方法及び音声符号化装置
JPH08179795A (ja) 音声のピッチラグ符号化方法および装置
US6330531B1 (en) Comb codebook structure
AU697256C (en) Predictive split-matrix quantization of spectral parameters for efficient coding of speech
JP2000155597A (ja) デジタル音声符号器において使用するための音声符号化方法
JP2624130B2 (ja) 音声符号化方式
EP0756268A2 (en) Speech encoder capable of substantially increasing a codebook size without increasing the number of transmitted bits
JP3183944B2 (ja) 音声符号化装置
JP2970407B2 (ja) 音声の励振信号符号化装置
JPH0854898A (ja) 音声符号化装置
JP2010256932A (ja) 音声信号標本値の符号化または復号化のための方法並びに符号化器ないし復号化器
JP3102017B2 (ja) 音声符号化方法
EP0658877A2 (en) Speech coding apparatus
US6385574B1 (en) Reusing invalid pulse positions in CELP vocoding
JP3194930B2 (ja) 音声符号化装置
JP3192051B2 (ja) 音声符号化装置
JP3256215B2 (ja) 音声符号化装置
JP3089967B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010410

LAPS Cancellation because of no payment of annual fees