JP3481027B2 - 音声符号化装置 - Google Patents

音声符号化装置

Info

Publication number
JP3481027B2
JP3481027B2 JP32850595A JP32850595A JP3481027B2 JP 3481027 B2 JP3481027 B2 JP 3481027B2 JP 32850595 A JP32850595 A JP 32850595A JP 32850595 A JP32850595 A JP 32850595A JP 3481027 B2 JP3481027 B2 JP 3481027B2
Authority
JP
Japan
Prior art keywords
signal
speech
index
vector
power envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32850595A
Other languages
English (en)
Other versions
JPH09167000A (ja
Inventor
弘美 青柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP32850595A priority Critical patent/JP3481027B2/ja
Priority to US08/763,439 priority patent/US5905970A/en
Priority to DE69624207T priority patent/DE69624207T2/de
Priority to EP96309062A priority patent/EP0780832B1/en
Priority to CN96123139A priority patent/CN1159044A/zh
Publication of JPH09167000A publication Critical patent/JPH09167000A/ja
Application granted granted Critical
Publication of JP3481027B2 publication Critical patent/JP3481027B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声符号化装置に
関し、例えば、CELP(Code Excited
Linear Prediction:コード励振線形
予測)型、マルチパルス型音声符号化装置に好適なもの
である。
【0002】
【従来の技術】現在、低符号化レートの音声符号化・復
号化方式には、コード励振線形予測符号化方式や、マル
チパルス励振(MPE:Multi Pulse Ex
citation)線形予測符号化方式などのAbS
(Analysis by Synthesis)法を
用いた方式が主に用いられている。
【0003】音声研究で用いるモデルは、ある入力音声
に対応するパラメータの値を解析的に決定することが困
難であるものが多い。AbS法は、このようなモデルの
パラメータを決定するための方法の一つとして、ある範
囲でパラメータを変化させ、実際に音声を合成し、それ
と入力音声との距離が最小になるものを選ぶ方法であ
る。
【0004】このような符号化・復号化方式についての
技術は、一例として下記の文献に提案されている。 文献:B.S.Atal、『HIGH−QUALITY
SPEECH ATLOW BIT RATES:M
ULTI−PULSE AND STOCHASTIC
ALLY EXCITED LINEAR PREDI
CTIVECODERS』、Proc.ICASSP、
pp1681−1684、1986年。
【0005】ここで、図2を用いてAbS法について簡
単に説明する。先ず、予め用意された駆動音源信号ci
(i=1〜N)を合成フィルタ101で処理することに
よって合成音声信号Swiが得られる。減算器102に
よって入力音声信号Sと合成音声信号Swiの差分信号
eiが計算され、これを聴覚重み付けフィルタ103で
処理することによって重み付け差分信号ewiが得られ
る。2乗誤差計算回路104では、ewiの各成分の2
乗和を計算し、これが最小となるiを探索する。
【0006】このように、入力音声信号と合成音声信号
より差分信号を計算し、この差分信号が最小になるよう
な駆動音源信号を探して最適駆動音源信号とする。CE
LP型差分方式の場合は、駆動音源としてランダムガウ
シアンノイズを用い、MPE符号化方式の場合は駆動音
源としてパルスシーケンスを用いる。
【0007】
【発明が解決しようとする課題】しかしながら、最適駆
動音源信号選択時に用いる評価値として、差分信号の2
乗和だけでは、合成音声信号の聴覚的な自然性が損なわ
れる場合がある。例えば、合成音声信号に原音声信号に
はないような不自然な波形が現れたりしていた。
【0008】このため、聴感的な自然性を損なわずに、
入力原音声信号に忠実に一致し得る合成音声信号を再生
し得る音声符号化装置の提供が要請されている。
【0009】
【課題を解決するための手段】そこで、本発明は、入力
音声信号に対してAbS法を用いてフォワード型構成又
はバックワード型構成で音声符号化する音声符号化装置
であって、入力音声信号又は局部再生の合成音声信号か
ら声道予測係数を求める声道予測係数生成手段と、駆動
音源符号帳にインデックス対応で格納されている符号コ
ードと、上記声道予測係数とを用いて、合成音声信号を
生成する音声合成手段と、この合成音声信号と上記入力
音声信号との比較を行って差分信号を出力する比較手段
と、この差分信号に対して聴覚重み付けを行って聴覚重
み付け信号を得る聴覚重み付け手段と、少なくとも上記
聴覚重み付け信号から上記駆動音源符号帳用の最適イン
デックスを選定して、上記符号帳に与える符号帳インデ
ックス選定手段とを備えた音声符号化装置において、以
下の特徴的な構成で上述の課題を解決するものである。
【0010】即ち、本発明の音声符号化装置は、上記合
成音声信号からパワーエンベロープ信号を求め、上記入
力音声信号からパワーエンベロープ信号を求めて、これ
らのパワーエンベロープ信号の比較を行って、これらの
パワーエンベロープ信号の誤差信号を推定する『パワー
エンベロープ誤差推定手段』を備え、上記符号帳インデ
ックス選定手段は、上記誤差信号と上記聴覚重み付け信
号とから最適インデックスを選定して上記符号帳に与え
るものである。
【0011】このような構成を採ることで、合成音声信
号のパワーエンベロープ信号と、入力音声信号のパワー
エンベロープ信号との比較を行って、これらのパワーエ
ンベロープ信号の誤差信号と、聴覚重み付け信号とから
最適インデックスを選択するように構成し、符号帳から
の符号コードを最適に修正でき、これによって得られる
合成音声信号のパワーエンベロープを、入力音声信号の
パワーエンベロープに非常に近くすることができる。し
かも、エンベロープを一致させるように動作するので、
聴感も入力音声に一致させるようにすることができる。
【0012】このため、入力音声信号に非常に一致し得
る符号コードや、インデックス情報などを得ることがで
きる。これらの情報や声道予測係数などを符号化装置の
出力信号として復号化装置に送ることで、再生音声を従
来に比べ非常に忠実に再生し得るのである。
【0013】
【発明の実施の形態】次に本発明の好適な実施の形態を
図面を用いて説明する。そこで、本実施の形態において
は、最適駆動音源信号選択時に用いる評価値として、波
形差分信号の2乗和だけでなく音声信号波形のエンベロ
ープ情報も加味するように構成する。このエンベロープ
を図5に示している。この図5において、曲線51は、
音声信号のパワーを表す曲線であり、曲線52がパワー
エンベロープを表す曲線である。
【0014】具体的には、入力音声信号と合成音声信号
の差分信号を計算し、この差分信号に知覚的(聴覚的)
な重みを付けて重み付け差分信号を計算し、この重み付
け差分信号の2乗和による波形誤差評価値を計算し、こ
の波形誤差評価値が最小となる駆動音源信号を選択する
ような合成による分析法を用いた音声符号化方式におい
て、次のような構成を採るものである。
【0015】即ち、入力音声信号及び合成音声信号のエ
ンベロープ信号をそれぞれ計算し、エンベロープ信号同
士のエンベロープ誤差評価値を計算し、波形誤差評価値
の他にエンベロープ誤差評価値も用いて最適駆動音源信
号を選択するように構成して、合成による分析法を用い
た音声符号化方式を実現する。
【0016】『第1の実施の形態』:本第1の実施の形
態においては、本発明をCELP型の音声符号化装置に
適用する場合の構成を詳細に説明する。
【0017】図1は第1の実施の形態の音声符号化装置
の機能構成図である。この図1において、音声符号化装
置は、声道分析部201と、声道予測係数量子化・逆量
子化部202と、駆動音源符号帳203と、乗算器20
4と、ゲインテーブル205と、合成フィルタ206
と、減算器207と、聴覚重み付けフィルタ208と、
2乗誤差計算回路209と、エンベロープ誤差計算回路
210と、トータル誤差計算回路211と、多重化回路
212とから構成されている。
【0018】原音声ベクトル信号Soは、フレーム単位
にまとめられてベクトル信号として原音声ベクトル入力
端子200に印加される。音声符号化データはトータル
コード信号Wとしてトータルコード出力端子213から
出力される。
【0019】声道分析部201は、原音声ベクトル信号
Soから声道予測係数、即ち、LPC(Linear
Prediction Coding)係数aを求めて
声道予測係数量子化・逆量子化部202に与えるもので
ある。
【0020】声道予測係数量子化・逆量子化部202
は、声道分析部201からの声道予測係数(LPC係数
a)を量子化して、この量子化値に対応する声道予測係
数インデックス値Lを生成して多重化回路212に与え
ると共に、逆量子化値aqを求めて合成フィルタ206
に与えるものである。
【0021】駆動音源符号帳203は、トータル誤差計
算回路211から与えられるインデックス値Iによっ
て、対応する駆動音源ベクトルCi(i=1〜N)を読
み出して乗算器204に与えるものである。
【0022】乗算器204は、ゲインテーブル205か
ら与えられるゲイン情報gj(j=1〜M)と、駆動音
源符号帳203からの駆動音源ベクトルCi(i=1〜
N)とを乗算して、乗算結果ベクトル信号Cgijを合
成フィルタ206に与えるものである。
【0023】ゲインテーブル205は、トータル誤差計
算回路211から与えられるインデックス値jによっ
て、対応するゲイン情報gj(j=1〜M)を読み出し
て乗算器204に与える。
【0024】合成フィルタ206は、例えば、巡回型の
デジタルフィルタで構成され、声道予測係数量子化・逆
量子化部202からの逆量子化値(LPC係数を意味し
ている。)aqと、乗算結果ベクトル信号Cgijとか
ら合成音声ベクトルSijを求めて減算器207と、エ
ンベロープ誤差計算回路210とに与えるものである。
【0025】減算器207は、入力原音声ベクトル信号
Soと、合成音声ベクトルSijとの差分を求め、この
差分ベクトル信号eijを聴覚重み付けフィルタ208
に与えるものである。
【0026】聴覚重み付けフィルタ208は、減算器2
07からの差分ベクトル信号eijに対して、周波数的
な重みをかける、言い換えれば、聴覚特性に応じた重み
付け処理を施してその聴覚重み付けベクトル信号wij
を2乗誤差計算回路209に与えるものである。音声ホ
ルマントや、ピッチハーモニクスのパワーの大きい周波
数領域の量子化雑音は、聴覚マスキング効果によって小
さく感じる。逆に、パワーの小さい周波数領域の量子化
雑音は、マスクされずに聞こえてしまう。そこで、符号
化時の量子化雑音をパワーの大きい周波数領域で大きく
し、パワーの小さい周波数領域で小さくするための周波
数重み付けを聴覚重み付けという。
【0027】人間の聴覚は、ある周波数成分が大きいと
その近くの周波数の音が聞こえにくくなる、マスキング
と呼ばれる特性を持っている。故に、原音声と再生音声
との聴覚上の差、即ち、再生音声の歪み感はそのユーク
リッド距離とは必ずしも対応しない。故に、音声符号化
では、距離尺度として原音声と再生音声との差をマスキ
ング特性に対応した聴覚重み付けフィルタ208に通し
た値を用いる。この聴覚重み付けフィルタ208は、周
波数軸上において大きな部分の歪みを軽くし、小さな部
分の歪みを重くし、重み付けする特性を持つものであ
る。
【0028】2乗誤差計算回路209は、聴覚重み付け
フィルタ208からの聴覚重み付けベクトル信号wij
に基づき、このベクトル信号の各成分の2乗和ベクトル
信号Eijを求めてトータル誤差計算回路211に与え
るものである。
【0029】エンベロープ誤差計算回路210は、入力
原音声ベクトル信号Soに対するエンベロープ(包絡
線)ベクトルVoと、合成フィルタ206からの合成音
声ベクトルSijに対するエンベロープベクトルVij
とを求める。このようなエンベロープの説明を図5に示
している。この図5において、曲線51は、音声信号の
パワーを表す曲線であり、曲線52がパワーエンベロー
プを表す曲線である。
【0030】これらのエンベロープベクトルVo、Vi
jは、入力原音声ベクトル信号So、合成音声ベクトル
信号Sijの各成分の絶対値を例えば、次のような伝達
関数の式(1)で表し得るデジタルロウパスフィルタで
演算処理することによって得ることができるのである。 (1−b)/(1−b・Z−1) 0<b<1 …(1)。
【0031】この式(1)の伝達関数を実現するフィル
タは、図4のような構成で実現することができる。この
図4において、フィルタは、入力信号に対して乗算器4
1で係数(1−b)を乗算し、この乗算結果に対して、
乗算器44からの乗算結果とを加算して、加算結果を出
力すると共に遅延回路(Z−1)43に与え、遅延回路
43は、遅延信号を乗算器44に与え、ここで係数bを
乗算する。このような構成でロウパスフィルタ処理を行
うものである。
【0032】更に、エンベロープ誤差計算回路210
は、求めたエンベロープベクトルVo、Vijとの差分
ベクトル信号を求め、この差分ベクトル信号の各成分の
2乗和ベクトル信号Rijを求めてトータル誤差計算回
路211に与える。
【0033】このようなエンベロープ誤差計算を行うこ
とによって、合成音声ベクトル信号Sijを入力原音声
ベクトル信号Soに精度良く近付けることができるので
ある。
【0034】トータル誤差計算回路211は、2乗誤差
計算回路209からの2乗和ベクトル信号Eijと、エ
ンベロープ誤差計算回路210からの2乗和ベクトル信
号Rijとからトータル誤差ベクトル信号Tijを求め
る。このトータル誤差ベクトル信号Tijは、例えば、
次のような式(2)で表される方法で求めることが好ま
しい。 Tij=d・Eij+(1−d)・Rij 0<d<1 …(2)。
【0035】ここで、トータル誤差ベクトル信号Tij
を、2乗和ベクトル信号Eijの影響を優位にする場合
は、dを大きく設定し、2乗和ベクトル信号Rijの影
響を優位にする場合は、dを小さく設定することが好ま
しい。
【0036】更に、トータル誤差ベクトル信号Tijの
値が、最小となるi、jの組み合わせを探索して、最小
組み合わせi、jをトータル誤差ベクトル最適インデッ
クスI、Jとし、この最適インデックスIを駆動音源符
号帳203に与え、他方の最適インデックスJをゲイン
テーブル205に与え、両方のトータル誤差ベクトル最
適インデックスI、Jを多重化回路212に与えるもの
である。
【0037】このようなトータル誤差計算を行うことに
よって、エンベロープ誤差計算回路210の処理効果に
加え、更に合成音声ベクトル信号Sijのパワー変動を
入力原音声ベクトル信号Soのパワー変動に精度良く近
付けるための、最適インデックスI、Jを求めることが
できるのである。
【0038】多重化回路212は、声道予測係数量子化
・逆量子化部202からの声道予測係数インデックス値
Lと、トータル誤差計算回路211からのトータル誤差
ベクトル最適インデックスI、Jとを多重化して、この
多重化によって得られた信号をトータルコード信号Wと
してトータルコード出力端子213に出力するものであ
る。
【0039】(音声符号化装置の動作): 次に図1
の音声符号化装置の動作を説明する。先ず、入力原音声
ベクトル信号Soは、声道分析部201に与えられて、
ここで声道予測係数(LPC係数)aが求められて、声
道予測係数量子化・逆量子化部202に与えられる。声
道予測係数(LPC係数)aは、声道予測係数量子化・
逆量子化部202に与えられると、ここで声道予測係数
(LPC係数)aに対する量子化が行われて、この量子
化値に対する声道予測係数インデックス値Lが生成され
て、多重化回路212に与えられる。同時にこの量子化
値に対する逆量子化値が求められて、この逆量子化値
(LPC係数を意味している。)aqが合成フィルタ2
06に与えられる。
【0040】一方、駆動音源符号帳203は、初期的に
は所定のいずれかの駆動音源ベクトルCi(i=1〜N
のいずれか)を読み出し、また、ゲインテーブル205
も同様に初期的には所定のいずれかのゲイン情報gj
(j=1〜Mのいずれか)を読み出して乗算器204に
与えるので、乗算器204によってこれらの乗算が行わ
れて、乗算結果ベクトル信号Cgijが合成フィルタ2
06に与えられる。
【0041】乗算結果ベクトル信号Cgijと、逆量子
化値aqとによって合成フィルタ206によってデジタ
ルフィルタ処理されて、合成音声ベクトル信号Sijが
求められ、減算器207とエンベロープ誤差計算回路2
10とに与えられる。合成音声ベクトル信号Sijと入
力原音声ベクトル信号Soとの差分が減算器207で求
められ、差分ベクトル信号eijは聴覚重み付けフィル
タ208に与えられる。
【0042】差分ベクトル信号eijは聴覚重み付けフ
ィルタ208で、聴覚特性に応じた重み付け処理が施こ
されて、聴覚重み付けベクトル信号wijが2乗誤差計
算回路209に与えられる。聴覚重み付けベクトル信号
wijは、2乗誤差計算回路209で、ベクトル信号の
各成分に対する2乗和ベクトル信号Eijが求められて
トータル誤差計算回路211に与えられる。
【0043】一方、入力原音声ベクトル信号Soと、合
成音声ベクトル信号Sijとがエンベロープ誤差計算回
路210に与えられると、入力原音声ベクトル信号So
に対するエンベロープベクトルVoと、合成音声ベクト
ルSijに対する各成分の絶対値が求められ、更に上述
の式(1)で表し得るデジタルロウパスフィルタで処理
することによってエンベロープベクトルVijとが求め
られ、更に、エンベロープベクトルVo、Vijとの差
分ベクトル信号が求められ、そして、更にこの差分ベク
トル信号に対する各成分の2乗和ベクトル信号Rijが
求められてトータル誤差計算回路211に与えられる。
【0044】エンベロープ誤差計算回路210からの2
乗和ベクトル信号Rijと、2乗誤差計算回路209か
らの2乗和ベクトル信号Eijとがトータル誤差計算回
路211に与えられると、上述の式(2)のような演算
方法で、トータル誤差ベクトル信号Tijが求められ
る。そして、トータル誤差ベクトル信号Tijの値が、
最小となるi、jの組み合わせが探索されて、最小組み
合わせi、jがトータル誤差ベクトル最適インデックス
I、Jとし、この最適インデックスIが駆動音源符号帳
203に与えられ、他方の最適インデックスJがゲイン
テーブル205に与えられ、両方のトータル誤差ベクト
ル最適インデックスI、Jが多重化回路212に与えら
れる。
【0045】トータル誤差ベクトル最適インデックスI
は、駆動音源符号帳203に与えられると、対応するイ
ンデックスの駆動音源ベクトルCiが読み出されて再び
乗算器204に与えられる。同時にトータル誤差ベクト
ル最適インデックスJは、ゲインテーブル205に与え
られると、対応するインデックスのゲイン情報gjが読
み出されて再び乗算器204に与えられる。更に同時に
両方のトータル誤差ベクトル最適インデックスI、J
は、多重化回路212に与えられ、ここで、声道予測係
数インデックス値Lと一緒に多重化されてトータルコー
ド信号Wが形成されてトータルコード出力端子213に
出力されるのである。
【0046】(本発明の第1の実施の形態の効果):
以上の本発明の実施の形態によれば、CELP型符号
化方式において、最適駆動音源信号選択時にエンベロー
プ情報を加味することによって、聴感的な自然性を損な
うことなく合成音声信号を生成することが可能である。
【0047】具体的には、合成音声信号のパワーエンベ
ロープ信号と、入力原音声信号のパワーエンベロープ信
号との比較を行って、これらのパワーエンベロープ信号
の誤差信号と、聴覚重み付け信号とから最適インデック
スを選択するように構成し、符号帳からの符号コードを
最適に修正でき、これによって得られる合成音声信号の
パワーエンベロープを、入力原音声信号のパワーエンベ
ロープに非常に近くすることができる。しかも、エンベ
ロープを一致させるように動作するので、聴感も原音声
に一致させるようにすることができる。
【0048】このため、入力原音声信号に非常に一致し
得る符号コードや、インデックス情報などを得ることが
できる。これらの情報や声道予測係数などを符号化装置
の出力信号として復号化装置に送ることで、再生音声を
従来に比べ非常に忠実に再生し得るのである。
【0049】『第2の実施の形態』:本第2の実施の形
態では、本発明をマルチパルス型音声符号化装置に適用
する場合の構成を説明する。
【0050】図3は第2の実施の形態の音声符号化装置
の機能構成図である。この図3において、音声符号化装
置は、声道分析部201と、声道予測係数量子化・逆量
子化部202と、パルス駆動音源生成器303と、乗算
器204と、ゲインテーブル205と、合成フィルタ2
06と、加算器207と、聴覚重み付けフィルタ208
と、2乗誤差計算回路209と、エンベロープ誤差計算
回路210と、トータル誤差計算回路211と、多重化
回路212とから構成されている。上述の第1の実施の
形態の音声符号化装置と同じ機能構成の部分について
は、同じ符号を付しているので詳細な説明を省略する。
【0051】この図3の第2の実施の形態の音声符号化
装置の構成において、上述の第1の実施の形態の音声符
号化装置と特徴的に異なる構成は、駆動音源符号帳20
3に代わってパルス駆動音源生成器303を備えている
ことである。
【0052】原音声ベクトル信号Soは、原音声ベクト
ル入力端子200に印加される。音声符号化データはト
ータルコードWとしてトータルコード出力端子213か
ら出力される。
【0053】パルス駆動音源生成器303は、予めパル
ス性コードをインデックスI対応で格納していて、この
パルス性コードは孤立インパルスからなる波形コードで
ある。このパルス性コードは、周期性の強い有声音の立
ち上がりや、パルス性が明確な有声音の定常部分に寄与
させることを考慮したものである。パルス性の音源信号
は、周期性を有する単純な信号であるのでパルス信号発
生部が発生する信号を採用することも考えられるが、イ
ンデックス対応でコード化してコードブックから読み出
すことで、インデックス番号だけを多重化処理すればよ
いので、多重化処理が容易となる。
【0054】具体的には、パルス駆動音源生成器303
は、トータル誤差計算回路211から与えられるトータ
ル誤差ベクトル最適インデックスIを与えられると、対
応するパルス駆動音源ベクトルPCiを読み出して乗算
器204に与えるものである。
【0055】(音声符号化装置の動作): 次に図3
の音声符号化装置の動作を説明する。先ず、入力原音声
ベクトル信号Soは、声道分析部201に与えられて、
ここで声道予測係数(LPC係数)aが求められて、声
道予測係数量子化・逆量子化部202に与えられる。声
道予測係数(LPC係数)aは、声道予測係数量子化・
逆量子化部202に与えられると、ここで声道予測係数
(LPC係数)aに対する量子化が行われて、この量子
化値に対する声道予測係数インデックス値Lが生成され
て、多重化回路212に与えられる。同時にこの量子化
値に対する逆量子化値が求められて、この逆量子化値
(LPC係数を意味している。)aqが合成フィルタ2
06に与えられる。
【0056】一方、パルス駆動音源生成器303は、初
期的には所定のいずれかのパルス駆動音源ベクトルPC
i(i=1〜Nのいずれか)を読み出し、また、ゲイン
テーブル205も同様に初期的には所定のいずれかのゲ
イン情報gj(j=1〜Mのいずれか)を読み出して乗
算器204に与えるので、乗算器204によってこれら
の乗算が行われて、乗算結果ベクトル信号Cgijが合
成フィルタ206に与えられる。
【0057】乗算結果ベクトル信号Cgijと、逆量子
化値aqとによって合成フィルタ206によってデジタ
ルフィルタ処理されて、合成音声ベクトル信号Sijが
求められ、減算器207とエンベロープ誤差計算回路2
10とに与えられる。合成音声ベクトル信号Sijと入
力原音声ベクトル信号Soとの差分が減算器207で求
められ、差分ベクトル信号eijは聴覚重み付けフィル
タ208に与えられる。
【0058】差分ベクトル信号eijは聴覚重み付けフ
ィルタ208で、聴覚特性に応じた重み付け処理が施こ
されて、聴覚重み付けベクトル信号wijが2乗誤差計
算回路209に与えられる。聴覚重み付けベクトル信号
wijは、2乗誤差計算回路209で、ベクトル信号の
各成分に対する2乗和ベクトル信号Eijが求められて
トータル誤差計算回路211に与えられる。
【0059】一方、入力原音声ベクトル信号Soと、合
成音声ベクトル信号Sijとがエンベロープ誤差計算回
路210に与えられると、入力原音声ベクトル信号So
に対するエンベロープベクトルVoと、合成音声ベクト
ルSijに対する各成分の絶対値が求められ、更に上述
の式(1)で表し得るデジタルロウパスフィルタで処理
することによってエンベロープベクトルVijとが求め
られ、更に、エンベロープベクトルVo、Vijとの差
分ベクトル信号が求められ、そして、更にこの差分ベク
トル信号に対する各成分の2乗和ベクトル信号Rijが
求められてトータル誤差計算回路211に与えられる。
【0060】エンベロープ誤差計算回路210からの2
乗和ベクトル信号Rijと、2乗誤差計算回路209か
らの2乗和ベクトル信号Eijとがトータル誤差計算回
路211に与えられると、上述の式(2)のような演算
方法で、トータル誤差ベクトル信号Tijが求められ
る。そして、トータル誤差ベクトル信号Tijの値が、
最小となるi、jの組み合わせが探索されて、最小組み
合わせi、jがトータル誤差ベクトル最適インデックス
I、Jとし、この最適インデックスIが駆動音源符号帳
203に与えられ、他方の最適インデックスJがゲイン
テーブル205に与えられ、両方のトータル誤差ベクト
ル最適インデックスI、Jが多重化回路212に与えら
れる。
【0061】トータル誤差ベクトル最適インデックスI
は、パルス駆動音源生成器303に与えられると、対応
するインデックスのパルス駆動音源ベクトルPCiが読
み出されて再び乗算器204に与えられる。同時にトー
タル誤差ベクトル最適インデックスJは、ゲインテーブ
ル205に与えられると、対応するインデックスのゲイ
ン情報gjが読み出されて再び乗算器204に与えられ
る。更に同時に両方のトータル誤差ベクトル最適インデ
ックスI、Jは、多重化回路212に与えられ、ここ
で、声道予測係数インデックス値Lと一緒に多重化され
てトータルコード信号Wが形成されてトータルコード出
力端子213に出力されるのである。
【0062】(本発明の第2の実施の形態の効果):
以上の本発明の実施の形態によれば、マルチパルス型
符号化方式において、最適駆動音源信号選択時にエンベ
ロープ情報を加味することによって、聴感的な自然性を
損なうことなく合成音声信号を生成することが可能であ
る。
【0063】具体的には、合成音声信号のパワーエンベ
ロープ信号と、入力原音声信号のパワーエンベロープ信
号との比較を行って、これらのパワーエンベロープ信号
の誤差信号と、聴覚重み付け信号とから最適インデック
スを選択するように構成し、符号帳からの符号コードを
最適に修正でき、これによって得られる合成音声信号の
パワーエンベロープを、入力原音声信号のパワーエンベ
ロープに非常に近くすることができる。しかも、エンベ
ロープを一致させるように動作するので、聴感も原音声
に一致させるようにすることができる。
【0064】このため、入力原音声信号に非常に一致し
得る符号コードや、インデックス情報などを得ることが
できる。これらの情報や声道予測係数などを符号化装置
の出力信号として復号化装置に送ることで、再生音声を
従来に比べ非常に忠実に再生し得るのである。
【0065】(他の実施の形態): (1)尚、以上
の実施の形態においては、フォワード型の音声符号化装
置の構成を示したが、本発明はAbS法を適用するバッ
クワード型の音声符号化装置の構成にも容易に適用する
ことができる。即ち、図1において、バックワード型の
構成で適用する場合は、声道分析部201に原音声ベク
トル信号を与えず、代わりに合成フィルタ206で生成
した合成音声ベクトル信号Sijを声道分析部201に
与えることで実現することができる。図3においても同
様の構成でバックワード型の構成を実現することができ
る。VSELP(Vector Sum Excite
d Linear Prediction:ベクトル和
励振線形予測)、LD−CELP、CS−CELP、P
SI(Pitch Synchronous Inno
vation)−CELPなどにも適用することができ
る。
【0066】(2)また、駆動音源符号帳203は、具
体的には、例えば、適応符号コードや、統計符号コード
や、雑音性符号コードなどから構成することが好まし
い。
【0067】(3)更に、受信側の復号化装置の構成と
しては、例えば、特開平5−73099号公報、特開平
6−130995号公報、特開平6−130998号公
報、特開平7−134600号公報、特開平6−130
996号公報などに開示されている復号化装置の構成を
若干修正することで適用することができる。
【0068】
【発明の効果】以上述べた様に本発明は、合成音声信号
からパワーエンベロープ信号を求め、入力音声信号から
パワーエンベロープ信号を求めて、これらのパワーエン
ベロープ信号の比較を行って、これらのパワーエンベロ
ープ信号の誤差信号を推定するパワーエンベロープ誤差
推定手段を備え、符号帳インデックス選定手段が、誤差
信号と上記聴覚重み付け信号とから最適インデックスを
選定して駆動音源符号帳に与えることで、聴感的な自然
性を損なわずに、入力音声信号に忠実に一致し得る合成
音声信号を再生し得る音声符号化装置を実現することが
できるのである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態のCELP型音声符
号化装置の機能構成図である。
【図2】従来例のAbS法の説明図である。
【図3】本発明の第2の実施の形態のマルチパルス型音
声符号化装置の機能構成図である。
【図4】第1の実施の形態のエンベロープ誤差計算回路
210のロウパスフィルタの
【図5】第1の実施の形態のエンベロープの説明図であ
る。
【符号の説明】
200…原音声ベクトル入力端子、201…声道分析
部、202…声道予測係数量子化・逆量子化部、203
…駆動音源符号帳、204…乗算器、205…ゲインテ
ーブル、206…合成フィルタ、207…減算器、20
8…聴覚重み付けフィルタ、209…2乗誤差計算回
路、210…エンベロープ誤差計算回路、211…トー
タル誤差計算回路、212…多重化回路。

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声信号に対してAbS法を用いて
    フォワード型構成又はバックワード型構成で音声符号化
    する音声符号化装置であって、入力音声信号又は局部再
    生の合成音声信号から声道予測係数を求める声道予測係
    数生成手段と、駆動音源符号帳にインデックス対応で格
    納されている符号コードと、上記声道予測係数とを用い
    て、合成音声信号を生成する音声合成手段と、この合成
    音声信号と上記入力音声信号との比較を行って差分信号
    を出力する比較手段と、この差分信号に対して聴覚重み
    付けを行って聴覚重み付け信号を得る聴覚重み付け手段
    と、少なくとも上記聴覚重み付け信号から上記駆動音源
    符号帳用の最適インデックスを選定して、上記駆動音源
    符号帳に与える符号帳インデックス選定手段とを備えた
    音声符号化装置において、 上記合成音声信号からパワーエンベロープ信号を求め、
    上記入力音声信号からパワーエンベロープ信号を求め
    て、これらのパワーエンベロープ信号の比較を行って、
    これらのパワーエンベロープ信号の誤差信号を推定する
    パワーエンベロープ誤差推定手段を備え、 上記符号帳インデックス選定手段は、上記誤差信号と上
    記上記聴覚重み付け信号とから最適インデックスを選定
    して上記駆動音源符号帳に与えることを特徴とする音声
    符号化装置。
  2. 【請求項2】 パワーエンベロープ誤差推定手段は、上
    記2種類のパワーエンベロープ信号に対して低域通過処
    理を行って上記誤差信号を得ることを特徴とする請求項
    1記載の音声符号化装置。
  3. 【請求項3】 上記符号帳インデックス選定手段は、上
    記誤差信号と上記上記聴覚重み付け信号とのいずれか一
    方を優位的に処理して上記最適インデックスを選定する
    ことを特徴とする請求項1又は2記載の音声符号化装
    置。
JP32850595A 1995-12-18 1995-12-18 音声符号化装置 Expired - Fee Related JP3481027B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP32850595A JP3481027B2 (ja) 1995-12-18 1995-12-18 音声符号化装置
US08/763,439 US5905970A (en) 1995-12-18 1996-12-11 Speech coding device for estimating an error of power envelopes of synthetic and input speech signals
DE69624207T DE69624207T2 (de) 1995-12-18 1996-12-12 Sprachkodierer mit Vorrichtung zur Abschätzung der Abweichung des Leistungsverlaufs eines synthetischen Signals von einem Eingangssignal
EP96309062A EP0780832B1 (en) 1995-12-18 1996-12-12 Speech coding device for estimating an error in the power envelopes of synthetic and input speech signals
CN96123139A CN1159044A (zh) 1995-12-18 1996-12-18 声音编码装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32850595A JP3481027B2 (ja) 1995-12-18 1995-12-18 音声符号化装置

Publications (2)

Publication Number Publication Date
JPH09167000A JPH09167000A (ja) 1997-06-24
JP3481027B2 true JP3481027B2 (ja) 2003-12-22

Family

ID=18211030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32850595A Expired - Fee Related JP3481027B2 (ja) 1995-12-18 1995-12-18 音声符号化装置

Country Status (5)

Country Link
US (1) US5905970A (ja)
EP (1) EP0780832B1 (ja)
JP (1) JP3481027B2 (ja)
CN (1) CN1159044A (ja)
DE (1) DE69624207T2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
EP1801785A4 (en) * 2004-10-13 2010-01-20 Panasonic Corp MODULAR ENCODER, MODULAR DECODER AND MODULATING CODING METHOD
KR20060067016A (ko) * 2004-12-14 2006-06-19 엘지전자 주식회사 음성 부호화 장치 및 방법
CN105007094B (zh) * 2015-07-16 2017-05-31 北京中宸泓昌科技有限公司 一种指数对扩频编码解码方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JP3073283B2 (ja) * 1991-09-17 2000-08-07 沖電気工業株式会社 励振コードベクトル出力回路
JP3088204B2 (ja) * 1992-10-16 2000-09-18 沖電気工業株式会社 コード励振線形予測符号化装置及び復号化装置
JPH06130995A (ja) * 1992-10-16 1994-05-13 Oki Electric Ind Co Ltd 統計コードブック及びその作成方法
JPH06130998A (ja) * 1992-10-22 1994-05-13 Oki Electric Ind Co Ltd 圧縮音声復号化装置
FI96247C (fi) * 1993-02-12 1996-05-27 Nokia Telecommunications Oy Menetelmä puheen muuntamiseksi
SG43128A1 (en) * 1993-06-10 1997-10-17 Oki Electric Ind Co Ltd Code excitation linear predictive (celp) encoder and decoder
JP3262652B2 (ja) * 1993-11-10 2002-03-04 沖電気工業株式会社 音声符号化装置及び音声復号化装置
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms

Also Published As

Publication number Publication date
DE69624207D1 (de) 2002-11-14
EP0780832A3 (en) 1998-09-09
CN1159044A (zh) 1997-09-10
DE69624207T2 (de) 2003-07-31
JPH09167000A (ja) 1997-06-24
EP0780832B1 (en) 2002-10-09
US5905970A (en) 1999-05-18
EP0780832A2 (en) 1997-06-25

Similar Documents

Publication Publication Date Title
JP4550289B2 (ja) Celp符号変換
JP2003044098A (ja) 音声帯域拡張装置及び音声帯域拡張方法
JPH09152896A (ja) 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
JPH02249000A (ja) 音声符号化方式
JP3266178B2 (ja) 音声符号化装置
US7486719B2 (en) Transcoder and code conversion method
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JPH10124089A (ja) 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法
JP3481027B2 (ja) 音声符号化装置
JP3531780B2 (ja) 音声符号化方法および復号化方法
Hagen et al. Voicing-specific LPC quantization for variable-rate speech coding
JP3490324B2 (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JPH0782360B2 (ja) 音声分析合成方法
JP4438280B2 (ja) トランスコーダ及び符号変換方法
JP4433668B2 (ja) 帯域拡張装置及び方法
JP3583945B2 (ja) 音声符号化方法
JP3510168B2 (ja) 音声符号化方法及び音声復号化方法
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3552201B2 (ja) 音声符号化方法および装置
JP3578933B2 (ja) 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体
JP2853170B2 (ja) 音声符号化復号化方式
JP3192051B2 (ja) 音声符号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP3192999B2 (ja) 音声符号化方法および音声符号化方法
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081010

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081010

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091010

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101010

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees