JP2992998B2 - 音声符号化復号化装置 - Google Patents

音声符号化復号化装置

Info

Publication number
JP2992998B2
JP2992998B2 JP63237727A JP23772788A JP2992998B2 JP 2992998 B2 JP2992998 B2 JP 2992998B2 JP 63237727 A JP63237727 A JP 63237727A JP 23772788 A JP23772788 A JP 23772788A JP 2992998 B2 JP2992998 B2 JP 2992998B2
Authority
JP
Japan
Prior art keywords
signal
pitch
sound source
pulse
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63237727A
Other languages
English (en)
Other versions
JPH0284700A (ja
Inventor
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP63237727A priority Critical patent/JP2992998B2/ja
Priority to CA000612254A priority patent/CA1333425C/en
Priority to EP89117463A priority patent/EP0360265B1/en
Priority to US07/410,459 priority patent/US5018200A/en
Priority to DE68912692T priority patent/DE68912692T2/de
Publication of JPH0284700A publication Critical patent/JPH0284700A/ja
Application granted granted Critical
Publication of JP2992998B2 publication Critical patent/JP2992998B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声信号を低いビットレート、特に4.8kb/s
程度で、比較的すくない演算量により高品質に符号化す
るための音声符号化復号化装置に関する。
(従来の技術) 音声信号を4.8kb/s程度の低いビットレートで符号化
する方式としては、例えば特願昭59−272435(文献1)
や特願昭60−178911(文献2)等に記載されているピッ
チ補間マルチパルス法が知られている。この方法では、
送信側では、フレーム毎の音声信号から音声信号のスペ
クトル特性を表すスペクトルパラメータとピッチを表す
ピッチパラメータを抽出し、音声信号を有声区間と無声
区間との2種類に分類し、有声区間では1フレームの音
源信号と、1フレームをピッチ区間毎に分割した複数個
のピッチ区間のうちの一つのピッチ区間(代表区間)に
ついてマルチパルスで表し、代表区間におけるマルチパ
ルスの振幅、位置とスペクトル、ピッチパラメータを伝
送する。また、無声区間では1フレームの音源を少数の
マルチパルスと雑音信号で表しマルチパルスの振幅、位
置と雑音信号のゲイン、インデクスを伝送する。受信側
では、有声区間では、現フレームの代表区間のマルチパ
ルスと隣接フレームの代表区間のマルチパルスとを用い
てマルチパルス同志の振幅と位置を補間して代表区間以
外のピッチ区間のマルチパルスを復元しフレームの駆動
音源信号を復元する。また、無声区間ではマルチパルス
と雑音信号のインデクス、ゲインを用いてフレームの駆
動音源信号を復元する。さらに、復元した駆動音源信号
を、スペクトルパラメータを用いた合成フィルタに入力
して合成音声信号を出力する。
(発明が解決しようとする問題点) しかしながら、上述した従来方式では、有声区間では
代表区間のマルチパルス同志の補間によりフレームの駆
動音源信号を復元しているので、母音連鎖のように母音
から母音へ遷移する部分や有声の過渡部など、音源信号
の特性が変化しているフレームでは、補間により復元し
た駆動音源信号は実際の音源信号とは大きく異なり、そ
の結果合成音声の音質が劣化していた。また、有声区間
でも鼻音区間では、音源信号に明確な周期性が現れない
ので、前記ピッチ補間の方法では良好に音源信号を表す
ことができなかった。一方、このように音声の特性が大
きく変化する部分は、音韻知覚や自然性の知覚に非常に
重要であることが知覚実験から知られているが、従来方
式ではこれらの部分の情報が十分に復元できないので音
質が劣化するという大きな問題点があった。また、無声
区間ではマルチパルスと雑音を用いて音源信号を表して
いるが、子音区間でも摩擦音は音源は雑音性となるが、
破裂音ではパルス的な部分が多くなるため、従来方式の
ように、音声信号を単純に有声と無声との2種に分類し
て表しているのみでは、良好な合成音声が得られないと
いう問題点があった。
本発明の目的は、上述した問題点を解決し、比較的少
ない演算量により4.8kb/s程度で音質の良好な音声符号
化復号化装置を提供することにある。
(問題点を解決するための手段) 本発明による音声符号化装置は、入力した離散的な音
声信号からスペクトル包絡を表すスペクトルパラメータ
とピッチを表すピッチパラメータをフレーム毎に抽出し
符号化するパラメータ計算回路と、前記音声信号の特徴
を表すパラメータを抽出して前記音声信号を複数個の種
類に分類し符号化する判別回路と、前記フレームの音声
信号に対する音源信号として、前記判別回路の出力に応
じて、前記フレームを前記ピッチパラメータに応じた小
区間に分割し前記小区間の一つの区間において求めたマ
ルチパルスと前記マルチパルスに関して振幅あるいは位
相の少なくとも一方を補正するための補正情報を用いる
か、複数種のコードベクトルが格納された音源コードブ
ックから選択したコードベクトルとマルチパルスの少な
くとも一方を用いるかを切り替えて符号化する音源信号
計算回路と、前記パラメータ計算回路の出力符号と前記
判別回路の出力符号と、前記音源信号計算回路の出力符
号とを組み合わせて出力するマルチプレスサ回路とを有
することを特徴とする。
本発明による音声復号化装置は、スペクトルパラメー
タを表す符号とピッチパラメータを表す符号と音源信号
を表す符号と判別信号を表す符号とを入力し分離して復
号化するデマルチプレクサ回路と、前記復号化した判別
信号に応じてフレームを前記復号したピッチパラメータ
に応じた小区間に分割し1つの小区間についてマルチパ
ルスを発生し他のピッチ区間においては前記マルチパル
スの振幅あるいは位相の少なくとも一方を補正するため
の補正情報を用いてマルチパルスを発生させて前記フレ
ームの駆動音源信号を復元するかもしくはコードブック
とマルチパルスの少なくとも一方を用いて前記フレーム
の駆動音源信号を復元する駆動音源信号復元回路と、前
記駆動音源信号と前記復号したスペクトルパラメータと
を用いて合成音声を求め出力する合成フィルタとを有す
ることを特徴とする。
(作用) 本発明による音声符号化復号化装置は、フレームの音
声信号を予め定められた種類に分類する。以下では、一
例として母音性、鼻音性、摩擦性、破裂性の4種に分類
する例について述べるが、この種類は音声生成上の違い
に応じて音源信号を良好に表せるように適切に選択する
必要がある。
まず、音声信号の特徴を表すパラメータを抽出して第
2図のように音声信号を分類する。このパラメータとし
ては、例えば信号のパワあるいはRMS、短時間(例えば5
ms)毎のパワの変化あるいは変化率、短時間毎のスペク
トル変化あるいは変化率、ピッチゲインなどを用いるこ
とができる。
まず、信号のパワあるいはRMSとピッチゲインなどを
用いて母音区間か否かを判別する。母音性区間では、第
3図にしめすように、フレーム区間をあらかじめ求めた
ピッチ周期毎の複数個のピッチ区間に分割し、前記ピッ
チ区間のうちの1つのピッチ区間(代表区間)について
マルチパルスを求める。次に同一フレーム内の他のピッ
チ区間については前記マルチパルスに対する振幅補正係
数ck、位相補正係数dkを求める。そしてフレーム毎に、
音源情報として代表区間のフレーム内のピッチ位置、代
表区間のマルチパルスの振幅、位置と同一フレームの他
のピッチ区間における振幅補正係数Ck、位相補正係数dk
を補正情報として伝送する。代表区間は、最も良好な合
成音声信号が求められる区間を探索して求めてもよい
し、フレーム内で固定としてもよい。音質は前者の方が
良好であるが、演算量は多くなる。
以下で振幅補正係数ck、位相補正係数dkの求め方、代
表区間の探索法を示す。今、フレームで求めた平均ピッ
チ周期をTとする。フレームをT毎のサブフレーム区間
に分割した様子を第3図(a)に示す。ここでは代表区
間を探索する場合について示す。代表区間の候補となる
サブフレーを例えばサブフレームとする。サブフレー
ムについてあらかじめ定められた個数Lのマルチパル
スの振幅、位置を求める。マルチパルスの求め方につい
ては、相互相関関数Фxhと自己相関関数Rhhを用いて求
める方法が知られており、これが例えば前記文献1,2
や、Araseki,Ozawa,Ono,Ocihai氏による“Multi−pules
e Excited Speech Coder Based on Maximum Cross−co
rrelation Search Algorithm,"(GLOBECOM83,IEEE Glo
bal Telecommunications Confereence,講演番号23.3、1
983)(文献3)に記載されているのでここでは説明を
省略する。
代表区間のマルチパルスの振幅、位置をそれぞれgi
mi(i=1〜L)とする。これを第3図(b)に示す。
代表区間以外の区間kにおける振幅補正係数ck、位相補
正係数dkは、これらと合成フィルタをもちいて区間kに
ついて合成した合成音声xk(n)と、該当区間の音声xk
(n)との重みずけ誤差電力Ekを最小化するように求め
ることができる。重みずけ誤差電力Ekただし ここで、w(n)は聴感重みずけフィルタのインパルス
応答を示す。ただしこのフィルタはなくてもよい。また
h(n)は音声を合成するための合成フィルタのインパ
ルス応答を示す。ck、dkは(1)式を最小化するように
求めることができる。このためには例えばまずdkを固定
して、(1)式をckについて偏微分して0とおき、次式
を得る。
ここで 従って(3)式の値を種々のdkの値について求め、
(3)式のckを最小化するdk、ckの組合せを求めること
により(1)式のEkは最小化される。このようにして、
代表区間以外のピッチ区間に対してck、dkを求めフレー
ム全体に対して次式で定義される重みずけ誤差電力Eを
求める。
ここでNは該当フレームに含まれるサブフレームの個
数である。ただし、代表ピッチ区間(第3図の例ではサ
ブフレーム区間)の重みずけ誤差電力E2は次式で求め
る。
代表ピッチ区間の探索は、全ての代表ピッチ区間の候
補について、(1)〜(6)式の値を計算し、(5)式
の誤差電力の値を最も小さくする区間を代表ピッチ区間
とすることができる。第3図(c)に探索後の代表ピッ
チ区間がサブフレームであった場合について、代表区
間のマルチパルスと、代表区間以外のk番目の区間(第
3図(c)ではk=1,2,4,5)の音源vk(n)を振幅、
位相補正係数を用いて次式に従い発生させた例を示す。
次に、鼻音区間では母音区間ほど音源のピッチ毎の周
期性が強くないと予想されるので、上述の方法ではな
く、ピッチ予測マルチパルスやマルチパルスにより音源
を表す。ここでピッチ予測マルチパルスの求め方として
は、特願昭59−13(文献4)を参照することができる。
また、マルチパルスの求め方は前記文献3を参照でき
る。なお、鼻音区間の判別法は、例えばパワあるいはRM
S、ピッチゲイン、次式で定義される第1次の対数断面
積比r1を用いることができる。特に鼻音区間ではr1が大
きくなる特徴がある。
ここでK1は1次目のKパラメータ(PARCORとも呼ぶ)
である。
一方、子音区間では音源をマルチパルス、あるいはマ
ルチパルスと雑音の組合せで表している。子音区間で
は、摩擦性か破裂性かを判別し、摩擦性の場合はマルチ
パルスと雑音あるいはコードブックで音源を表す。具体
的な方法は前記文献2等を参照できる。また、破裂性の
場合は、音源をマルチパルスで表す。摩擦性と破裂性の
判別法としては、短時間(例えば5ms)毎のパワ、低域
と高域のパワの比あるいはRMSの変化や変化率などのパ
ラメータを用いることができる。
(実施例) 第1図(a),(b)は本発明による音声符号化復号
化装置の実施例を示すブロック図である。第1図(a)
は送信側、第1図(b)に受信側を示している。
送信側では、入力端子100から音声信号を入力し、1
フレーム分(例えば20ms)音声信号をバッファメモリ11
0に格納する。ピッチ分析回路130は、フレームの音声信
号から平均ピッチ周期Tを計算する。この方法としては
例えば自己相関法にもとづく方法が知られており、詳細
は前記文献1,2のピッチ抽出回路を参照することができ
る。また、この方法以外にも他の衆知な方法(例えば、
ケプストラム法、SIFT法、変相関法など)を用いること
ができる。ピッチ符号化回路150は平均ピッチ周期Tを
あらかじめ定められたビット数で量子化して得た符号を
マルチプレクサ260へ出力するとともに、これを復号化
して得た復号ピッチ周期T′を音源信号計算回路220、
補間回路282、駆動信号復元回路283へ出力する。
Kパラメータ計算回路140は、フレームの音声信号の
スペクトル特性を表すパラメータとして、Kパラメータ
を前記フレームの音声信号から衆知のLPC分析を行いあ
らかじめ定められた次数Mだけ計算する。この具体的な
計算法については前記文献1,2のKパラメータ計算回路
を参照することができる。なお、KパラメータはPARCOR
係数と同一のものである。Kパラメータ符号化回路160
は前記Kパラメータを予め定められた量子化ビット数で
量子化して得た符号lkをマルチプレクサ260へ出力する
とともに、これを復号化してさらに線形予測係数ai
(i=1〜M)に変換して重みずけ回路200、補間回路2
82へ出力する。Kパラメータの符号化、Kパラメータか
ら線形予測係数への変換方法については前記文献1、2
等を参照することができる。
インパルス応答計算回路170は、前記線形予測係数
ai′を用いて聴感重みずけを行った合成フィルタのイン
パルス応答hw(n)を計算しこれを自己相関関数計算回
路180へ出力する。自己相関関数計算回路180は前記イン
パルス応答の自己相関関数Rhh(n)を予め定められた
遅れ時間まで計算して出力する。インパルス応答計算回
路170、自己相関関数計算回路180の動作は前記文献1,2
等を参照することができる。
減算器190は、フレームの音声信号x(n)から合成
フィルタ281の出力を1フレーム分減算し減算結果を重
みずけ回路200へ出力する。重みずけ回路200は前記減算
結果をインパルス応答w(n)で表される聴感重みずけ
フィルタに通し重みずけ信号xw(n)を得てこれを出力
する。重みずけの方法は前記文献1,2等を参照できる。
相互相関関数計算回路210は、xw(n)とhw(n)を
入力して相互相関関数Фxhを予め定められた遅れ時間ま
で計算し出力する。この計算法は前記文献1,2等を参照
できる。
判別回路215は、フレームの音声信号の種類を判別す
る。ここでは一例として作用の項で述べたように、母音
性、鼻音性、摩擦性、破裂性の4種に分類することにす
るが、分類数は4種に限られるわけではなく、他の分類
法を用いることもできる。これらの判別には、作用の項
で述べたように、フレームの音声信号のパワやRMS、ピ
ッチゲイン、短時間毎のパワあるいはRMSの変化、フレ
ーム間のスペクトル変化などを用いることができる。こ
れらのパラメータを用いて判別した種類は音源信号計算
回路220、マルチプレクサ260へ出力される。
音源信号計算回路220では、母音性の判別は、パワあ
るいはRMSが予め定められたしきい値以上でピッチゲイ
ンが予め定められたしきい値以上であることで判別す
る。この場合は、前記作用の項で説明したように、復号
化した平均ピッチ周期T′を用いてフレームをあらかじ
めピッチ周期毎のサブフレーム(ピッチ区間)に分割
し、音源信号として、代表的な1ピッチ区間(代表区
間)の候補となるいくつかのピッチ区間に対してマルチ
パルスの位置miと振幅giを求める。
次に振幅、位相補正回路270は、前記作用の項の
(3),(4)式に従い、他のピッチ区間kにおける音
源信号発生のためのマルチパルスの振幅補正係数ck、位
相補正係数dkを計算する。さらにこれらの値を音源信号
計算回路220へ出力し、音源信号計算回路220では前記作
用の項で述べた(1),(5),(6)式に基づき、い
くつかの候補区間についてフレーム全体の誤差電力Eを
計算し、Eを最も小さくするピッチ区間を代表区間とし
て選択し、代表区間のサブフレーム番号を示す情報P1
代表区間のマルチパルスの振幅gi、位置mi(i=1〜
L)、及び他の区間の振幅補正係数ck、位相補正係数dk
を出力する。
次に鼻音性の判別は、ピッチゲインがあらかじめ定め
られたしきい値よりも大きく、1次目の対数断面積比が
予め定められたしきい値よりも大きいことで判別する。
この場合は、フレーム区間全体に対して、例えばマルチ
パルスを求める。
一方、子音区間では、摩擦性と破裂性の判別は例え
ば、短時間(例えば5ms)毎のスペクトルの変化や短時
間(例えば5ms程度)毎のパワあるいはRMSの変化が予め
定められたしきい値よりも大きければ破裂性、そうでな
ければ摩擦性と判別する。摩擦性の判別には、低減(例
えば1kHz以下)と高域(例えば2kHz以上)のパワあるい
はRMSの比を用いることもできる。
摩擦性の場合は、予め定められた個数のマルチパルス
と雑音信号あるいはコードブックで音源信号を表す。具
体的な方法は前記文献1,2を参照することができる。ま
ずあらかじめ定められた個数のマルチパルスを求めた後
に、雑音メモリに複数種類格納されている雑音信号ある
いはコードブックの種類を表すインデクスとゲインを求
める。これらの計算はフレームを予め定められた区間長
に分割したサブフレーム毎に行う。この場合音源信号と
して伝送するのは、マルチパルスの振幅、位置と雑音信
号のインデスとゲインである。
また、破裂性の場合は、フレーム全体で予め定められ
た個数のマルチパルスの振幅と位置を求める。
符号化回路230は、母音性の場合、代表区間のマルチ
パルスの振幅gi、位置miを予め定められたビット数で符
号化して出力する。また、代表区間のサブフレーム位置
を示す情報P1、振幅補正係数ck、位相補正係数dkを予め
定められたビット数で符号化してマルチプレクサ260へ
出力する。さらに、これらを復号化して駆動信号復元回
路283へ出力する。鼻音性、破裂性の場合はマルチパル
スの振幅、位置を符号化してマルチプレクサ260へ出力
するとともに復号化して駆動音源復元回路283へ出力す
る。また摩擦性の場合は、マルチパルスの振幅、位置を
符号化し雑音信号のゲイン、インデクスを符号化してマ
ルチプレクサ260へ出力しこれらを復号化して駆動音源
復元回路283へ出力する。
駆動音源復元回路283は、母音性区間では、平均ピッ
チ周期T′を用いてフレームを前記音源信号計算回路22
0と同様な方法で分割し、代表区間のサブフレーム位置
を示す情報P1、代表区間のマルチパルスの復号化された
振幅、位置を用いて、代表区間ではマルチパルスを発生
し、代表区間以外のピッチ区間では、前記代表区間のマ
ルチパルスと復号化された振幅補正係数、復号化された
位相補正係数を用いて、前記(7)式に従い音源信号vk
(n)を復元する。
一方、鼻音性、破裂性、摩擦性区間では、マルチパル
スを発生させる。摩擦性区間ではさらに雑音信号のイン
デクスを用いて雑音メモリ225から雑音信号をアクセス
してそれにゲインを乗じて駆動音源信号を復元する。摩
擦性区間での駆動音源信号復元の詳細は前記文献2を参
照することができる。
補間回路282は、母音性区間では、線形予測係数を一
旦Kパラメータに変換してKパラメータ上でピッチ周期
T′のサブフレーム区間毎に補間し、線形予測係数に逆
変換し出力する。なお、補間はKパラメータ上のみなら
ず他の衆知なパラメータ、例えば対数面積比など、を用
いることができる。鼻音性や子音区間では補間はおこな
わない。
合成フィルタ281は、前記復元された駆動音源信号を
入力し、前記線形予測係数ai′を入力して1フレーム分
の合成音声信号を求めるとともに、次のフレームへの影
響信号を1フレーム分計算しこれを減算器190へ出力す
る。なお、影響信号の計算法は特願昭57−231605(文献
5)等を参照できる。
マルチプレクサ260は、音源信号を表す符号、フレー
ムの音声の種類を表す符号、母音性区間では代表区間の
サブフレーム位置を表す符号、平均ピッチ周期を表す符
号、Kパラメータを表す符号を組み合せて出力する。
以上で本発明の送信側の説明を終える。
受信側では、第1図(b)のデマルチプレクサ290は
前記組み合わされた符号を入力し、音源信号を表す符
号、フレームの音声信号を表す符号、母音性区間では代
表区間のサブフレーム位置を表す符号、平均ピッチ周期
の符号、Kパラメータを表す符号を分離して出力する。
音源復号回路300は音源信号を表す符号を復号して駆
動信号復元回路340へ出力する。ピッチ復号回路320は平
均ピッチ周期を復号して駆動信号復元回路340と補間回
路335へ出力する。復号回路315は、振幅補正係数、位相
補正係数を表す符号を入力しこれらを復号して出力す
る。また代表区間のサブフレーム位置を表す符号を復号
して出力する。さらにフレームの音声信号の種類を表す
符号を復号して出力する。
Kパラメータ復号回路330はKパラメータを表す符号
を復号して補間回路335へ出力する。
駆動信号復元回路340は、復号したマルチパルス音源
情報の他に、音声信号の種類を表す情報、前記情報が母
音性の場合は復号化した平均ピッチ周期、復号化した振
幅補正係数、復号化した位相補正係数、復号化した代表
区間のサブフレーム位置を入力する。一方、前記情報が
鼻音性、摩擦性、破裂性の場合は、それぞれ予め定めら
れた個数のマルチパルス音源情報を入力する。さらに摩
擦性の場合は、マルチパルス音源情報の他に雑音信号の
インデクス、ゲインを入力する。そして駆動信号復元回
路340は、送信側の駆動信号復元回路283と同一の動作を
行い1フレームの駆動音源信号を復元して出力する。ま
た、雑音メモリ310は送信側の雑音メモリ225と同一の構
成となっている。
補間回路335は、送信側の補間回路282と同一の動作を
行い補間した線形予測係数ai′を出力する。
合成フィルタ350は、復元したフレームの駆動音源信
号と線形予測係数ai′を入力して1フレーム分の合成音
声(n)を計算して端子360を通して出力する。ここ
で合成フィルタの動作は、前記文献5の合成フィルタを
参照できる。
以上で本発明の受信側の説明を終える。
上述した実施例はあくまで本発明の一構成に過ぎずそ
の変形例も種々考えられる。
例えば、前記実施例では、摩擦性区間では音源信号を
少数のマルチパルスと雑音信号で表したが、これは衆知
のStochastic codingの方法により表すこともできる。
この方法の詳細については、例えばSchroeder,Atal氏に
よる“Code−excited linearprediction(CELP):High
Quality speech at very low bit rates,"(ICASSP,937
−940,1985)(文献6)等を参照できる。さらに、雑音
メモリ225、310に格納されている雑音信号の求めとして
は、あらかじめ定められた確率密度特性(例えばガウス
分布など)を有する白色雑音信号を格納しておいてもよ
いし、予め多量の音声信号を予測して求めた予測残差信
号から学習により計算しておいてもよい。前者の方法は
前記文献6を参照できる。また後者の方法については、
例えば、Makhoul氏らによる“Vector Quntization in S
peech Coding,"(Proc.IEEE,vol.73,11,1551−1588,195
8)(文献7)等を参照できる。
また、実施例ではフレームの音声信号を母音性、鼻音
性、摩擦性、破裂英の4種に分類して異なる音源信号を
用いたが、この分類数を変えてもよい。
また、実施例では、スペクトルパラメータとしてKパ
ラメータを符号化し、その分析法としてLPC分析を用い
たが、スペクトルパラメータとしては他の衆知なパラメ
ータ、例えばLSP、LPCケプストラム、ケプストラム、改
良ケプストラム、一般化ケプストラム、メルケプストラ
ムなどを用いることもできる。また各パラメータに最適
な分析法を用いることができる。
また補間回路282、335における補間すべきパラメータ
及びその補間法については、他の衆知な方法を用いるこ
とができる。具体的な補間法は、例えばAtal氏らによる
“Speech Analysis and Synthesis by Linear Predicti
on of Speech Wave"と題した論文(J.Acoust.Soc.Am.,p
p.637−655,1971)(文献8)等を参照できる。
さらに、母音区間では、代表区間以外のピッチ区間で
は、振幅補正係数ckと位相補正係数dkを求めて伝送して
が、復号化した平均ピッチ周期T′を隣接のピッチ周期
を用いてピッチ区間毎に補間することにより位相補正係
数を伝送しない構成とすることもできる。また振幅補正
係数はピッチ区間毎に伝送するのではなくてピッチ区間
毎に求めた振幅補正係数の値を最小2乗曲線あるいは最
小2乗直線で近似して、前記曲線あるいは直線の係数を
伝送するような構成にしてもよい。これらの方法は任意
の組合せにより用いることができる。これらの構成によ
り補正情報の伝送のための情報量を低減することができ
る。
また位相補正係数として、例えばOno,Ozawa氏らによ
る“2.4kbps Pitch Prediction Multi−pulse Speech C
oding"と題した論文(Proc.ICASSP S4.9,1988)(文献
9)に記載されているように、フレームの端で線形位相
項τを求め、これを各ピッチ区間に分配し、ピッチ区間
毎には位相補正係数を求めない構成とすることもでき
る。
また、演算量を大幅に低減するために、母音区間で
は、代表区間をフレーム内の予め定められた区間に固定
し(例えば、フレームのほぼ中央のピッチ区間や、フレ
ーム内でパワの最も大きいピッチ区間など)、代表区間
の探索をしない構成としてもよい。この場合は、代表区
間の候補区間に対する(5),(6)式の計算が不要と
なり大幅な演算量低減が可能となるが音質は低下する。
また、さらに演算量を低減するために、送信側では影
響信号の計算を省略することもできる。これによって、
送信側における駆動信号復元回路283、補間回路282、合
成フィルタ281、減算器190は不要となり演算量低減が可
能となるが、やはり音質は低下する。
また受信側で合成フィルタ350の後ろに、量子化雑音
を整形することにより聴覚的にきき易くなるために、ピ
ッチとスペクトル包絡の少なくとも1つについて動作す
る適応形ポストフィルタを付加してもよい。適応型ポス
トフィルタの構成については、例えば、Kroon氏らによ
る“A Class of Analysis−by−synthesis Predictive
Coders for High Quality Speech Coding at Rates bet
ween 4.8 and 16kb/s,"(IEE JSAC,vol.6,2,353−363 1
988)(文献10)等を参照できる。
なお、デジタル信号処理の分野でよく知られているよ
うに、自己相関関数は周波数軸上でパワスペクトルに、
相互相関関数はクロスパワスペクトルに対応しているの
で、これらから計算することもできる。これらの計算法
については、Oppenheim氏らによる“Digital Signal Pr
ocessing"(Prentice−Hall,1975)と題した単行本(文
献11)を参照できる。
(発明の効果) 以上述べたように本発明によれば、音声信号を音声学
的な特徴に基づきいくつかの種類に分類し、その分類に
適した音源信号を用いていること、特に、母音性区間で
は、フレームをピッチ周期に分割したピッチ区間のう
ち、1つのピッチ区間(代表区間)のマルチパルスと他
のピッチ区間では振幅補正係数、位相補正係数の少なく
とも一方を用いて表していること、摩擦性区間では、少
数のマルチパルスと雑音信号の組合せにより音源信号を
表していること、などにより、母音、子音の定常区間は
もち論のこと、音韻知覚や自然性の知覚に重要な音声の
特性が変化している部分(有声の過渡部や母音間の変化
部分)でも音質の劣化のほとんどない合成音声を得るこ
とができるという大きな効果がある。
【図面の簡単な説明】
第1図は本発明による音声符号化復号化装置の一実施例
を示すブロック図、第2図は有声フレームでの代表区間
と代表区間のマルチパルス及び振幅補正係数、位相補正
係数を示した説明図、第3図は音声の分類法の一例を示
す図である。 図において 110……バッファメモリ、130……ピッチ分析回路、140
……Kパラメータ計算回路、150……ピッチ符号化回
路、160……Kパラメータ符号化回路、170……インパル
ス応答計算回路、180……自己相関関数計算回路、215…
…判別回路、220……音源信号計算回路、225,310……雑
音メモリ、230……符号化回路、260……マルチプレク
サ、270……振幅、位相補正係数計算回路、281,350……
合成フィルタ、282,335……補間回路、283,340……駆動
信号復元回路、290……デマルチプレクサ、300……音源
復号回路、315……復号回路、320……ピッチ復号回路、
330……Kパラメータ復号回路。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】ピッチ計算手段、スペクトルパラメータ計
    算手段、判別手段、合成フィルタ、音源信号符号化手段
    を備える音声符号化装置であって、 ピッチ計算手段は、フレーム音声信号からピッチパラメ
    ータを出力し、 スペクトルパラメータ計算手段は、フレーム音声信号か
    らスペクトル包絡を表すスペクトルパラメータを出力
    し、 判別手段は、フレーム音声信号の音声学的特徴に基づい
    て分類することにより判別信号を出力し、 合成フィルタは、音源信号とスペクトルパラメータに基
    づいて合成信号を算出し、 音源信号符号化手段は、音源信号計算手段、駆動音源信
    号計算手段を備え、フレーム音声信号、合成信号、ピッ
    チパラメータ、スペクトルパラメータから音源信号を算
    出する、判別信号に対応した、第1−3の処理を行い、 第1の処理は、音源信号算出手段でフレームをピッチパ
    ラメータに応じた複数のサブフレームに分割し、一つの
    サブフレームについて代表マルチパルスを出力し、他の
    サブフレームについては、求めたマルチパルスに対する
    補正情報を出力し、音源信号としてマルチパルスを求
    め、 第2の処理は、音源信号算出手段で音源信号としてマル
    チパルスを求め、 第3の処理は、音源信号算出手段のマルチパルスと駆動
    音源信号計算手段のコードベクトルにより音源信号を求
    める 音声符号化装置。
  2. 【請求項2】復号化手段、駆動音源復号手段、合成フィ
    ルタを備える音声復号化装置であって、 復号化手段は、入力信号から、ピッチパラメータ、スペ
    クトルパラメータ、判別信号、代表マルチパルス、補正
    情報、マルチパルス、コード符号を分離・復号化し、 音源復号手段は、判別信号に対応した第1〜3の処理を
    行い、 第1の処理は、代表マルチパルスと補正情報に基づいて
    音源信号を出力し、 第2の処理は、マルチパルスを音源信号として出力し、 第3の処理は、マルチパルスとコード符号に対応するコ
    ードベクトルにより音源信号を算出し、 合成フィルタは、音源信号とスペクトルパラメータを用
    いて音声を合成出力する 音声復号化装置。
JP63237727A 1988-09-21 1988-09-21 音声符号化復号化装置 Expired - Lifetime JP2992998B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP63237727A JP2992998B2 (ja) 1988-09-21 1988-09-21 音声符号化復号化装置
CA000612254A CA1333425C (en) 1988-09-21 1989-09-21 Communication system capable of improving a speech quality by classifying speech signals
EP89117463A EP0360265B1 (en) 1988-09-21 1989-09-21 Communication system capable of improving a speech quality by classifying speech signals
US07/410,459 US5018200A (en) 1988-09-21 1989-09-21 Communication system capable of improving a speech quality by classifying speech signals
DE68912692T DE68912692T2 (de) 1988-09-21 1989-09-21 Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63237727A JP2992998B2 (ja) 1988-09-21 1988-09-21 音声符号化復号化装置

Publications (2)

Publication Number Publication Date
JPH0284700A JPH0284700A (ja) 1990-03-26
JP2992998B2 true JP2992998B2 (ja) 1999-12-20

Family

ID=17019595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63237727A Expired - Lifetime JP2992998B2 (ja) 1988-09-21 1988-09-21 音声符号化復号化装置

Country Status (1)

Country Link
JP (1) JP2992998B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5875427A (en) * 1996-12-04 1999-02-23 Justsystem Corp. Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence
US5864814A (en) * 1996-12-04 1999-01-26 Justsystem Corp. Voice-generating method and apparatus using discrete voice data for velocity and/or pitch

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2844589B2 (ja) * 1984-12-21 1999-01-06 日本電気株式会社 音声信号符号化方法とその装置
JP2615548B2 (ja) * 1985-08-13 1997-05-28 日本電気株式会社 高能率音声符号化方式とその装置
JPS63127299A (ja) * 1986-11-17 1988-05-31 日本電気株式会社 音声信号符号化・復号化方式およびその装置

Also Published As

Publication number Publication date
JPH0284700A (ja) 1990-03-26

Similar Documents

Publication Publication Date Title
JP2940005B2 (ja) 音声符号化装置
JP3196595B2 (ja) 音声符号化装置
EP0360265A2 (en) Communication system capable of improving a speech quality by classifying speech signals
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JPH10207498A (ja) マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JPH0944195A (ja) 音声符号化装置
JP2002140099A (ja) 音声復号化装置
JP3308764B2 (ja) 音声符号化装置
JP2829978B2 (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP2992998B2 (ja) 音声符号化復号化装置
JP3003531B2 (ja) 音声符号化装置
JP3153075B2 (ja) 音声符号化装置
JP2956068B2 (ja) 音声符号化復号化方式
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3299099B2 (ja) 音声符号化装置
JP3144284B2 (ja) 音声符号化装置
JP2000235400A (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP2001318698A (ja) 音声符号化装置及び音声復号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP3192051B2 (ja) 音声符号化装置
JPH07168596A (ja) 音声符号化装置
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP3055901B2 (ja) 音声信号符号化復号化方法及び音声信号符号化装置
JPH02160300A (ja) 音声符号化方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071022

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081022

Year of fee payment: 9

EXPY Cancellation because of completion of term