JP3271966B2 - 符号化装置及び符号化方法 - Google Patents
符号化装置及び符号化方法Info
- Publication number
- JP3271966B2 JP3271966B2 JP32825589A JP32825589A JP3271966B2 JP 3271966 B2 JP3271966 B2 JP 3271966B2 JP 32825589 A JP32825589 A JP 32825589A JP 32825589 A JP32825589 A JP 32825589A JP 3271966 B2 JP3271966 B2 JP 3271966B2
- Authority
- JP
- Japan
- Prior art keywords
- accent
- phrase
- component
- pitch pattern
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声データをビット圧縮して符号化する符
号化装置及び符号化方法に関するものである。
号化装置及び符号化方法に関するものである。
本発明は、入力信号の予測分析を行って予測フィルタ
係数情報を生成すると同時に、予め定められた数のアク
セント成分及びフレーズ成分の発生位置の組み合わせに
ついてアクセント成分及びフレーズ成分の大きさを微小
変化させることにより得られるピッチパターンを用い
て、入力信号と予測信号との残差信号から抽出したピッ
チパターンよりフレーズ成分及びアクセント成分を求め
てフレーズ指示情報及びアクセント指示情報に変換し、
それら予測フィルタ係数情報とフレーズ指示情報及びア
クセント指示情報を符号化することにより、信号圧縮率
を上げて伝送ビットレートを低減することができ、音質
の劣化も少ない符号化装置及び符号化方法を提供するも
のである。
係数情報を生成すると同時に、予め定められた数のアク
セント成分及びフレーズ成分の発生位置の組み合わせに
ついてアクセント成分及びフレーズ成分の大きさを微小
変化させることにより得られるピッチパターンを用い
て、入力信号と予測信号との残差信号から抽出したピッ
チパターンよりフレーズ成分及びアクセント成分を求め
てフレーズ指示情報及びアクセント指示情報に変換し、
それら予測フィルタ係数情報とフレーズ指示情報及びア
クセント指示情報を符号化することにより、信号圧縮率
を上げて伝送ビットレートを低減することができ、音質
の劣化も少ない符号化装置及び符号化方法を提供するも
のである。
一般に、音声信号は、隣接標本間の相関等を利用して
予測した値と実際の標本値の差信号(予測残差)を符号
化することにより、情報圧縮を図ることができる。この
ような予測符号化の予測の手法としては、例えば、線形
予測分析(LPC)等が適用される。ここで、上記線形予
測分析は、線形予測フィルタを表すパラメータとしての
予測フィルタ係数を調整して、上記差信号(予測残差)
の2乗和を最小にする方法である。上記線形予測、分析
には、例えば、いわゆるPARCOR(偏自己相関)分析、LS
P(線スペクトル対)分析等も含まれる。
予測した値と実際の標本値の差信号(予測残差)を符号
化することにより、情報圧縮を図ることができる。この
ような予測符号化の予測の手法としては、例えば、線形
予測分析(LPC)等が適用される。ここで、上記線形予
測分析は、線形予測フィルタを表すパラメータとしての
予測フィルタ係数を調整して、上記差信号(予測残差)
の2乗和を最小にする方法である。上記線形予測、分析
には、例えば、いわゆるPARCOR(偏自己相関)分析、LS
P(線スペクトル対)分析等も含まれる。
例えば、この線形予測分析の手法を適用した音声波形
の分析によれば、音声波形やそのスペクトルの性質を極
めて少数のパラメータで能率的かつ正確に表現できる。
しかもそれらのパラメータが比較的簡単な計算で求めら
れる。
の分析によれば、音声波形やそのスペクトルの性質を極
めて少数のパラメータで能率的かつ正確に表現できる。
しかもそれらのパラメータが比較的簡単な計算で求めら
れる。
ここで、第5図に入力音声信号の偏自己相関形音声分
析合成系の構成(すなわち符号化及び復号化の構成)を
示す。この第5図の構成は、各フィルタ段が格子形に構
成され、上記格子形フィルタ係数(格子形フィルタのk
パラメータ)を、量子化している。
析合成系の構成(すなわち符号化及び復号化の構成)を
示す。この第5図の構成は、各フィルタ段が格子形に構
成され、上記格子形フィルタ係数(格子形フィルタのk
パラメータ)を、量子化している。
この第5図において、音声分析系(符号化)の入力端
子101を介して供給されたアナログの音声信号波形は、
アナログ/ディジタル(A/D)変換器102によって、所定
のサンプリング周波数でサンプリングされ、この波形デ
ータが、加算器1031〜103p,1081〜108p、乗算器1041〜1
04p,1061〜106p、遅延器1071〜107p、相関演算器1051〜
105pで構成される格子形予測フィルタ回路115に伝送さ
れる。当該格子形予測フィルタ回路115に供給された波
形データは、先ず相関演算器1051に送られると共に、上
記遅延器1071にも送られ、当該遅延器1071で所定時間毎
に遅延された後に、上記相関演算器1051に送られる。該
相関演算器1051からは、上記波形データと遅延データと
の相関演算により上記kパラメータ(k1)が得られるよ
うになっている。該kパラメータ(k1)は、乗算器10
41,1061に送られる。上記乗算器1041には上記波形デー
タが、上記乗算器1061には上記遅延データが供給されて
おり、これら乗算器1041,1061でそれぞれ供給されたデ
ータに上記kパラメータ(k1)が乗算される。乗算器10
41からの出力は、加算器1081に伝送されて上記遅延デー
タから減算されることで、差分データが得られる。ま
た、上記乗算器1061からの出力は、加算器1031に伝送さ
れて上記波形データから減算されることで、差分データ
が得られる。以下、加算器1032〜103p,1082〜108p、乗
算器1042〜104p,1062〜106p、遅延器1072〜107p、相関
演算器1052〜105pで同様なフィルタリング処理が行われ
る。
子101を介して供給されたアナログの音声信号波形は、
アナログ/ディジタル(A/D)変換器102によって、所定
のサンプリング周波数でサンプリングされ、この波形デ
ータが、加算器1031〜103p,1081〜108p、乗算器1041〜1
04p,1061〜106p、遅延器1071〜107p、相関演算器1051〜
105pで構成される格子形予測フィルタ回路115に伝送さ
れる。当該格子形予測フィルタ回路115に供給された波
形データは、先ず相関演算器1051に送られると共に、上
記遅延器1071にも送られ、当該遅延器1071で所定時間毎
に遅延された後に、上記相関演算器1051に送られる。該
相関演算器1051からは、上記波形データと遅延データと
の相関演算により上記kパラメータ(k1)が得られるよ
うになっている。該kパラメータ(k1)は、乗算器10
41,1061に送られる。上記乗算器1041には上記波形デー
タが、上記乗算器1061には上記遅延データが供給されて
おり、これら乗算器1041,1061でそれぞれ供給されたデ
ータに上記kパラメータ(k1)が乗算される。乗算器10
41からの出力は、加算器1081に伝送されて上記遅延デー
タから減算されることで、差分データが得られる。ま
た、上記乗算器1061からの出力は、加算器1031に伝送さ
れて上記波形データから減算されることで、差分データ
が得られる。以下、加算器1032〜103p,1082〜108p、乗
算器1042〜104p,1062〜106p、遅延器1072〜107p、相関
演算器1052〜105pで同様なフィルタリング処理が行われ
る。
このようなフィルタリング処理が行われることで、加
算器103pから入力信号と予測値信号との差である予測残
差波形データが得られ、この予測残差波形データが、相
関検出回路109に伝送される。この相関検出回路109で
は、該予測残差波形データから、振幅情報Aとピッチ情
報Tが求められる。
算器103pから入力信号と予測値信号との差である予測残
差波形データが得られ、この予測残差波形データが、相
関検出回路109に伝送される。この相関検出回路109で
は、該予測残差波形データから、振幅情報Aとピッチ情
報Tが求められる。
また、上記各相関演算器1051〜105pからの各kパラメ
ータ(k1〜kp)は、符号化器110に伝送され、量子化処
理が施された後に出力される。なお、上記振幅情報Aと
ピッチ情報Tも当該符号化器110を介して出力される。
これらの出力が符号化出力となっている。また、該符号
化出力は予め定められた所定の周期(例えば20ms)毎に
出力される。
ータ(k1〜kp)は、符号化器110に伝送され、量子化処
理が施された後に出力される。なお、上記振幅情報Aと
ピッチ情報Tも当該符号化器110を介して出力される。
これらの出力が符号化出力となっている。また、該符号
化出力は予め定められた所定の周期(例えば20ms)毎に
出力される。
次に、音声合成系(復号化)として、該符号化器110
からの出力は、復号化器120に送られ、上記符号化器110
における量子化処理とは逆の量子化処理が行われる。当
該復号化器120を介したピッチ情報Tはパルス発生器121
を介して切換スイッチ123に伝送される。また、この切
換スイッチ123にはランダムノイズ発生器122からのラン
ダムノイズが送られている。当該切換スイッチ123は有
声音か無声音かで切り換えられて、その出力が乗算器12
4に送られるようになっている。更に、上記乗算器124に
は、上記振幅情報Aも送られるようになっていて、該乗
算器124からは、上記予測残差波形データと近似したデ
ータが得られるようになる。
からの出力は、復号化器120に送られ、上記符号化器110
における量子化処理とは逆の量子化処理が行われる。当
該復号化器120を介したピッチ情報Tはパルス発生器121
を介して切換スイッチ123に伝送される。また、この切
換スイッチ123にはランダムノイズ発生器122からのラン
ダムノイズが送られている。当該切換スイッチ123は有
声音か無声音かで切り換えられて、その出力が乗算器12
4に送られるようになっている。更に、上記乗算器124に
は、上記振幅情報Aも送られるようになっていて、該乗
算器124からは、上記予測残差波形データと近似したデ
ータが得られるようになる。
該予測残差波形近似データは、加算器1251〜125p,127
1〜127p、乗算器1261〜126p,1281〜128p、遅延器1291〜
129pで構成される格子形予測フィルタ135に供給され
る。また、各乗算器1261〜126p,1281〜128pには、復号
化された各kパラメータがそれぞれ送られている。この
格子形予測フィルタ回路135では、上記予測残差波形近
似データが上記格子形予測フィルタ115とは逆の経路を
通ってフィルタリング処理される。ただし、上記遅延器
1291〜129p及び加算器1271〜127p、乗算器1281〜128pで
順次処理されるデータは、各加算器1251〜125pを介した
後の上記加算器1251の出力となっている。
1〜127p、乗算器1261〜126p,1281〜128p、遅延器1291〜
129pで構成される格子形予測フィルタ135に供給され
る。また、各乗算器1261〜126p,1281〜128pには、復号
化された各kパラメータがそれぞれ送られている。この
格子形予測フィルタ回路135では、上記予測残差波形近
似データが上記格子形予測フィルタ115とは逆の経路を
通ってフィルタリング処理される。ただし、上記遅延器
1291〜129p及び加算器1271〜127p、乗算器1281〜128pで
順次処理されるデータは、各加算器1251〜125pを介した
後の上記加算器1251の出力となっている。
このようなフィルタリング処理によって得られる上記
波形データに近似するデータは、ディジタル/アナログ
(D/A)変換器130でアナログの合成音声波形に変換され
て出力端子141から出力される。
波形データに近似するデータは、ディジタル/アナログ
(D/A)変換器130でアナログの合成音声波形に変換され
て出力端子141から出力される。
ところで、上述したような従来の音声分析合成系で
は、ピッチ情報の符号化及び伝送の際は、例えば20msの
周期毎に得られたピッチ情報の全てを符号化して伝送し
ている。このようなことから、ピッチ情報は音声分析合
成系全体の圧縮率向上及び伝送ビットレート低減の障害
となっていた。
は、ピッチ情報の符号化及び伝送の際は、例えば20msの
周期毎に得られたピッチ情報の全てを符号化して伝送し
ている。このようなことから、ピッチ情報は音声分析合
成系全体の圧縮率向上及び伝送ビットレート低減の障害
となっていた。
そこで、本発明は、上述のような実情に鑑みて提案さ
れたものであり、ピッチ情報の圧縮率を高め、音声分析
合成系全体の圧縮率の向上及び伝送ビットレートを低減
させることができる符号化装置及び符号化方法を提供す
ることを目的とするものである。
れたものであり、ピッチ情報の圧縮率を高め、音声分析
合成系全体の圧縮率の向上及び伝送ビットレートを低減
させることができる符号化装置及び符号化方法を提供す
ることを目的とするものである。
本発明の符号化装置及び符号化方法は、上述の目的を
達成するために提案されたものであり、標本化された入
力信号から隣接標本間の相関を用いて予測分析を行い、
予測フィルタ係数情報及び、入力信号と予測信号との残
差信号を生成する生成手段と、上記生成手段によって生
成された残差信号からピッチパターンを抽出する抽出手
段と、上記抽出されたピッチパターンを、予め定められ
た数のフレーズ成分及びアクセント成分の発生位置の組
み合わせについて上記フレーズ成分及びアクセント成分
の大きさを微小変化させることにより得られるピッチパ
ターンを用いて、上記抽出されたピッチパターンを表現
するための上記フレーズ成分及びアクセント成分にそれ
ぞれ対応するフレーズ指示情報及びアクセント指示情報
に変換する変換手段と、上記予測フィルタ係数情報、フ
レーズ指示情報及びアクセント指示情報を符号化して出
力する符号化手段とを有して成るものである。
達成するために提案されたものであり、標本化された入
力信号から隣接標本間の相関を用いて予測分析を行い、
予測フィルタ係数情報及び、入力信号と予測信号との残
差信号を生成する生成手段と、上記生成手段によって生
成された残差信号からピッチパターンを抽出する抽出手
段と、上記抽出されたピッチパターンを、予め定められ
た数のフレーズ成分及びアクセント成分の発生位置の組
み合わせについて上記フレーズ成分及びアクセント成分
の大きさを微小変化させることにより得られるピッチパ
ターンを用いて、上記抽出されたピッチパターンを表現
するための上記フレーズ成分及びアクセント成分にそれ
ぞれ対応するフレーズ指示情報及びアクセント指示情報
に変換する変換手段と、上記予測フィルタ係数情報、フ
レーズ指示情報及びアクセント指示情報を符号化して出
力する符号化手段とを有して成るものである。
また、本発明の符号化方法は、標本化された入力信号
から隣接標本間の相関を用いて予測分析を行い、予測フ
ィルタ係数情報及び、入力信号と予測信号との残差信号
を生成し、上記生成された残差信号からピッチパターン
を抽出し、上記抽出されたピッチパターンを、予め定め
られた数のフレーズ成分及びアクセント成分の発生位置
の組み合わせについて上記フレーズ成分及びアクセント
成分の大きさを微小変化させることにより得られるピッ
チパターンを用いて、上記抽出されたピッチパターンを
表現するための上記フレーズ成分及びアクセント成分に
それぞれ対応するフレーズ指示情報及びアクセント指示
情報に変換し、上記予測フィルタ係数情報、フレーズ指
示情報及びアクセント指示情報を符号化して出力するも
のである。
から隣接標本間の相関を用いて予測分析を行い、予測フ
ィルタ係数情報及び、入力信号と予測信号との残差信号
を生成し、上記生成された残差信号からピッチパターン
を抽出し、上記抽出されたピッチパターンを、予め定め
られた数のフレーズ成分及びアクセント成分の発生位置
の組み合わせについて上記フレーズ成分及びアクセント
成分の大きさを微小変化させることにより得られるピッ
チパターンを用いて、上記抽出されたピッチパターンを
表現するための上記フレーズ成分及びアクセント成分に
それぞれ対応するフレーズ指示情報及びアクセント指示
情報に変換し、上記予測フィルタ係数情報、フレーズ指
示情報及びアクセント指示情報を符号化して出力するも
のである。
上記ピッチパターンは、例えばLPC分析或いはPARCOR
分析等で振幅と共に得られるピッチ情報から抽出するこ
とができる。また、上記フレーズ指令情報とアクセント
指令情報を得る際に、例えば、抽出されたピッチパター
ンを所定単位時間(所定周期)毎に分割(グループ化)
して処理を容易化してもよい。
分析等で振幅と共に得られるピッチ情報から抽出するこ
とができる。また、上記フレーズ指令情報とアクセント
指令情報を得る際に、例えば、抽出されたピッチパター
ンを所定単位時間(所定周期)毎に分割(グループ化)
して処理を容易化してもよい。
本発明によれば、ピッチパターンを情報量の少ないア
クセント指令情報とフレーズ指令情報で表すようにする
ことでピッチ情報を圧縮し、更に、これらアクセント指
令情報とフレーズ指令情報を伝送することで、伝送ビッ
トレートを低減させている。
クセント指令情報とフレーズ指令情報で表すようにする
ことでピッチ情報を圧縮し、更に、これらアクセント指
令情報とフレーズ指令情報を伝送することで、伝送ビッ
トレートを低減させている。
以下、本発明を適用した実施例について図面を参照し
ながら説明する。
ながら説明する。
第1図に本発明の符号化装置及び符号化方法が適用さ
れる一実施例としての音声データの高能率符号化装置の
概略構成を示すブロック図を示す。
れる一実施例としての音声データの高能率符号化装置の
概略構成を示すブロック図を示す。
すなわち、この第1図の装置は、入力端子1を介した
標本化された入力データから隣接標本間の相関を用いて
予測分析を行い、予測フィルタ係数情報及び、入力信号
と予測信号との残差信号を生成し、さらに当該生成され
た残差信号からピッチパターンを抽出するピッチパター
ン抽出回路11と、予め定められた数のアクセント成分及
びフレーズ成分の発生位置の組み合わせについて上記ア
クセント成分及びフレーズ成分の大きさを微小変化させ
ることにより得られるピッチパターンを用いて、上記ピ
ッチパターン抽出回路11の出力を、当該抽出されたピッ
チパターンを表現するためのフレーズ成分及びアクセン
ト成分にそれぞれ対応するフレーズ指示情報及びアクセ
ント指示情報に変換する変換手段15と、上記予測フィル
タ係数情報、フレーズ指示情報及びアクセント指示情報
を符号化して出力する符号化回路14とを有してなるもの
である。この符号化出力が出力端子2から出力される。
標本化された入力データから隣接標本間の相関を用いて
予測分析を行い、予測フィルタ係数情報及び、入力信号
と予測信号との残差信号を生成し、さらに当該生成され
た残差信号からピッチパターンを抽出するピッチパター
ン抽出回路11と、予め定められた数のアクセント成分及
びフレーズ成分の発生位置の組み合わせについて上記ア
クセント成分及びフレーズ成分の大きさを微小変化させ
ることにより得られるピッチパターンを用いて、上記ピ
ッチパターン抽出回路11の出力を、当該抽出されたピッ
チパターンを表現するためのフレーズ成分及びアクセン
ト成分にそれぞれ対応するフレーズ指示情報及びアクセ
ント指示情報に変換する変換手段15と、上記予測フィル
タ係数情報、フレーズ指示情報及びアクセント指示情報
を符号化して出力する符号化回路14とを有してなるもの
である。この符号化出力が出力端子2から出力される。
具体的には、上記ピッチパターン抽出回路11によっ
て、上記入力音声データから例えば20ms毎に、音声分析
として例えばLPC分析或いはPARCOR分析等を施して順次
ピッチを検出し、これらの各検出ピッチを時間軸上で配
列することにより、ピッチパターンが抽出される。該ピ
ッチパターンが上記変換手段15によってフレーズ指令情
報とアクセント指令情報とに変換されるが、本実施例で
は、この変換を容易にするために、上記ピッチパターン
は、グループ化回路12によって所定周期毎例えば500ms
毎にグループ化される。この時の上記グループ化回路12
での上記所定周期は、上記LPC分析等の分析周期が複数
集まったものに相当する。このようにグループ化された
ピッチパターンが指令出力回路13に伝送され、この指令
出力回路13で該グループ毎のピッチパターンを上記所定
周期単位毎に後述するアクセント指令情報とフレーズ指
令情報に変換して出力する。この各指令への変換は、例
えば、上記所定周期毎に抽出されたピッチパターンと、
予め用意された複数のパターンとのパターンマッチング
処理例えば誤差の二乗和が最小となるような処理等によ
り選ばれたパターンから、上記アクセント指令情報とフ
レーズ指令情報を得るような変換処理を行う。また、上
記入力音声データとしては、例えば前述の第5図に示し
たA/D変換器102を介したデータとすることができる。更
に、上記ピッチパターン抽出回路11でのピッチパターン
抽出のためのピッチ検出の際には、音声分析として、上
記LPC分析或いはPARCOR分析の他に、例えばいわゆるケ
プストラム法も適用することができる。なお、ケプスト
ラムは、波形の短時間振幅スペクトルの対数の逆フーリ
エ変換として定義され、スペクトル包絡と微細構造を近
似的に分離して抽出できる特徴を有するものである。
て、上記入力音声データから例えば20ms毎に、音声分析
として例えばLPC分析或いはPARCOR分析等を施して順次
ピッチを検出し、これらの各検出ピッチを時間軸上で配
列することにより、ピッチパターンが抽出される。該ピ
ッチパターンが上記変換手段15によってフレーズ指令情
報とアクセント指令情報とに変換されるが、本実施例で
は、この変換を容易にするために、上記ピッチパターン
は、グループ化回路12によって所定周期毎例えば500ms
毎にグループ化される。この時の上記グループ化回路12
での上記所定周期は、上記LPC分析等の分析周期が複数
集まったものに相当する。このようにグループ化された
ピッチパターンが指令出力回路13に伝送され、この指令
出力回路13で該グループ毎のピッチパターンを上記所定
周期単位毎に後述するアクセント指令情報とフレーズ指
令情報に変換して出力する。この各指令への変換は、例
えば、上記所定周期毎に抽出されたピッチパターンと、
予め用意された複数のパターンとのパターンマッチング
処理例えば誤差の二乗和が最小となるような処理等によ
り選ばれたパターンから、上記アクセント指令情報とフ
レーズ指令情報を得るような変換処理を行う。また、上
記入力音声データとしては、例えば前述の第5図に示し
たA/D変換器102を介したデータとすることができる。更
に、上記ピッチパターン抽出回路11でのピッチパターン
抽出のためのピッチ検出の際には、音声分析として、上
記LPC分析或いはPARCOR分析の他に、例えばいわゆるケ
プストラム法も適用することができる。なお、ケプスト
ラムは、波形の短時間振幅スペクトルの対数の逆フーリ
エ変換として定義され、スペクトル包絡と微細構造を近
似的に分離して抽出できる特徴を有するものである。
ところで、上記ピッチパターンを近似するモデルとし
て規則音声合成技術で代表的なものの一つに、いわゆる
藤崎モデル(詳細は後述する)と呼ばれるもとがある。
当該藤崎モデルとは、上記ピッチパターンをアクセント
指令とフレーズ指令の位置及び大きさによって表現する
もので、本発明実施例では、この藤崎モデルによるアク
セント指令とフレーズ指令の情報をピッチ情報の符号化
に用いている。すなわち、このアクセント指令とフレー
ズ指令を用いれば、ピッチパターンを少数の情報で表す
ことができる。このアクセント指令とフレーズ指令の情
報が上記符号化回路1で符号化されて伝送される。
て規則音声合成技術で代表的なものの一つに、いわゆる
藤崎モデル(詳細は後述する)と呼ばれるもとがある。
当該藤崎モデルとは、上記ピッチパターンをアクセント
指令とフレーズ指令の位置及び大きさによって表現する
もので、本発明実施例では、この藤崎モデルによるアク
セント指令とフレーズ指令の情報をピッチ情報の符号化
に用いている。すなわち、このアクセント指令とフレー
ズ指令を用いれば、ピッチパターンを少数の情報で表す
ことができる。このアクセント指令とフレーズ指令の情
報が上記符号化回路1で符号化されて伝送される。
本実施例においては、このように、情報量の多いピッ
チ情報で構成されるピッチパターンを、少ない情報量の
アクセント指令情報とフレーズ指令情報に変換し、この
各指令情報を符号化して伝送することで、ピッチ情報の
圧縮率を高め伝送ビットレートを低減させて、音声分析
合成系全体の圧縮率を向上させることができるようにな
る。
チ情報で構成されるピッチパターンを、少ない情報量の
アクセント指令情報とフレーズ指令情報に変換し、この
各指令情報を符号化して伝送することで、ピッチ情報の
圧縮率を高め伝送ビットレートを低減させて、音声分析
合成系全体の圧縮率を向上させることができるようにな
る。
次に、本実施例の音声データの高能率符号化装置の上
記変換手段15で行われるグループ化されたピッチパター
ンのアクセント指令情報とフレーズ指令情報への変換動
作の原理を述べる。
記変換手段15で行われるグループ化されたピッチパター
ンのアクセント指令情報とフレーズ指令情報への変換動
作の原理を述べる。
すなわち、例えば、所定周期単位を500msとし、この5
00ms内のピッチパターンをアクセント指令情報とフレー
ズ指令情報に変換する。この時、500ms区間内で発生す
るアクセント指令とフレーズ指令それぞれの数を予め定
めておく。例えば、フレーズ指令が2個、アクセント指
令が3個発生すると仮定する。または、これら各指令の
数は、例えば、何らかのアルゴリズムで適応的に変化さ
せてもよい。次に、上述のように決められた数のアクセ
ント指令とフレーズ指令の各々の位置の可能な組合せ全
てについて、各々のアクセント,フレーズ指令の大きさ
(振幅)を変化させることで得られるピッチパターンと
原音声のピッチパターンとの誤差の二乗和を計算する。
この時、一般的な音声の場合、上記フレーズ指令とアク
セント指令の位置のみの発生度数の考えられる組合せと
しては、1000通り程度を用意すれば充分であり、これは
フレーズ指令が連続したりアクセント指令が連続したり
することがあり得ないこと等による。なお、上記フレー
ズ指令とアクセント指令の位置は、サンプリングポイン
トで表すようにする。例えば8kHzでサンプリングした信
号では500ms内に4000ポイントの位置があることにな
る。また、上記アクセント指令とフレーズ指令の大きさ
変化(振幅変化)としては、ある微小変化分Δdづつ変
化させて計算するようにする。例えば上述の5個の各指
令それぞれについて、5段階程度で変化させればよい。
したがって、上記1000通りの各組合せ毎に55=3125のレ
ベル変化とすればよい。以上を考慮して3123×1000通り
のピッチパターンを発生させ、各ピッチパターンと元の
ピッチパターンとの誤差の二乗和を演算し、この中で最
小のものを選ぶようにする。すなわち、上記アクセント
指令とフレーズ指令の各々の位置の可能な組合せのそれ
ぞれにおいて、振幅を変化させて誤差の二乗和が最小に
なるようにし、更に、各指令の位置の組合せにおける誤
差の最小二乗和を比較して、最も小さいものを選ぶと、
その時のフレーズ指令とアクセント指令それぞれの位置
及び振幅が、求めようとする(ピッチパターンの変換に
より求められる)フレーズ指令情報とアクセント指令情
報となる。
00ms内のピッチパターンをアクセント指令情報とフレー
ズ指令情報に変換する。この時、500ms区間内で発生す
るアクセント指令とフレーズ指令それぞれの数を予め定
めておく。例えば、フレーズ指令が2個、アクセント指
令が3個発生すると仮定する。または、これら各指令の
数は、例えば、何らかのアルゴリズムで適応的に変化さ
せてもよい。次に、上述のように決められた数のアクセ
ント指令とフレーズ指令の各々の位置の可能な組合せ全
てについて、各々のアクセント,フレーズ指令の大きさ
(振幅)を変化させることで得られるピッチパターンと
原音声のピッチパターンとの誤差の二乗和を計算する。
この時、一般的な音声の場合、上記フレーズ指令とアク
セント指令の位置のみの発生度数の考えられる組合せと
しては、1000通り程度を用意すれば充分であり、これは
フレーズ指令が連続したりアクセント指令が連続したり
することがあり得ないこと等による。なお、上記フレー
ズ指令とアクセント指令の位置は、サンプリングポイン
トで表すようにする。例えば8kHzでサンプリングした信
号では500ms内に4000ポイントの位置があることにな
る。また、上記アクセント指令とフレーズ指令の大きさ
変化(振幅変化)としては、ある微小変化分Δdづつ変
化させて計算するようにする。例えば上述の5個の各指
令それぞれについて、5段階程度で変化させればよい。
したがって、上記1000通りの各組合せ毎に55=3125のレ
ベル変化とすればよい。以上を考慮して3123×1000通り
のピッチパターンを発生させ、各ピッチパターンと元の
ピッチパターンとの誤差の二乗和を演算し、この中で最
小のものを選ぶようにする。すなわち、上記アクセント
指令とフレーズ指令の各々の位置の可能な組合せのそれ
ぞれにおいて、振幅を変化させて誤差の二乗和が最小に
なるようにし、更に、各指令の位置の組合せにおける誤
差の最小二乗和を比較して、最も小さいものを選ぶと、
その時のフレーズ指令とアクセント指令それぞれの位置
及び振幅が、求めようとする(ピッチパターンの変換に
より求められる)フレーズ指令情報とアクセント指令情
報となる。
第2図及び第3図に、上記ピッチパターンを1つのア
クセント指令情報と2つのフレーズ指令情報へ変換する
変換動作のフローチャートを示す。
クセント指令情報と2つのフレーズ指令情報へ変換する
変換動作のフローチャートを示す。
先ず、ステップS1でフレーズ指令とアクセント指令の
位置を決定するためにカウント値nを1の初期値に設定
する。ステップS2でカウント値が1001か否かを判断し、
YesでステップS11へ、NoでステップS21へ進む。ステッ
プS21では、フレーズ指令の振幅レベルを決定するため
にカウント値mを1の初期値に設定し、次のステップS3
では、第1番目のフレーズ指令の振幅レベルをm段階と
する。ステップS4では、上記m段階が6か否か、すなわ
ち上記5段階の変化が終了したか否かの判断を行い、Ye
sでステップS6へ進み、NoでステップS13の第3図に示す
サブルーチンS13へジャンプする。
位置を決定するためにカウント値nを1の初期値に設定
する。ステップS2でカウント値が1001か否かを判断し、
YesでステップS11へ、NoでステップS21へ進む。ステッ
プS21では、フレーズ指令の振幅レベルを決定するため
にカウント値mを1の初期値に設定し、次のステップS3
では、第1番目のフレーズ指令の振幅レベルをm段階と
する。ステップS4では、上記m段階が6か否か、すなわ
ち上記5段階の変化が終了したか否かの判断を行い、Ye
sでステップS6へ進み、NoでステップS13の第3図に示す
サブルーチンS13へジャンプする。
当該サブルーチンS13のステップSR1では、後述するフ
レーズ成分とアクセント成分の合成を行い、ステップSR
2ではこの合成出力をフィルタに供給する。ステップSR3
ではフィルタ出力と原ピッチ情報とを比較し、これらの
誤差の二乗した成分を全てのサンプル(上述の4000ポイ
ント)に亘り加算する。ステップSR4では上記加算出力
をメモリにストアする。この時のメモリは1000×3125の
アドレスを有するメモリである。次に、ステップSR5で
メモリのアドレスを1つ更新した後、第2図のメインル
ーチンのステップS5に進む。このステップS5ではmに1
を加えてステップS3に戻す。
レーズ成分とアクセント成分の合成を行い、ステップSR
2ではこの合成出力をフィルタに供給する。ステップSR3
ではフィルタ出力と原ピッチ情報とを比較し、これらの
誤差の二乗した成分を全てのサンプル(上述の4000ポイ
ント)に亘り加算する。ステップSR4では上記加算出力
をメモリにストアする。この時のメモリは1000×3125の
アドレスを有するメモリである。次に、ステップSR5で
メモリのアドレスを1つ更新した後、第2図のメインル
ーチンのステップS5に進む。このステップS5ではmに1
を加えてステップS3に戻す。
また、上記ステップS4でYesとなった場合には、ステ
ップS22にて次の第2番目のフレーズ指令の振幅レベル
を決定するためにカウント値mを1の初期値に設定し、
ステップS6に進む。当該ステップS6では、第2番目のフ
レーズ指令の振幅レベルをm段階とする。以後、この第
2番目のフレーズについて、上記ステップS4,サブルー
チン,ステップS5と同様に進み、m=6となった時に、
ステップS23へと進む。このステップS23では、第1番目
のアクセント指令の振幅レベルを決定するためにカウン
ト値mを1つの初期値に設定し、その後ステップS7へ進
む。このステップS7では、第1番目のアクセント指令の
振幅レベルをm段階とし、ステップS8でm=6か否かを
判断する。ステップS8でNoとなった時には、サブルーチ
ンS13へジャンプし、上述同様の処理後、メインルーチ
ンのステップS9に戻る。このステップS9では、mに1が
加えられ、その後ステップS7に戻る。上記ステップS8で
Yesとなった時には、ステップS10でカウント値nに1が
加えられてステップS2に戻される。
ップS22にて次の第2番目のフレーズ指令の振幅レベル
を決定するためにカウント値mを1の初期値に設定し、
ステップS6に進む。当該ステップS6では、第2番目のフ
レーズ指令の振幅レベルをm段階とする。以後、この第
2番目のフレーズについて、上記ステップS4,サブルー
チン,ステップS5と同様に進み、m=6となった時に、
ステップS23へと進む。このステップS23では、第1番目
のアクセント指令の振幅レベルを決定するためにカウン
ト値mを1つの初期値に設定し、その後ステップS7へ進
む。このステップS7では、第1番目のアクセント指令の
振幅レベルをm段階とし、ステップS8でm=6か否かを
判断する。ステップS8でNoとなった時には、サブルーチ
ンS13へジャンプし、上述同様の処理後、メインルーチ
ンのステップS9に戻る。このステップS9では、mに1が
加えられ、その後ステップS7に戻る。上記ステップS8で
Yesとなった時には、ステップS10でカウント値nに1が
加えられてステップS2に戻される。
更に、上述の処理が終了して、上記ステップS2でn=
1001(すなわちYes)となって、ステップS11に進んだ場
合、当該ステップS11では、メモリの各アドレスにスト
アされたデータの最小値のサーチが行われる。その後、
ステップS12で最小値データの符号化が行われる。
1001(すなわちYes)となって、ステップS11に進んだ場
合、当該ステップS11では、メモリの各アドレスにスト
アされたデータの最小値のサーチが行われる。その後、
ステップS12で最小値データの符号化が行われる。
ここで、上記フレーズ指令とアクセント指令を求める
ための上記藤崎モデルについて説明する。第4図のa
は、東京方言の話者による文「青い葵の絵は山の上の家
にある」の発話のF0パターン(音調に関連する物理量と
しての基本周波数の時間変化パターン、基本周波数パタ
ーン)を、いずれも基本周波数の対数値の時間変化の曲
線として例示したものである。ここで、音声のF0パター
ンは2種類の成分からなると考えられる。その第1は、
発話の開始以前から準備され、一旦上昇した後緩やかに
下降して0に漸近するもので、単語の単独発話では一個
であるが、文の発話では複数個存在し得る成分である。
ここでは、これをフレーズ成分と名づける。第2の成分
は、個々の単語または単語の連鎖(先の「葵の絵は」
等)に付随するもので、主観的に高い拍の発音にやや先
行して始まり、はじめは0から緩やかに、途中はかなり
急速に上昇し、後または緩やかに上昇して一定のレベル
に漸近するもので、高い拍が続けばそのレベルを保ち、
高い拍から低い拍への移行に際してはほぼ同じ特徴を呈
して下降し、0に漸近するものである。これをアクセン
ト成分と名づける。
ための上記藤崎モデルについて説明する。第4図のa
は、東京方言の話者による文「青い葵の絵は山の上の家
にある」の発話のF0パターン(音調に関連する物理量と
しての基本周波数の時間変化パターン、基本周波数パタ
ーン)を、いずれも基本周波数の対数値の時間変化の曲
線として例示したものである。ここで、音声のF0パター
ンは2種類の成分からなると考えられる。その第1は、
発話の開始以前から準備され、一旦上昇した後緩やかに
下降して0に漸近するもので、単語の単独発話では一個
であるが、文の発話では複数個存在し得る成分である。
ここでは、これをフレーズ成分と名づける。第2の成分
は、個々の単語または単語の連鎖(先の「葵の絵は」
等)に付随するもので、主観的に高い拍の発音にやや先
行して始まり、はじめは0から緩やかに、途中はかなり
急速に上昇し、後または緩やかに上昇して一定のレベル
に漸近するもので、高い拍が続けばそのレベルを保ち、
高い拍から低い拍への移行に際してはほぼ同じ特徴を呈
して下降し、0に漸近するものである。これをアクセン
ト成分と名づける。
これらの二種類の成分の形を数学的に表現するため、
フレーズ成分を質量・ばね定数・摩擦抵抗をもった何ら
かの力学系のインパルス応答で、またアクセント成分を
やはり同様の(ただし定数は異なる)力学系のステップ
応答を用いて近似してみる。取扱を更に簡単にするた
め、これらは臨界制動系であると仮定すれば、フレーズ
成分に相当する系のインパルス応答は、 また、アクセント成分に相当する系のステップ応答は、 と表すことができる。ここで、α,β,θはシステム定
数で予め定めておく。更に、θはアクセント線分が有限
の時間内に一定値に到達することを表現するために設け
られた閾値である。これらの表現を用いると、基本周波
数パターンの特徴をよく近似できる。
フレーズ成分を質量・ばね定数・摩擦抵抗をもった何ら
かの力学系のインパルス応答で、またアクセント成分を
やはり同様の(ただし定数は異なる)力学系のステップ
応答を用いて近似してみる。取扱を更に簡単にするた
め、これらは臨界制動系であると仮定すれば、フレーズ
成分に相当する系のインパルス応答は、 また、アクセント成分に相当する系のステップ応答は、 と表すことができる。ここで、α,β,θはシステム定
数で予め定めておく。更に、θはアクセント線分が有限
の時間内に一定値に到達することを表現するために設け
られた閾値である。これらの表現を用いると、基本周波
数パターンの特徴をよく近似できる。
ここで、時刻tにおける基本周波数の値をF0(t)で
表せば、その対数値は、 と表すことができる。Fminは基本周波数パターンの基
線、Apiはi番目のフレーズ指令の大きさ、Taiはその生
起する時点、Aajはj番目のアクセント指令の大きさ、T
1jとT2jはそれぞれ立ち上がりと立ち下がりの時点を表
す。
表せば、その対数値は、 と表すことができる。Fminは基本周波数パターンの基
線、Apiはi番目のフレーズ指令の大きさ、Taiはその生
起する時点、Aajはj番目のアクセント指令の大きさ、T
1jとT2jはそれぞれ立ち上がりと立ち下がりの時点を表
す。
第4図のb,c,d,eは、先に第4図のaに示した基本周
波数パターンを、平均二乗誤差最小の意味で最もよく近
似するようなフレーズ成分とアクセント成分とに分解
し、更にそれらを生起させるべき指令すなわちフレーズ
指令Pとアクセント指令Aを示したものである。ここ
で、同時に推定された指令を見ると、フレーズ指令Pが
文頭だけでなく文の主部と述部の統語境界にも生起する
こと、文中での単語は、隣接の単語と結合して一個のア
クセント型を形成する(アクセント結合と呼ぶ)場合と
しない場合があり、その生起は一定の規則に従うこと、
また文中のアクセント成分は、ただ単に高・低の二段階
ではなく、少なくとも三段階、文の焦点の有無によって
はさらに多くの段階を取りうること等、言語学的に重要
な多くの事実が見出されている。
波数パターンを、平均二乗誤差最小の意味で最もよく近
似するようなフレーズ成分とアクセント成分とに分解
し、更にそれらを生起させるべき指令すなわちフレーズ
指令Pとアクセント指令Aを示したものである。ここ
で、同時に推定された指令を見ると、フレーズ指令Pが
文頭だけでなく文の主部と述部の統語境界にも生起する
こと、文中での単語は、隣接の単語と結合して一個のア
クセント型を形成する(アクセント結合と呼ぶ)場合と
しない場合があり、その生起は一定の規則に従うこと、
また文中のアクセント成分は、ただ単に高・低の二段階
ではなく、少なくとも三段階、文の焦点の有無によって
はさらに多くの段階を取りうること等、言語学的に重要
な多くの事実が見出されている。
なお、本発明は、上記実施例のみに限定されるもので
はなく、例えば、抽出されたピッチパターンのピークや
谷点等に基づいて直接的にフレーズ指令情報やアクセン
ト指令情報を求めるようにしてもよい。
はなく、例えば、抽出されたピッチパターンのピークや
谷点等に基づいて直接的にフレーズ指令情報やアクセン
ト指令情報を求めるようにしてもよい。
本発明の符号化装置及び符号化方法においては、入力
信号の予測分析を行って予測フィルタ係数情報を生成す
ると同時に、予め定められた数のフレーズ成分及びアク
セント成分の発生位置の組み合わせについて上記フレー
ズ成分及びアクセント成分の大きさを微小変化させるこ
とにより得られるピッチパターンを用いて、入力信号と
予測信号との残差信号から抽出したピッチパターンよ
り、フレーズ成分及びアクセント成分を求めてフレーズ
指示情報及びアクセント指示情報に変換し、それら予測
フィルタ係数情報とフレーズ指示情報及びアクセント指
示情報を符号化することにより、ピッチ情報の圧縮率を
高めることができ、装置全体の圧縮率を向上可能とし
た。
信号の予測分析を行って予測フィルタ係数情報を生成す
ると同時に、予め定められた数のフレーズ成分及びアク
セント成分の発生位置の組み合わせについて上記フレー
ズ成分及びアクセント成分の大きさを微小変化させるこ
とにより得られるピッチパターンを用いて、入力信号と
予測信号との残差信号から抽出したピッチパターンよ
り、フレーズ成分及びアクセント成分を求めてフレーズ
指示情報及びアクセント指示情報に変換し、それら予測
フィルタ係数情報とフレーズ指示情報及びアクセント指
示情報を符号化することにより、ピッチ情報の圧縮率を
高めることができ、装置全体の圧縮率を向上可能とし
た。
したがって、伝送ビットレートを下げることができる
と共に、低い伝送ビットレートであっても音質の劣化が
少なくなる。
と共に、低い伝送ビットレートであっても音質の劣化が
少なくなる。
第1図は本発明実施例装置の概略構成を示すブロック
図、第2図はフローチャートのメインルーチンを示す
図、第3図はフローチャートのサブルーチンを示す図、
第4図はフレーズ指令とアクセント指令を説明するため
の図、第5図は従来例の偏自己相関形音声分析合成系の
構成を示すブロック回路図である。 11……ピッチパターン抽出回路 12……グループ化回路 13……指令出力回路 14……符号化回路 15……変換手段
図、第2図はフローチャートのメインルーチンを示す
図、第3図はフローチャートのサブルーチンを示す図、
第4図はフレーズ指令とアクセント指令を説明するため
の図、第5図は従来例の偏自己相関形音声分析合成系の
構成を示すブロック回路図である。 11……ピッチパターン抽出回路 12……グループ化回路 13……指令出力回路 14……符号化回路 15……変換手段
フロントページの続き (56)参考文献 特開 昭61−296396(JP,A) 特開 平1−155400(JP,A) 特開 昭59−23396(JP,A) 日本音響学会誌、VOL.27NO.9 (1971)p.445−455
Claims (2)
- 【請求項1】標本化された入力信号から隣接標本間の相
関を用いて予測分析を行い、予測フィルタ係数情報及
び、入力信号と予測信号との残差信号を生成する生成手
段と、 上記生成手段によって生成された残差信号からピッチパ
ターンを抽出する抽出手段と、 上記抽出されたピッチパターンを、予め定められた数の
フレーズ成分及びアクセント成分の発生位置の組み合わ
せについて上記フレーズ成分及びアクセント成分の大き
さを微小変化させることにより得られるピッチパターン
を用いて、上記抽出されたピッチパターンを表現するた
めの上記フレーズ成分及びアクセント成分にそれぞれ対
応するフレーズ指示情報及びアクセント指示情報に変換
する変換手段と、 上記予測フィルタ係数情報、フレーズ指示情報及びアク
セント指示情報を符号化して出力する符号化手段と を具備することを特徴とする符号化装置。 - 【請求項2】標本化された入力信号から隣接標本間の相
関を用いて予測分析を行い、予測フィルタ係数情報及
び、入力信号と予測信号との残差信号を生成し、 上記生成された残差信号からピッチパターンを抽出し、 上記抽出されたピッチパターンを、予め定められた数の
フレーズ成分及びアクセント成分の発生位置の組み合わ
せについて上記フレーズ成分及びアクセント成分の大き
さを微小変化させることにより得られるピッチパターン
を用いて、上記抽出されたピッチパターンを表現するた
めの上記フレーズ成分及びアクセント成分にそれぞれ対
応するフレーズ指示情報及びアクセント指示情報に変換
し、 上記予測フィルタ係数情報、フレーズ指示情報及びアク
セント指示情報を符号化して出力する ことを特徴とする符号化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32825589A JP3271966B2 (ja) | 1989-12-20 | 1989-12-20 | 符号化装置及び符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32825589A JP3271966B2 (ja) | 1989-12-20 | 1989-12-20 | 符号化装置及び符号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03189698A JPH03189698A (ja) | 1991-08-19 |
JP3271966B2 true JP3271966B2 (ja) | 2002-04-08 |
Family
ID=18208177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32825589A Expired - Fee Related JP3271966B2 (ja) | 1989-12-20 | 1989-12-20 | 符号化装置及び符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3271966B2 (ja) |
-
1989
- 1989-12-20 JP JP32825589A patent/JP3271966B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
日本音響学会誌、VOL.27NO.9(1971)p.445−455 |
Also Published As
Publication number | Publication date |
---|---|
JPH03189698A (ja) | 1991-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3707116B2 (ja) | 音声復号化方法及び装置 | |
US7496506B2 (en) | Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals | |
JP3557662B2 (ja) | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 | |
KR100566713B1 (ko) | 음향 파라미터 부호화, 복호화 방법, 장치 및 프로그램, 음성 부호화, 복호화 방법, 장치 및 프로그램 | |
US20060277040A1 (en) | Apparatus and method for coding and decoding residual signal | |
JPH1091194A (ja) | 音声復号化方法及び装置 | |
RU2005137320A (ru) | Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи | |
JPH0668680B2 (ja) | 改善された多パルス線形予測符号化音声処理装置 | |
JPH10124092A (ja) | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 | |
JP2012532344A (ja) | 加重線形予測変換を利用したオーディオ信号符号化及び復号化装置並びにその方法 | |
US6246979B1 (en) | Method for voice signal coding and/or decoding by means of a long term prediction and a multipulse excitation signal | |
JP2645465B2 (ja) | 低遅延低ビツトレート音声コーダ | |
JP3248668B2 (ja) | ディジタルフィルタおよび音響符号化/復号化装置 | |
JP4359949B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP4281131B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP3237178B2 (ja) | 符号化方法及び復号化方法 | |
JPH09508479A (ja) | バースト励起線形予測 | |
JP3271966B2 (ja) | 符号化装置及び符号化方法 | |
JP3348759B2 (ja) | 変換符号化方法および変換復号化方法 | |
JP3916934B2 (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 | |
JP2006171751A (ja) | 音声符号化装置及び方法 | |
JP2796408B2 (ja) | 音声情報圧縮装置 | |
JP3803306B2 (ja) | 音響信号符号化方法、符号化器及びそのプログラム | |
KR0155798B1 (ko) | 음성신호 부호화 및 복호화 방법 | |
JP2736157B2 (ja) | 符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |