JP2707564B2

JP2707564B2 - 音声符号化方式

Info

Publication number: JP2707564B2
Application number: JP62315621A
Authority: JP
Inventors: 吉章浅川; 熹市川; 和弘近藤; 俊郎鈴木
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1987-12-14
Filing date: 1987-12-14
Publication date: 1998-01-28
Anticipated expiration: 2013-01-28
Also published as: US5119424A; JPH01155400A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声符号化方式に関し、特に音声情報を8K
bps前後に圧縮する際に符号化音声の品質を向上させる
ための方式に関するものである。〔従来の技術〕音声信号を広帯域ケーブルで伝送するためには、音声
信号をサンプリングし、量子化して、２進のディジタル
符号に変換することにより、PCM伝送する。一方、専用ディジタル回線を用いて通信ネットワーク
を構築する場合、通信コストの低減は非常に重要な課題
であり、60Kbpsにも及ぶ音声信号の情報量は多過ぎるた
め、そのままでは伝送できない。そこで、伝送のための
音声信号の情報圧縮（つまり低ビットレート符号化）が
必要となった。音声信号を8Kbps前後で圧縮する音声符号化方式とし
ては、音声をスペクトル包絡情報と音源情報とに分離し
て、各々を符号化する方法が知られている。その中で、
音源情報を単一パルス列と白色雑音でモデル化したもの
が、いわゆるPARCOR（Partial Autocorrelation:偏自己
相関）法であり、この方法では、低ビットレートで符号
化できるが、その反面、品質の劣化が大きい。これに対
して、音源を複数のパルス列で表現する方式として、マ
ルチパルス法（例えば、小沢，他『マルチパルス駆動形
音声符号化法の品質改善』日本音響学会音声研究会資料
S83−78（1984.1）参照）や、あるいは残差圧縮法（浅
川，他『残差情報を利用した音声合成法の検討』日本音
響学会講演論文集３−１−７（昭和59.10）参照）等が
ある。残差圧縮法としては、例えば特開昭61−296398号公報
に記載された方法が提案されており、また特願昭60−24
1419号，特願昭61−35148号の各明細書にも記載されて
いる。これらの方式では、音源の表現が精密化する分だけ、
PARCOR法に比べて品質が向上している。〔発明が解決しようとする問題点〕前述の従来技術においては、音源である複数のパルス
列を、フレームごとに独立して一定の基準で生成する。
ここで、フレームとは、音声を分析する時間単位であっ
て、通常は20ms程度に設定される。ところで、音声波形は、サンプリングされてサンプル
値x_iの系列に変換されているものとする。現在をx_tと
し、それから過去にさかのぼるｐ個のサンプル値を｛x
_t-i｝，（ｉ＝1,・・・,p）とする。ここで、音声波形
は近似的に過去のｐ個のサンプルから予測できると仮定
する。予測の中で最も簡単なものは線形予測であるか
ら、過去のサンプル値の各々にある一定の係数を乗じて
加え合わせたもので、現在の値が近似されるものと考え
る。このとき、現在点ｔでの実現値x_tと予測値y_tとの差
を、予測誤差εとする。この予測誤差εを、予測残差ま
たは単に残差と呼ぶ。音声波形の予測残差波形は、２種
類の波形の和と考えられる。その１つは、いわゆる誤差
成分であり、その振幅は余り大きくなく、ランダムな雑
音波形に近い。また、他の１つは、入力に声帯振動によ
るパルスが加わったときの誤差であって、予測が大きく
狂い、振幅の大きな残差波形となる。この残差成分は、
音源の周期性に対応して、繰り返し周期的に現われる。音声は、周期性を有する区間（有声音）と、周期性が
顕著でない区間（無声音）とに大別されるので、それに
対応して、予測残差波形も、有声音部では周期性を有し
ている。一方、マルチパルス法や残差圧縮法において生成され
るパルス列は、残差の近似とみなすことができるので、
有声音部では周期性を有するはずである。ところが、こ
れらのパルス列は前後のフレームとは独立して生成され
るために、パルス列の相対的な位置関係がフレームごと
にずれてしまい、周期性が乱れる場合がある。このようなパルス列を音源として音声を合成すると、
『ゴロゴロ』という音質劣化が生じるという問題があっ
た。本発明の目的は、このような従来の問題を改善し、マ
ルチパルス法や残差圧縮法で生成されるパルス列に対し
て、フレームごとの周期性の乱れによる音質の劣化を防
止することができる音声符号化方式を提供することにあ
る。〔問題点を解決するための手段〕上記目的を達成するため、本発明の音声符号化方式
は、有声フレームが無声フレームから切り替わった直後
か、有声フレームが連続したか、あるいは無声フレーム
であるかのいずれかを判定する手段と、上記無声フレー
ムから有声フレームに切り替わった直後に、音源パルス
を生成する第１の音源パルス生成手段と、上記有声フレ
ームが連続するときに、音源パルスを生成する第２の音
源パルス生成手段と、上記無声フレームのときに、音源
パルスを生成する第３の音源パルス生成手段とを具備す
ることに特徴がある。〔作用〕本発明においては、最初に生成されたパルス列を基準
として、ピッチ周期により次のフレームのパルス列の位
置を推定し、その推定された位置の近傍で新たなパルス
列を生成し、周期性を保持する。すなわち、有声音にお
ける音声の周期は、声の高さであるピッチ周波数の逆数
であるピッチ周期に対応している。音の高さの変化は比
較的ゆるやかであるから、１フレームの中ではほぼ一定
とみなすことができる。そこで、最初の基準となるフレ
ーム、例えば、無声音から有声音に切り替わった最初の
フレームでは、従来技術により一定の基準で音源パルス
列を生成した後、順次、生成された音源パルス列を基準
に次のフレームにおける音源パルス列の位置を推定し
て、音源パルス列を生成する方法を用いる。マルチパルス法や残差圧縮法では、音源パルス数が少
ないので、一般に生成される音源パルス列はピッチ周期
ごとに一塊のまとまったものとなる。従って、フレーム
の最後のピッチ周期における音源パルス列を基準とし
て、ピッチ周期だけ時間軸方向に進めた位置を次のフレ
ームの先頭のパルス列の位置とするのである。このよう
にすれば、２フレーム間でのパルス列の周期性が保持さ
れる。次フレームにおいては、この位置を基準として、
この位置の近傍に最初の音源パルス列を生成する。それ
により、フレーム間での周期性の乱れは無くなり、音質
の劣化も防止でき、かつパルス列生成の基準に基づいた
最適な音源パルス列が得られることになる。〔実施例〕以下、本発明の実施例を、図面により詳細に説明す
る。第１図は、本発明の音声符号化方式を残差圧縮法を用
いた音声符号化装置（音声CODEC）に適用した場合のブ
ロック構成図であって、（ａ）が符号化部であり、
（ｂ）が復号化部である。本発明の符号化部は、第１図（ａ）に示すように、デ
ィジタル音声信号を格納するバッファメモリ１と、線形
予測を行う線形予測回路３と、パラメータ４を用いて制
御される逆フィルタ５と、残差相関法等を用いてピッチ
を抽出するピッチ抽出回路７と、有声無声判定回路９
と、有声無声判定結果に応じて音源パルスを生成する音
源生成部11と、量子化符号化回路13とを具備している。
また、本発明の復号化部は、第１図（ｂ）に示すよう
に、入力信号を４種のパラメータに分離する復号回路16
と、復号化されたスペクトルパラメータを格納するバッ
ファメモリ19と、ピッチ周期と有声無声判定結果と音源
情報を入力として、音源パルスを生成する音源パルス再
生回路17と、音源パルス再生回路17での遅延を補正し
て、これを係数とする合成フィルタ20とを具備してい
る。第１図（ａ）において、符号化時には、ディジタル化
された音声信号は、バッファメモリ１に１フレーム分格
納され、よく知られている線形予測回路３により、スペ
クトル包絡を表わすパラメータ（例えば、偏自己相関係
数）４に変換される。次に、このパラメータ４を係数に
用いて逆フィルタ５を構成し、これに音声信号２を入力
することにより、残差信号６を得る。ピッチ抽出回路７
は、残差相関法やAMDF（Average Magnitude Differenti
al Function）法等のよく知られた手法を用いており、
残差信号６を入力としてフレームのピッチ周期８を抽出
する。有声無声判定回路９は、そのフレームが有声フレ
ームであるか無声フレームであるかの判定結果10a、お
よび無声フレームから有声フレームに切り替わったこと
を示す信号10bを出力する。音源生成部11は、本発明に
より新たに設けられたものであって、音声無声判定結果
10aおよび切り替え信号10bに応じて音源パルスを生成
し、その情報12を出力する。量子化符号化回路13は、スペクトルパラメータ４とピ
ッチ周期８と有声無声判定結果10aと音源情報12とを受
け取り、所定のビット数に量子化して、所定の書式に変
換された結果14をディジタル回線15に送出する。第１図（ｂ）において、復号化時には、ディジタル回
線15から受信されたディジタル・データ14が復号回路16
に入力されると、（ａ）に示す４種のパラメータ（ピッ
チ周期８′，音源情報12′，有声無声判定結果10a′，
スペクトルパラメータ４′）に分離される。上記４種の
パラメータのうちの３種のパラメータ（復号化さたピッ
チ周期８′，有声無声判定結果10a′，音源情報12′）
を入力とする音源パルス再生回路17により、目的とする
音源パルス18を得る。一方、４種のパラメータのうちの１種のパラメータ
（復号化されたスペクトルパラメータ４′）のみは、バ
ッファメモリ19に格納され、音源パルス再生回路17での
遅延を補正した後、そのバッファメモリ19の出力を合成
フィルタ20の係数として用いる。音源パルス18をこの合
成フィルタ20に入力することにより、その出力として合
成音声21を得ることができる。第２図は、第１図における音源生成部の機能ブロック
図である。音源生成部11は、第２図に示すように、無声から有声
に切り替わったことにより制御を切り替えるための切替
制御部31と、残差信号を格納するバッファメモリ111
と、無声から有声に切り替わったとき、パルスの抽出位
置を決定するためのパルス抽出位置決定部112と、前フ
レームで決定された代表残差の先頭アドレスがバッファ
メモリ111のアドレスに変換されて格納されている先頭
位置メモリ30と、有声フレームが連続しているとき、パ
ルス抽出位置を決定するためのパルス抽出位置決定部32
と、先頭アドレスおよびバッファメモリ111から音源を
抽出するための音源抽出部115と、無声音源を生成する
ための無声音源生成部116とから構成されている。本実施例の音声符号化方式は、有声フレームの音源生
成に関するものであるため、有声無声判定結果10aは有
声を示しており、ピッチ周期８は値が確定しているもの
とする（以下、ピッチ周期の値をNPTCHとする）。先ず、有声無声切換信号10bが無声から有声に切り替
わった直後であることを示しているときには、切替制御
部31からの信号で制御がパルス抽出位置決定部（Ｉ）11
2に移る。ここで制御される場合の音源生成部11の機能
は、従来の残差圧縮法（例えば、前述の公報（特開昭61
−296398号公報）に第２の方法として記載されている残
差圧縮法）と同一である。すなわち、代表的なピッチ区
間に対して、連続したLN本の残差パルスを抽出する（こ
こで、LN本とは、抽出パルス数113の値で示される本数
である）。また、前述の特願昭60−241419号明細書に記載されて
いるように、復号時に、前フレームの復号残差と現フレ
ームの代表残差を補間する場合には、代表ピッチ区間は
現フレームの最後の点を含むように定める。つまり、パ
ルス抽出位置決定部（Ｉ）112においては、次式を算出
する。ただし、ｉは次の条件式を満足する。 iFRM−NPTCH＋１≦ｉ≦iFRM ……（２）ここで、x_jは、アドレスｊの残差パルス振幅であり、
バッファメモリ111から読み出される。なお、バッファ
メモリ111はリングバッファであって、前フレームと現
フレームの残差が格納されている。また、iFRMはフレー
ム長であり、LNは抽出パルス数113の値である。例えば、パルス抽出位置検定部112が、補間すべき次
の残差パルスの振幅情報と位置情報を求るるため、上式
（１），（２）式で先ず振幅累計値を求めている。い
ま、バッファメモリ111に、現フレーム長として０〜159
のアドレスが割付けられ、代表的ピッチ区間に対して連
続した20本の残差パルスがある場合には、次の代表ピッ
チ区間は現フレームの最後の点を含むようにして決定さ
れ、上式（２）よりフレーム長より小さく、かつフレー
ム長よりピッチ周期だけ小さい区間より大きい区間内に
求める位置ｉを定める。そして、上記（１）式で算出さ
れた振幅累計値から先頭アドレスを求め、そのアドレス
から20本分の残差パルスをバッファメモリ111から取り
出すことにより補間するのである。上式（１）で算出されたAMP（ｉ）の最大値を与える
ｉをi₀とすると、i₀が代表残差の先頭アドレス114aであ
る。先頭アドレス114aが音源抽出部115に送られると、
先頭アドレスからLN本の残差をバッファメモリ111から
読み出し、これらを音源情報12として後段に送出する。次に、有声無声切替信号10bが無声から有声への切り
替わり直後でないとき、つまり有声フレームが連続して
いることを示す場合について、詳述する。このときには、切替制御部31からの信号で、制御がパ
ルス抽出位置決定部（II）32に移る。バッファメモリ111には、２フレームの残差が格納さ
れている。アドレス−iFRM＋１〜０までが前フレーム分
であり、１〜iFRMまでが現フレーム分である。また、先
頭位置メモリ30には、前フレームで決定された代表残差
の先頭アドレスi₀がバッファメモリ111上のアドレスに
変換され（i₀′＝i₀−IFRM）、これが格納されている。
現フレームの代表残差の先頭位置は、i₀′を基準とし
て、次のように決定する。なお、上式（３）において、STADRS₁,・・・・・・ST
ADRS_Nは、復号時に代表残差を補間するための先頭アド
レスに対応したものであって、STADRS_Nは現フレームに
おける最後のピッチ区間内のもの、つまり代表残差の先
頭アドレスであり、次のようになる。 i₀＝STADRS_N ……（４）このようにすれば、前フレームの代表残差先頭アドレ
スから現フレームの代表残差先頭アドレスを、極めて簡
単に求めることができる。しかし、ピッチ周期NPTCHは、現フレームの平均的な
ピッチ周期であるため、実際のピッチ位置とは誤差を持
つ可能性がある。そこで、より精密に位置を決めるため
に、次のようにする。先ず、（５）式により、短区間相互相関値を定義す
る。 i₀′＋NPTCH−Ｄ≦ｉ≦i₀′＋NPTCH＋Ｄ ……（６）ここで、Ｄ（＞０）は、ピッチのゆらぎ等で決まる値
であり、CORは相互相関値を表わす。上式（６）では、
現フレームの最初の音源パルス列の先頭アドレスの存在
範囲が前フレームの代表残差の先頭アドレスにピッチ周
期のゆらぎを考慮して加算した範囲にあることを示して
おり、上式（５）では、先頭アドレスから抽出パルス数
LN本分の残差パルスの振幅累積値を求めるもので、位相
が一致していれば相関値は最大値となる。次の式により、第１のスタートアドレスを求める。上式（７）では、前フレームの代表残差とNPTCH離れ
た位置の近傍で、最も相関値が高くなる位置ｉを検出し
たことになる。以下、i₀′をSTADRS₁に置き換えて、同
じ手順でSTADRS₂を求め、順次、STADRS_N（＝i₀）まで求
めればよい。また、STADRS_nの決定には、上式（１）を利用するこ
とも可能である（ここで、ｎは任意の整数）。すなわ
ち、上式（１）におけるｉの範囲を（６）式として、下
記（８）式を導く。以下、同じ手順で、STADRS_N（＝i₀）まで求める。以上に述べたうちのいずれかの方法で決定した代表残
差の先頭アドレス（i₀）114bを、音源抽出部115に送出
する。復号時には、従来の方法（例えば、前述の特願昭60−
241419号明細書参照）により、代表残差と前フレームの
復号残差とを補間しながら音源パルスを再生する。この
とき、補間対応点アドレスは、前フレームの代表残差位
置そのものであるから、改めて伝送する必要がない。本実施例に示す音源パルス生成部11は、以上詳述した
ように、加算器、相関器および比較器等により簡単に実
現することができる。また、汎用のマイクロプロセッサ
により、同じ機能を実現することも可能である。なお、現フレームにおいて、音声無声判定結果10aが
無声となっているときには、切替制御部31からの制御信
号により、制御が無声音源生成部116に切り替えられ
る。無声音源生成部116の動作は、例えば、従来提案さ
れている方法（例えば、特願昭61−35148号明細書参
照）のように、ピッチ周期とは無関係に音源パルスを生
成するものである。第３図は、本発明の効果を説明するためのタイムチャ
ートである。第３図（ａ）は従来の方法による入力音源波形41、残
差波形42、代表残差波形43a、および合成波形44aを示す
波形図であり、第３図（ｂ）は本実施例による入力音声
波形41、残差波形42、代表残差43b、および合成波形44b
を示す波形図である。入力音声波形41は（ａ）（ｂ）ともに同一波形であっ
て、逆フィルタ５の残差信号の波形42も同一波形とな
る。従来の方法では、代表残差（復号後）をフレームご
とに独立に抽出しているので、波形43aに示すように、
フレーム＃３において代表残差の位置ずれが生じてお
り、周期性が乱れている。矢印で、そのずれ幅を示して
いる。その結果、第３図（ａ）に示すように、合成波形
44aは位置ずれが生じた位置で振幅の減衰が生じ、音質
の劣化を招いている。本実施例の場合には、第３図（ｂ）に示すように、有
声フレームが連続したとき、前フレームの代表残差位置
を基準として従属的に抽出した代表残差（復号後）43b
となる。この代表残差43bには位置ずれがなく、従って
合成波形44bも減衰がなく、自然であって、第３図
（ａ）の従来方式に比較して音質が向上している。〔発明の効果〕以上説明したように、本発明によれば、有声音が連続
するときには、本来の音声が有する周期性を乱すことな
く音源パルス列を生成するので、周期性の乱れにより生
じていた音質の劣化を防ぐことができ、符号化音声の品
質を向上させることが可能である。

【図面の簡単な説明】第１図は本発明の一実施例を示す音声符号化システムの
ブロック図、第２図は第１図における音源生成部のブロ
ック図、第３図は本発明の効果を説明する波形タイムチ
ャートである。 1,19,111:バッファメモリ、3:線形予測回路、5:逆フィ
ルタ、7:ピッチ抽出回路、9:有声無声判別器、11:音源
生成部、17:音源パルス再生器、20:合成フィルタ、31:
切替制御部、112,32:パルス抽出位置決定回路、30:先頭
位置メモリ、116:無声音源生成部、115:音源抽出部、6:
残差信号、12:音源情報、21:合成音声、43a,b:代表残差
波形、44a,b:合成波形、42:残差波形、41:入力音声波
形。

───────────────────────────────────────────────────── フロントページの続き (72)発明者鈴木俊郎東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (56)参考文献特開昭59−65897（ＪＰ，Ａ) 特開昭60−162300（ＪＰ，Ａ) 特開昭60−235200（ＪＰ，Ａ) 特開昭61−7899（ＪＰ，Ａ) 特開昭62−38500（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】１．音声信号をフレームごとに分析し、かつスペクトル
包絡情報と音源情報とに分離し、また該音声信号が有声
か無声かを判定して、有声フレームでは音源として１ピ
ッチ周期当り複数本のパルスを用いた音声符号化方式に
おいて、上記有声フレームが無声フレームから切り替わった直後
か、有声フレームが連続しているか、のいずれかを判定
する手段と、上記無声フレームから有声フレームに切り替わった直後
に、音源パルスを生成する第１の音源パルス生成手段
と、上記有声フレームが連続するときに、音源パルスを生成
する第２の音源パルス生成手段と、上記無声フレームのときに、音源パルスを生成する第３
の音源パルス生成手段とを具備し、上記第２の音源パルス生成手段は、現在の有声フレーム
の直前の有声フレームの音源パルス位置を基準に、ピッ
チ周期により現在の有声フレームの音源パルス位置を決
定し、決定された位置の近傍に音源パルス列を生成する
ことを特徴とする音声符号化方式。２．前記現在の有声フレームの音源パルス位置の決定の
ため、相関法を用いることを特徴とする特許請求の範囲
第１項記載の音声符号化方式。