JP3019342B2

JP3019342B2 - 音声符号化方式

Info

Publication number: JP3019342B2
Application number: JP1340106A
Authority: JP
Inventors: 英輔花田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-12-27
Filing date: 1989-12-27
Publication date: 2000-03-13
Anticipated expiration: 2015-03-13
Also published as: JPH03198099A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、音声信号を低いビットレートで高品質に符
号化するための音声符号化方式に関する。

（従来の技術）音声信号を低いビットレート、例えば16Kb/s程度以下
で伝送する方式としては、マルチパルス符号化法などが
知られている。これらは音源信号を複数個のパルスの組
合せ（マルチパルス）で表し、声道の特徴をデジタルフ
ィルタで表し、音源パルスの情報とフィルタの係数を、
一定時間区間（フレーム）毎に求めて伝送している。こ
の方法の詳細については、例えばアラセキ、オザワ、オ
ノ、オチアイ氏による“Multi−pulse Excited Speech
Coder Based on Maximum Crosscorrelation Search Alg
orithm",（GLOBECOM83,IEEE Global Telecommunicatio
n,講演番号23.3,1983）（文献１）に記載されている。
この方法では、声道情報と音源信号を分離してそれぞれ
表現すること、および音源信号を表現する手段として複
数のパルス列の組合せ（マルチパルス）を用いることに
より、複合後に良好な音声信号を出力することができ
る。

音声信号をより低いビットレートで伝送する方法とし
ては、マルチパルス音源のピッチ毎の準周期性（ピッチ
相関）を利用したピッチ予測マルチパルス法が提案され
ている。この方法の詳細は、例えば、特願昭58−139022
号明細書（文献２）に詳しいのでここでは説明を省略す
る。

また、音声信号をさらに低いビットレートで伝送する
方法としては、前記音源パルスの情報とフィルタの情報
を一定時間毎ではなく、入力された音声信号を分析して
得られる音響的特徴が持続している区間毎に区切り、
（以下、音声信号を区切ったうえ分類する一連の処理を
セグメンテーションといい、セグメンテーションの結果
得られた各区間をセグメントと呼ぶ。）各セグメント毎
に音源を求める方法をとることによって良好な再生音声
を得る方法をとることもできる。これらの方法について
は特願平1-23255号明細書（文献３）に詳しいのでここ
では詳細を省略する。

（発明が解決しようとする課題）しかしながら、文献１と文献２に掲載されている従来
法ではビットレートが充分に高く音源パルスの数が充分
なときは音質が良好であったが、ビットレートを下げて
行くと音質が低下するという問題点があった。

また、前記文献３に掲載されている方法でも特に周期
性を利用した音源を選択した場合でかつセグメントの長
さが長くなった場合に音質が低下するという問題点があ
った。

本発明の目的は、ビットレートが高いところでも、下
げていっても、また同じ音響的特徴を有する区間長が長
くなっても、従来よりも良好な音声を少ない演算量で実
現可能な音声符号化方式を提供することにある。

（課題を解決するための手段）本発明による音声符号化方式は、離散的な音声信号を
入力し、予め定められた時間中の区間（フレーム）に分
割したのち分析スペクトル包絡を表すスペクトルパラメ
ータと音響的特徴を表すパラメータを抽出し、前記音響
的特徴を利用して前記音声信号を分類して予め複数種類
用意した音源モデルの中から最適なものを選択し、前記
選択された音源モデルと前記スペクトルパラメータを用
いて計算した現フレームの再生音声と前記入力音声との
歪を計算し、現フレームの時間的に次のフルーム以後は
前記の方法で計算された歪と１つ過去の区間について計
算した歪との比を計算して、前記計算された比と予め定
められた閾値とを比較することにより前記区間長に等し
いかまたは長いセグメント長を求めて前記音声信号を分
割し、前記選択された音源信号を表す符号と前記計算さ
れたスペクトルパラメータと前記セグメントの時間長と
前記計算された音源信号を量子化して出力することを特
徴とする。

（作用）本発明による符号化方式において選択された音源モデ
ルが適しているセグメントにおけるセグメントの区間長
（以下、セグメントの区間長を略してセグメント長とい
う。）の決定方法について第２図及び式を用いて説明す
る。第２図は、セグメント内の音響的特徴が母音性を示
す場合である。

第２図は母音性を示すセグメントにおける音源信号計
算回路及びセグメント境界決定回路のブロック図を示
す。信号入力端子310からは予め定められた区間長（例
えは10msec.）（以下、第１フレームという）の信号x₁
（ｎ）が入力される。また、スペクトルパラメータ入力
端子300からは前記第１フレームの入力信号x₁（ｎ）か
ら計算されたスペクトルパラメータが入力される。音響
パラメータ入力端子305からは前記第１フレームの入力
信号x₁（ｎ）の音響的特徴を表すパラメータが入力され
る。音源選択回路306は前記入力された音響的特徴を表
すパラメータを用いて予め複数個用意された音源モデル
から最適なモデルを選択する。具体的な方法は前記文献
３を参照できる。前記音響的特徴が母音を示すときは、
音源計算回路320は前記第１フレームの入力信号x
₁（ｎ）と前記入力されたスペクトルパラメータを用い
て前記選択された音源モデルを用いて音源信号を計算す
る。前記第１フレームに対する処理が終了すると、現在
のセグメント長を前記区間長に設定する。バッファ330
は前記計算された音源信号x₁（ｎ）と現在のセグメント
長を蓄積し、前記第１フレームの入力信号x₁（ｎ）をそ
のまま出力する。また、再生フィルタ324は前記音源計
算回路の出力である音源信号と前記入力された音響的特
徴を表すパラメータを用いて音声信号₁（ｎ）を再生
する。再生の具体的な方法は前記文献３を参照出来る。
歪計算回路323は前記再生された音声信号₁（ｎ）と前
記入力された第１フレームの音声信号x₁（ｎ）を用いて
前記第１フレームにおける歪E₁を予め定めた次式（１）
のように計算する。

E₁＝ｄ｛₁（ｎ），x₁（ｎ）｝（１）前記歪計算回路の出力E₁は歪保存回路385に初期値と
して保存する。次に信号入力端子340から前記バッファ3
30の出力信号の時間的に次のフレームの入力信号x
₂（ｎ）を入力する。信号形成回路345は前記バッファか
ら出力された信号に続けて前記入力端子340からの入力
信号を加えた区間長の入力信号x₂′（ｎ）を作成して出
力する。音源計算回路350は前記信号形成回路からの出
力信号に対して前記選択された音源モデルを用いて音源
信号を計算する。再生フィルタ360は前記入力されたス
ペクトルパラメータと前記計算された音源信号を用いて
音声信号₂′（ｎ）を再生する。歪計算回路370は前記
再生フィルタによって再生された再生信号₂′（ｎ）
と入力信号₂′（ｎ）との歪E₂を前記式（１）と同じ
計算方法で計算する。境界判定回路380は前記計算され
た歪E₂と前記歪保存回路に保存されている１つ前のフレ
ームにおける歪E₁との比R₁₂を次式（２）に従って計算
し、得られた結果R₁₂と予め定められた閾値Ｔとを比較
する。

R₁₂＝E₂／E₁ （２）前記歪の比R₁₂が前記閾値Ｔよりも小さい場合はセグ
メント長を更新し前記音源計算回路350の出力である音
源信号と前記更新されたフレーム長をバッファ330に蓄
積し、前記歪計算回路370において計算された歪を前記
歪保存回路に初期値として保存する。前記バッファは前
記蓄積された音声信号を前記信号形成回路へ出力する。
そして次のフレームの入力信号に対する処理を行う。一
方、前記歪か前記閾値よりも大きい場合は、対象として
いる入力信号の開始点に境界があると判定し、バッファ
330に蓄積されている音源信号とセグメント長を出力端
子390に出力する。

以上示したような方法を用いることによって、前記文
献２における方法に対しても大幅に計算量を削減した
上、歪を良好に小さく保つことが可能である。

（実施例）本発明の一実施例を示す第１図において、入力端子50
0から離散的な音声信号を入力する。時間分割回路510で
は前記入力された音声信号を予め定められた時間長（例
えば10msec.）のフレームに分割する。スペクトルパラ
メータ抽出回路520では前記フレームの音声信号のスペ
クトルを表すスペクトルパラメータを、衆知のLPC分析
法によって求める。量子化器530は求められたスペクト
ルパラメータを量子化する。逆量子化器540は、量子化
されたスペクトルパラメータを逆量子化して出力する。

音響的特徴抽出回路550は、前記フレームの入力信号
から種々の音響的特徴を表すパラメータを抽出して出力
する。特徴分類回路560は、前記出力された音響的特徴
を表すパラメータを用いて、前記フレーム内の入力信号
が母音性の特徴を持っているかどうか判定する。判定に
用いる音響的特徴としては例えばフレーム内のパワまた
はRMS、ピッチゲインなど衆知の方法によって求めるこ
とができるパラメータがある。

前記分類結果が母音性信号である場合は、前記特徴分
類回路は前記マルチパルス音源選択回路の作動を停止し
母音部音源計算回路600を作動させる。前記母音部音源
計算回路は例えば小澤氏による“種々の音源を用いる4.
8kb/s音声符号化方式（SPMEX）”（電子情報通信学会音
声研究会資料SP89−21989年、文献４）の中で用いられ
ている改良ピッチ補間マルチパルス音源を音源モデルと
して用いて前記求めたセグメントの音源信号を計算して
量子化して出力する。母音部の音源を計算し、セグメン
ト境界決定回路605に出力する。前記セグメント境界決
定回路は前記母音部音源計算回路の出力である音源信号
と前記逆量子化器の出力と前記入力信号を用いて作用の
項に示したような方法を用いてセグメント境界があるか
どうか決定し、境界があると判定されれば前記母音音源
計算回路において計算された音源信号を表す符号とセグ
メント長を出力する。

一方、前記分類結果が母音性信号でない場合は、前記
特徴分類回路は母音部音源計算回路600の作動を停止し
マルチパルス音源選択回路590を動作させる。前記マル
チパルス音源計算回路590は、前記特徴分類回路か前記
入力信号が母音性信号でないという分類結果を出力した
場合に、例えば前記文献１に見られるような衆知の方法
で音源パルスを計算する。

前記量子化器の出力と前記特徴分類回路の出力と各音
源計算回路の出力である音源符号を表す符号とセグメン
ト中を表す符号はマルチプレクサ610の入力となる。前
記マルチプレクサはこれらの入力を効率的に多重化して
出力する。

以上述べた構成は本発明の一構成に過ぎず、種々の変
形も可能である。

マルチパルスの計算方法としては、前記文献１に示し
た方法の他に、種々の衆知な方法を用いることができ
る。

また、スペクトルパラメータとしては、他の衆知なパ
ラメータ（線スペクトル対、ケプストラム、メルケプス
ドラム、対数断面積比等）を用いることもできる。

また、セグメント長を決定するための閾値はどの場合
でも１つの数値としてもよいし、セグメント長に応じて
算出した数値としてもよい。

また、前記求める歪は例えば２乗誤差としてもよい
し、この他衆知の距離尺度を用いてもよい。

また、分類に応じて用いる音源は、上の例に示した以
外に例えば前記文献４の中で用いられているように予め
複数種類の音源モデルを用意して入力信号の音響的特徴
によって最適な音源モデルを切り替えて用いる形とする
こともできる。例えば母音性以外の信号の音源としては
破裂、過渡性のときにマルチパルス音源、摩擦性のとき
に乱数コードブック音源を用いることができる。前者に
ついては前記文献１に、後者については例えばシュレー
ダー、アタル両氏による“CODE−EXCITED LINEAR PREDI
CTION（CELP）:HIGH−QUALITY SPEECH AT VERY LOW BIT
RATES"（ICASSP'85講演番号25.1.1 1985）（文献５）
と題した論文等に詳しいのでここでは説明を略す。

また、本発明によるセグメント長を決定するための方
法は、上の例では母音性を示す場合のみに用いたが、こ
れ以外の場合、例えば摩擦性などに用いてもよい。

（発明の効果）本発明によれば、音源信号を予め用意した複数個の音
源の中から最適なものを選択し、音声信号を同一の特徴
の連続している可変時間長のセグメントに分割して前記
音源信号を計算することにより、従来法に比べ少ない伝
送情報量で音声信号を良好に表すことができるという大
きな効果がある。

【図面の簡単な説明】

第１図は本発明による音声符号化方法の一実施例の構成
を示すブロック図、第２図は本発明の作用を説明するた
めの図である。図において、 306…音源選択回路、320、350…音源計算回路、330…バ
ッファ、380…境界判定回路、345…信号形成回路、32
4、360…再生フィルタ、323、370…歪計算回路、385…
歪保存回路、510…時間分割回路、520…スペクトルパラ
メータ計算回路、530…量子化器、540…逆量子化器、55
0…音響的特徴抽出回路、560…特徴分類回路、590…マ
ルチパルス計算回路、600…母音部音源計算回路、605…
セグメント境界決定回路、610…マルチプレクサ。

Claims

(57)【特許請求の範囲】

【請求項１】離散的な音声信号を入力し、予め定められ
た時間長の区間（フレーム）に分割したのち分析したス
ペクトル包絡を表すスペクトルパラメータと音響的特徴
を表すパラメータを抽出し、前記音響的特徴を利用して
前記音声信号を分類して予め複数種類用意した音源モデ
ルの中から最適なものを選択し、前記選択された音源モ
デルと前記スペクトルパラメータを用いて計算した現フ
レームの再生音声と前記入力音声との歪を計算し、現フ
レームの時間的に次のフレーム以後は前記の方法で計算
された歪と１つ過去の区間について計算した歪との比を
計算して、前記計算された比と予め定められた閾値とを
比較することにより前記区間長に等しいかまたは長いセ
グメント長を求めて前記音声信号を分割し、前記選択さ
れた音源信号を表す符号と前記計算されたスペクトルパ
ラメータと前記セグメントの時間長と前記計算された音
源信号を量子化して出力することを特徴とする音声符号
化方式。