JP3019342B2 - 音声符号化方式 - Google Patents

音声符号化方式

Info

Publication number
JP3019342B2
JP3019342B2 JP1340106A JP34010689A JP3019342B2 JP 3019342 B2 JP3019342 B2 JP 3019342B2 JP 1340106 A JP1340106 A JP 1340106A JP 34010689 A JP34010689 A JP 34010689A JP 3019342 B2 JP3019342 B2 JP 3019342B2
Authority
JP
Japan
Prior art keywords
sound source
signal
calculated
distortion
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1340106A
Other languages
English (en)
Other versions
JPH03198099A (ja
Inventor
英輔 花田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1340106A priority Critical patent/JP3019342B2/ja
Publication of JPH03198099A publication Critical patent/JPH03198099A/ja
Application granted granted Critical
Publication of JP3019342B2 publication Critical patent/JP3019342B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声信号を低いビットレートで高品質に符
号化するための音声符号化方式に関する。
(従来の技術) 音声信号を低いビットレート、例えば16Kb/s程度以下
で伝送する方式としては、マルチパルス符号化法などが
知られている。これらは音源信号を複数個のパルスの組
合せ(マルチパルス)で表し、声道の特徴をデジタルフ
ィルタで表し、音源パルスの情報とフィルタの係数を、
一定時間区間(フレーム)毎に求めて伝送している。こ
の方法の詳細については、例えばアラセキ、オザワ、オ
ノ、オチアイ氏による“Multi−pulse Excited Speech
Coder Based on Maximum Crosscorrelation Search Alg
orithm",(GLOBECOM83,IEEE Global Telecommunicatio
n,講演番号23.3,1983)(文献1)に記載されている。
この方法では、声道情報と音源信号を分離してそれぞれ
表現すること、および音源信号を表現する手段として複
数のパルス列の組合せ(マルチパルス)を用いることに
より、複合後に良好な音声信号を出力することができ
る。
音声信号をより低いビットレートで伝送する方法とし
ては、マルチパルス音源のピッチ毎の準周期性(ピッチ
相関)を利用したピッチ予測マルチパルス法が提案され
ている。この方法の詳細は、例えば、特願昭58−139022
号明細書(文献2)に詳しいのでここでは説明を省略す
る。
また、音声信号をさらに低いビットレートで伝送する
方法としては、前記音源パルスの情報とフィルタの情報
を一定時間毎ではなく、入力された音声信号を分析して
得られる音響的特徴が持続している区間毎に区切り、
(以下、音声信号を区切ったうえ分類する一連の処理を
セグメンテーションといい、セグメンテーションの結果
得られた各区間をセグメントと呼ぶ。)各セグメント毎
に音源を求める方法をとることによって良好な再生音声
を得る方法をとることもできる。これらの方法について
は特願平1-23255号明細書(文献3)に詳しいのでここ
では詳細を省略する。
(発明が解決しようとする課題) しかしながら、文献1と文献2に掲載されている従来
法ではビットレートが充分に高く音源パルスの数が充分
なときは音質が良好であったが、ビットレートを下げて
行くと音質が低下するという問題点があった。
また、前記文献3に掲載されている方法でも特に周期
性を利用した音源を選択した場合でかつセグメントの長
さが長くなった場合に音質が低下するという問題点があ
った。
本発明の目的は、ビットレートが高いところでも、下
げていっても、また同じ音響的特徴を有する区間長が長
くなっても、従来よりも良好な音声を少ない演算量で実
現可能な音声符号化方式を提供することにある。
(課題を解決するための手段) 本発明による音声符号化方式は、離散的な音声信号を
入力し、予め定められた時間中の区間(フレーム)に分
割したのち分析スペクトル包絡を表すスペクトルパラメ
ータと音響的特徴を表すパラメータを抽出し、前記音響
的特徴を利用して前記音声信号を分類して予め複数種類
用意した音源モデルの中から最適なものを選択し、前記
選択された音源モデルと前記スペクトルパラメータを用
いて計算した現フレームの再生音声と前記入力音声との
歪を計算し、現フレームの時間的に次のフルーム以後は
前記の方法で計算された歪と1つ過去の区間について計
算した歪との比を計算して、前記計算された比と予め定
められた閾値とを比較することにより前記区間長に等し
いかまたは長いセグメント長を求めて前記音声信号を分
割し、前記選択された音源信号を表す符号と前記計算さ
れたスペクトルパラメータと前記セグメントの時間長と
前記計算された音源信号を量子化して出力することを特
徴とする。
(作用) 本発明による符号化方式において選択された音源モデ
ルが適しているセグメントにおけるセグメントの区間長
(以下、セグメントの区間長を略してセグメント長とい
う。)の決定方法について第2図及び式を用いて説明す
る。第2図は、セグメント内の音響的特徴が母音性を示
す場合である。
第2図は母音性を示すセグメントにおける音源信号計
算回路及びセグメント境界決定回路のブロック図を示
す。信号入力端子310からは予め定められた区間長(例
えは10msec.)(以下、第1フレームという)の信号x1
(n)が入力される。また、スペクトルパラメータ入力
端子300からは前記第1フレームの入力信号x1(n)か
ら計算されたスペクトルパラメータが入力される。音響
パラメータ入力端子305からは前記第1フレームの入力
信号x1(n)の音響的特徴を表すパラメータが入力され
る。音源選択回路306は前記入力された音響的特徴を表
すパラメータを用いて予め複数個用意された音源モデル
から最適なモデルを選択する。具体的な方法は前記文献
3を参照できる。前記音響的特徴が母音を示すときは、
音源計算回路320は前記第1フレームの入力信号x
1(n)と前記入力されたスペクトルパラメータを用い
て前記選択された音源モデルを用いて音源信号を計算す
る。前記第1フレームに対する処理が終了すると、現在
のセグメント長を前記区間長に設定する。バッファ330
は前記計算された音源信号x1(n)と現在のセグメント
長を蓄積し、前記第1フレームの入力信号x1(n)をそ
のまま出力する。また、再生フィルタ324は前記音源計
算回路の出力である音源信号と前記入力された音響的特
徴を表すパラメータを用いて音声信号1(n)を再生
する。再生の具体的な方法は前記文献3を参照出来る。
歪計算回路323は前記再生された音声信号1(n)と前
記入力された第1フレームの音声信号x1(n)を用いて
前記第1フレームにおける歪E1を予め定めた次式(1)
のように計算する。
E1=d{1(n),x1(n)} (1) 前記歪計算回路の出力E1は歪保存回路385に初期値と
して保存する。次に信号入力端子340から前記バッファ3
30の出力信号の時間的に次のフレームの入力信号x
2(n)を入力する。信号形成回路345は前記バッファか
ら出力された信号に続けて前記入力端子340からの入力
信号を加えた区間長の入力信号x2′(n)を作成して出
力する。音源計算回路350は前記信号形成回路からの出
力信号に対して前記選択された音源モデルを用いて音源
信号を計算する。再生フィルタ360は前記入力されたス
ペクトルパラメータと前記計算された音源信号を用いて
音声信号2′(n)を再生する。歪計算回路370は前記
再生フィルタによって再生された再生信号2′(n)
と入力信号2′(n)との歪E2を前記式(1)と同じ
計算方法で計算する。境界判定回路380は前記計算され
た歪E2と前記歪保存回路に保存されている1つ前のフレ
ームにおける歪E1との比R12を次式(2)に従って計算
し、得られた結果R12と予め定められた閾値Tとを比較
する。
R12=E2/E1 (2) 前記歪の比R12が前記閾値Tよりも小さい場合はセグ
メント長を更新し前記音源計算回路350の出力である音
源信号と前記更新されたフレーム長をバッファ330に蓄
積し、前記歪計算回路370において計算された歪を前記
歪保存回路に初期値として保存する。前記バッファは前
記蓄積された音声信号を前記信号形成回路へ出力する。
そして次のフレームの入力信号に対する処理を行う。一
方、前記歪か前記閾値よりも大きい場合は、対象として
いる入力信号の開始点に境界があると判定し、バッファ
330に蓄積されている音源信号とセグメント長を出力端
子390に出力する。
以上示したような方法を用いることによって、前記文
献2における方法に対しても大幅に計算量を削減した
上、歪を良好に小さく保つことが可能である。
(実施例) 本発明の一実施例を示す第1図において、入力端子50
0から離散的な音声信号を入力する。時間分割回路510で
は前記入力された音声信号を予め定められた時間長(例
えば10msec.)のフレームに分割する。スペクトルパラ
メータ抽出回路520では前記フレームの音声信号のスペ
クトルを表すスペクトルパラメータを、衆知のLPC分析
法によって求める。量子化器530は求められたスペクト
ルパラメータを量子化する。逆量子化器540は、量子化
されたスペクトルパラメータを逆量子化して出力する。
音響的特徴抽出回路550は、前記フレームの入力信号
から種々の音響的特徴を表すパラメータを抽出して出力
する。特徴分類回路560は、前記出力された音響的特徴
を表すパラメータを用いて、前記フレーム内の入力信号
が母音性の特徴を持っているかどうか判定する。判定に
用いる音響的特徴としては例えばフレーム内のパワまた
はRMS、ピッチゲインなど衆知の方法によって求めるこ
とができるパラメータがある。
前記分類結果が母音性信号である場合は、前記特徴分
類回路は前記マルチパルス音源選択回路の作動を停止し
母音部音源計算回路600を作動させる。前記母音部音源
計算回路は例えば小澤氏による“種々の音源を用いる4.
8kb/s音声符号化方式(SPMEX)”(電子情報通信学会音
声研究会資料SP89−21989年、文献4)の中で用いられ
ている改良ピッチ補間マルチパルス音源を音源モデルと
して用いて前記求めたセグメントの音源信号を計算して
量子化して出力する。母音部の音源を計算し、セグメン
ト境界決定回路605に出力する。前記セグメント境界決
定回路は前記母音部音源計算回路の出力である音源信号
と前記逆量子化器の出力と前記入力信号を用いて作用の
項に示したような方法を用いてセグメント境界があるか
どうか決定し、境界があると判定されれば前記母音音源
計算回路において計算された音源信号を表す符号とセグ
メント長を出力する。
一方、前記分類結果が母音性信号でない場合は、前記
特徴分類回路は母音部音源計算回路600の作動を停止し
マルチパルス音源選択回路590を動作させる。前記マル
チパルス音源計算回路590は、前記特徴分類回路か前記
入力信号が母音性信号でないという分類結果を出力した
場合に、例えば前記文献1に見られるような衆知の方法
で音源パルスを計算する。
前記量子化器の出力と前記特徴分類回路の出力と各音
源計算回路の出力である音源符号を表す符号とセグメン
ト中を表す符号はマルチプレクサ610の入力となる。前
記マルチプレクサはこれらの入力を効率的に多重化して
出力する。
以上述べた構成は本発明の一構成に過ぎず、種々の変
形も可能である。
マルチパルスの計算方法としては、前記文献1に示し
た方法の他に、種々の衆知な方法を用いることができ
る。
また、スペクトルパラメータとしては、他の衆知なパ
ラメータ(線スペクトル対、ケプストラム、メルケプス
ドラム、対数断面積比等)を用いることもできる。
また、セグメント長を決定するための閾値はどの場合
でも1つの数値としてもよいし、セグメント長に応じて
算出した数値としてもよい。
また、前記求める歪は例えば2乗誤差としてもよい
し、この他衆知の距離尺度を用いてもよい。
また、分類に応じて用いる音源は、上の例に示した以
外に例えば前記文献4の中で用いられているように予め
複数種類の音源モデルを用意して入力信号の音響的特徴
によって最適な音源モデルを切り替えて用いる形とする
こともできる。例えば母音性以外の信号の音源としては
破裂、過渡性のときにマルチパルス音源、摩擦性のとき
に乱数コードブック音源を用いることができる。前者に
ついては前記文献1に、後者については例えばシュレー
ダー、アタル両氏による“CODE−EXCITED LINEAR PREDI
CTION(CELP):HIGH−QUALITY SPEECH AT VERY LOW BIT
RATES"(ICASSP'85講演番号25.1.1 1985)(文献5)
と題した論文等に詳しいのでここでは説明を略す。
また、本発明によるセグメント長を決定するための方
法は、上の例では母音性を示す場合のみに用いたが、こ
れ以外の場合、例えば摩擦性などに用いてもよい。
(発明の効果) 本発明によれば、音源信号を予め用意した複数個の音
源の中から最適なものを選択し、音声信号を同一の特徴
の連続している可変時間長のセグメントに分割して前記
音源信号を計算することにより、従来法に比べ少ない伝
送情報量で音声信号を良好に表すことができるという大
きな効果がある。
【図面の簡単な説明】
第1図は本発明による音声符号化方法の一実施例の構成
を示すブロック図、第2図は本発明の作用を説明するた
めの図である。 図において、 306…音源選択回路、320、350…音源計算回路、330…バ
ッファ、380…境界判定回路、345…信号形成回路、32
4、360…再生フィルタ、323、370…歪計算回路、385…
歪保存回路、510…時間分割回路、520…スペクトルパラ
メータ計算回路、530…量子化器、540…逆量子化器、55
0…音響的特徴抽出回路、560…特徴分類回路、590…マ
ルチパルス計算回路、600…母音部音源計算回路、605…
セグメント境界決定回路、610…マルチプレクサ。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】離散的な音声信号を入力し、予め定められ
    た時間長の区間(フレーム)に分割したのち分析したス
    ペクトル包絡を表すスペクトルパラメータと音響的特徴
    を表すパラメータを抽出し、前記音響的特徴を利用して
    前記音声信号を分類して予め複数種類用意した音源モデ
    ルの中から最適なものを選択し、前記選択された音源モ
    デルと前記スペクトルパラメータを用いて計算した現フ
    レームの再生音声と前記入力音声との歪を計算し、現フ
    レームの時間的に次のフレーム以後は前記の方法で計算
    された歪と1つ過去の区間について計算した歪との比を
    計算して、前記計算された比と予め定められた閾値とを
    比較することにより前記区間長に等しいかまたは長いセ
    グメント長を求めて前記音声信号を分割し、前記選択さ
    れた音源信号を表す符号と前記計算されたスペクトルパ
    ラメータと前記セグメントの時間長と前記計算された音
    源信号を量子化して出力することを特徴とする音声符号
    化方式。
JP1340106A 1989-12-27 1989-12-27 音声符号化方式 Expired - Lifetime JP3019342B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1340106A JP3019342B2 (ja) 1989-12-27 1989-12-27 音声符号化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1340106A JP3019342B2 (ja) 1989-12-27 1989-12-27 音声符号化方式

Publications (2)

Publication Number Publication Date
JPH03198099A JPH03198099A (ja) 1991-08-29
JP3019342B2 true JP3019342B2 (ja) 2000-03-13

Family

ID=18333775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1340106A Expired - Lifetime JP3019342B2 (ja) 1989-12-27 1989-12-27 音声符号化方式

Country Status (1)

Country Link
JP (1) JP3019342B2 (ja)

Also Published As

Publication number Publication date
JPH03198099A (ja) 1991-08-29

Similar Documents

Publication Publication Date Title
JP3196595B2 (ja) 音声符号化装置
CA2430111C (en) Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs
JP2903533B2 (ja) 音声符号化方式
JP2829978B2 (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP3019342B2 (ja) 音声符号化方式
JP3490324B2 (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP2931059B2 (ja) 音声合成方式およびこれに用いる装置
JP2596143B2 (ja) 音声符号化方法
JP3153075B2 (ja) 音声符号化装置
JP3055901B2 (ja) 音声信号符号化復号化方法及び音声信号符号化装置
JP2001147700A (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JPS6162100A (ja) マルチパルス型符号化復号化装置
JP3515216B2 (ja) 音声符号化装置
JP3006790B2 (ja) 音声符号化復号化方法及びその装置
JPH03156498A (ja) 音声符号化方式
JP3101430B2 (ja) 音声伝送方式
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP2560860B2 (ja) マルチパルス型音声符号化及び復号化装置
JP2853170B2 (ja) 音声符号化復号化方式
JP3515215B2 (ja) 音声符号化装置
JP2508002B2 (ja) 音声符号化方法とその装置
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
JP2847730B2 (ja) 音声符号化方式
JPH02160300A (ja) 音声符号化方式
JPH0284700A (ja) 音声符号化復号化装置