JPH0640278B2 - 音声符号化方法 - Google Patents

音声符号化方法

Info

Publication number
JPH0640278B2
JPH0640278B2 JP60213193A JP21319385A JPH0640278B2 JP H0640278 B2 JPH0640278 B2 JP H0640278B2 JP 60213193 A JP60213193 A JP 60213193A JP 21319385 A JP21319385 A JP 21319385A JP H0640278 B2 JPH0640278 B2 JP H0640278B2
Authority
JP
Japan
Prior art keywords
standard pattern
segment
division position
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60213193A
Other languages
English (en)
Other versions
JPS6272000A (ja
Inventor
善尚 白木
雅彰 誉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP60213193A priority Critical patent/JPH0640278B2/ja
Priority to CA000518753A priority patent/CA1261472A/en
Priority to US06/909,993 priority patent/US4802224A/en
Priority to EP86113107A priority patent/EP0223014B1/en
Publication of JPS6272000A publication Critical patent/JPS6272000A/ja
Publication of JPH0640278B2 publication Critical patent/JPH0640278B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、入力音声のスペクトルパラメータを抽出し
て低ビットレートで符号化する音声符号化方法に関する
ものである。
〔従来の技術〕
従来、音声の符号化方式として1000bps 以下の低ビット
レートで符号化する方式は、ベクトル量子化(例えばA.
Buzo,他,“Speech Coding based upon Vector Quantiza
tion,”IEEE,ASSP-28,1980)と可変フレームレート符
号化(例えば管村,板倉:パラメータの直線近似による
音声情報圧縮、音声研究会資料S-78-13,1978)との2つ
の方式がある。前述のベクトル量子化方式は、フレーム
単位(音声分析単位)は一定のまま、フレーム当りのス
ペクトルパラメータ情報を8ビット程度で量子化するも
ので、パラメータを1つのベクトルとして扱う点に特徴
がある。しかし、この方式は空間的、すなわち周波数の
冗長性のみを取除くもので、500bps以下にすると、フレ
ーム単位が一定のため、急激な品質劣化を生じる。
一方、後者の可変フレームレート符号化方式は、スペク
トルの時間的変化に適応してフレーム単位(フレーム
長)を変化させるもので、時間的に冗長性を除去してお
り、平均伝送速度が1/3程度に減少しても品質の劣化
は少ない。しかし、この方式は本質的にパラメータの
(直線)補間特性に依存しているため、伝送速度が毎秒
25フレーム(全体で600bps)以下になると急激な品質
劣化を生じる。
また、最新のスペクトルパラメータの時系列をセグメン
ト単位で符号化するものがある(特願昭59-80855号,白
木,誉田;時空間スペクトルによる極低ビット音声符号
化、音響学会講論集1-2-3,1984年3月)。この方法は
標準パタンとのマッチングを固定次元で行っていること
と、セグメント位置の決定と標準パタンの選択とを一体
化させていないことから、符号化歪を十分小さくするこ
とができない。
この発明の目的は、600bps 以下の低いビットレート
でも良好な文章了解性をもつ音声として再生可能な音声
符号化方法を提供することにある。
〔問題点を解決するための手段〕
この発明によれば入力音声のスペクトルパラメータ時系
列をセグメントに分割し、そのセグメント系列と時間長
固定の標準パタンとのマッチング距離が最小になるよう
に、セグメント分割位置を修正しながら最も類似した標
準パタン及びセグメント分割位置を決定する。つまりこ
の発明ではセグメント分割位置の決定と標準パタンの選
択とを一体化させることにより符号化歪の最小化を実現
している。更に上記標準パタンの作成を学習音声のスペ
クトルパラメータのセグメント系列についてクラスタリ
ングし、各クラスの標準パタンを求め、この標準パタン
を用いて学習音声のセグメント分割位置修正と標準パタ
ンの更新との2つの手続きをくり返し行なうことによ
り、符号化歪の確実な低減を図っている。
従来のセグメント単位の符号化方法では、音声スペクト
ルパラメータの時系列セグメンテーション(セグメント
に分割すること)と標準パタンの選択とを別々に処理し
ており、良好なセグメンテーションが得られないため、
符号化歪の最小化を実現していない。また、標準パタン
の作成においても良好なセグメンテーションが得られ
ず、そのセグメンテーションをもとに標準パタンを構成
しているため、この点からも符号化歪を十分小にするこ
とが困難であった。更にこの発明では標準パタンとのマ
ッチング尺度が時間長固定ではなく、復号化した際のス
ペクトル歪が最小となるように標準パタンを入力セグメ
ントの時間長と一致させた尺度としている。
〔実施例〕
第1図はこの発明の音声符号化方法の実施例を示す。入
力端子1からの音声入力は低域通過フィルタ2で帯域制
限を受けてAD変換器3に入力され、周期的に標本化
(この例では、毎秒 8000回)されてディジタル信号に
変換される。このAD変換器3の出力はLPC 分析部4で
入力音声のスペクトルパラメータが抽出される。LPC 分
析されて算出された入力音声のスペクトルパラメータ時
系列はセグメンテーション部5で例えば、予め視察によ
り決められた境界点でセグメントに分割される。この実
施例では、ソナグラムの読取りによる音素境界をセグメ
ント点としている。分割されたセグメント系列は、連続
した短音声区間内での標準パタンメモリ7に予め用意さ
れた標準パタンとのマッチング距離が最小となるよう
に、動的計画法を用いて修正部6でセグメント分割位置
の修正が行なわれた後、その修正されたセグメント分割
位置又はセグメント長が符号化され、これと最も類似し
た標準パタンの番号とが出力される。前記セグメント系
列と標準パタンとのマッチング距離は、予め用意された
標準パタンに線形変換を施してその長さを入力セグメン
ト長に等しくした後、パワー込みの重みつきユークリッ
ド距離で定義する。この例では、スペクトル包絡として
12次の LSP(L1,L2……L12)と対数音声パワP1とのパ
ラメータを横に10個並べた、13×10次のマトリク
スを標準パタンとしている。入力セグメント長がlの場 合に、その入力セグメントのマトリクスをXj(13×l次の
マトリクス)とし線形変換により10からl次元化する
射影行列をHlとすれば、XjとXGとのマッチング距離は次
式で算出する。
ただし、 このようにこの発明では標準パタンを入力セグメント長
に等しくして、入力セグメントと標準パタンとのマッチ
ング距離を求める。
動的計画法を用いた入力セグメント分割位置の修正は、
以下のように行なう。短音声区間Im内の時刻Ts迄の累積
距離(マッチング距離の和)をσ(Ts)とし、短音声区間
Im内のセグメント数をMとする。分割位置修正幅Δを適
当にとり、次の漸化式に従って時刻Ts-1を決める。
ただし |Ts−Ts-1|≦(Δ−1)/2;s=1,2…M σ(T0)=0;dは、時刻Ts-1からTsの入力セグメントを
(1)式で量子化した値 終端点累積歪σ(TM)を最小とする時刻TMを決定し、(2)
式により得られた各セグメント位置の修正点を逐次決定
する。
次に標準パタンの作り方を第2図を参照して説明する。
まず標準パタンの学習用に予め用意された音声を入力
し、その学習音声のスペクトルパラメータ時系列を作
り、更にその時系列をセグメント分割する。このセグメ
ント境界既知のパラメータ時系列をクラスタリングし、
その各クラスについて初期標準パタンを作る。この方法
は例えばGrayの方法により(1)式の距離尺度を用いて行
う。Grayの方法については、例えばA-Buzo他“Speech C
oding based upon Vector Quantization IEEE,ASSP-28
pp562-pp574(1980)を参照されたい。この初期標準パタ
ンを用いて、学習用パラメータ時系列のセグメント分割
位置修正を行なう。この修正法は、前述した動的計画法
を用いる。この修正により全量子化歪は非増加する。す
なわち、初期セグメント分割位置での全量子化歪をD
(0)、修正後の全量子化歪をD(1)とすると D(0)≧D(1) ……(3) が成り立つ。次に、分割位置修正された学習用音声のス
ペクトルパラメータ時系列のセグメント系列から、以下
に示す手順で標準パタンを更新する。すなわち、任意の
更新前の標準パタン▲XG i▼で分割位置修正されたセグ
メント数をNiとする。分割位置修正の際この標準パタ
ンにより量子化されたセグメントから作られたセグメン
トの集合、つまり分割位置修正されたセグメント系列を
再びクラスタリングし、その1つのクラスを{Xν:ν=
1,2,…,Ni}とし、標準パタン▲XG i▼をこの集合の重心 ただし Hν;Xνに対応する射影行列 Ht:転置行列 B+:一般化(化)逆行列 に更新する。一般に更新前の標準パタン▲XG i▼は更新
後の標準パタン▲XG i▼′と一致しないため、標準パタ
ンの更新により、全量子化歪は非増加する。すなわち、
標準パタンの更新後の量子化歪をD(2)とすれば D(1)≧D(2) ……(5) が成り立つ。以下同様にして、セグメント分割位置の修
正、標準パタンの更新をくり返す事により、全量子化歪
は、非増加列 D(0)≧D(1)≧D(2)≧D(3)≧……≧D(K)≧D≧(K+1)
…(6) となる。この標準パタンの更新を全量子化歪の減少率が
所定置以下になるまで行う。なお、一般化逆行列につい
ては、例えば、ラオ・ミトラ/渋谷,他訳“一般逆行列
とその応用”東京図書(1973)を参照されたい。
第3図に、全量子化歪が非増加列となる実例を示す。こ
の例では、セグメント個数2000,標準パタンの時間方向
の次元は10,標準パタン数64とし、セグメント分割
位置の修正は最長セグメント長≦32,修正幅Δ=33
である。( LPC分析は、分析窓長30msec,シフト長
10msec,話者は、男性一名)。
この図から量子化歪が非増加列となっていることが検証
され、歪が初期値に比べ約80%に減少し、また1回の
更新で著しく減少していることがわかる。
第1図の説明に戻る。入力スペクトル時系列は、前述し
たようにセグメント位置修正部6でセグメント分割位置
が修正され、その分割位置(セグメント長)は符号化さ
れる。また最適標準パタンの番号と、入力音声のピッチ
情報と、各セグメントの継続長情報とがマルチプレクサ
8で合成されて符号化出力として出力される。
この音声符号化出力は伝送、あるいは記憶され、復号化
は、標準パタンの番号により標準パタンメモリ9を参照
して標準パタンを得、これに対し、継続時間長情報によ
り線形変換を施し、スペクトルパラメータ時系列を復元
し、これとピッチ情報とからLPC 合成部10でLPC 分析
入力と対応したものの合成を行ない、この合成出力をD
A変換器11でアナログに変換し、低域通過フィルタ1
2を通じて出力端子13にアナログ音声を出力する。
〔発明の効果〕
セグメント数を20,000標準パタン数を1024とし、
セグメント分割位置修正を1回行ない(修正幅Δ=
9)、更新した標準パタンを用い、100音節の明瞭度
試験を行なったところ、修正幅Δ=13の場合で、音韻
明瞭度78%の良好な音声が得られた。この場合、セグ
メントの平均個数は、毎秒約8個であるから、この符号
化音声のスペクトル情報は1セグメント当り継続長5ビ
ット、標準パタン10ビットで8×(10+5)=12
0bps である。なお音韻の明瞭度が75%以上の場合は
文章了解度は100人中50人は100%となる。従っ
て前記音韻の明瞭度78%は良好な結果である。
以上説明したように、この発明によればスペクトル情
報、例えば約120bps のように著しく低速度としても
十分明瞭な符号化音声が得られるため、伝送路の有効利
用、秘話性の高い通信路の構成などに使用できるという
利点がある。
【図面の簡単な説明】
第1図はこの発明の一例を示すブロック図,第2図は第
1図中の標準パタン作成部における手順を示す図、第3
図はセグメント修正とパタン更新のくり返し数と符号化
歪の低減の関係を示す図である。 4……LPC分析部、5……セグメント分割部、6……セ
グメント位置修正部、7,9……標準パタンメモリ、1
4……標準パタン作成部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】入力音声のスペクトルパラメータをフレー
    ム単位で抽出し、 その抽出したスペクトルパラメータの時系列をセグメン
    トに分割し、 その分割位置を修正しながらそのセグメント系列を、予
    め用意された時間長固定の標準パタンとのマッチング距
    離が最小となるように分割位置及び最も類似した標準パ
    タンを決定し、 これら決定された分割位置及び標準パターンを示す符号
    を出力する音声符号化方法。
  2. 【請求項2】学習音声を入力し、そのスペクトルパラメ
    ータをフレーム単位で抽出し、その抽出したスペクトル
    パラメータの時系列をセグメントに分割し、そのセグメ
    ントをクラスタリングし、その各クラスの標準パターン
    を決定し、 その決定した標準パタンを用いて上記学習音声のセグメ
    ント系列を、その分割位置を修正しながら、最も類似し
    た標準パタンを選択し、 上記修正した分割位置のセグメント系列を再クラスタリ
    ングし、その各クラスの標準パタンを再決定し、 上記分割の修正、再クラスタリング、標準パタンの再決
    定の繰返しを少くとも一回行い、最後に再決定された標
    準パタンを上記入力音声の符号化を用いる標準パタンと
    することを特徴とする特許請求の範囲第1項記載の音声
    符号化方法。
JP60213193A 1985-09-26 1985-09-26 音声符号化方法 Expired - Lifetime JPH0640278B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP60213193A JPH0640278B2 (ja) 1985-09-26 1985-09-26 音声符号化方法
CA000518753A CA1261472A (en) 1985-09-26 1986-09-22 Reference speech pattern generating method
US06/909,993 US4802224A (en) 1985-09-26 1986-09-22 Reference speech pattern generating method
EP86113107A EP0223014B1 (en) 1985-09-26 1986-09-24 Reference speech pattern generating method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60213193A JPH0640278B2 (ja) 1985-09-26 1985-09-26 音声符号化方法

Publications (2)

Publication Number Publication Date
JPS6272000A JPS6272000A (ja) 1987-04-02
JPH0640278B2 true JPH0640278B2 (ja) 1994-05-25

Family

ID=16635076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60213193A Expired - Lifetime JPH0640278B2 (ja) 1985-09-26 1985-09-26 音声符号化方法

Country Status (1)

Country Link
JP (1) JPH0640278B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6444997A (en) * 1987-08-13 1989-02-17 Ricoh Kk Reference pattern registration system

Also Published As

Publication number Publication date
JPS6272000A (ja) 1987-04-02

Similar Documents

Publication Publication Date Title
EP0409239B1 (en) Speech coding/decoding method
US6725190B1 (en) Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
EP1202251B1 (en) Transcoder for prevention of tandem coding of speech
DE60024123T2 (de) Lpc-harmonischer sprachkodierer mit überrahmenformat
DE60120766T2 (de) Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen
EP0223014B1 (en) Reference speech pattern generating method
JP3354138B2 (ja) 音声符号化
JP3196595B2 (ja) 音声符号化装置
JPH11249699A (ja) 音声パラメータの合同量子化
JPH1091194A (ja) 音声復号化方法及び装置
JPH096397A (ja) 音声信号の再生方法、再生装置及び伝送方法
JPH0650437B2 (ja) 音声処理装置
US4945565A (en) Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
CN1097816C (zh) 信号能量参数优化的数字语声编码器
JPH0563000B2 (ja)
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
EP0756268B1 (en) Speech encoder capable of substantially increasing a codebook size without increasing the number of transmitted bits
JP3531780B2 (ja) 音声符号化方法および復号化方法
JPH0640278B2 (ja) 音声符号化方法
JPH0854898A (ja) 音声符号化装置
Tanaka et al. Low-bit-rate speech coding using a two-dimensional transform of residual signals and waveform interpolation
JP3303580B2 (ja) 音声符号化装置
JPH0640279B2 (ja) 音声符号化方法
Jeanrenaud et al. Segment vocoder based on reconstruction with natural segments
JP2956068B2 (ja) 音声符号化復号化方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term