JPS60224341A

JPS60224341A - 音声符号化方法

Info

Publication number: JPS60224341A
Application number: JP8085584A
Authority: JP
Inventors: Yoshinao Shiraki; 白木　善尚; Masaaki Yoda; 雅彰誉田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1984-04-20
Filing date: 1984-04-20
Publication date: 1985-11-08
Also published as: JPH0414813B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は、入力音声のスペクトルパラメータを抽出し
て低ビツトレートで符号化する音声符号化方法に関する
ものである。

「従来技術」従来、音声の符号化方式として１０００　ｂｐｓ以下の
低ビツトレートで符号化する方式は、ベクトル量子化と
可変フレームレート符号化との２つの方式がある。ベク
トル量子化方式は、フレーム単位（音声分析単位）は一
定のまま、フレーム当りのスペクトルパラメータ情報を
８ヒツト程度で量子化するもので、パラメータを１つの
ベクトルとして扱う点に特徴がある。しかし、この方式
は空間的、すなわち周波数の冗長性のみを取除くもので
、５００　ｂｐｓ以下になると、フレーム単位が一定の
ため、急激な品質劣化を生じる。

一方、可変フレームレート符号化方式は、スペクトルの
時間的変化に適応してフレーム単位（フレーム長）を変
化させるもので、時間的に冗長性を除去しているが平均
伝送速度が１／３程度に減少しても品質の劣化は少ない
。しかし、この方式は本質的にパラメータの（直線）補
間特性に依存しているため、伝送速度が毎秒２５フレー
ム（全体で６００　ｂｐｓ　）以下になると急激な品質
劣化を生じる。

この発明の目的は６００　ｂｐｓ以下の低いビットレー
トでも良好な文章了解性をもつ音声として再生可能な音
声符号化方法を提供することにある。

「発明の構成」この発明は音声スペクトルの空間的（周波数）の冗長性
のみならず、時間的冗長性も除去する。

このためこの発明では入力音声のスペクトルパラメータ
をフレーム単位で抽出し、このスペクトルパラメータの
時系列を、そのスペクトルの変化率に基づいて複数フレ
ームからなるセグメントに分割し、その分割された各セ
グメントごとに、そのスペクトルパラメータ時系列の標
本点の数が同一になるように再標本化する。つまり音声
中において、時間的に好ましくは空間的（周波数）にも
繰返し現われるスペクトルパラメータの系列パターンが
得られるように、例えば音韻や音節境界で音声のスペク
トルパラメータ時系列を区切って、セグメントに分割す
る。その各セグメントごとに、そのパラメータ時系列の
標本点の数が同一数になるように再標本化して、各セグ
メントの時間長を正規化して、時間的冗長性を除去する
。このように再標本化されたパラメータ時系列を、セグ
メントごとに標準パターンとのマツチングをとって符号
化する。

「実施例」第１図はこの発明の音声符号化方法の実施例を示す。入
力端子１１からの音声入力は低域通過フィルタ１２で帯
域制限を受けてＡＤ変換器１３に入力され、周期的に標
本化されてディジタル信号に変換される。このＡＤ変換
器１３の出力はＬＰＣ分析部１４でフレーム単位で入力
音声のスペクトルパラメータが抽出される。ＬＰＣ分析
して算出されたパラメータ時系列は、セクメンテーショ
ン部１５でそのスペクトルパラメータ時系列のスペクト
ルの変化率に基づいてセグメントに分割される。入力音
声から抽出されるスペクトルパラメータとしてはＬＰＣ
係数の他にＬＡＲ、ＰＡＲＣＯＲ係数、　ＬＰＣケプス
トラム係数、　ＬＳＰなどいずれでも良いが、この実施
例では、ＬＰＣケプストラム係数の重みつき最小二乗近
似係数を使って、毎秒平均１２コにセグメントされた。

このセグメント分割の詳細は、例えば嵯峨山、板倉：音
声の動的尺度に含まれる個人性情報。

日本音響学合溝論集３−２−７　（１９７９）を参照さ
れたい。

この分割されたセグメントは長いものも短かいものもあ
るが、各セグメントにおけるパラメータ時系列の標本点
数が一定（同一数）となるように、各セグメントごとに
時間的に等間隔で予め決めた数だけ再標本化部１６で再
標本化する。１セグメントにおける再標本化数が多い程
、元に戻した際のスペクトル歪は小さく、第２図に示す
ように各セグメントの再標本化数が１０以上になると、
スペクトル歪を１ｄＢ２以下に押さえられる。第２図は
横軸に１セグメント当りの再標本化数、縦軸は復元した
時のスペクトル歪みをとってあり、スペクトルパラメー
タはＬＡＰである。この発明における実施例では、再標
本化部１６ではパラメータをＬＳＰ　１再標本化数は１
０としている。

第３図に再標本化部１６の一具体例を示す。端子１７か
らのセグメント分割されたスペクトル時系列は信号分離
部１８によりスペクトル時系列とセグメントの長さく継
続長）とに分離される。その継続長は比例定数部１９に
入力され、予め決められた再標本化数（実施例では１０
）と入力した継続長とから所望の比例定数を計算し、つ
まり再標本化数で継続長を割算して再標本化周期をめ、
これを線形補間部２１に送る。線形補間部２１では信号
分離部１８からのセグメント分割されたスペクトル時系
列を予め決められた数だけ前記再標本化周期で再標本化
する。その際に再標本時点は再標本化前のスペクトル時
系列の標本時点と一致しないためスペクトル時系列を線
形補間して再標本値を得る。

第１図の説明に戻り、マｌ−ＩＪクス量子化部２２にお
いて再標本化されたセグメントを単位として、メモリ２
３よりの予め作られた標準パターンとのマツチングを行
ない、最も類似した標準パターンの番号を出力する。標
準パターンの生成とマツチング、いずれの場合も同じ尺
度（距離）計算が行なわれる。すなわち、セグメントを
マトリクス（パラメニタ時系列を並べたもの）としてと
らえ、マトリクス間の距離を重みつきユークリッド距離
で定義する。この例では、１２次のＬＳＰ　（Ｌ、　、
　Ｌ２・・・・・Ｌ１□）と音声パワ（対数）Ｐ、のパ
ラメータを横に１０コ並べたものを１３Ｘ１０次の（セ
グメント）マトリクスとしている。

標準パターンの作り方は、例えばＡ−Ｂｕｚｏの池”５
ｐｅｅｃｈ　Ｃｏｄｉｎｇ　ｂａｓｅｄ　ｕｐｏｎ　Ｖ
ｅｃｔｏｒ　Ｑｕａｎｔｉｚａｔｉｏｎ”ＩＥＥＥ　、
　Ａ３５Ｐ−２８，ＶＯｌ　５．　ｐｐ５６２−１）ｐ
５７４　（１９８０）を参照されたい。

第４図に、１セグメント当りの情報量を横軸にとり、縦
軸にＣＤ　（ケプストラム距離）をとり、曲線２４はパ
ワーとスペクトルとを別々に量子化した場合、曲線２５
は前述のパワーとスペクトルとを１つのベクトルとみな
したものである。この第４図からパワーを込みにした曲
線２５は、パワーを分離した曲線２４よりも３ビツト／
セグメント以上情報圧縮がされていることがわかる。

スペクトル時系列はマトリクス量子化部２２で前述のよ
うに符号化され、これと入力音声のピッチ情報及び各セ
グメントの継続長情報がマルチプレクサ２６で合成され
て出力される。この実施例では、ピッチ情報はスムージ
ングした後、セグメント当り１点に点ピッチ化し、量子
化部２７で３ビツトのＡＤＰＣＭで量子化される。第５
図にＬＰＣ分析部１４を示すように、端子２８からの音
声のテイジタル信号列はＬＰＧ分析子ユゾト２９、でＬ
ＰＣ分析され、ＬＰＣパラメータ、有声、無声判定系列
、音声パワー多重化部３１へ出力され、ピッチはピッチ
スムージング部３２へ供給され、滑らかにされた後、多
重化部３１へ供給される。

また、セグメントの継続長は頻度を考慮して２５ビツト
に量子化部２７で量子化される。以上説明した具体例で
は、１秒当り平均で１２セクメント、標準パターは１０
ビツト、ピッチは３ビツト、継続長は２．５ビツトで量
子化している。以上のようにして得られた３０００サン
プル（４分間の音声）をマトリクス量子化し、生成され
た標準パターンとのマツチングをした結果を第６図の曲
線３３に示す。第６図で横軸はＬＳＰのビット／秒、縦
軸はスペクトル歪であり、曲線３４は従来のベクトル量
子化法による場合である。この第６図よりスペクトル歪
を同程度におさえるためにはこの発明ではベクトル量子
化法の４分の１の情報量で済むことが解り、従って従来
のスカラー量子化法の１０分の１の情報量で済む。上記
具体例では、毎秒１２Ｘ（１０＋３＋２．５）−１８６
ｂｐｓであり、文章の了解性は良好であった。

なおマルチプレクサ２６よりの音声符号化出力は伝送、
或いは記憶され復号化はＬＰＣ合成部３６でマトリクス
量子化符号から、辞書を参照して標準パターンを得、こ
れをセグメント継続長情報、ピッチ情報から元ＬＰＣ分
析出力と対応したものを復元し、これをＤＡ変換器３７
でアナログ変換し、低域通過フィルタ３８を通じて出力
端子３９にアナログ音声信号を出力する。

「発明の効果」以上説明したように、この発明によれば約２００ｂｐｓ
のように著しく低速度としても良好な文章了解性が得ら
れるため、伝送路の有効利用、秘話性の高い通信路の構
成などに使用できるという利点かある。

ピッチ情報、セグメント継続情報の送出は前記量子化に
限らず、他の量子化を適用してもよく、量子化しなくて
もよい。

【図面の簡単な説明】

第１図はこの発明の一例を示すブロック図、第２図は再
標本化数とスペクトルひずみの関係を示す図、第３図は
パラメータの再標本化部１６の具体例を示すフロック図
、第４図はセグメント当りのビット数とスペクトル歪の
関係を示す図、第５図はＬＰＣ分析部１４の一例を示す
フロック図、第６図はビット／秒とスペクトル歪との関
係を示す図である。１４・・・ＬＰＣ分析部、１５・セグメンテーション部
、１６・・・再標本化部、２２・・・マｌ−ＩＪクス量
子化部、２３・・・標準パターンメモリ。特許出願人　日本電信電話公社代理人　草野　卓７３　図１６井　４　図ピ゛ット毫又／ｌグメント７５肥４〃　６　図ビ゛ント／紗

Claims

【特許請求の範囲】

（１）入力音声のスペクトルパラメータをフレーム単位
で抽出する手段と、その抽出されたスペクトルパラメー
タの時系列を、スペクトルの変化率に基づいて、複数フ
レームから成るセグメントに分割する手段と、その分割
された各セグメントごとに、そのセグメント内でのパラ
メータ時系列の標本点数が予め定めた同一数となるよう
にパラメータ時系列を再標本化する手段と、その再標本
化されたパラメータ時系列を、セグメントを単位として
スペクトルパラメータ時系列の標準パターンを用いて符
号化する手段とを有する音声符号化方法。