JPH07101850B2 - 適応ベクトル量子化法 - Google Patents

適応ベクトル量子化法

Info

Publication number
JPH07101850B2
JPH07101850B2 JP63086756A JP8675688A JPH07101850B2 JP H07101850 B2 JPH07101850 B2 JP H07101850B2 JP 63086756 A JP63086756 A JP 63086756A JP 8675688 A JP8675688 A JP 8675688A JP H07101850 B2 JPH07101850 B2 JP H07101850B2
Authority
JP
Japan
Prior art keywords
codebook
vector
segment
adaptive
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63086756A
Other languages
English (en)
Other versions
JPH01259626A (ja
Inventor
善尚 白木
雅彰 誉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63086756A priority Critical patent/JPH07101850B2/ja
Publication of JPH01259626A publication Critical patent/JPH01259626A/ja
Publication of JPH07101850B2 publication Critical patent/JPH07101850B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Analogue/Digital Conversion (AREA)

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は入力音声のスペクトルパラメータを抽出して
低ビットレートで符号化する音声又は画像の符号化方法
に用いられる適応ベクトル量子化法に関するものであ
る。
「従来の技術」 従来、音声の符号化方式として毎秒800ビット程度の低
ビットレートで符号化する方法は、ベクトル量子化方式
(例えば、A.Buzo他、“SpeechCoding Based upon Vect
or Quantization,"IEEE、ASSP−28,1980、この方式はLB
G法と呼ばれる)と可変フレームレート符号化方式(例
えば管村、板倉:パラメータの直線近似による音声情報
圧縮、音声研究会資料S−78−13、1978)との2つの方
式が知られている。前者のベクトル量子化方式は、フレ
ーム単位(音声分析単位)は一定のまま、フレーム当り
のスペクトルパラメータ情報を8ビット程度で量子化す
るもので、パラメータを1つのベクトルとして扱う点に
特徴がある。しかし、この方式は、スペクトルパラメー
タに関する多次元空間上での分布の偏りのみを利用した
ものであるため、500bps以下にすると急激な品質劣化を
生じる。
後者の可変フレーム符号化方式では、スペクトルの時間
的変化に適応してフレーム単位(伝送フレーム長)を変
化させる。この方法は、個々のスペクトルパラメータの
時間的な相関性を利用したもので、平均伝送速度が1/3
程度に減少しても品質の劣化は少ない。しかし、この方
式は本質的にパラメータの(直線)補間特性に依存して
いるため、伝送速度が毎秒25フレーム(全体で600bps)
以下になると急激な品質劣化を生じる。
一方、ベクトル符号化法としては、スペクトルパラメー
タの時系列をセグメント単位で、つまり複数個のベクト
ルをまとめてセグメント(マトリクス)として符号化す
るセグメント符号化方式がある(特願昭59−80855、白
木、誉田;時空間スペクトルによる極低ビット音声符号
化、音響学会講演論文集1−2−3、1984年3月)。ま
た、特願昭61−61593で示されたセグメント符号化は、
セグメント位置の決定と標準パタンの選択とを同時に行
うことにより、毎秒200ビット程度で十分な了解性を持
つ符号化音声を実現することができる。しかしながら、
この方式では、入力音声の話者毎に標準パタンを用意す
る方式であったため、標準パタンの学習に用いた話者に
対しては良好な性能が得られる反面、未知話者に対して
必ずしも十分な音声品質が得られなかった。
次に、音声符号化における話者適応化に関して、従来技
術を述べる。
不特定話者を対象としたセグメント符号化としては、複
数話者に対して共通のセグメントパタンを用いる方法
(Roucos.S,他,pp1949−1952,ICASSP(1987))があ
る。この方法は、セグメントパタンの数を増やすことに
よって、複数話者のパタンの分布全体を覆う。したがっ
て、パタン数の増大に伴う伝送ビットレート、処理量、
メモリ量および学習サンプルの増大が避けられない。さ
らに本質的な問題点は、未知話者に対する性能がコード
ブックの学習に用いられる話者の選択及び人数に大きく
依存し、未知話者が学習に用いた話者に似ているか、そ
うでないかによって性能が左右する。
一方、セグメント符号化を不特定話者に適用する方法と
して、コードブックを未知話者に適応化する方法が考え
られる。この場合、符号化における話者適応の問題は適
応量子化の問題として捉えることができる。スカラー量
子化における分類によれば、適応量子化の手法は前向き
(Foward)適応と後向き(backward)適用に分けられ
る。
ベクトル量子化における後向き適応の手法として有限状
態ベクトル量子化がある。これは、状態の遷移にしたが
って使用するコードブックを変更する手法であり、符号
化の単位をベクトルからセグメントに置き換えることに
よりセグメント量子化にもそのまま適用できる。しか
し、この手法はパタンの学習と同時にパタン間の連鎖の
学習を必要とするため、セグメントを単位とする場合に
は膨大な学習データを要する。また、共通コードブック
を用いる方法と同様に、学習に用いる話者の選択に問題
が残る。
前向き適応の手法としては、未知話者の音声データから
その都度コードブックを学習する方法、予め用意された
複数のコードブックの中から未知話者に最も適合するも
のを選択する方法、線形変換を用いて未知話者のセグメ
ントパタンをコードパタンに正規化する方法などがあ
る。最初の方法は適応化速度の面で問題があり、次の方
法は学習に用いる話者の選択に問題が残る。最後の方法
は、セグメントパタンの全空間を一つの線形変換で正規
化しているため、必ずしも十分な正規化能力が得られな
い。
このように、セグメント符号化における話者適応では、
未知話者に対する符号化の性能と同時に適応化速度が重
要な要素となる。
この発明は音声符号化においては不特定の話者(コード
ブック作成時に含まれない話者)に対しても、良好な了
解性をもつ符号化方法を目的として、未知話者に対し
て、符号化で用いるコードブックを少量の信号から能率
良く適応化し、画像符号化においては、どのような性質
の画像に対しても良好な再生画像が得られる符号化方法
を目的として、入力画像に対して、符号化で用いるコー
ドブックを少量の信号から能率良く適応化する適応ベク
トル量子化法を提供するものである。
「課題を解決するための手段」 この発明の特徴は、予め用意された共通コードブックを
その共通コードブック作成には含まれない入力パタンに
適応化する際、その入力パタンを共通コードブックを用
いて大まかにクラスタ化し、クラスタ間の連続性を考慮
しながら共通コードブックを区分線形的に修正する点に
ある。つまり分割された各クラスタごとにその入力信号
と共通コードブックとの差から区分移動方向ベクトルを
決定し、これらの区分移動方向ベクトルの荷重平均とし
てコードブックエントリの適応化ベクトルを決定し、こ
れの適応化ベクトルを用いて共通コードブックを修正す
る。
さらにこの発明によれば、上記適応化の仕組みを組み込
んだ枠組みで、入力信号について共通のコードブックの
学習を行うことにより、従来法よりも汎用性に適合した
コードブックの作成が可能となった。つまりコードブッ
ク作成に用いる学習信号毎に区分移動方向ベクトルを用
いて適応化パタンを作成し、その適応化パタンを用いて
ベクトル量子化あるいはセグメント量子化で用いられる
クラスタリング処理とコードブックの更新によるベクト
ル集中化処理とをくりかえして行い、コードブックを作
成する。
以下、この発明を音声量子化に適用した場合における区
分線形的な適応化の具体的手続きについて説明する。
「実施例」 不特定話者化を実現するための手段: コードブックの未知話者への適応(方法1) この発明では、まず学習用の複数話者の音声からLBGア
ルゴリズムで共通コードブックを作成する。未知話者の
適応用音声からLBGアルゴリズムで未知話者のコードブ
ックを作成しておく。
その後以下の手続きに従って共通コードブックを未知話
者に区分線形的に適応させる。
適応化アルゴリズムI ステップ0:共通コードブック、未知話者のクラスタ(部
分分布)の個数の初期値Mとその最大値Mcを与える。
ステップ1:話者の学習用音声からLBGアルゴリズムを用
いて個数Mの未知話者コードブックvmを学習する。
ステップ2:共通コードブックの全体の重心を未知話者の
コードワード(未知話者のクラスタの重心)の全体の重
心に一致させる(第1図A)。
ステップ3:未知話者コードワードを用いて共通コードブ
ックをクラスタ化する(第1図B)。
ステップ4:各未知話者のクラスタ毎に共通コードブック
の重心umと未知話者コードブックvmとの差分ベクトルつ
まり区分移動方向ベクトルを求める(第1図C)。
pm=vm−um (m=1,M) ステップ5:共通コードブックの要素ci毎に、全ての共通
コードブックの重心umとの距離を求め、その逆数を重み
とした全ての差分ベクトルの和を求める(第1図D)。
ここで、wim=1/‖ci−um‖ これを話者適応の適応化ベクトルとして、共通コードブ
ックを移動(修正)する。
ステップ6:M<McならM=M+1として、ステップ1
へ。M=Mcならば終了。
不特定話者化を実現するための手段: コードブックの未知話者への適応(方法2) この発明によれば、以下の手続きに従って、コードブッ
クを未知話者に適応させる。このことにより、未知話者
の学習用音声に対する歪の非増加を保証したものとなっ
ている。(上記方法1は必ずしもこのことを保証しな
い。) 〔定式化〕 記号の定義 xn:p次元の学習ベクトル(n=1,2,…,N) cm:初期共通コードブック(m=1,2,…,M) Δi:区分移動方向ベクトル(i=1,2,…,L) wmi:移動拘束重み係数 このとき、次式のfを最小にするΔを求めることがこ
こでの問題である。
尚、第2図に共通コードブックcmの拘束重み付き移動δ
cmの様子を示しておく(L=4の場合)。
このときfを最小にするΔは、以下のアルゴリズムで
逐次的に求めることができる。
適応化アルゴリズムII(第3図) ステップ0:(初期化) k=0とおきLを与える。p次元学習ベクトルxn、初期
共通コードブックcm(k)および、しきい値εを与え、
総歪D(k)=∞とおく。
ステップ1:(コードインデックスs(n)の初期化) xnをcm(k)でベクトル量子化する。
ステップ2:(代表ベクトルの算出) 共通コードブックcm(k)をLBGアルゴリズムを用いて
クラスタ化し、L個の重心ベクトルbiを求める。
ステップ3:(重み係数の算出) 各共通コードブックcm毎に移動拘束重み係数wmiを次式
により求める。
但し、dmi=1/d(cm(k),bi) ステップ4:(区分移動方向ベクトルの算出) fをΔで偏微分して得られる連立方程式を解き、区分
移動方向ベクトルΔを次式から求める。
Δ=EWt(WWt-1 但し、 Δ=(Δ12,…,Δ) E=(e1,e2,…,eN) en=xn−cs(n)(k) ステップ5:(コードブックの更新) 次式により各共通コードブックを更新する。つまり適応
化ベクトルaiを用いて修正する。
ステップ6:(s(n)の更新および歪の計算) ステップ7:(収束性の判定) (D(k)−D(k+1))/D(k)≦εなら終了。
そうでなければk=k+1としてステップ2へ。
不特定話者化を実現するための手段: コードブックの学習方法(フレームまたはベクトル単位
の場合) この発明では、以下の手続きに従って適応化の仕組みを
組み込んだコードブックを学習し、ベクトルの集中化を
行う。
学習アルゴリズムI(第4図) ステップ0:(初期化)複数話者の学習用音声を用いLBG
アルゴリズムで初期共通コードブックを作成する。
各話者に対してステップ1から3を行う。
ステップ1:(話者適応化)話者適応化変換(上記方法1
または2)によって各話者毎に適応化パタンを作成す
る。
ステップ2:適応化パタンを用いて学習用音声をベクトル
量子化する。
ステップ3:(ベクトル量子化されて、コードワードとの
対応がついたデータの適応化逆変換)ベクトル量子化さ
れたデータを、対応するパタン要素毎にステップ1の適
応化逆変換する。
ステップ4:(すべての話者の)逆変換されたデータに対
してk−means アルゴリズムを用いて共通コードブック
を更新する。
ステップ5:歪の減少率がしきい値以下なら終了、しきい
値以上ならステップ1へ。
ステップ1からステップ4まででベクトルの集中化を行
っている。
不特定話者化を実現するための手段: コードブックの作成方法(セグメント単位の場合) この発明では、以下の手続きに従って適応化の仕組みを
組み込んだセグメントを単位とするコードブックを学習
する。
学習アルゴリズムII(第5図) ステップ0:(初期化)複数話者の学習用音声を用いてLB
Gアルゴリズムで初期共通セグメントコードブックを作
成する。
各話者に対してステップ1から3を行う。
ステップ1:(話者適応化)話者適応化変換(上記方法1
または2)によって各話者毎に適応化セグメントパタン
を作成する。
ステップ2:適応化セグメントパタンを用いて学習用音声
のセグメント位置を歪が非増加となる様に修正しセグメ
ント量子化する。
ステップ3:(セグメント量子化されて、コードワードと
の対応がついたデータの適応化逆変換)セグメント量子
化されたデータを、対応するパタン要素毎にステップ1
の適応化逆変換する。
ステップ4:(すべての話者の)逆変換されたデータに対
してk−means アルゴリズムを用いて共通コードブック
を更新する。
ステップ5:歪の減少率がしきい値以下なら終了、しきい
値以上ならステップ1へ。
「発明の効果」 方法1を用いた適応化および学習の効果 表1に示す条件で発明の効果を調べた。この発明の有効
性を調べるため話者毎の個別パタン(8bit)および適応
化なしの共通パタン(8〜11bit)との比較検討をし
た。初期共通コードブック、未知話者コードブック、個
別パタンはLBGアルゴリズムで作成した。また、初期セ
グメント境界位置はLPCケプストラムの回帰直線のロー
カルピーク時点とした(例えば、嵯峨山他日本音響学会
講演論文集3−2−7(1979)を参照)。学習内話者の
学習内音声に対する分析結果を第6図に、未知話者の学
習外音声に対する結果を第7図に示す。図で縦軸は初期
共通コードブックを基準とした1フレーム当りの平均ス
ペクトル歪(パワー込み)の低減率を、横軸は共通コー
ドブックの学習における繰り返し数を表す。図から学習
内話者、未知話者共に歪が単調に減少していることが検
証される。このことは提案した話者適応化アルゴリズム
が、この条件下では歪の単調減少性を持つことを示す。
また、未知話者の学習外音声に対しても歪が単調に減少
していることから、提案したコードブック学習法によっ
て話者適応に適した効率の良いコードブックが得られる
ことが分かる。歪の減少率は繰り返し数2でほぼ飽和
し、その収束は速い。話者適応学習後の共通コードブッ
クを用いると話者適応なしの共通コードブックに比べ1/
4程度の個数で同等以上の符号化歪に抑えられることも
示される。
方法2を用いた適応化法の適応化速度の効果 表2に示す条件で分析実験を行った。本手法の有効性を
調べるため、入力した未知話者のその時点までの音声デ
ータを用いて個別学習したものとの比較検討を行う。p
次元のベクトルxnは、LPCケプストラムの回帰係数(例
えば、嵯峨山他日本音響学会講演論文集3−2−7(19
79)を参照)のローカルピークを境界として切り出した
セグメントを単位としており、線形伸縮により次元数を
130に固定してある。初期コードブックはLBGアルゴリズ
ムで作成した。第8図にテスト用音声に対する適応速度
についての結果を示す。図で縦軸は1ベクトル当りの平
均スペクトル歪(パワー込み)を、横軸は適応化学習用
音声の時間長(秒、またはセグメント数;対数軸)を表
す。図から、学習時間長123秒迄は提案した方法によっ
て得られた適応化コードブックの方が、個別学習したも
のよりスペクトル歪が小さいことがわかる。また、区分
移動方向ベクトルの個数Lは学習時間長58秒迄はL=8
が、それ以上はL=64の方がスペクトル歪が小さいこと
もわかる。
この発明は音声量子化のみならず、画像のベクトル量子
化にも適用して、共通コードブックの作成に使用してい
た画像の量子化に適応したコードブックに修正すること
ができる。
【図面の簡単な説明】
第1図は適応化アルゴリズムIを補足する図、第2図は
区分的移動による話者適応化法を説明する図、第3図は
適応化アルゴリズムIIを補足する図、第4図は学習アル
ゴリズムIを説明する図、第5図は学習アルゴリズムII
を説明する図、第6図乃至第8図はそれぞれこの発明の
効果を説明する図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H04N 1/41 Z 7/32 (56)参考文献 特開 昭59−2453(JP,A) 特開 昭59−183542(JP,A) 特開 昭60−224341(JP,A) 特開 昭62−217292(JP,A) 特公 平5−39138(JP,B2) テレビジョン学会誌 Vol.43,N o.11,(1989),P.1276−1284

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】音声や画像における信号系列を複数まとめ
    1つのベクトルとして量子化し、あるいは複数個のベク
    トルをまとめてセグメント(マトリクス)として量子化
    するベクトル量子化において、 入力信号を予め用意されたベクトルあるいはセグメント
    の共通コードブックを用いて複数個のクラスタに分割す
    る過程と、 分割された各クラスタごとに、その入力信号と上記共通
    コードブックとの差から、区分移動方向ベクトルを決定
    する過程と、 これらの区分移動方向ベクトルの荷重平均としてコード
    ブックエントリの適応化ベクトルを決定する過程と、 これらの適応化ベクトルを用いて共通コードブックを修
    正する過程とからなる適応ベクトル量子化法。
  2. 【請求項2】上記予め用意されているベクトルあるいは
    セグメントの共通コードブックの作成において、そのコ
    ードブック作成に用いる学習信号毎に区分移動方向ベク
    トルを用いて適応化パタンを作成し、その適応化パタン
    を用いてベクトル量子化あるいはセグメント量子化で用
    いられるクラスタリング処理と、コードブックの更新に
    よるベクトルの集中化処理とをくりかえし行い、コード
    ブックを作成する過程を有することを特徴とする請求項
    1記載の適応ベクトル量子化法。
JP63086756A 1988-04-08 1988-04-08 適応ベクトル量子化法 Expired - Fee Related JPH07101850B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63086756A JPH07101850B2 (ja) 1988-04-08 1988-04-08 適応ベクトル量子化法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63086756A JPH07101850B2 (ja) 1988-04-08 1988-04-08 適応ベクトル量子化法

Publications (2)

Publication Number Publication Date
JPH01259626A JPH01259626A (ja) 1989-10-17
JPH07101850B2 true JPH07101850B2 (ja) 1995-11-01

Family

ID=13895601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63086756A Expired - Fee Related JPH07101850B2 (ja) 1988-04-08 1988-04-08 適応ベクトル量子化法

Country Status (1)

Country Link
JP (1) JPH07101850B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2888509B1 (fr) * 2005-07-12 2007-09-14 Cognis Ip Man Gmbh Extraits de ginkgo biloba

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
テレビジョン学会誌Vol.43,No.11,(1989),P.1276−1284

Also Published As

Publication number Publication date
JPH01259626A (ja) 1989-10-17

Similar Documents

Publication Publication Date Title
Ahalt et al. Competitive learning algorithms for vector quantization
Shiraki et al. LPC speech coding based on variable-length segment quantization
JP3114197B2 (ja) 音声パラメータ符号化方法
US4907276A (en) Fast search method for vector quantizer communication and pattern recognition systems
US6269333B1 (en) Codebook population using centroid pairs
EP0910067A1 (en) Audio signal coding and decoding methods and audio signal coder and decoder
HUT58157A (en) System and method for coding speech
US5822723A (en) Encoding and decoding method for linear predictive coding (LPC) coefficient
JPH08123484A (ja) 信号合成方法および信号合成装置
US7389227B2 (en) High-speed search method for LSP quantizer using split VQ and fixed codebook of G.729 speech encoder
Ahalt et al. Performance analysis of two image vector quantization techniques
JPH07101850B2 (ja) 適応ベクトル量子化法
US6606592B1 (en) Variable dimension spectral magnitude quantization apparatus and method using predictive and mel-scale binary vector
US7716045B2 (en) Method for quantifying an ultra low-rate speech coder
Koishida et al. Vector quantization of speech spectral parameters using statistics of static and dynamic features
CN112639832A (zh) 识别生成网络的显著特征
JP3144203B2 (ja) ベクトル量子化装置
Srikotr The improved speech spectral envelope compression based on VQ-VAE with adversarial technique
Lv et al. A universal PCA for image compression
Markas et al. Image compression methods with distortion controlled capabilities
Ghafourian et al. Comparison between several adaptive search vector quantization schemes and JPEG standard for image compression
Bruhn Matrix product quantization for very-low-rate speech coding
JPH0786952A (ja) 音声の予測符号化方法
Ragot et al. Stochastic-algebraic wideband LSF quantization
Zhou et al. MOC-RVQ: Multilevel Codebook-assisted Digital Generative Semantic Communication

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees