JP2709935B2

JP2709935B2 - スペクトログラムの正規化方法

Info

Publication number: JP2709935B2
Application number: JP63065542A
Authority: JP
Inventors: 哲中村; 清宏鹿野
Original assignee: 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date: 1988-03-17
Filing date: 1988-03-17
Publication date: 1998-02-04
Anticipated expiration: 2013-02-04
Also published as: JPH01237600A

Description

【発明の詳細な説明】［産業上の利用分野］この発明はスペクトログラムの正規化方法に関し、特
に、ベクトル量子化を用いた異話者間のスペクトログラ
ムの正規化に関するものであって、不特定話者認識のた
めの話者適応化や、声質変換技術に適用可能なスペクト
ログラムの正規化方法に関する。

［従来の技術］最近では、ベクトル量子化の手法が音声認識の分野に
も導入され始めている。ベクトル量子化は本来効率的な
符号化の手法であり、計算量やメモリ容量の削減に効果
を発揮している。このようなベクトル量子化について
は、Shikano,Lee,Reddy;“Speaker Adaptation through
Vector Quantization"ICASSP′86において、ベクトル
量子化をスペクトル空間の離散表現としてとらえること
により、新しい話者適応の方法の可能性が提案された。

第12図は上述の文献に記載された音声認識法を説明す
るための図であり、第13図は従来のベクトル量子化にお
ける歪を説明するための図である。

上述の文献で提案された学習に基づく方法では、第12
図に示すように、未知話者Ａの入力音声がベクトル量子
化され、コードブックが生成される。その後、学習単語
の動的計画法による非線形マッチングの最適パスからベ
クトルコードの対応づけヒストグラムが求められる。こ
のヒストグラムによりコードブック間の対応関係が求め
られて話者適応が行なわれる。このような手法は、英単
語の認識実験に適用され、良好な結果を収めている。

［発明が解決しようとする課題］ところで、ベクトル量子化においては、コードブック
内の代表点の数を多くしなければ歪が大きくなってしま
う。すなわち、第13図の実線ａに示すように、音声の流
れに対してベクトル量子化による音声の流れは、各代表
点を結んでいくことにより、第13図に示す点線ｂのよう
になる。コードブック内の代表点の数が多ければ、ベク
トル量子化による音声の流れは実際の音声の流れに近似
するが、代表点の数が少なければ、ベクトル量子化によ
る音声の流れは実際の音声の流れに比べて大きく折れ曲
がり、実際の音声の流れとの差が歪となる。この歪を小
さくするために代表点の数を多くすれば、大容量のメモ
リを必要とするばかりでなく、大量の計算量を必要と
し、これに伴なって話者適応における学習単語数が膨大
な数になってしまうという問題点があった。

それゆえに、この発明の主たる目的は、既存のコード
ベクトルへの帰属度により入力ベクトルを表現するファ
ジイベクトル量子化を用い、従来のままのコードブック
を用いながら量子化歪を低減し、また話者適応における
学習単語を増加させることなく、高精度にスペクトログ
ラムの正規化を行なうことのできるようなスペクトログ
ラムの正規化方法を提供することである。

［課題を解決するための手段］この発明は音声信号の特徴としてスペクトログラムを
抽出し、このスペクトログラムを異話者間で正規化する
スペクトログラムの正規化方法において、入力ベクトル
をｋ近傍則を用いて、要素の属性が０から１の連続値で
表現されるファジィベクトル量子化を行なった後、スペ
クトログラムを抽出するステップと、抽出されたスペク
トログラムと予め格納されている標準パターンとの非線
形マッチングを行ない、この対応づけの最適パスに沿っ
てファジィ級関数から対応づけヒストグラムを作成する
ステップと、標準話者のコードベクトルからこのヒスト
グラムを重みとする線形和でベクトルを構成して、未知
話者のコードベクトルをこのベクトルに対応づけること
によりスペクトログラムの正規化を行なうステップとを
含む。

［作用］この発明に係るスペクトログラムの正規化方法は、入
力ベクトルをｋ近傍則を用いて要素の属性が０から１の
連続値で表わされるファジィベクトル量子化を行なった
後、スペクトログラムを抽出し、そのスペクトログラム
と予め格納されている標準パターンとの非線形マッチン
グを行ない、この対応づけの最適パスに沿ってファジィ
級関数から対応づけヒストグラムを作成し、標準話者の
コードベクトルからこのヒストグラムを重みとする線形
和でベクトルを構成して、未知話者のコードベクトルを
このベクトルに対応づけることによりスペクトログラム
の正規化を行なうことにより、量子化歪みを低減し、話
者適応における学習単語を増加させることなく高精度ス
ペクトログラムの正規化を行なうことができる。

［発明の実施例］第11図はこの発明の一実施例の電気的構成を説明する
ための概略ブロック図ある。

第11図において、この発明によるスペクトログラムの
正規化方式を実行するために、アンプ１とローパスフィ
ルタ２とA/D変換器３と処理装置４とが設けられる。ア
ンプ１は入力された音声信号を増幅するものであり、ロ
ーパスフィルタ２は増幅された音声信号から折返し雑音
を除去するものである。A/D変換器３は音声信号を12kHz
のサンプリング信号により、16ビットのディジタル信号
に変換するものである。処理装置４はコンピュータと磁
気ディスク６と端末類７とプリンタ８とを含む。コンピ
ュータ５はA/D変換器３から入力された音声のディジタ
ル信号に基づいて、後述の第１図ないし第10図に示した
手法を用いてスペクトログラムの正規化を行なう。

第１図はこの発明の一実施例の音声の入力から正規化
スペクトログラムを出力するまでの全体のフロー図であ
り、第２図はファジィベクトル量子化を用いたスペクト
ログラム正規化のフロー図である。

次に、第１図を参照して、音声の入力から正規化スペ
クトログラムの出力までの全体の動作について簡単に説
明する。前述の第11図に示したアンプ１に音声信号が入
力されると、その音声信号が増幅され、ローパスフィル
タ２によって折返し雑音が除去された後、ステップ（図
示ではSPと略称する）SP1において、A/D変換器３によっ
てディジタル信号に変換され、コンピュータ５に与えら
れる。コンピュータ５はステップSP2において、ディジ
タル化された音声信号に基づいて、LPC分析などを行な
ってその音声の特徴抽出を行なう。さらに、ステップSP
3においてコードブックの生成であるか否かが判別さ
れ、コードブックの生成であることが判別されると、ス
テップSP4においてLBGアルゴリズムによりコードブック
が生成され、ステップSP5においてそのコードブックが
格納される。

なお、上述のLBGアルゴリズムについては、Linde,Buz
o,Gray;An“Algorithm for Vector Quantizer Disign"I
EEE COM-28（1980-01）に詳細に記載されている。

一方、ステップSP3においてコードブックの生成では
なく量子化であることが判別されたときには、ステップ
SP6において、ステップSP5において格納されたコードブ
ックを参照して、ステップSP2において抽出された音声
の特徴がファジィベクトル量子化される。そして、ステ
ップSP7において変換コードブックの学習であるか否か
が判別され、学習であれば、ファジィベクトル量子化に
より生成された符号列と級関数値は、ステップSP8にお
いて、ステップSP9で格納されている学習用標準パター
ン系列とDTWによりマッチングされる。そして、ステッ
プSP10において、DTWマッチングの結果のベクトルの対
応づけのヒストグラムを用いて変換コードブックが生成
され、その変換コードブックはステップSP11において格
納される。

前述のステップSP7において、変換コードブック学習
ではなく正規化であることが判別されたときには、ステ
ップSP12において、ファジィベクトル量子化により生成
された符号列がステップSP11で既に格納されている変換
コードブックを用いてフレームごとに置換えられ、正規
化スペクトログラムが出力される。

次に、第２図を参照して、ファジィベクトル量子化を
用いたスペクトログラムの正規化についてより具体的に
説明する。

ファジィベクトル量子化を用いたスペクトログラムの
正規化では、大きく２つの機能から構成されている。１
つは、第２図におけるステップSP22におけるファジィベ
クトル量子化であり、ステップSP21においてコードブッ
クの生成であることが判別されると、ステップSP23で格
納されている既存のコードベクトルに対する帰属度を用
いて入力ベクトルが表現される。第２は、ステップSP24
におけるスペクトル変換（正規化）であり、学習用単語
を未知話者に発声させることでベクトルの対応づけが行
なわれる。ここでは、全学習用単語について求められた
対応づけのヒストグラムを求め、これを重みとして未知
話者のコードブックの特徴ベクトルが標準話者のコード
ブックの特徴ベクトルの線形結合で表わされ、これが変
換コードブックとしてステップSP25において格納され、
正規化時には入力されたスペクトルをフレームごとに変
換コードブックを用いてスペクトルの変換が行なわれ
る。

第３図は入力ベクトルとコードベクトルとの関係を示
す図である。次に、第３図を参照してファジイベクトル
量子化についてより詳細に説明する。ファジィ集合は、
一般の集合と異なり要素の属性u_Aは２値ではなく、０か
ら１の連続値で表現されるため、曖昧さおよび確信度を
含むクラスタリングを行なうことができる。ファジィベ
クトル量子化は、E.Ruspini;“Numerical Method for F
uzzy Clustering"Inf.Sci,Vol.2（1970）およびJ.C.Dun
n:“A Fuzzy Relative of the ISODATA Process and it
s Use in Detecting Compact,Well Separate Clusters"
Journal of Cybernetics Vol 3（1974）において記載さ
れているファジィC-Means Clustering Algorithmを用い
る。このアルゴリズムは、２乗誤差最小の規範の下でク
ラスタリングを行なうものである。このファジィC-Mean
s Clusteringについては次のように定義されている。す
なわち、第３図に示すように、入力ベクトルx_k（n1〜n
4）の要素数をｎとし、クラスタ（c1〜c4）数をｃと
し、入力ベクトルx_kのセントロイド（V1〜Vn）V_iに対す
る級関数をu_ikとするとき、目的関数Jmは次のように定
義される。

d_ik＝‖x_k‐v_i‖：‖．‖はEuclid distance m:重み係数:m∈（1,∞）Ｖ＝（v1…v_c）：コードブックこの目的関数j_mを最小化するようにu_ikが決定され
る。ファジィ級関数の定義から、のもとで、目的関数j_mが最小化される。これは、ラグラ
ンジュの未定乗数λを用いて、の最少化から求めることができ、次の結果が得られる。
すなわち、ｍをｍ∈（1,∞）,xはｃ＜ｎなる要素を持つ
ものとし、任意のｋに対して、I_kを次のように決めると
き、 I_k＝｛i|1≦ｉ≦c;d_ik ＝‖x_k‐v_i‖＝０｝_ｋ＝｛1,2,…,c｝‐I_k u_ikが目的関数Jmを最小化する条件は、次のようにな
る。

または、ここで、ｍをfuzinessと呼び、ｍ→∞のとき、u_ij→1/c
で、soft decision,m→１のとき、従来のhard decision
によるクラスタリングとなる。したがって、ｍ＝１のと
きに限り、２乗誤差最小に基づく本クラスタリングはベ
クトル量子化に近づく。ここでは、ｍ∈（1,∞）に拡張
した場合も含めてファジィベクトル量子化と呼ぶことに
する。

コードベクトルについては、目的関数Jmをクラスタ固
定で求めればよいが、逆に入力ベクトルについて解け
ば、次の第２式が求まる。

したがって、セントロイド｛v_o，…，v_c｝の線形結合
で、新しいコードベクトルを構成することができ、近似
的にコードブックサイズを増加させることになる。さら
に、コードベクトル｛v_o，…，v_c｝を特徴空間がconvex
になるように選んでおけば、入力ベクトルは上述の式の
ように分解することができ、ベクトル量子化の意味で
も、わずかの歪で量子化できる。しかしながら、ファジ
ィベクトル量子化の方法では、入力x_iに対してすべての
コードベクトルに対して級関数を計算し、記憶しなけれ
ばならない。ここでのすべてのコードベクトルに関する
級関数の計算は膨大なものとなってしまう。

そこで、この発明では、この問題を解決するために、
ｋ近傍則を導入する。これは、入力x_iに対して最も距離
の小さかったコードベクトルからｋ番目までに対しての
み級関数を計算するものである。これにより、級関数の
計算がｋ個のコードベクトルに対してのみで済み、スベ
クトル歪を小さくできる。これは、ファジィクラスタリ
ング理論におけるa-core集合｛u/u＞ａ｝に非常に近い
ものといえ、さらに高速化を図った方法である。ところ
が、一般にｋの値とfuzinessの値は無相関ではない。こ
のため、スペクトル歪が最小になるように繰返しアルゴ
リズムを構成して最適なｋとfuzinessを求める。一例と
して、ｋ＝6,fuzinessが1.6のときに量子化歪が最小で
あった。

第４図はｋ近傍則を導入してファジィベクトル量子化
する方法を説明するためのフロー図であり、第５図はフ
ァジィベクトル量子化のより具体的なフロー図である。

前述の第11図に示したA/D変換器３によって12kHzの周
波数のサンプリング信号で16ビットにA/D変換された音
声信号に対して、ステップSP31において14次の自己相関
分析によるLPC分析が行なわれ、パワーと自己相関係数
とLPCケプストラム係数とが抽出される。ステップSP32
において、コードブックの生成であるか否かが判断さ
れ、コードブックの生成であれば、ステップSP33におい
て、LBGアルゴリズムによるコードブックが生成され
る。生成されたコードブックはステップSP34において格
納される。

ステップSP32においてコードブックの生成ではなく量
子化であることが判別されたときには、ステップSP35に
おいて、ステップSP34におけるコードブックを参照して
ファジィベクトル量子化が行なわれる。このファジィベ
クトル量子化では、ｋ近傍則を導入しているので、出力
はｋ個のベクトルコードのインデックスと級関数値とな
る。このファジィベクトル量子化について、第５図を参
照してより詳細に説明する。

ステップSP41において、入力ベクトルx_kに対して、ス
テップSP42で格納されているコードブックを参照して、
すべてのコードベクトルと距離計算が行なわれる。その
後、ステップSP43において、最も近いコードベクトルか
ら順次ｋ個のソーティングが行なわれる。既存のコード
ベクトルと一致する入力はほとんど生起しないが、計算
語長の関係上発生し得るので、ステップSP44においてｋ
個のコードベクトルのそれぞれ距離がd_kj＝０であるか
否かが判定される。距離が０になるコードベクトルがな
ければ、ステップSP46において、前述の第（１）式を用
いて、ｋ個のコードベクトルに対する級関数の値u_ikが
求められる。もし、コードベクトルで０になるものがあ
れば、ステップSP45において、０でないコードベクトル
に対する級関数の値を０とし、０のものをΣu_ik＝１と
なるようにu_ikが決定される。これによって、ｋ個のコ
ードベクトルのインデックスと級関数の値が出力され
る。

第６図は変換コードブック学習のアルゴリズムを示す
フロー図であって、前述の第２図に示したステップSP24
およびステップSP25をより詳細に示したものである。

次に、第６図を参照して、スペクトルの変換（正規
化）および変換コードブックの生成方法について説明す
る。まず、学習用単語を未知話者に発声させる。この入
力音声はステップSP51において、ステップSP52で格納さ
れているコードブックを用いてファジィベクトル量子化
される。

量子化された符号列は、ステップSP53において、ステ
ップSP54で既に格納されている標準話者の同一単語の学
習用標準パターンとDTWによりマッチングされ、未知話
者と標準話者が発声した同一学習単語でDPパスからベク
トルの対応づけが求められる。そして、全学習単語につ
いて対応づけが求められ、ヒストグラムの形で格納され
る。ファジィベクトル量子化を用いた方法では、ファジ
ィベクトル量子化の符号系列に対して対応が求められる
ので、１度に複数のベクトルコードの対応を積算するこ
とができる。ファジィベクトル量子化の場合には、級関
数の値をそのまま用いるので、確からしさの連続値を積
算することができる。

このヒストグラムを用いて、ステップSP55において、
未知話者の特徴ベクトルが、ステップSP56で格納されて
いる標準話者のコードブックの特徴ベクトルの対応づけ
のヒストグラムを重みとした加重和で表わされる。次
に、ステップSP58において収束であるか否かが判別さ
れ、収束でなければステップSP57において、ｂ′の変換
コードブックによって未知話者のコードブックが入換え
られ、同様の処理が繰返される。この繰返しを一定回数
または全学習単語に対するDTW距離が集束するまで繰返
され、ステップSP58において、集束したことが判別され
ると、ステップSP59において、最終的な変換コードブッ
クが得られる。

第７図は未知話者から標準話者への変換コードブック
生成アルゴリズムを説明するための図であり、第８図は
ファジィベクトルを用いたヒストグラム積算方式を説明
するための図である。

前述のファジィベクトル量子化のｋ近傍の数をｋとす
れば、学習時の１フレーム対応がk²個のヒストグラム積
算が可能となり、学習サンプル数を低減できる。第７図
に示すように、未知話者Ａの入力ベクトルx_iはベクトル
量子化により第８図に示すようにa_iに符号化された後、
対応づけのヒトグラムh_ijを用いて第７図に示す標準話
者Ｂのコードブックのベクトルb_jからの線形結合で表わ
され、標準話者の空間ｂ′_iに次式により写像される。

a_i→ｂ′_i＝Σh_ijb_j／Σh_ij 第９図はスペクトログラム正規化のアルゴリズムを説
明するためのフロー図である。次に、第９図を参照して
スペクトルの正規化について説明する。ステップSP61に
おいて、未知話者Ａの入力音声が、ステップSP62で既に
格納されているコードブックを用いて、ファジィベクト
ル量子化され、ステップSP63において、ステップSP64で
求められて格納されている未知話者から標準話者への変
換コードブックを用いて未知話者のコードブックが入換
えられ、フレームワイズにスペクトルの入替えを行なっ
て正規化スペクトログラムが出力される。ファジィベク
トル量子化では、入力のベクトルは既存のコードブック
からの合成で表わされる。したがって、既存のコードブ
ックを変換コードブックに入換え、級関数の値はそのま
まに保存して変換が行なわれる。話者間の空間構造の異
なりが問題となるが、ヒストグラムによる変換コードブ
ック生成,k近傍則によるれ部分空間の選択により、級関
数の値がある程度保存されるものと仮定できる。

第10図はマッチングにより非線形な時間軸の対応付け
を求める方法を説明するためのフロー図である。次に、
第10図を参照して、マッチング方法について説明する。
ファジィベクトル量子化により、各フレームごとにｋ個
のコードワードとｋ個の級関数が出力される。ステップ
SP71において、ステップSP72において格納されているコ
ードブックを用いて、前述の第２式に従って、フレーム
ごとに入力ベクトルｘ′_iが生成され、入力パターンが
再生成される。次に、ステップSP73において、標準パタ
ーン側も同様にして、ステップSP76で格納されている標
準パターンコード列からコードワードと級関数が読出さ
れ、ステップSP74で格納されているコードブックを参照
して、第２式に基づいて標準パターンが再生成される。

次に、ステップSP75において、この入力パターンと標
準パターンとがDTWによりマッチングされ、距離が求め
られる。ここでのDTWにおける最小距離のときの対応付
けが最適な単語の非線形な時間対応を示し、これにより
ベクトルコードの対応付けを求めることができる。

［発明の効果］以上のように、この発明によれば、入力ベクトルをｋ
近傍則を用いて要素の属性が０から１の連続値で表現さ
れるファジィベクトル量子化を行なった後、スペクトロ
グラムを抽出し、このスペクトログラムと予め格納され
ている標準パターンとの非線形マッチングを行ない、こ
の対応づけの最適パスに沿ってファジィ級関数から対応
づけヒストグラムを作成し、標準話者のコードベクトル
からこのヒストグラムを重みとする線形和でベクトルを
構成して、未知話者のコードベクトルをこのベクトルに
対応づけることによりスペクトログラムの正規化を行な
うようにしたので、従来のままのコードブックを用いな
がら量子化歪みを低減し、また話者適応における学習単
語を増加させることなく高精度でスペクトログラムの正
規化を行なうことができる。

【図面の簡単な説明】

第１図はこの発明の一実施例の音声の入力から正規化ス
ペクトログラムの出力までの全体のフロー図である。第
２図はファジィベクトル量子化を用いたスペクトログラ
ム正規化のフロー図である。第３図は入力ベクトルとセ
ントロイドとの関係を示す図である。第４図はｋ近傍則
を導入したファジィベクトル量子化する方法を説明する
ためのフロー図である。第５図はファジィベクトル量子
化のより具体的なフロー図である。第６図は変換コード
ブック学習のアルゴリズムを示すフロー図である。第７
図は未知話者から標準話者への変換コードブックアルゴ
リズムを説明するための図である。第８図はファジィベ
クトルを用いたヒストグラム積算方式を説明するための
図である。第９図はスペクトログラム正規化のアルゴリ
ズムを説明するためのフロー図である。第10図はマッチ
ングにより認識結果を出力する方法を説明するためのフ
ロー図である。第11図はこの発明の一実施例の電気的構
成を説明するための概略ブロック図である。第12図は従
来のベクトル量子化を用いた音声認識方法を説明するた
めの図である。第13図は従来のベクトル量子化における
歪を説明するための図である。図において、１はアンプ、２はローパスフィルタ、３は
A/D変換器、４は処理装置、５はコンピュータを示す。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭61−166600（ＪＰ，Ａ) 特開昭59−101700（ＪＰ，Ａ) 特公昭56−51637（ＪＰ，Ｂ２)

Claims

(57)【特許請求の範囲】

【請求項１】音声信号の特徴としてスペクトログラムを
抽出し、このスペクトログラムを異話者間で正規化する
スペクトログラムの正規化方法において、入力ベクトルをｋ近傍則を用いて、要素の属性が０から
１の連続値で表現されるファジィベクトル量子化を行な
った後、スペクトログラムを抽出するステップ、前記抽出されたスペクトログラムと予め格納されている
標準パターンとの非線形マッチングを行ない、この対応
づけの最適パスに沿ってファジィ級関数から対応づけヒ
ストグラムを作成するステップ、および標準話者のコードベクトルからこのヒストグラムを重み
とする線形和でベクトルを構成し、未知話者のコードベ
クトルをこのベクトルに対応づけることによりスペクト
ログラムの正規化を行なうようにした、スペクトログラ
ムの正規化方法。