JPH01237600A - スペクトログラムの正規化方法 - Google Patents
スペクトログラムの正規化方法Info
- Publication number
- JPH01237600A JPH01237600A JP63065542A JP6554288A JPH01237600A JP H01237600 A JPH01237600 A JP H01237600A JP 63065542 A JP63065542 A JP 63065542A JP 6554288 A JP6554288 A JP 6554288A JP H01237600 A JPH01237600 A JP H01237600A
- Authority
- JP
- Japan
- Prior art keywords
- spectrogram
- vector
- fuzzy
- vector quantization
- codebook
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 117
- 238000013139 quantization Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 abstract description 10
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 102000003780 Clusterin Human genes 0.000 description 1
- 108090000197 Clusterin Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000050 ionisation spectroscopy Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
この発明はスペクトロクラムの正規化方式に関し、特に
、ベクトル量子化を用いた異話者間のスペクトログラム
の正規化に関するものであって、不特定話者認識のため
の話者適応化や、声質変換技術に適用可能なスペクトロ
グラムの正規化方式[従来の技術] 最近では、ベクトル量子化の手法が音声認識の分野にも
導入され始めている。ベクトル量子化は本来効率的な符
号化の手法であり、計算量やメモリ容量の削減に効果を
発揮している。このようなベクトル量子化については、
5hikano、Lee、Reddy; ’5pea
ker Adaptation through
VectorQuantization” ICAS
SP ’86において、ベクトル量子化をスペクトル空
間の離散表現としてとらえることにより、新しい話者適
応の方法の可能性が提案された。
、ベクトル量子化を用いた異話者間のスペクトログラム
の正規化に関するものであって、不特定話者認識のため
の話者適応化や、声質変換技術に適用可能なスペクトロ
グラムの正規化方式[従来の技術] 最近では、ベクトル量子化の手法が音声認識の分野にも
導入され始めている。ベクトル量子化は本来効率的な符
号化の手法であり、計算量やメモリ容量の削減に効果を
発揮している。このようなベクトル量子化については、
5hikano、Lee、Reddy; ’5pea
ker Adaptation through
VectorQuantization” ICAS
SP ’86において、ベクトル量子化をスペクトル空
間の離散表現としてとらえることにより、新しい話者適
応の方法の可能性が提案された。
第12図は上述の文献に記載された音声認識法を説明す
るための図であり、第13図は従来のベクトル量子化に
おける歪を説明するための図である。
るための図であり、第13図は従来のベクトル量子化に
おける歪を説明するための図である。
上述の文献で提案された学習に基づく方法では、第12
図に示すように、未知話者Aの入力音声がベクトル量子
化され、コードブックが生成される。
図に示すように、未知話者Aの入力音声がベクトル量子
化され、コードブックが生成される。
その後、学習単語の動的計画法による非線形マツチング
の最適パスからベクトルコードの対応づけヒストグラム
が求められる。このヒストグラムによりコードブック間
の対応関係が求められて話者適応が行なわれる。このよ
うな手法は、英単語の認識実験に適用され、良好な結果
を収めている。
の最適パスからベクトルコードの対応づけヒストグラム
が求められる。このヒストグラムによりコードブック間
の対応関係が求められて話者適応が行なわれる。このよ
うな手法は、英単語の認識実験に適用され、良好な結果
を収めている。
[発明が解決しようとする課題]
ところで、ベクトル量子化においては、コードブック内
の代表点の数を多くしなければ歪が大きくなってしまう
。すなわち、第13図の実線aに示すように、音声の流
れに対してベクトル量子化による音声の流れは、各代表
点を結んでいくことにより、第13図に示す点線すのよ
うになる。コードブック内の代表点の数が多ければ、ベ
クトル量子化による音声の流れは実際の音声の流れに近
似するが、代表点の数が少なければ、ベクトル量子化に
よる音声の流れは実際の音声の流れに比べて大きく折れ
曲がり、実際の音声の流れとの差が歪となる。この歪を
小さくするために代表点の数を多くすれば、大容量のメ
モリを必要とするばかりでなく、大量の計算量を必要と
し、これに伴なって話者適応における学習単語数が膨大
な数になってしまうという問題点があった。
の代表点の数を多くしなければ歪が大きくなってしまう
。すなわち、第13図の実線aに示すように、音声の流
れに対してベクトル量子化による音声の流れは、各代表
点を結んでいくことにより、第13図に示す点線すのよ
うになる。コードブック内の代表点の数が多ければ、ベ
クトル量子化による音声の流れは実際の音声の流れに近
似するが、代表点の数が少なければ、ベクトル量子化に
よる音声の流れは実際の音声の流れに比べて大きく折れ
曲がり、実際の音声の流れとの差が歪となる。この歪を
小さくするために代表点の数を多くすれば、大容量のメ
モリを必要とするばかりでなく、大量の計算量を必要と
し、これに伴なって話者適応における学習単語数が膨大
な数になってしまうという問題点があった。
それゆえに、この発明の主たる目的は、既存のコードベ
クトルへの帰属度により入力ベクトルを表現するファジ
ィベクトル量子化を用い、従来のままのコードブックを
用いながら量子化歪を低減し、また話者適応における学
習単語を増加させることなく、高精度にスペクトログラ
ムの正規化を行なうことのできるようなスペクトログラ
ムの正規化方式を提供することである。
クトルへの帰属度により入力ベクトルを表現するファジ
ィベクトル量子化を用い、従来のままのコードブックを
用いながら量子化歪を低減し、また話者適応における学
習単語を増加させることなく、高精度にスペクトログラ
ムの正規化を行なうことのできるようなスペクトログラ
ムの正規化方式を提供することである。
[課題を解決するための手段]
この発明は音声信号をディジタル化し、その音声信号の
特徴として声紋のスペクトログラムを抽出し、この抽出
されたスペクトログラムを異話者間で正規化するスペク
トログラムの正規化方式であり、て、ディジタル化され
た音声信号に基づいて、入力ベクトルを既存のコードベ
クトルからの帰属度で表現するファジィベクトル量子化
を行なった後、スペクトログラムを抽出し、ベクトル量
子化のコードブックについて異話者間で対応づけを行な
い、この対応づけに基づいてスペクトログラムの正規化
を行なうようにしたものである。
特徴として声紋のスペクトログラムを抽出し、この抽出
されたスペクトログラムを異話者間で正規化するスペク
トログラムの正規化方式であり、て、ディジタル化され
た音声信号に基づいて、入力ベクトルを既存のコードベ
クトルからの帰属度で表現するファジィベクトル量子化
を行なった後、スペクトログラムを抽出し、ベクトル量
子化のコードブックについて異話者間で対応づけを行な
い、この対応づけに基づいてスペクトログラムの正規化
を行なうようにしたものである。
[作用]
この発明に係るスペクトログラムの正規化方式は、既存
のコードブックへの帰属度により入力ベクトルを表現す
るファジィベクトル量子化を用い、従来のままのコード
ブックを用いて異話者間で対応づけを行ない、この対応
づけに基づいてスペクトログラムの正規化を行なうこと
により、量子化歪を低減し、話者適応における学習単語
を増加させることなく高精度にスペクトログラムの正規
化を行なうことができる。
のコードブックへの帰属度により入力ベクトルを表現す
るファジィベクトル量子化を用い、従来のままのコード
ブックを用いて異話者間で対応づけを行ない、この対応
づけに基づいてスペクトログラムの正規化を行なうこと
により、量子化歪を低減し、話者適応における学習単語
を増加させることなく高精度にスペクトログラムの正規
化を行なうことができる。
[発明の実施例]
第11図はこの発明の一実施例の電気的構成を説明する
ための概略ブロック図ある。
ための概略ブロック図ある。
第11図において、この発明によるスペクトログラムの
正規化方式を実行するために、アンプ1とローパスフィ
ルタ2とA/D変換器3と処理装置4とが設けられる。
正規化方式を実行するために、アンプ1とローパスフィ
ルタ2とA/D変換器3と処理装置4とが設けられる。
アンプ1は入力された音声信号を増幅するものであり、
ローパスフィルタ2は増幅された音声信号から折返し雑
音を除去するものである。A/D変換器3は音声信号を
12にHzのサンプリング信号により、16ビツトのデ
ィジタル信号に変換するものである。処理装置4はコン
ピュータと磁気ディスク6と端末類7とプリンタ8とを
含む。コンピュータ5はA/D変換器3から入力された
音声のディジタル信号に基づいて、後述の第1図ないし
第10図に示した手法を用いてスペクトログラムの正規
化を行なう。
ローパスフィルタ2は増幅された音声信号から折返し雑
音を除去するものである。A/D変換器3は音声信号を
12にHzのサンプリング信号により、16ビツトのデ
ィジタル信号に変換するものである。処理装置4はコン
ピュータと磁気ディスク6と端末類7とプリンタ8とを
含む。コンピュータ5はA/D変換器3から入力された
音声のディジタル信号に基づいて、後述の第1図ないし
第10図に示した手法を用いてスペクトログラムの正規
化を行なう。
第1図はこの発明の一実施例の音声の入力から正規化ス
ペクトログラムを出力するまでの全体のフロー図であり
、第2図はファジィベクトル量子化を用いたスペクトロ
グラム正規化のフロー図である。
ペクトログラムを出力するまでの全体のフロー図であり
、第2図はファジィベクトル量子化を用いたスペクトロ
グラム正規化のフロー図である。
次に、第1図を参照して、音声の入力から正規化スペク
トログラムの出力までの全体の動作について簡単に説明
する。前述の第11図に示したアンプ1に音声信号が入
力されると、その音声信号が増幅され、ローパスフィル
タ2によって折返し雑音が除去された後、ステップ(図
示ではSPと略称する)SPIにおいて、A/D変換器
3によってディジタル信号に変換され、コンピュータ5
に与えられる。コンピュータ5はステップSP2におい
て、ディジタル化された音声信号に基づいて、LPG分
析などを行なってその音声の特徴抽出を行なう。さらに
、ステップSP3においてコードブックの生成であるか
否かが判別され、コードブックの生成であることが判別
されると、ステップSP4においてLBGアルゴリズム
によりコードブックが生成され、ステップSP5におい
てそのコードブックが格納される。
トログラムの出力までの全体の動作について簡単に説明
する。前述の第11図に示したアンプ1に音声信号が入
力されると、その音声信号が増幅され、ローパスフィル
タ2によって折返し雑音が除去された後、ステップ(図
示ではSPと略称する)SPIにおいて、A/D変換器
3によってディジタル信号に変換され、コンピュータ5
に与えられる。コンピュータ5はステップSP2におい
て、ディジタル化された音声信号に基づいて、LPG分
析などを行なってその音声の特徴抽出を行なう。さらに
、ステップSP3においてコードブックの生成であるか
否かが判別され、コードブックの生成であることが判別
されると、ステップSP4においてLBGアルゴリズム
によりコードブックが生成され、ステップSP5におい
てそのコードブックが格納される。
なお、上述のLBGアルゴリズムについては、Lind
e、Buzo、Gray ; ’An Algor
ithm for Vector Quanti
zer Disign”1EEE C0M−28(
1980−01)に詳細に記載されている。
e、Buzo、Gray ; ’An Algor
ithm for Vector Quanti
zer Disign”1EEE C0M−28(
1980−01)に詳細に記載されている。
一方、ステップSP3においてコードブックの生成では
なく量子化であることが判別されたときには、ステップ
SP6において、ステップSP5において格納されたコ
ードブックを参照して、ステップSP2において抽出さ
れた音声の特徴がファジィベクトル量子化される。そし
て、ステップSP7において変換コードブックの学習で
あるか否かが判別され、学習であれば、ファジィベクト
ル量子化により生成された符号列と破開数値は、ステッ
プSP8において、ステップSP9で格納されている学
習用標準パターン系列とDTWによりマツチングされる
。そして、ステップ5PIOにおいて、DTWマツチン
グの結果のベクトルの対応づけのヒストグラムを用いて
変換コードブックが生成され、その変換コードブックは
ステップ5P11において格納される。
なく量子化であることが判別されたときには、ステップ
SP6において、ステップSP5において格納されたコ
ードブックを参照して、ステップSP2において抽出さ
れた音声の特徴がファジィベクトル量子化される。そし
て、ステップSP7において変換コードブックの学習で
あるか否かが判別され、学習であれば、ファジィベクト
ル量子化により生成された符号列と破開数値は、ステッ
プSP8において、ステップSP9で格納されている学
習用標準パターン系列とDTWによりマツチングされる
。そして、ステップ5PIOにおいて、DTWマツチン
グの結果のベクトルの対応づけのヒストグラムを用いて
変換コードブックが生成され、その変換コードブックは
ステップ5P11において格納される。
前述のステップSP7において、変換コードブック学習
ではなく正規化であることが判別されたときには、ステ
ップ5P12において、ファジィベクトル量子化により
生成された符号列がステップ5P11で既に格納されて
いる変換コードブックを用いてフレームごとに置換えら
れ、正規化スペクトログラムが出力される。
ではなく正規化であることが判別されたときには、ステ
ップ5P12において、ファジィベクトル量子化により
生成された符号列がステップ5P11で既に格納されて
いる変換コードブックを用いてフレームごとに置換えら
れ、正規化スペクトログラムが出力される。
次に、第2図を参照して、ファジィベクトル量子化を用
いたスペクトログラムの正規化についてより具体的に説
明する。
いたスペクトログラムの正規化についてより具体的に説
明する。
ファジィベクトル量子化を用いたスペクトログラムの正
規化では、大きく2つの機能から構成されている。1つ
は、第2図におけるステップ5P22におけるファジィ
ベクトル量子化であり、ステップ5P21においてコー
ドブックの生成であることが判別されると、ステップ5
P23で格納されている既存のコードベクトルに対する
帰属度を用いて入力ベクトルが表現される。第2は、ス
テップ5P24におけるスペクトル変換(正規化)であ
り、学習用単語を未知話者に発声させることでベクトル
の対応づけが行なわれる。ここでは、全学習用単語につ
いて求められた対応づけのヒストグラムを求め、これを
重み゛として未知話者のコードブックの特徴ベクトルが
標準話者のコードブックの特徴ベクトルの線形結合で表
わされ、これが変換コードブックとしてステップ5P2
5において格納され、正規化時には入力されたスペクト
ルをフレームごとに変換コードブックを用いてスペクト
ルの変換が行なわれる。
規化では、大きく2つの機能から構成されている。1つ
は、第2図におけるステップ5P22におけるファジィ
ベクトル量子化であり、ステップ5P21においてコー
ドブックの生成であることが判別されると、ステップ5
P23で格納されている既存のコードベクトルに対する
帰属度を用いて入力ベクトルが表現される。第2は、ス
テップ5P24におけるスペクトル変換(正規化)であ
り、学習用単語を未知話者に発声させることでベクトル
の対応づけが行なわれる。ここでは、全学習用単語につ
いて求められた対応づけのヒストグラムを求め、これを
重み゛として未知話者のコードブックの特徴ベクトルが
標準話者のコードブックの特徴ベクトルの線形結合で表
わされ、これが変換コードブックとしてステップ5P2
5において格納され、正規化時には入力されたスペクト
ルをフレームごとに変換コードブックを用いてスペクト
ルの変換が行なわれる。
第3図は入力ベクトルとコードベクトルとの関係を示す
図である。次に、第3図を参照してファジィベクトル量
子化についてより詳細に説明する。
図である。次に、第3図を参照してファジィベクトル量
子化についてより詳細に説明する。
ファジィ集合は、一般の集合と異なり要素の属性U^は
2値ではなく、0から1の連続値で表現されるため、曖
昧さおよび確信度を含むクラスタリングを行なうことが
できる。ファジィベクトル量子化は、E、Ru5pin
i; ’Numericat Method f
or Fuzzy Clustering’ I
nf、 Sci、Vol。
2値ではなく、0から1の連続値で表現されるため、曖
昧さおよび確信度を含むクラスタリングを行なうことが
できる。ファジィベクトル量子化は、E、Ru5pin
i; ’Numericat Method f
or Fuzzy Clustering’ I
nf、 Sci、Vol。
2(1970)およびJ、C,Dunn: ’AFu
zzy Re1ative of theISO
DATA Process and its
Use in Detecting Campa
ct、Well 5eparate C1uste
rs” Journal of Cybernet
ics Vol 3(1974)において記載され
ているファジィC−Means Clusterin
g Algorithmを用いる。
zzy Re1ative of theISO
DATA Process and its
Use in Detecting Campa
ct、Well 5eparate C1uste
rs” Journal of Cybernet
ics Vol 3(1974)において記載され
ているファジィC−Means Clusterin
g Algorithmを用いる。
このアルゴリズムは、2乗誤差最小の規範の下でクラス
タリングを行なうものである。このファジィC−Mea
ns Clusteringについては次のように定
義されている。すなわち、第3図に示すように、入力ベ
クトルXK (nl−n4)の要素数をnとし、クラ
スタ(cl〜c4)数をCとし、入力ベクトルX(のセ
ントロイド(Vl〜Vn)Vlに対する級関数をulk
とするとき、目的関数JI、lは次のように定義され
る。
タリングを行なうものである。このファジィC−Mea
ns Clusteringについては次のように定
義されている。すなわち、第3図に示すように、入力ベ
クトルXK (nl−n4)の要素数をnとし、クラ
スタ(cl〜c4)数をCとし、入力ベクトルX(のセ
ントロイド(Vl〜Vn)Vlに対する級関数をulk
とするとき、目的関数JI、lは次のように定義され
る。
d+ k−1IXt −Vl II : It、 II
はEuc l id distance m二重み係数二mε(1,oo) V −(v 1−v、) :コードブックこの目的関
数jmを最小化するようにulkが決定される。ファジ
ィ級関数の定義から、Σu l J −1 λz1 のちとで、目的関数jmが最小化される。これは、ラグ
ランシュの未定乗数λを用いて、 D ” J m−λ(Σu+ J −1)の最少化から
求めることができ、次の結果が得られる。すなわち、m
をmt= (1,oo) 、 xはcくnなる要素を持
つものとし、任意のkに対して、Ikを次のように決め
るとき、 It=(ill≦i≦c;’lk = 1lxi vl II −o)■、−(1,2
,・・・* c)−1゜ulkが目的関数J、、、を
最小化する条件は、次のようになる。
はEuc l id distance m二重み係数二mε(1,oo) V −(v 1−v、) :コードブックこの目的関
数jmを最小化するようにulkが決定される。ファジ
ィ級関数の定義から、Σu l J −1 λz1 のちとで、目的関数jmが最小化される。これは、ラグ
ランシュの未定乗数λを用いて、 D ” J m−λ(Σu+ J −1)の最少化から
求めることができ、次の結果が得られる。すなわち、m
をmt= (1,oo) 、 xはcくnなる要素を持
つものとし、任意のkに対して、Ikを次のように決め
るとき、 It=(ill≦i≦c;’lk = 1lxi vl II −o)■、−(1,2
,・・・* c)−1゜ulkが目的関数J、、、を
最小化する条件は、次のようになる。
ml
または、
■に≠0→u1,1lllO
とき、u+r−1/cで、5oft decisto
n、m−+1のとき、従来のhard decisi
onによるクラスタリングとなる。したがって、m−1
のときに限り、2乗誤差最小に基づく本クラスタリング
はベクトル量子化に近づく。
n、m−+1のとき、従来のhard decisi
onによるクラスタリングとなる。したがって、m−1
のときに限り、2乗誤差最小に基づく本クラスタリング
はベクトル量子化に近づく。
ここでは、me(1,”)に拡張した場合も含めてファ
ジィベクトル量子化と呼ぶことにする。
ジィベクトル量子化と呼ぶことにする。
コードベクトルについては、目的関数J、をクラスタ固
定で求めればよいが、逆に入力ベクトルについて解けば
、次の第2式が求まる。
定で求めればよいが、逆に入力ベクトルについて解けば
、次の第2式が求まる。
・・・(2)
したがって、セントロイド(vOn ・・・、vc)の
線形結合で、新しいコードベクトルを構成することがで
き、近似的にコードブックサイズを増加させることにな
る。さらに、コードベクトル(V。、・・・l vc)
を特徴空間がconvexになるように選んでおけば、
入力ベクトルは上述の式のように分解することができ、
ベクトル量子化の意味でも、わずかの歪で量子化できる
。しかしながら、ファジィベクトル量子化の方法では、
入力X、に対してすべてのコードベクトルに対して級関
数を計算し、記憶しなければならない。ここでのすべて
のコードベクトルに関する級関数の計算は膨大なものと
なってしまう。
線形結合で、新しいコードベクトルを構成することがで
き、近似的にコードブックサイズを増加させることにな
る。さらに、コードベクトル(V。、・・・l vc)
を特徴空間がconvexになるように選んでおけば、
入力ベクトルは上述の式のように分解することができ、
ベクトル量子化の意味でも、わずかの歪で量子化できる
。しかしながら、ファジィベクトル量子化の方法では、
入力X、に対してすべてのコードベクトルに対して級関
数を計算し、記憶しなければならない。ここでのすべて
のコードベクトルに関する級関数の計算は膨大なものと
なってしまう。
そこで、この発明では、この問題を解決するために、k
近傍則を導入する。これは、入力X、に対して最も距離
の小さかったコードベクトルからに番目までに対しての
み破開数を計算するものである。これにより、破開数の
計算かに個のコードベクトルに対してのみで済み、スペ
クトル歪を小さくできる。これは、ファジィクラスタリ
ング理論におけるa−core集合(u/u>at に
非常に近いものといえ、さらに高速化を図った方法であ
る。ところが、一般にkの値とfuzlneSSの値は
無相関ではない。このため、スペクトル歪が最小になる
ように繰返しアルゴリズムを構成して最適なkとfuz
inessを求める。−例として、k−6,fuzin
essが1.6のときに量子化歪が最小であった。
近傍則を導入する。これは、入力X、に対して最も距離
の小さかったコードベクトルからに番目までに対しての
み破開数を計算するものである。これにより、破開数の
計算かに個のコードベクトルに対してのみで済み、スペ
クトル歪を小さくできる。これは、ファジィクラスタリ
ング理論におけるa−core集合(u/u>at に
非常に近いものといえ、さらに高速化を図った方法であ
る。ところが、一般にkの値とfuzlneSSの値は
無相関ではない。このため、スペクトル歪が最小になる
ように繰返しアルゴリズムを構成して最適なkとfuz
inessを求める。−例として、k−6,fuzin
essが1.6のときに量子化歪が最小であった。
第4図はk近傍則を導入してファジィベクトル量子化す
る方法を説明するためのフロー図であり、第5図はファ
ジィベクトル量子化のより具体的なフロー図である。
る方法を説明するためのフロー図であり、第5図はファ
ジィベクトル量子化のより具体的なフロー図である。
前述の第11図に示したA/D変換器3によっ、 て
12kHzの周波数のサンプリング信号で16ビツトに
A/D変換された音声信号に対して、ステップ5P31
において14次の自己相関分析によるLPG分析が行な
われ、パワーと自己相関係数とLPCケプストラム係数
とが抽出される。ステップ5P32において、コードブ
ックの生成であるか否かが判断され、コードブックの生
成であれば、ステップ5P33において、LBGアルゴ
リズムによるコードブックが生成される。生成されたコ
ードブックはステップ5P34において格納される。
12kHzの周波数のサンプリング信号で16ビツトに
A/D変換された音声信号に対して、ステップ5P31
において14次の自己相関分析によるLPG分析が行な
われ、パワーと自己相関係数とLPCケプストラム係数
とが抽出される。ステップ5P32において、コードブ
ックの生成であるか否かが判断され、コードブックの生
成であれば、ステップ5P33において、LBGアルゴ
リズムによるコードブックが生成される。生成されたコ
ードブックはステップ5P34において格納される。
ステップ5P32においてコードブックの生成ではなく
量子化であることが判別されたときには、ステップ5P
35において、ステップ5P34におけるコードブック
を参照してファジィベクトル量子化が行なわれる。この
ファジィベクトル量子化では、k近傍則を導入している
ので、出力はに個のベクトルコードのインデックスと紙
間数値となる。このファジィベクトル量子化について、
第5図を参照してより詳細に説明する。
量子化であることが判別されたときには、ステップ5P
35において、ステップ5P34におけるコードブック
を参照してファジィベクトル量子化が行なわれる。この
ファジィベクトル量子化では、k近傍則を導入している
ので、出力はに個のベクトルコードのインデックスと紙
間数値となる。このファジィベクトル量子化について、
第5図を参照してより詳細に説明する。
ステップ5P41において、入力ベクトルxkに対して
、ステップ5P42で格納されているコードブックを参
照して、すべてのコードベクトルと距離計算が行なわれ
る。その後、ステップ5P43において、最も近いコー
ドベクトルから順次に個のソーティングが行なわれる。
、ステップ5P42で格納されているコードブックを参
照して、すべてのコードベクトルと距離計算が行なわれ
る。その後、ステップ5P43において、最も近いコー
ドベクトルから順次に個のソーティングが行なわれる。
既存のコードベクトルと一致する入力はほとんど生起し
ないが、計算語長の関係上発生し得るので、ステップ5
P44においてに個のコードベクトルのそれぞれ距離が
d、、−〇であるか否かが判定される。距離が0になる
コードベクトルがなければ、ステップ5P46において
、前述の第(1)式を用いて、k個のコードベクトルに
対する破開数の値ulkが求められる。もし、コードベ
クトルで0になるものがあれば、ステップ5P45にお
いて、0でないコードベクトルに対する破開数の値を0
とし、0のものをΣul、−1となるようにulkが決
定される。これによって、kllのコードベクトルのイ
ンデックスと破開数の値が出力される。
ないが、計算語長の関係上発生し得るので、ステップ5
P44においてに個のコードベクトルのそれぞれ距離が
d、、−〇であるか否かが判定される。距離が0になる
コードベクトルがなければ、ステップ5P46において
、前述の第(1)式を用いて、k個のコードベクトルに
対する破開数の値ulkが求められる。もし、コードベ
クトルで0になるものがあれば、ステップ5P45にお
いて、0でないコードベクトルに対する破開数の値を0
とし、0のものをΣul、−1となるようにulkが決
定される。これによって、kllのコードベクトルのイ
ンデックスと破開数の値が出力される。
第6図は変換コードブック学習のアルゴリズムを示すフ
ロー図であって、前述の第2図に示したステップ5P2
4およびステップ5P25をより詳細に示したものであ
る。
ロー図であって、前述の第2図に示したステップ5P2
4およびステップ5P25をより詳細に示したものであ
る。
次に、第6図を参照して、スペクトルの変換(正規化)
および変換コードブックの生成方法について説明する。
および変換コードブックの生成方法について説明する。
まず、学習用単語を未知話者に発声させる。この入力音
声はステップ5P51において、ステップ5P52で格
納されているコードブックを用いてファジィベクトル量
子化される。
声はステップ5P51において、ステップ5P52で格
納されているコードブックを用いてファジィベクトル量
子化される。
量子化された符号列は、ステップ5P53において、ス
テップ5P54で既に格納されている標準話者の同一単
語の学習用標準パターンとDTWによりマツチングされ
、未知話者と標準話者が発声した同一学習単語でDPバ
バスらベクトルの対応づけが求められる。そして、全学
習単語について対応づけが求められ、ヒストグラムの形
で格納される。ファジィベクトル量子化を用いた方法で
は、ファジィベクトル量子化の符号系列に対して対応が
求められるので、1度に複数のベクトルコードの対応を
積算することができる。ファジィベクトル量子化の場合
には、破開数の値をそのまま用いるので、確からしさの
連続値を積算することができる。
テップ5P54で既に格納されている標準話者の同一単
語の学習用標準パターンとDTWによりマツチングされ
、未知話者と標準話者が発声した同一学習単語でDPバ
バスらベクトルの対応づけが求められる。そして、全学
習単語について対応づけが求められ、ヒストグラムの形
で格納される。ファジィベクトル量子化を用いた方法で
は、ファジィベクトル量子化の符号系列に対して対応が
求められるので、1度に複数のベクトルコードの対応を
積算することができる。ファジィベクトル量子化の場合
には、破開数の値をそのまま用いるので、確からしさの
連続値を積算することができる。
このヒストグラムを用いて、ステップ5P55において
、未知話者の特徴ベクトルが、ステップ5P56で格納
されている標準話者のコードブックの特徴ベクトルの対
応づけのヒストグラムを重みとした加重和で表わされる
。次に、ステップ5P58において収束であるか否かが
判別され、収束でなければステップ5P57において、
b′の変換コードブックによって未知話者のコードブッ
クが入換えられ、同様の処理が繰返される。この繰返し
を一定回数または全学習単語に対するDTW距離が集束
するまで繰返され、ステップ5P58において、集束し
たことが判別されると、ステップ5P59において、最
終的な変換コードブックが得られる。
、未知話者の特徴ベクトルが、ステップ5P56で格納
されている標準話者のコードブックの特徴ベクトルの対
応づけのヒストグラムを重みとした加重和で表わされる
。次に、ステップ5P58において収束であるか否かが
判別され、収束でなければステップ5P57において、
b′の変換コードブックによって未知話者のコードブッ
クが入換えられ、同様の処理が繰返される。この繰返し
を一定回数または全学習単語に対するDTW距離が集束
するまで繰返され、ステップ5P58において、集束し
たことが判別されると、ステップ5P59において、最
終的な変換コードブックが得られる。
第7図は未知話者から標準話者への変換コードブック生
成アルゴリズムを説明するための図であり、第8図はフ
ァジィベクトルを用いたヒストグラム積算方式を説明す
るための図である。
成アルゴリズムを説明するための図であり、第8図はフ
ァジィベクトルを用いたヒストグラム積算方式を説明す
るための図である。
前述のファジィベクトル量子化のに近傍の数をkとすれ
ば、学習時の1フレーム対応かに2個のヒストグラム積
算が可能となり、学習サンプル数奔低減できる。第7図
に示すように、未知話者Aの入力ベクトルX、はベクト
ル量子化により第8図に示すようにa、に符号化された
後、対応づけのヒストグラムhlJを用いて第7図に示
す標準話者Bのコードブックのベクトルb、からの線形
結合で表わされ、標準話者の空間b′1に次式により写
像される。
ば、学習時の1フレーム対応かに2個のヒストグラム積
算が可能となり、学習サンプル数奔低減できる。第7図
に示すように、未知話者Aの入力ベクトルX、はベクト
ル量子化により第8図に示すようにa、に符号化された
後、対応づけのヒストグラムhlJを用いて第7図に示
す標準話者Bのコードブックのベクトルb、からの線形
結合で表わされ、標準話者の空間b′1に次式により写
像される。
B 、 −b’ 、−Σh+ J bj/ΣhiJ第9
図はスペクトログラム正規化のアルゴリズムを説明する
ためのフロー図である。次に、第9図を参照してスペク
トルの正規化について説明する。ステップ5P61にお
いて、未知話者Aの入力音声が、ステップ5P62で既
に格納されているコードブックを用いて、ファジィベク
トル量子化され、ステップ5P63において、ステップ
5P64で求められて格納されている未知話者から標準
話者への変換コードブックを用いて未知話者のコードブ
ックが入換えられ、フレームワイズにスペクトルの入替
えを行なって正規化スペクトログラムが出力される。フ
ァジィベクトル量子化では、入力のベクトルは既存のコ
ードブックからの合成で表わされる。したがって、既存
のコードブックを変換コードブックに入換え、破開数の
値はそのままに保存して変換が行なわれる。話者間の空
間構造の異なりが問題となるが、ヒストグラムによる変
換コードブック生成、k近傍則によるれ部分空間の選択
により、破開数の値がある程度保存されるものと仮定で
きる。
図はスペクトログラム正規化のアルゴリズムを説明する
ためのフロー図である。次に、第9図を参照してスペク
トルの正規化について説明する。ステップ5P61にお
いて、未知話者Aの入力音声が、ステップ5P62で既
に格納されているコードブックを用いて、ファジィベク
トル量子化され、ステップ5P63において、ステップ
5P64で求められて格納されている未知話者から標準
話者への変換コードブックを用いて未知話者のコードブ
ックが入換えられ、フレームワイズにスペクトルの入替
えを行なって正規化スペクトログラムが出力される。フ
ァジィベクトル量子化では、入力のベクトルは既存のコ
ードブックからの合成で表わされる。したがって、既存
のコードブックを変換コードブックに入換え、破開数の
値はそのままに保存して変換が行なわれる。話者間の空
間構造の異なりが問題となるが、ヒストグラムによる変
換コードブック生成、k近傍則によるれ部分空間の選択
により、破開数の値がある程度保存されるものと仮定で
きる。
第10図はマツチングにより非線形な時間軸の対応付け
を求める方法を説明するためのフロー図である。次に、
第10図を参照して、マツチング方法について説明する
。ファジィベクトル量子化により、各フレームごとにに
個のコードワードとに個の破開数が出力される。ステッ
プ5P71において、ステップ5P72において格納さ
れているコードブックを用いて、前述の第2式に従って
、フレームごとに入力ベクトルX /1が生成され、入
カバターンが再生成される。次に、ステップ5P73に
おいて、標準パターン側も同様にして、ステップ5P7
6で格納されている標準パターンコード列からコードワ
ードと破開数が読出され、ステップ5P74で格納され
ているコードブックを参照して、第2式に基づいて標準
パターンが再生成される。
を求める方法を説明するためのフロー図である。次に、
第10図を参照して、マツチング方法について説明する
。ファジィベクトル量子化により、各フレームごとにに
個のコードワードとに個の破開数が出力される。ステッ
プ5P71において、ステップ5P72において格納さ
れているコードブックを用いて、前述の第2式に従って
、フレームごとに入力ベクトルX /1が生成され、入
カバターンが再生成される。次に、ステップ5P73に
おいて、標準パターン側も同様にして、ステップ5P7
6で格納されている標準パターンコード列からコードワ
ードと破開数が読出され、ステップ5P74で格納され
ているコードブックを参照して、第2式に基づいて標準
パターンが再生成される。
次に、ステップ5P75において、この入カバターンと
標準パターンとがDTWによりマツチングされ、距離が
求められる。ここでのDTWにおける最小距離のときの
対応付けが最適な単語の非線形な時間軸対応を示し、こ
れによりベクトルコードの対応付けを求めることができ
る。
標準パターンとがDTWによりマツチングされ、距離が
求められる。ここでのDTWにおける最小距離のときの
対応付けが最適な単語の非線形な時間軸対応を示し、こ
れによりベクトルコードの対応付けを求めることができ
る。
[発明の効果]
以上のように、この発明によれば、既存のコードブック
への帰属度により入力ベクトルを表現するファジィベク
トル量子化を導入したことによって、従来のままのコー
ドブックを用いながら量子化工を低減し、また話者適応
における学習単語を増加させることなく高精度でスペク
トログラムの正規化を行なうことができる。
への帰属度により入力ベクトルを表現するファジィベク
トル量子化を導入したことによって、従来のままのコー
ドブックを用いながら量子化工を低減し、また話者適応
における学習単語を増加させることなく高精度でスペク
トログラムの正規化を行なうことができる。
第1図はこの発明の一実施例の音声の入力から正規化ス
ペクトログラムの出力までの全体のフロー図である。第
2図はファジィベクトル量子化を用いたスペクトログラ
ム正規化のフロー図である。 第3図は入力ベクトルとセントロイドとの関係を示す図
である。第4図はに近傍則を導入したファジィベクトル
量子化する方法を説明するためのフロー図である。第5
図はファジィベクトル量子化のより具体的なフロー図で
ある。第6図は変換コードブック学習のアルゴリズムを
示すフロー図である。第7図は未知話者から標準話者へ
の変換コードブックアルゴリズムを説明するための図で
ある。第8図はファジィベクトルを用いたヒストグラム
積算方式を説明するための図である。第9図はスペクト
ログラム正規化のアルゴリズムを説明するためのフロー
図である。第10図はマツチングにより認識結果を出力
する方法を説明するためのフロー図である。第11図は
この発明の一実施例の電気的構成を説明するための概略
ブロック図である。第12図は従来のベクトル量子化を
用いた音声認識方法を説明するための図である。第13
図は従来のベクトル量子化における歪を説明するための
図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換器、4は処理装置、5はコンピュータを示す
。 特許出願人 株式会社エイ・ティ・アール第1図 第2図 未知話者の入力音声 正規化スベクトロダラム 第8図 第4図 コーrり1」★K11l 第5図 入力ベクトルXk ド、繊閣以 第6図 図面の浄書 87図 第9図 正 スペクトログラム 第10図 第12図 第13図 手続補正書(さべ) 昭和63年7月8日 昭和63年特許願第 65542 号昭和 年
月 日提出の特許願 2、発明の名称 スペクトログラムの正規化方式 3、補正をする者 事件との関係 特許出願人 住 所 京都府相楽郡精華町大字乾谷小字三平谷5番地
名 称 株式会社エイ・ティ・アール自動翻訳電話研究
所代表者 鳩松 明 4、代理人 住 所 大阪市北区南森町2丁口1番29号 住友銀行
南森町ビル6、補正の対象 図面 7、補正の内容 図面の第7図を別紙のとおり補正致します。 以上
ペクトログラムの出力までの全体のフロー図である。第
2図はファジィベクトル量子化を用いたスペクトログラ
ム正規化のフロー図である。 第3図は入力ベクトルとセントロイドとの関係を示す図
である。第4図はに近傍則を導入したファジィベクトル
量子化する方法を説明するためのフロー図である。第5
図はファジィベクトル量子化のより具体的なフロー図で
ある。第6図は変換コードブック学習のアルゴリズムを
示すフロー図である。第7図は未知話者から標準話者へ
の変換コードブックアルゴリズムを説明するための図で
ある。第8図はファジィベクトルを用いたヒストグラム
積算方式を説明するための図である。第9図はスペクト
ログラム正規化のアルゴリズムを説明するためのフロー
図である。第10図はマツチングにより認識結果を出力
する方法を説明するためのフロー図である。第11図は
この発明の一実施例の電気的構成を説明するための概略
ブロック図である。第12図は従来のベクトル量子化を
用いた音声認識方法を説明するための図である。第13
図は従来のベクトル量子化における歪を説明するための
図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換器、4は処理装置、5はコンピュータを示す
。 特許出願人 株式会社エイ・ティ・アール第1図 第2図 未知話者の入力音声 正規化スベクトロダラム 第8図 第4図 コーrり1」★K11l 第5図 入力ベクトルXk ド、繊閣以 第6図 図面の浄書 87図 第9図 正 スペクトログラム 第10図 第12図 第13図 手続補正書(さべ) 昭和63年7月8日 昭和63年特許願第 65542 号昭和 年
月 日提出の特許願 2、発明の名称 スペクトログラムの正規化方式 3、補正をする者 事件との関係 特許出願人 住 所 京都府相楽郡精華町大字乾谷小字三平谷5番地
名 称 株式会社エイ・ティ・アール自動翻訳電話研究
所代表者 鳩松 明 4、代理人 住 所 大阪市北区南森町2丁口1番29号 住友銀行
南森町ビル6、補正の対象 図面 7、補正の内容 図面の第7図を別紙のとおり補正致します。 以上
Claims (3)
- (1)音声信号の特徴としてスペクトログラムを抽出し
、このスペクトログラムを異話者間で正規化するスペク
トログラムの正規化方式において、 入力ベクトルを既存のコードベクトルへの帰属度で表現
するファジィベクトル量子化を行なった後、スペクトロ
グラムを抽出し、異話者間でのベクトル量子化のコード
ブックの対応づけに基づくコードベクトルの変換を行な
い、スペクトログラムの正規化を行なうようにした、ス
ペクトログラムの正規化方式。 - (2)前記ファジィベクトル量子化はk近傍則を用いる
ことを特徴とする、請求項1項記載のスペクトログラム
の正規化方式。 - (3)前記異話者間のコードベクトルの対応付けの方法
として、予め未知話者に所定の学習単語を発声させ、k
近傍則を用いたファジィベクトル量子化により量子化し
、別途同様の方法で量子化し格納されている標準パター
ンと非線形マッチングを行ない、この対応付けの最適パ
スに沿って、ファジィ級関数から対応付けヒストグラム
を作成し、標準話者のコードベクトルからこのヒストグ
ラムを重みとする線形和でベクトルを合成し、未知話者
のコードベクトルをこのベクトルに対応付けることによ
りなすことを特徴とする請求項1項記載のスペクトロク
ラムの正規化方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63065542A JP2709935B2 (ja) | 1988-03-17 | 1988-03-17 | スペクトログラムの正規化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63065542A JP2709935B2 (ja) | 1988-03-17 | 1988-03-17 | スペクトログラムの正規化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01237600A true JPH01237600A (ja) | 1989-09-22 |
JP2709935B2 JP2709935B2 (ja) | 1998-02-04 |
Family
ID=13290008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63065542A Expired - Fee Related JP2709935B2 (ja) | 1988-03-17 | 1988-03-17 | スペクトログラムの正規化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2709935B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012137680A (ja) * | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | 状態検出装置、状態検出方法および状態検出のためのプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6425197A (en) * | 1987-07-09 | 1989-01-27 | Ibm | Conversion of characteristic vector in voice processing into correct vector allowing more information |
JPH0585916A (ja) * | 1991-09-26 | 1993-04-06 | Kao Corp | 棒状物の成形方法及び装置 |
-
1988
- 1988-03-17 JP JP63065542A patent/JP2709935B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6425197A (en) * | 1987-07-09 | 1989-01-27 | Ibm | Conversion of characteristic vector in voice processing into correct vector allowing more information |
JPH0585916A (ja) * | 1991-09-26 | 1993-04-06 | Kao Corp | 棒状物の成形方法及び装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012137680A (ja) * | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | 状態検出装置、状態検出方法および状態検出のためのプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2709935B2 (ja) | 1998-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5056150A (en) | Method and apparatus for real time speech recognition with and without speaker dependency | |
Bharti et al. | Real time speaker recognition system using MFCC and vector quantization technique | |
EP1457967B1 (en) | Compression of gaussian models | |
Thakur et al. | Speech recognition using euclidean distance | |
US5812973A (en) | Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system | |
JPH0850499A (ja) | 信号識別方法 | |
JPH01997A (ja) | ベクトル量子化を用いた音声認識方式 | |
EP1465153A2 (en) | Method and apparatus for formant tracking using a residual model | |
Bhardwaj et al. | Deep neural network trained Punjabi children speech recognition system using Kaldi toolkit | |
US5864807A (en) | Method and apparatus for training a speaker recognition system | |
JPH01998A (ja) | スペクトログラムの正規化方法 | |
KS et al. | Comparative performance analysis for speech digit recognition based on MFCC and vector quantization | |
JP2021039219A (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JPH01996A (ja) | ベクトル量子化を用いた音声認識方式 | |
Матиченко et al. | The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space | |
Ananthakrishna et al. | Kannada word recognition system using HTK | |
JPH01237600A (ja) | スペクトログラムの正規化方法 | |
JP2709926B2 (ja) | 声質変換方法 | |
JP2912579B2 (ja) | 声質変換音声合成装置 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
Devika et al. | A fuzzy-GMM classifier for multilingual speaker identification | |
JPH0554068A (ja) | 音声認識システム | |
JPH03186899A (ja) | 隠れマルコフモデル学習方式 | |
JP5136621B2 (ja) | 情報検索装置及び方法 | |
Bharadwaj et al. | Recognition of Speaker Using Vector Quantization and MFCC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |