JPH07334184A

JPH07334184A - 音響カテゴリ平均値計算装置及び適応化装置

Info

Publication number: JPH07334184A
Application number: JP6125528A
Authority: JP
Inventors: 啓三郎 ▲高▼木; Keizaburo Takagi; Hiroaki Hattori; 浩明服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-06-07
Filing date: 1994-06-07
Publication date: 1995-12-22
Anticipated expiration: 2012-12-17
Also published as: EP0686965A3; JP2692581B2; EP0686965A2; US5651094A; EP0686965B1; DE69519453D1; DE69519453T2

Abstract

(57)【要約】【目的】入力音声または標準パタンの適応化を行なう
際に少ないメモリ量およびバックトラック処理の必要が
ない少ない処理量で効率的に音響カテゴリ毎の平均値算
出を行なう音響カテゴリ平均値計算装置を提供する。【構成】マッチング部が行なう各時刻の各遷移におい
て、標準パタンの各フレームに割り当てられた入力足し
込みバッファ値は、遷移元フレームの同一音響カテゴリ
の入力足し込みバッファ値と入力ベクトルに音響カテゴ
リ毎の重みを乗じた値とを加算した値を格納し、当該バ
ッファに割り当てられた入力足し込みカウンタは遷移元
のフレームの同一音響カテゴリの入力足し込みカウンタ
値と音響カテゴリ毎の重みとを加算した値を格納する入
力ベクトル足し込み部を有し、マッチングおよび足し込
みを完了した時点で標準パタンの最終位置に設けられた
入力足し込みバッファ値を対応する入力足し込みカウン
タ値で割算することにより音響カテゴリ毎の入力の平均
値を算出する入力平均値算出部とを有する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識に関し、特に入
力音声または標準パタンの適応化を行なう際に少ないメ
モリ量および少ない処理量で効率的に音響カテゴリ毎の
平均値算出を行なう技術に関するものである。

【０００２】

【従来の技術】従来、音声認識において標準パタン学習
用の音声を発声した話者と認識時の音声を発声する話者
とが異なる場合や学習用音声を収録した時のマイクロホ
ンと認識に使用するマイクロホンとが異なる場合に音声
の認識率が低下することが知られている。このような場
合に、認識を行なう話者あるいはマイクロホンによる比
較的短い音声を用いて標準パタンを入力音声に適応化
し、音声の認識率を向上させる、いわゆる話者適応とよ
ばれる技術が存在する。例えば、篠田、磯、渡辺：”音
声認識のためのスペクトル内挿を用いた話者適応化”、
電子情報通信学会論文誌、Ａ、Ｖｏｌ．Ｊ７７−Ａ、
Ｎｏ．２、ｐｐ．１２０−１２７（１９９４年２月）．
（以下引用文献［１］とする）に示す話者適応化装置に
用いられている音響カテゴリ平均値算出装置（引用文献
［１］では適応化ベクトルという用語を用いているが本
発明の音響カテゴリ平均値同士の差と同一のものであ
る）は例えば図５に示すような構成となる。

【０００３】すなわち図５では、入力音声は分析部５１
で特徴ベクトルの時系列に変換される。マッチング部５
２は、分析部５１から得られた特徴ベクトルの時系列と
予め分析部５１と同様の分析方法で分析された標準パタ
ンの音声の時系列との比較を行ない、最適パスを求めて
両者の間の時間に関する対応付け情報を記憶する。この
マッチング部５２は例えばＤＰマッチング、ＨＭＭ（Ｈ
ｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフ
モデル）などの時間軸を正規化して入力音声と標準パタ
ン音声からなる２次元の格子点に関する最適パスを計算
し、両者の間の最適な対応付け情報を計算するように構
成されている。バックトラック情報記憶部５５はこの対
応付け情報を記憶するための、入力音声の長さ×標準パ
タン音声の長さの２次元の記憶領域である。また、標準
パタンとして複数用意するいわゆるマルチテンプレート
と呼ばれる方式を採用した場合には、各格子点において
どの標準パタンを採用したかを示すインデクス情報が必
要であり、テンプレート情報記憶部５６は、この情報の
記憶領域であり、入力音声の長さ×標準パタン音声の長
さの２次元の記憶領域を必要とする。平均ベクトル算出
部５４は、マッチング部５２から得られた２次元の対応
付け情報、すなわちバックトラック情報記憶部５５の内
容を元に各時刻の入力音声がどの標準パタンに対応付け
られたかを調べる、いわゆるバックトラックと呼ばれる
処理を行なう。このバックトラック処理は入力音声の終
端点と標準パタンの終端点からなる格子点位置から逆に
始端方向に遡り、２次元空間内で両者の対応付けを調べ
てゆく処理を行なうように構成されている。バックトラ
ックを行なうことにより対応づけられた標準パタンの音
響カテゴリ毎の入力音声の平均ベクトルを算出し、音響
カテゴリ平均値として出力する。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
平均値算出装置では、マッチング部５２で行なうマッチ
ング処理および平均ベクトル算出部５４で行なうバック
トラック処理の２つの処理において２次元の空間の探索
を行なう必要があり、演算量が多く、実時間処理に好適
ではないという問題点があった。特に平均ベクトル算出
部５４で行なうバックトラック処理はマッチング部５２
が行なうマッチング処理が完全に終了した時点以降でな
いと処理を開始出来ないため、両者を時間的に並行して
行なういわゆるパイプライン処理が適用出来ず、ひいて
は実時間での処理が行なえないという問題点があった。

【０００５】また、従来の平均値算出装置では、類別す
べき音響カテゴリ数が少ない場合においても必ずバック
トラックのための２次元の記憶領域が必要であり、メモ
リ量が多いため、安価な装置を提供することが不可能で
あるという問題点を有していた。

【０００６】本発明は上述の問題を解決するものであ
り、その目的は、入力音声または標準パタンの適応化を
行なう際に少ないメモリ量、およびバックトラック処理
の必要がない少ない処理量で効率的に音響カテゴリ毎の
平均値算出を行なう音響カテゴリ平均値計算装置を提供
することにある。

【０００７】

【課題を解決するための手段】本発明による第１の音響
カテゴリ平均値計算装置は、入力音声を特徴ベクトルの
時系列に変換する分析部と、予め学習用音声を特徴ベク
トルの時系列に変換して学習され、音響カテゴリ重み情
報を有する標準パタンのフレーム毎に音響カテゴリの数
だけ設けられ、入力音声の音響カテゴリ毎の重み付き総
和を足し込む入力足し込みバッファと、標準パタンのフ
レーム毎に音響カテゴリの数だけ設けられ、入力足し込
みバッファ毎に足し込まれたベクトルの重み付き個数を
記憶する入力足し込みカウンタと、入力音声と標準パタ
ンとの間で時間軸の対応付を行なうマッチング部と、マ
ッチング部が行なう各時刻の各遷移において、標準パタ
ンの各フレームに割り当てられた入力足し込みバッファ
値は、遷移元フレームの同一音響カテゴリの入力足し込
みバッファ値と入力ベクトルに音響カテゴリ毎の重みを
乗じた値とを加算した値を格納し、当該バッファに割り
当てられた入力足し込みカウンタは遷移元のフレームの
同一音響カテゴリの入力足し込みカウンタ値と音響カテ
ゴリ毎の重みとを加算した値を格納する入力ベクトル足
し込み部と、マッチング部および入力ベクトル足し込み
部がマッチングおよび足し込みを完了した時点で標準パ
タンの最終位置に設けられた入力足し込みバッファ値を
対応する入力足し込みカウンタ値で割算することにより
音響カテゴリ毎の入力の平均値を算出する入力平均値算
出部とを有する。

【０００８】本発明による第２の音響カテゴリ平均値計
算装置は、入力音声を特徴ベクトルの時系列に変換する
分析部と、予め学習用音声を特徴ベクトルの時系列に変
換して学習され、音響カテゴリ重み情報を有する標準パ
タンのフレーム毎に音響カテゴリの数だけ設けられ、標
準パタンの音響カテゴリ毎の重み付き総和を足し込む標
準パタン足し込みバッファと、標準パタンのフレーム毎
に音響カテゴリの数だけ設けられ、標準パタン足し込み
バッファ毎に足し込まれたベクトルの重み付き個数を記
憶する標準パタン足し込みカウンタと、入力音声と標準
パタンとの間で時間軸の対応付を行なうマッチング部
と、マッチング部が行なう各時刻の各遷移において、標
準パタンの各フレームに割り当てられた標準パタン足し
込みバッファ値は、遷移元フレームの同一音響カテゴリ
の標準パタン足し込みバッファ値と標準パタンベクトル
に音響カテゴリ毎の重みを乗じた値とを加算した値を格
納し、当該バッファに割り当てられた標準パタン足し込
みカウンタは遷移元のフレームの同一音響カテゴリの標
準パタン足し込みカウンタ値と音響カテゴリ毎の重みと
を加算した値を格納する標準パタン足し込み部と、マッ
チング部および標準パタン足し込み部がマッチングおよ
び足し込みを完了した時点で標準パタンの最終位置に設
けられた標準パタン足し込みバッファ値を対応する標準
パタン足し込みカウンタ値で割算することにより音響カ
テゴリ毎の標準パタンの平均値を算出する標準パタン平
均値算出部とを有する。

【０００９】本発明による第３の音響カテゴリ平均値計
算装置は、入力音声を特徴ベクトルの時系列に変換する
分析部と、予め学習用音声を特徴ベクトルの時系列に変
換して学習され、音響カテゴリ重み情報を有する標準パ
タンのフレーム毎に音響カテゴリの数だけ設けられ、入
力音声の音響カテゴリ毎の重み付き総和を足し込む入力
足し込みバッファと、標準パタンのフレーム毎に音響カ
テゴリの数だけ設けられ、入力足し込みバッファ毎に足
し込まれたベクトルの重み付き個数を記憶する入力足し
込みカウンタと、標準パタンのフレーム毎に音響カテゴ
リの数だけ設けられ、標準パタンの音響カテゴリ毎の重
み付き総和を足し込む標準パタン足し込みバッファと、
標準パタンのフレーム毎に音響カテゴリの数だけ設けら
れ、標準パタン足し込みバッファ毎に足し込まれたベク
トルの重み付き個数を記憶する標準パタン足し込みカウ
ンタと、入力音声と前記標準パタンとの間で時間軸の対
応付を行なうマッチング部と、マッチング部が行なう各
時刻の各遷移において、標準パタンの各フレームに割り
当てられた入力足し込みバッファ値は、遷移元フレーム
の同一音響カテゴリの入力足し込みバッファ値と入力ベ
クトルに音響カテゴリ毎の重みを乗じた値とを加算した
値を格納し、当該バッファに割り当てられた入力足し込
みカウンタは遷移元のフレームの同一音響カテゴリの入
力足し込みカウンタ値と音響カテゴリ毎の重みとを加算
した値を格納する入力ベクトル足し込み部と、マッチン
グ部および入力ベクトル足し込み部がマッチングおよび
足し込みを完了した時点で標準パタンの最終位置に設け
られた入力足し込みバッファ値を対応する入力足し込み
カウンタ値で割算することにより音響カテゴリ毎の入力
の平均値を算出する入力平均値算出部と、マッチング部
が行なう各時刻の各遷移において、標準パタンの各フレ
ームに割り当てられた標準パタン足し込みバッファ値
は、遷移元フレームの同一音響カテゴリの標準パタン足
し込みバッファ値と標準パタンベクトルに音響カテゴリ
毎の重みを乗じた値とを加算した値を格納し、当該バッ
ファに割り当てられた標準パタン足し込みカウンタは遷
移元のフレームの同一音響カテゴリの標準パタン足し込
みカウンタ値と音響カテゴリ毎の重みとを加算した値を
格納する標準パタン足し込み部と、マッチング部および
標準パタン足し込み部がマッチングおよび足し込みを完
了した時点で標準パタンの最終位置に設けられた標準パ
タン足し込みバッファ値を対応する標準パタン足し込み
カウンタ値で割算することにより音響カテゴリ毎の標準
パタンの平均値を算出する標準パタン平均値算出部とを
有する。

【００１０】本発明による適応化装置は、本発明による
第１または第２または第３の音響カテゴリ平均値計算装
置を備え、音響カテゴリ平均値計算装置が計算した音響
カテゴリ毎の平均値を用いて、入力または標準パタンの
一方もしくは両方を適応化する適応部とを有する。

【００１１】

【作用】従来、音声認識においては不特定話者認識方式
が広く用いられて来た。不特定者方式は、標準パタンと
して多数の話者の音声を登録することにより話者毎の音
声のばらつきを包含し、どの話者の音声に対してもある
程度の高い認識率を有する方式である。しかし、この方
式では、未知の話者の入力音声が標準パタンのどの話者
の音声とも似ていない場合があり、このような話者の音
声に対しては高い性能が得られないという欠点があっ
た。このような話者の音声の認識率を比較的少ない音声
を用いて適応化により改善する方法として、いわゆる話
者適応と呼ばれる技術が存在する。例えば引用文献
［１］に示す方式もその１つである。

【００１２】本発明は、入力音声または標準パタンの話
者適応化を行なう際に必要となる音響カテゴリ毎の平均
値を計算する音響カテゴリ平均値計算装置に関し、入力
音声と標準パタンとの時間に関する対応付けと、音響カ
テゴリ毎の平均値計算を同時に行なうことが可能な構成
となし、実時間処理が可能な音響カテゴリ平均値計算装
置を提供できるという効果を得るものであり、また、副
次的な効果として類別する音響カテゴリ数が少ない場合
にはより少ないメモリ量で構成可能であるという効果を
得るものである。

【００１３】以下、図１に示す本発明による第１の音響
カテゴリ平均値計算装置を、図５に示す従来の音響カテ
ゴリ平均値算出装置と対比させながら本発明の作用を具
体的に説明する。入力音声は分析部１１および分析部５
１にて特徴ベクトルの時系列に変換される。一般に特徴
ベクトルとして広く用いられているものは、例えば古
井：”ディジタル音声処理”、東海大学出版、ｐｐ．１
５４−１６０（１９８５）．（以下引用文献［２］とす
る）に述べられている種々のものが知られているが、例
えばＬＰＣ分析、ＦＦＴ分析などによって得られるケプ
ストラムあるいはその線形回帰係数を用いる場合、特徴
ベクトルは２０〜３０チャンネル程度のベクトルとな
り、入力音声はその時系列信号として表現される。標準
パタン１２および標準パタン５３は、分析部１１および
分析部５１と同様の分析方法を用いて予め標準話者の音
声を特徴ベクトルの時系列として変換し蓄積または学習
により登録されている。マッチング部１５およびマッチ
ング部５２は、標準パタンの特徴ベクトルの時系列と入
力音声の特徴ベクトルの時系列との間の時間軸正規化マ
ッチングを行なう。この時間軸正規化マッチングとして
例えば引用文献［２］のｐｐ．１６２−１７０に述べら
れているようなＤＰマッチングあるいはＨＭＭ（Ｈｉｄ
ｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などの方法が挙げ
られる。ここでは例えばＤＰマッチングを用いた場合に
ついて説明する。

【００１４】いま入力の特徴ベクトルの時系列をＸ
（ｉ，ｃ）、標準パタンの特徴ベクトルの時系列をＹ
（ｊ，ｃ）とする。ただし、ｉ，ｊはそれぞれ入力、標
準パタンの時刻とし、ｃはベクトルの成分を示すものと
する。音声の性質から、Ｘ、Ｙは時間方向に容易に伸縮
し得るので、２つのパタン間のマッチングは時間方向の
非線形伸縮を考慮したマッチングを行なう。ＤＰマッチ
ングは、この非線形伸縮を考慮したマッチングの一つと
して現在の音声認識に広く用いられている。ここで、入
力の終端点Ｉと標準パタンの終端点Ｊとからなる２次元
空間の格子点を考えた場合、始端（０，０）から終端
（Ｉ，Ｊ）に至る経路のうち、累積距離が最小となる経
路を２つのパタン間の最適な対応付けとし、その時の累
積距離をパタン間の距離とする。音声認識にＤＰマッチ
ングを用いる場合は、入力音声とすべての標準パタンと
の間の距離を計算し、その最小を与える標準パタンの音
響カテゴリを認識結果として与える。一方、ここでいう
適応化あるいは学習という目的でＤＰマッチングを用い
た場合は、標準パタンは何らかの情報によりその対象は
すでに限定されており、その目的はむしろ２つのパタン
間の最適な対応付けを行なったときの音響カテゴリ毎の
平均値を求める問題となる。任意の格子点（ｉ，ｊ）で
のベクトル間距離ｄ（ｉ，ｊ）を、

【００１５】

【数１】

【００１６】と定義する。ここで、ｋは各格子点で複数
用意したテンプレートの番号を示しており、各格子点距
離は複数のｋが与える距離のうち最小値を選択して用い
る。ＤＰマッチングは例えば、格子点（ｉ，ｊ）の累積
距離Ｄ（ｉ，ｊ）の漸化式として以下のように表され
る。

【００１７】

【数２】

【００１８】すなわち、格子点（０，０）を出発点、初
期値Ｄ（０，０）＝ｄ（０，０）とし、入力の時間的に
増加する方向に累積距離Ｄを計算し、最終的に格子点
（Ｉ，Ｊ）での累積距離が求められたときに２つのパタ
ン間の最適なマッチング経路が求められたことになる。

【００１９】図５に示す従来の音響カテゴリ平均値算出
装置では、バックトラック情報としてバックトラック情
報記憶部５５をもつ。このバックトラック情報をＢ
（ｉ，ｊ）とすると、各格子点での遷移情報を、

【００２０】

【数３】

【００２１】の形式で記憶する。ここでａｒｇｍｉｎ
_(j)は最小値を与えるｊ成分の値、すなわちｊ，ｊ−
１，ｊ−２のいずれかを選択するものとする。また図５
に示す従来の音響カテゴリ平均値算出装置では、各格子
点においてどのテンプレートを選択したかを示す情報を
記憶するテンプレート情報記憶部５６を有している。こ
のテンプレート情報をＴ（ｉ，ｊ）とすると、各格子点
でのテンプレートの選択情報を、

【００２２】

【数４】

【００２３】の形式で記憶しておく。図５に示す従来の
音響カテゴリ平均値算出装置では、平均ベクトル算出部
５４においてバックトラック情報記憶部５５およびテン
プレート情報記憶部５６で得られた情報を元にバックト
ラックを行ない音響カテゴリ毎の平均値を求める。い
ま、簡単のために類別すべき音響カテゴリの数を２と
し、入力を雑音部分または音声部分に分けて平均値を求
める場合を説明する。求める雑音部分、音声部分の平均
値をそれぞれＮ（ｃ）、Ｓ（ｃ）とすると、格子点
（Ｉ，Ｊ）から逆に格子点（０，０）に到達するまで最
適パスを遡って音響カテゴリ毎の平均値を計算する。そ
の手順を以下に示す。ＳＴＥＰ１ｉ←Ｉ、ｊ←Ｊ、Ｎ（ｃ）←０、Ｓ（ｃ）
←０ＳＴＥＰ２もしＴ（ｉ，ｊ）が音声のテンプレートな
ら、Ｓ（ｃ）＝Ｓ（ｃ）＋Ｘ（ｉ，ｃ）を実行。もしＴ
（ｉ，ｊ）が雑音のテンプレートなら、Ｎ（ｃ）＝Ｎ
（ｃ）＋Ｘ（ｉ，ｃ）を実行。ＳＴＥＰ３もしｉ＝０，ｊ＝０ならＳＴＥＰ５へＳＴＥＰ４ｉ←ｉ−１、ｊ←Ｂ（ｉ，ｊ）ＳＴＥＰ２
へＳＴＥＰ５Ｎ（ｃ）、Ｓ（ｃ）の内容をそれぞれ足し
込まれた個数で割算し、音響カテゴリ毎の平均値を計
算。処理終了。

【００２４】以上に示すように、図５に示す従来の音響
カテゴリ平均値算出装置では、音響カテゴリ毎の平均値
（ここでは雑音Ｎ（ｃ）、音声Ｓ（ｃ））を求めるため
にマッチング部５２にて２つのパタン間の最適なパスを
求め、この処理が終了した時点で再び格子点（Ｉ，Ｊ）
から逆に格子点（０，０）へ最適パスを辿るという２段
階の処理を行なうことになる。

【００２５】一方、図１に示す本発明による第１の音響
カテゴリ平均値計算装置では、入力足し込みバッファ１
３を、標準パタンの各フレーム毎にそれぞれ類別すべき
音響カテゴリの数だけ用意する。ここで用いた例ではこ
の音響カテゴリの数は音声部分および雑音部分の２個で
ある。また、簡単のため２つのカテゴリに対する重みは
１または０の値のみをとるものとする。すなわち、入力
音声は雑音または音声のどちらか一方に属するものとし
た場合について説明する。いま、このバッファを雑音部
分に関してＶ（ｊ，ｃ）、音声部分に関してＷ（ｊ，
ｃ）とし、またこれに対応する入力足し込みカウンタ１
７をそれぞれＶ_c（ｊ）、Ｗ_c（ｊ）とすると、入力ベ
クトル足し込み部１４は、マッチング部１５が行なう各
格子点の各遷移において以下の処理を行なう。ただし、
各格子点で選択したテンプレートをｋ’、選択した遷移
をｊ’とする。もしＹ^(k')（ｊ，ｃ）が音声のテンプレ
ートなら

【００２６】

【数５】

【００２７】を実行し、もしＹ^(k')（ｊ，ｃ）が雑音の
テンプレートなら

【００２８】

【数６】

【００２９】を実行する。このような構成となすことに
より、マッチング部１５の計算が終了した時点、すなわ
ち格子点（０，０）から格子点（Ｉ，Ｊ）へ至る最適経
路が求められた時点で、最適経路に沿った対応付けでの
各音響カテゴリ毎の総和が終端位置（Ｉ，Ｊ）に求めら
れており、また足し込んだ個数に関しても同じ位置のカ
ウンタに求められている。入力平均値算出部１６では従
来のＳＴＥＰ５と同様の処理、すなわち標準パタンの最
終位置に割り当てられたバッファ値を対応する位置のカ
ウンタ値で割算することにより、音響カテゴリ毎の平均
値Ｖ（Ｊ，ｃ）、Ｗ（Ｊ，ｃ）が求められることにな
る。

【００３０】すなわち、従来マッチングおよびバックト
ラックの２段階の処理を経て音響カテゴリ毎の平均値を
算出していたが、本発明によればマッチングが終了した
時点で音響カテゴリ毎の平均値が求められ、１段階の処
理で済むため高速処理が可能となるという効果を有す
る。特に、マッチングおよび平均ベクトル足し込み処理
を同時に行なうことが可能となったため並列計算（パイ
プライン処理）が可能となり、実時間での処理が可能と
なるという効果を有する。

【００３１】また、類別すべき音響カテゴリ数が少ない
場合は従来に比べてメモリ量が少なくて済む。例えば一
般に用いられている規模程度の数値として、類別すべき
音響カテゴリ数＝２、標準パタンの長さ＝１００、入力
音声の長さ＝２００、特徴ベクトルの次元数＝２０とし
た場合、従来の音響カテゴリ平均値計算装置ではバック
トラックおよびテンプレート情報として１００×２００
×２＝４００００のメモリ量が必要であったのに比べ、
本発明の音響カテゴリ平均値計算装置では１００×２×
２０＋１００×２＝４２００となり、約１０分の１のメ
モリ量に低減化され、ひいてはより安価な音響カテゴリ
平均値計算装置を提供可能となるという効果を有してい
る。

【００３２】なお、図４に示す本発明の適応化装置で
は、図１に示す本発明の音響カテゴリ平均値計算装置に
加えて標準パタンを入力音声に適応化する適応部４７を
備えている。今、入力平均値算出部４６において音響カ
テゴリｐに対する平均値Ｉ（ｐ，ｃ）が求められた場
合、例えば予め標準パタンの音響カテゴリｐに対する平
均値Ｍ（ｐ，ｃ）を求めておいた場合、その音響カテゴ
リ毎の適応化ベクトルΔ（ｐ，ｃ）は、

【００３３】

【数７】

【００３４】で求められる。適応化部４７では、例えば
この適応化ベクトルを標準パタンの音響カテゴリ毎に加
算し、標準パタンの適応化を行ない、適応化後の標準パ
タンを作成する。

【００３５】

【実施例】以下、図面を参照しながら本発明の一実施例
について具体的に説明する。

【００３６】図１は本発明による第１の音響カテゴリ平
均値計算装置を示す一実施例のブロック図である。この
音響カテゴリ平均値計算装置は、入力音声を特徴ベクト
ルの時系列に変換する分析部１１と、予め学習用音声を
特徴ベクトルの時系列に変換して学習され、音響カテゴ
リ重み情報を有する標準パタン１２と、標準パタン１２
のフレーム毎に音響カテゴリの数だけ設けられ、入力音
声の音響カテゴリ毎の重み付き総和を足し込む入力足し
込みバッファ１３と、標準パタンのフレーム毎に音響カ
テゴリの数だけ設けられ、入力足し込みバッファ１３毎
に足し込まれたベクトルの重み付き個数を記憶する入力
足し込みカウンタ１７と、入力音声と標準パタン１２と
の間で時間軸の対応付を行なうマッチング部１５と、マ
ッチング部１５が行なう各時刻の各遷移において、標準
パタン１２の各フレームに割り当てられた入力足し込み
バッファ１３の値は、遷移元フレームの同一音響カテゴ
リの入力足し込みバッファ１３の値と入力ベクトルに音
響カテゴリ毎の重みを乗じた値とを加算した値を格納
し、当該バッファに割り当てられた入力足し込みカウン
タ１７は遷移元のフレームの同一音響カテゴリの入力足
し込みカウンタ１７の値と音響カテゴリ毎の重みとを加
算した値を格納する入力ベクトル足し込み部１４と、マ
ッチング部１５および入力ベクトル足し込み部１４がマ
ッチングおよび足し込みを完了した時点で標準パタン１
２の最終位置に設けられた入力足し込みバッファ値を対
応する入力足し込みカウンタ値で割算することにより音
響カテゴリ毎の入力の平均値を算出する入力平均値算出
部とを有している。

【００３７】入力音声は分析部１１にて特徴ベクトルの
時系列に変換される。一般に特徴ベクトルとして良く用
いられているものは、パワー情報、パワー情報の変化
量、ケプストラム、ケプストラムの線形回帰係数などが
考えられ、これらを含ませたものを特徴ベクトルとする
ことも可能である。あるいはまた、スペクトルそのもの
を用いたり、対数化スペクトルを用いることも可能であ
る。標準パタン１２には予め標準話者音声を分析部１１
と同様の方法を用いて分析したものを単語あるいは文章
のような単位で保持したり、あるいは音素のような小さ
な単位で保持してある。また、標準パタン１２には予め
類別すべきカテゴリに対する重み情報が設定されてい
る。マッチング部１５は入力音声の特徴ベクトルの時系
列と標準パタン１２の適応用語彙との間の時間軸正規化
マッチングを行ない適応用語彙との間の時間軸方向の対
応づけを行なう。時間軸正規化マッチングとしては、例
えば引用文献［２］のｐｐ．１６２−１７０に述べられ
ているようなＤＰマッチングあるいはＨＭＭ（Ｈｉｄｄ
ｅｎＭａｒｋｏｖＭｏｄｅｌ）などの方法が挙げら
れる。入力足し込みバッファ１３は、標準パタンの各フ
レーム毎にそれぞれ類別すべきカテゴリの数だけ確保さ
れている。いま、入力の特徴ベクトルの時系列をＸ
（ｉ，ｃ）、標準パタンの特徴ベクトルの時系列をＹ
^(k)（ｊ，ｃ）とする。ただし、ｉ，ｊはそれぞれ入
力、標準パタンのフレーム（離散時刻）、ｃはベクトル
のチャンネルを示す添字、ｋは選択したテンプレートと
する。このとき入力足し込みバッファ１３はカテゴリ
ｐ、標準パタンｊ毎に設けられこれをＶ^p（ｊ，ｃ）で
表現する。これと同様に入力足し込みカウンタ１７はＶ
_c ^p（ｊ）で表される。入力ベクトル足し込み部１４
は、マッチング部１５が行なう各格子点の各遷移におい
て以下の処理を行なう。ただし、選択したテンプレート
をｋ’、選択した遷移をｊ’とする。

【００３８】

【数８】

【００３９】ここで、ｗ^p（ｊ）は標準パタンのフレー
ムｊ毎に予め定めてあるカテゴリｐに対する重みであ
る。すなわちフレームｊがどれだけカテゴリｐに帰属し
ているかを表す量であり、帰属度が大きい場合には大き
な値をとり、逆に帰属度が小さい場合は小さな値をと
る。また、もっとも簡単には帰属しているカテゴリのみ
１で他はすべて０をとる様に設定することも可能であ
り、その場合は重み付き平均値ではなく単純平均値が求
められることになる。

【００４０】このような構成となすことにより、マッチ
ング部１５の計算が終了した時点、すなわち格子点
（０，０）から格子点（Ｉ，Ｊ）へ至る最適経路が求め
られた時点で、最適経路に沿った対応付けでの各音響カ
テゴリ毎の重み付き総和が終端位置（Ｉ，Ｊ）に求めら
れており、また足し込んだ重み付き個数も同じ位置に求
められている。入力平均値算出部１６では標準パタンの
最終位置に割り当てられたバッファ値を同じ位置のカウ
ンタ値で割算することにより、音響カテゴリ毎の平均値
Ｖ^p（Ｊ，ｃ）が求められる。

【００４１】図２は本発明による第２の音響カテゴリ平
均値計算装置を示す一実施例のブロック図である。この
音響カテゴリ平均値計算装置は、入力音声を特徴ベクト
ルの時系列に変換する分析部２１と、予め学習用音声を
特徴ベクトルの時系列に変換して学習され、音響カテゴ
リ重み情報を有する標準パタン２２と、標準パタン２２
のフレーム毎に音響カテゴリの数だけ設けられ、標準パ
タン２２の音響カテゴリ毎の重み付き総和を足し込む標
準パタン足し込みバッファ２３と、標準パタン２２のフ
レーム毎に音響カテゴリの数だけ設けられ、標準パタン
足し込みバッファ２３毎に足し込まれたベクトルの重み
付き個数を記憶する標準パタン足し込みカウンタ２７
と、入力音声と標準パタン２２との間で時間軸の対応付
を行なうマッチング部２５と、マッチング部２５が行な
う各時刻の各遷移において、標準パタン２２の各フレー
ムに割り当てられた標準パタン足し込みバッファ２３の
値は、遷移元フレームの同一音響カテゴリの標準パタン
足し込みバッファ２３の値と標準パタンベクトルに音響
カテゴリ毎の重みを乗じた値とを加算した値を格納し、
当該バッファに割り当てられた標準パタン足し込みカウ
ンタ２７は遷移元のフレームの同一音響カテゴリの標準
パタン足し込みカウンタ２７の値と音響カテゴリ毎の重
みとを加算した値を格納する標準パタン足し込み部２４
と、マッチング部２５および標準パタン足し込み部２４
がマッチングおよび足し込みを完了した時点で標準パタ
ンの最終位置に設けられた標準パタン足し込みバッファ
値を対応する標準パタン足し込みカウンタ値で割算する
ことにより音響カテゴリ毎の標準パタンの平均値を算出
する標準パタン平均値算出部２６とを有している。

【００４２】入力音声は分析部２１にて特徴ベクトルの
時系列に変換される。この分析部２１は分析部１１と同
様の処理を行なう。標準パタン２２には予め標準話者音
声を分析部２１と同様の方法を用いて分析したものを単
語あるいは文章のような単位で保持したり、あるいは音
素のような小さな単位で保持されている。また、標準パ
タン２２には予めカテゴリ毎の重み情報が設定されてい
る。マッチング部２５は入力音声の特徴ベクトルの時系
列と標準パタン２２の適応用語彙との間の時間軸正規化
マッチングを行ない適応用語彙との間の時間軸方向の対
応づけを行なう。このマッチング部２５はマッチング部
１５と同様の処理を行なう。標準パタン足し込みバッフ
ァ２３は、標準パタンの各フレーム毎にそれぞれ類別す
べき音響カテゴリの数だけ確保されている。いま、入力
の特徴ベクトルの時系列をＸ（ｉ，ｃ）、標準パタンの
特徴ベクトルの時系列をＹ^(k)（ｊ，ｃ）とする。ただ
し、ｉ，ｊはそれぞれ入力、標準パタンのフレーム（離
散時刻）、ｃはベクトルのチャンネルを示す添字、ｋは
選択したテンプレートとする。このとき標準パタン足し
込みバッファ２３はカテゴリｐ、標準パタンｊ毎に設け
られこれをＷ^p（ｊ，ｃ）で表現する。これと同様に標
準パタン足し込みカウンタ２７はＶ_c ^p（ｊ）で表され
る。標準パタン足し込み部２４は、マッチング部２５が
行なう各格子点の各遷移において以下の処理を行なう。
ただし、選択したテンプレートをｋ’、選択した遷移を
ｊ’とする。

【００４３】

【数９】

【００４４】ここで、ｗ^p（ｊ）は標準パタンのフレー
ムｊ毎に予め定めてあるカテゴリｐに対する重みであ
る。すなわちフレームｊがどれだけカテゴリｐに帰属し
ているかを表す量であり、帰属度が大きい場合には大き
な値をとり、逆に帰属度が小さい場合は小さな値をと
る。また、もっとも簡単には帰属しているカテゴリのみ
１で他はすべて０をとる様に設定することも可能であ
り、その場合は重み付き平均値ではなく単純平均値が求
められることになる。

【００４５】このような構成となすことにより、マッチ
ング部２５の計算が終了した時点、すなわち格子点
（０，０）から格子点（Ｉ，Ｊ）へ至る最適経路が求め
られた時点で、最適経路に沿った対応付けでの各音響カ
テゴリ毎の重み付き総和が終端位置（Ｉ，Ｊ）に求めら
れており、また足し込んだ重み付き個数も同じ位置のカ
ウンタに求められている。標準パタン平均値算出部２６
では標準パタンの最終位置に割り当てられたバッファ値
を同じ位置のカウンタ値で割算することにより、音響カ
テゴリ毎の平均値Ｗ^p（Ｊ，ｃ）が求められる。

【００４６】図３は本発明による第３の音響カテゴリ平
均値計算装置を示す一実施例のブロック図である。この
音響カテゴリ平均値計算装置は、入力音声を特徴ベクト
ルの時系列に変換する分析部３１と、予め学習用音声を
特徴ベクトルの時系列に変換して学習され、音響カテゴ
リ重み情報を有する標準パタン３２と、標準パタン３２
のフレーム毎に音響カテゴリの数だけ設けられ、入力音
声の音響カテゴリ毎の重み付き総和を足し込む入力足し
込みバッファ３８と、標準パタン３２のフレーム毎に音
響カテゴリの数だけ設けられ、入力足し込みバッファ３
８毎に足し込まれたベクトルの重み付き個数を記憶する
入力足し込みカウンタ１３８と、標準パタン３２のフレ
ーム毎に音響カテゴリの数だけ設けられ、標準パタン３
２の音響カテゴリ毎の重み付き総和を足し込む標準パタ
ン足し込みバッファ３５と、標準パタン３２のフレーム
毎に音響カテゴリの数だけ設けられ、標準パタン足し込
みバッファ３５毎に足し込まれたベクトルの重み付き個
数を記憶する標準パタン足し込みカウンタ１３５と、入
力音声と標準パタン３２との間で時間軸の対応付けを行
なうマッチング部３３と、マッチング部３３が行なう各
時刻の各遷移において、標準パタン３２の各フレームに
割り当てられた入力足し込みバッファ３８の値は、遷移
元フレームの同一音響カテゴリの入力足し込みバッファ
３８の値と入力ベクトルに音響カテゴリ毎の重みを乗じ
た値とを加算した値を格納し、当該バッファに割り当て
られた入力足し込みカウンタ１３８は遷移元のフレーム
の同一音響カテゴリの入力足し込みカウンタ１３８の値
と音響カテゴリ毎の重みとを加算した値を格納する入力
ベクトル足し込み部３７と、マッチング部３３および入
力ベクトル足し込み部３７がマッチングおよび足し込み
を完了した時点で標準パタン３２の最終位置に設けられ
た入力足し込みバッファ値を対応する入力足し込みカウ
ンタ値で割算することにより音響カテゴリ毎の入力の平
均値を算出する入力平均値算出部３９と、マッチング部
３３が行なう各時刻の各遷移において、標準パタン３２
の各フレームに割り当てられた標準パタン足し込みバッ
ファ３５の値は、遷移元フレームの同一音響カテゴリの
標準パタン足し込みバッファ３５の値と標準パタンベク
トルに音響カテゴリ毎の重みを乗じた値とを加算した値
を格納し、当該バッファに割り当てられた標準パタン足
し込みカウンタ１３５は遷移元のフレームの同一音響カ
テゴリの標準パタン足し込みカウンタ１３５の値と音響
カテゴリ毎の重みとを加算した値を格納する標準パタン
足し込み部３４と、マッチング部３３および標準パタン
足し込み部３４がマッチングおよび足し込みを完了した
時点で標準パタン３２の最終位置に設けられた標準パタ
ン足し込みバッファ値を対応する標準パタン足し込みカ
ウンタ値で割算することにより音響カテゴリ毎の標準パ
タンの平均値を算出する標準パタン平均値算出部３６と
を有する。

【００４７】入力音声は分析部３１にて特徴ベクトルの
時系列に変換される。この分析部３１は分析部１１と同
様の処理を行なう。標準パタン３２には予め標準話者音
声を分析部３１と同様の方法を用いて分析したものを単
語あるいは文章のような単位で保持したり、あるいは音
素のような小さな単位で保持してある。また、標準パタ
ン３２には予めカテゴリ毎の重みが設定されている。マ
ッチング部３３は入力音声の特徴ベクトルの時系列と標
準パタン３２の適応用語彙との間の時間軸正規化マッチ
ングを行ない適応用語彙との間の時間軸方向の対応づけ
を行なう。このマッチング部３３はマッチング部１５と
同様の処理を行なう。入力足し込みバッファ３８、入力
足し込みカウンタ１３８、入力ベクトル足し込み部３７
および入力平均値算出部３９はそれぞれ入力足し込みバ
ッファ１３、入力足し込みカウンタ１７、入力ベクトル
足し込み部１４および入力平均値算出部１６と同様の動
作を行なう。また、標準パタン足し込みバッファ３５、
標準パタン足し込みカウンタ１３５、標準パタンベクト
ル足し込み部３４および標準パタン平均値算出部３６は
それぞれ標準パタン足し込みバッファ２３、標準パタン
足し込みカウンタ２７、標準パタンベクトル足し込み部
２４および標準パタン平均値算出部２６と同一の動作を
行なう。これらの構成となすことにより、マッチングお
よび足し込みが完了した時点で入力および標準パタンの
両方の音響カテゴリ毎の平均値が算出される。

【００４８】図４は本発明による適応化装置を示す一実
施例のブロック図である。この適応化装置は、本発明に
よる第１の音響カテゴリ平均値計算装置に加えて音響カ
テゴリ平均値計算装置が計算した音響カテゴリ毎の平均
値を用いて、標準パタンを適応化する適応部４７とを有
している。

【００４９】例えば引用文献［１］で示すような適応化
装置と同様の動作を行なう適応化装置構成した場合、適
応化部４７は、音響カテゴリ平均値計算装置が計算し
た、入力の音響カテゴリｊに対する平均値

【００５０】

【外１】

【００５１】と、予め求めておいた標準パタンの音響カ
テゴリｊに対する平均値μ_jとを用いてその音響カテゴ
リ毎の適応化ベクトルΔ_jを以下のように求める。

【００５２】

【数１０】

【００５３】また、入力音声中に音響カテゴリが存在し
ない標準パタン４２の音響カテゴリｉに対しては、引用
文献［１］に述べられているように、

【００５４】

【数１１】

【００５５】で表されるスペクトル内挿と呼ばれる方法
を用いることも可能である。ただしｊは入力音声中に音
響カテゴリが存在する標準パタン４２の音響カテゴリを
表すものとする。これらの適応化ベクトルを用いて適応
化部４７は、音響カテゴリｉあるいはｊに属するすべて
の標準パタンｋに対して、

【００５６】

【数１２】

【００５７】で適応化する。ただし、Δはｋの種類によ
りΔ_iまたはΔ_jのどちらか一方を適宜選択して用いる
ものとする。この例では、適応化ベクトルを用いて標準
パタン４２を大きく適応化した場合について述べたが、
例えば適当な係数αを用いて、

【００５８】

【数１３】

【００５９】のようにαを用いることで適応化の度合を
制御し、大きく適応化するのを防ぐように構成すること
も可能である。

【００６０】以上は本発明による第１の音響カテゴリ平
均値計算装置を用いた場合について説明したが、本発明
による第２または第３の音響カテゴリ平均値計算装置に
対して用いることが可能である。例えば本発明による第
３の音響カテゴリ平均値計算装置を用いて高木、服部、
渡辺：”スペクトル写像による環境適応機能を有する音
声認識”、日本音響学会平成６年度春季研究発表会、同
講演論文集、２−Ｐ−８、ｐｐ．１７３−１７４（１９
９４年３月）．に述べられているような適応化装置を構
成した場合、適応化部４７は以下のような動作となる。
まず、類別する音響カテゴリは音声および雑音の２個と
なる。このとき、本発明による第３の音響カテゴリ平均
値計算装置により標準パタンの音声モデルの平均スペク
トルＳ_w、標準パタンの雑音モデルの平均スペクトルＮ
_w、入力の音声部分の平均スペクトルＳ_v、入力の雑音
部分の平均スペクトルＮ_vが得られる。このとき、標準
パタンＷ（ｔ）の音声モデルは、

【００６１】

【数１４】

【００６２】で適応化し、標準パタンＷ（ｔ）の雑音モ
デルは、

【００６３】

【数１５】

【００６４】で適応化するような構成となる。ここでは
カテゴリ毎の平均値を用いた適応化方法の一部の例につ
いて示したが、この他音響カテゴリ毎の平均値を用いる
ような適応化あるいは学習装置であればどのようなもの
に対しても適用可能である。

【００６５】

【発明の効果】以上から明らかなように、本発明の音響
カテゴリ平均値計算装置によれば、マッチングが終了し
た時点で音響カテゴリ毎の平均値が求められ、１段階の
処理で済むため高速処理が可能となるという効果を有す
る。特に、マッチングおよび平均ベクトル足し込み処理
を同時に行なうことが可能となったため並列計算（パイ
プライン処理）が可能となり、実時間での処理が可能と
なるという効果を有する。

【００６６】また、類別すべき音響カテゴリ数が少ない
場合は従来に比べてメモリ量が少なくて済む。例えば一
般に用いられている規模程度の数値として、類別すべき
音響カテゴリ数＝２、標準パタンの長さ＝１００、入力
音声の長さ＝２００、特徴ベクトルの次元数＝２０とし
た場合、従来の音響カテゴリ平均値計算装置ではバック
トラックおよびテンプレート情報として１００×２００
×２＝４００００のメモリ量が必要であったのに比べ、
本発明の音響カテゴリ平均値計算装置では１００×２×
２０＋１００×２＝４２００となり、約１０分の１のメ
モリ量に低減化され、ひいてはより安価な音響カテゴリ
平均値計算装置を提供可能となるという効果を有してい
る。

【００６７】特に本発明の第２の音響カテゴリ平均値計
算装置によれば、上述した効果に加えて、標準パタンを
入力と同様の非線形伸縮をした後に標準パタンのカテゴ
リ毎の平均値を求めることが可能であるため、平均値の
推定の精度が向上し、より高性能なカテゴリ平均値計算
装置が提供出来るという効果を有する。

【００６８】また、本発明の第３の音響カテゴリ平均値
計算装置によれば、上述した効果に加えて、標準パタン
と入力の両方の非線形伸縮の度合を揃えた後に、両方の
音響カテゴリ毎の平均値を求めるため、入力、標準パタ
ンの両方を適応化することが可能であり、より高性能な
音響カテゴリ平均値計算装置が提供出来るという効果を
有する。

【図面の簡単な説明】

【図１】本発明による第１の音響カテゴリ平均値計算装
置の一実施例を示すブロック図である。

【図２】本発明による第２の音響カテゴリ平均値計算装
置の一実施例を示すブロック図である。

【図３】本発明による第３の音響カテゴリ平均値計算装
置の一実施例を示すブロック図である。

【図４】本発明による適応化装置の一実施例を示すブロ
ック図である。

【図５】従来の音響カテゴリ平均値計算装置の一実施例
を示すブロック図である。

【符号の説明】

１１，２１，３１，４１，５１分析部１２，２２，３２，４２，５３標準パタン１５，２５，３３，４５，５２マッチング部１４，３７，４４入力ベクトル足し込み部１３，３８，４３入力足し込みバッファ１７，１３７，４７入力足し込みカウンタ１６，３９，４６入力平均値算出部２４，３４標準パタン足し込み部２３，３５標準パタン足し込みバッファ２７，１３５標準パタン足し込みカウンタ２６，３６標準パタン平均値算出部４７適応部５４平均ベクトル算出部５５バックトラック情報記憶部５６テンプレート情報記憶部

Claims

【特許請求の範囲】

【請求項１】入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に変換して学習
され、音響カテゴリ重み情報を有する標準パタンのフレ
ーム毎に音響カテゴリの数だけ設けられ、入力音声の音
響カテゴリ毎の重み付き総和を足し込む入力足し込みバ
ッファと、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記入力足し込みバッファ毎に足し込まれたベ
クトルの重み付き個数を記憶する入力足し込みカウンタ
と、入力音声と前記標準パタンとの間で時間軸の対応付を行
なうマッチング部と、前記マッチング部が行なう各時刻の各遷移において、前
記標準パタンの各フレームに割り当てられた前記入力足
し込みバッファ値は、遷移元フレームの同一音響カテゴ
リの前記入力足し込みバッファ値と入力ベクトルに音響
カテゴリ毎の重みを乗じた値とを加算した値を格納し、
当該バッファに割り当てられた前記入力足し込みカウン
タは遷移元のフレームの同一音響カテゴリの前記入力足
し込みカウンタ値と音響カテゴリ毎の重みとを加算した
値を格納する入力ベクトル足し込み部と、前記マッチング部および前記入力ベクトル足し込み部が
マッチングおよび足し込みを完了した時点で前記標準パ
タンの最終位置に設けられた前記入力足し込みバッファ
値を対応する前記入力足し込みカウンタ値で割算するこ
とにより音響カテゴリ毎の入力の平均値を算出する入力
平均値算出部とで構成されたことを特徴とする音響カテ
ゴリ平均値計算装置。
【請求項２】入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に変換して学習
され、音響カテゴリ重み情報を有する標準パタンのフレ
ーム毎に音響カテゴリの数だけ設けられ、前記標準パタ
ンの音響カテゴリ毎の重み付き総和を足し込む標準パタ
ン足し込みバッファと、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記標準パタン足し込みバッファ毎に足し込ま
れたベクトルの重み付き個数を記憶する標準パタン足し
込みカウンタと、入力音声と前記標準パタンとの間で時間軸の対応付を行
なうマッチング部と、前記マッチング部が行なう各時刻の各遷移において、前
記標準パタンの各フレームに割り当てられた前記標準パ
タン足し込みバッファ値は、遷移元フレームの同一音響
カテゴリの前記標準パタン足し込みバッファ値と標準パ
タンベクトルに音響カテゴリ毎の重みを乗じた値とを加
算した値を格納し、当該バッファに割り当てられた前記
標準パタン足し込みカウンタは遷移元のフレームの同一
音響カテゴリの前記標準パタン足し込みカウンタ値と音
響カテゴリ毎の重みとを加算した値を格納する標準パタ
ン足し込み部と、前記マッチング部および前記標準パタン足し込み部がマ
ッチングおよび足し込みを完了した時点で前記標準パタ
ンの最終位置に設けられた前記標準パタン足し込みバッ
ファ値を対応する前記標準パタン足し込みカウンタ値で
割算することにより音響カテゴリ毎の標準パタンの平均
値を算出する標準パタン平均値算出部とで構成されたこ
とを特徴とする音響カテゴリ平均値計算装置。
【請求項３】入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に変換して学習
され、音響カテゴリ重み情報を有する標準パタンのフレ
ーム毎に音響カテゴリの数だけ設けられ、入力音声の音
響カテゴリ毎の重み付き総和を足し込む入力足し込みバ
ッファと、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記入力足し込みバッファ毎に足し込まれたベ
クトルの重み付き個数を記憶する入力足し込みカウンタ
と、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記標準パタンの音響カテゴリ毎の重み付き総
和を足し込む標準パタン足し込みバッファと、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記標準パタン足し込みバッファ毎に足し込ま
れたベクトルの重み付き個数を記憶する標準パタン足し
込みカウンタと、入力音声と前記標準パタンとの間で時間軸の対応付を行
なうマッチング部と、前記マッチング部が行なう各時刻の各遷移において、前
記標準パタンの各フレームに割り当てられた前記入力足
し込みバッファ値は、遷移元フレームの同一音響カテゴ
リの前記入力足し込みバッファ値と入力ベクトルに音響
カテゴリ毎の重みを乗じた値とを加算した値を格納し、
当該バッファに割り当てられた前記入力足し込みカウン
タは遷移元のフレームの同一音響カテゴリの前記入力足
し込みカウンタ値と音響カテゴリ毎の重みとを加算した
値を格納する入力ベクトル足し込み部と、前記マッチング部および前記入力ベクトル足し込み部が
マッチングおよび足し込みを完了した時点で前記標準パ
タンの最終位置に設けられた前記入力足し込みバッファ
値を対応する前記入力足し込みカウンタ値で割算するこ
とにより音響カテゴリ毎の入力の平均値を算出する入力
平均値算出部と、前記マッチング部が行なう各時刻の各遷移において、前
記標準パタンの各フレームに割り当てられた前記標準パ
タン足し込みバッファ値は、遷移元フレームの同一音響
カテゴリの前記標準パタン足し込みバッファ値と標準パ
タンベクトルに音響カテゴリ毎の重みを乗じた値とを加
算した値を格納し、当該バッファに割り当てられた前記
標準パタン足し込みカウンタは遷移元のフレームの同一
音響カテゴリの前記標準パタン足し込みカウンタ値と音
響カテゴリ毎の重みとを加算した値を格納する標準パタ
ン足し込み部と、前記マッチング部および前記標準パタン足し込み部がマ
ッチングおよび足し込みを完了した時点で前記標準パタ
ンの最終位置に設けられた前記標準パタン足し込みバッ
ファ値を対応する前記標準パタン足し込みカウンタ値で
割算することにより音響カテゴリ毎の標準パタンの平均
値を算出する標準パタン平均値算出部とで構成されたこ
とを特徴とする音響カテゴリ平均値計算装置。
【請求項４】入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に変換して学習
され、音響カテゴリ重み情報を有する標準パタンのフレ
ーム毎に音響カテゴリの数だけ設けられ、入力音声の音
響カテゴリ毎の重み付き総和を足し込む入力足し込みバ
ッファと、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記入力足し込みバッファ毎に足し込まれたベ
クトルの重み付き個数を記憶する入力足し込みカウンタ
と、入力音声と前記標準パタンとの間で時間軸の対応付を行
なうマッチング部と、前記マッチング部が行なう各時刻の各遷移において、前
記標準パタンの各フレームに割り当てられた前記入力足
し込みバッファ値は、遷移元フレームの同一音響カテゴ
リの前記入力足し込みバッファ値と入力ベクトルに音響
カテゴリ毎の重みを乗じた値とを加算した値を格納し、
当該バッファに割り当てられた前記入力足し込みカウン
タは遷移元のフレームの同一音響カテゴリの前記入力足
し込みカウンタ値と音響カテゴリ毎の重みとを加算した
値を格納する入力ベクトル足し込み部と、前記マッチング部および前記入力ベクトル足し込み部が
マッチングおよび足し込みを完了した時点で前記標準パ
タンの最終位置に設けられた前記入力足し込みバッファ
値を対応する前記入力足し込みカウンタ値で割算するこ
とにより音響カテゴリ毎の入力の平均値を算出する入力
平均値算出部と、前記音響カテゴリ毎の平均値を用いて、入力または標準
パタンの一方もしくは両方を適応化する適応部とを有す
る適応化装置。
【請求項５】入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に変換して学習
され、音響カテゴリ重み情報を有する標準パタンのフレ
ーム毎に音響カテゴリの数だけ設けられ、前記標準パタ
ンの音響カテゴリ毎の重み付き総和を足し込む標準パタ
ン足し込みバッファと、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記標準パタン足し込みバッファ毎に足し込ま
れたベクトルの重み付き個数を記憶する標準パタン足し
込みカウンタと、入力音声と前記標準パタンとの間で時間軸の対応付を行
なうマッチング部と、前記マッチング部が行なう各時刻の各遷移において、前
記標準パタンの各フレームに割り当てられた前記標準パ
タン足し込みバッファ値は、遷移元フレームの同一音響
カテゴリの前記標準パタン足し込みバッファ値と標準パ
タンベクトルに音響カテゴリ毎の重みを乗じた値とを加
算した値を格納し、当該バッファに割り当てられた前記
標準パタン足し込みカウンタは遷移元のフレームの同一
音響カテゴリの前記標準パタン足し込みカウンタ値と音
響カテゴリ毎の重みとを加算した値を格納する標準パタ
ン足し込み部と、前記マッチング部および前記標準パタン足し込み部がマ
ッチングおよび足し込みを完了した時点で前記標準パタ
ンの最終位置に設けられた前記標準パタン足し込みバッ
ファ値を対応する前記標準パタン足し込みカウンタ値で
割算することにより音響カテゴリ毎の標準パタンの平均
値を算出する標準パタン平均値算出部と、前記音響カテゴリ毎の平均値を用いて、入力または標準
パタンの一方もしくは両方を適応化する適応部とを有す
る適応化装置。
【請求項６】入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に変換して学習
され、音響カテゴリ重み情報を有する標準パタンのフレ
ーム毎に音響カテゴリの数だけ設けられ、入力音声の音
響カテゴリ毎の重み付き総和を足し込む入力足し込みバ
ッファと、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記入力足し込みバッファ毎に足し込まれたベ
クトルの重み付き個数を記憶する入力足し込みカウンタ
と、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記標準パタンの音響カテゴリ毎の重み付き総
和を足し込む標準パタン足し込みバッファと、前記標準パタンのフレーム毎に音響カテゴリの数だけ設
けられ、前記標準パタン足し込みバッファ毎に足し込ま
れたベクトルの重み付き個数を記憶する標準パタン足し
込みカウンタと、入力音声と前記標準パタンとの間で時間軸の対応付を行
なうマッチング部と、前記マッチング部が行なう各時刻の各遷移において、前
記標準パタンの各フレームに割り当てられた前記入力足
し込みバッファ値は、遷移元フレームの同一音響カテゴ
リの前記入力足し込みバッファ値と入力ベクトルに音響
カテゴリ毎の重みを乗じた値とを加算した値を格納し、
当該バッファに割り当てられた前記入力足し込みカウン
タは遷移元のフレームの同一音響カテゴリの前記入力足
し込みカウンタ値と音響カテゴリ毎の重みとを加算した
値を格納する入力ベクトル足し込み部と、前記マッチング部および前記入力ベクトル足し込み部が
マッチングおよび足し込みを完了した時点で前記標準パ
タンの最終位置に設けられた前記入力足し込みバッファ
値を対応する前記入力足し込みカウンタ値で割算するこ
とにより音響カテゴリ毎の入力の平均値を算出する入力
平均値算出部と、前記マッチング部が行なう各時刻の各遷移において、前
記標準パタンの各フレームに割り当てられた前記標準パ
タン足し込みバッファ値は、遷移元フレームの同一音響
カテゴリの前記標準パタン足し込みバッファ値と標準パ
タンベクトルに音響カテゴリ毎の重みを乗じた値とを加
算した値を格納し、当該バッファに割り当てられた前記
標準パタン足し込みカウンタは遷移元のフレームの同一
音響カテゴリの前記標準パタン足し込みカウンタ値と音
響カテゴリ毎の重みとを加算した値を格納する標準パタ
ン足し込み部と、前記マッチング部および前記標準パタン足し込み部がマ
ッチングおよび足し込みを完了した時点で前記標準パタ
ンの最終位置に設けられた前記標準パタン足し込みバッ
ファ値を対応する前記標準パタン足し込みカウンタ値で
割算することにより音響カテゴリ毎の標準パタンの平均
値を算出する標準パタン平均値算出部と、前記音響カテゴリ毎の平均値を用いて、入力または標準
パタンの一方もしくは両方を適応化する適応部とを有す
る適応化装置。