JPH07334184A - 音響カテゴリ平均値計算装置及び適応化装置 - Google Patents

音響カテゴリ平均値計算装置及び適応化装置

Info

Publication number
JPH07334184A
JPH07334184A JP6125528A JP12552894A JPH07334184A JP H07334184 A JPH07334184 A JP H07334184A JP 6125528 A JP6125528 A JP 6125528A JP 12552894 A JP12552894 A JP 12552894A JP H07334184 A JPH07334184 A JP H07334184A
Authority
JP
Japan
Prior art keywords
standard pattern
input
acoustic
value
addition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6125528A
Other languages
English (en)
Other versions
JP2692581B2 (ja
Inventor
啓三郎 ▲高▼木
Keizaburo Takagi
Hiroaki Hattori
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP6125528A priority Critical patent/JP2692581B2/ja
Priority to US08/463,289 priority patent/US5651094A/en
Priority to EP95108667A priority patent/EP0686965B1/en
Priority to DE69519453T priority patent/DE69519453T2/de
Publication of JPH07334184A publication Critical patent/JPH07334184A/ja
Application granted granted Critical
Publication of JP2692581B2 publication Critical patent/JP2692581B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 【目的】 入力音声または標準パタンの適応化を行なう
際に少ないメモリ量およびバックトラック処理の必要が
ない少ない処理量で効率的に音響カテゴリ毎の平均値算
出を行なう音響カテゴリ平均値計算装置を提供する。 【構成】 マッチング部が行なう各時刻の各遷移におい
て、標準パタンの各フレームに割り当てられた入力足し
込みバッファ値は、遷移元フレームの同一音響カテゴリ
の入力足し込みバッファ値と入力ベクトルに音響カテゴ
リ毎の重みを乗じた値とを加算した値を格納し、当該バ
ッファに割り当てられた入力足し込みカウンタは遷移元
のフレームの同一音響カテゴリの入力足し込みカウンタ
値と音響カテゴリ毎の重みとを加算した値を格納する入
力ベクトル足し込み部を有し、マッチングおよび足し込
みを完了した時点で標準パタンの最終位置に設けられた
入力足し込みバッファ値を対応する入力足し込みカウン
タ値で割算することにより音響カテゴリ毎の入力の平均
値を算出する入力平均値算出部とを有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識に関し、特に入
力音声または標準パタンの適応化を行なう際に少ないメ
モリ量および少ない処理量で効率的に音響カテゴリ毎の
平均値算出を行なう技術に関するものである。
【0002】
【従来の技術】従来、音声認識において標準パタン学習
用の音声を発声した話者と認識時の音声を発声する話者
とが異なる場合や学習用音声を収録した時のマイクロホ
ンと認識に使用するマイクロホンとが異なる場合に音声
の認識率が低下することが知られている。このような場
合に、認識を行なう話者あるいはマイクロホンによる比
較的短い音声を用いて標準パタンを入力音声に適応化
し、音声の認識率を向上させる、いわゆる話者適応とよ
ばれる技術が存在する。例えば、篠田、磯、渡辺:”音
声認識のためのスペクトル内挿を用いた話者適応化”、
電子情報通信学会論文誌、A、Vol.J 77−A、
No.2、pp.120−127(1994年2月).
(以下引用文献[1]とする)に示す話者適応化装置に
用いられている音響カテゴリ平均値算出装置(引用文献
[1]では適応化ベクトルという用語を用いているが本
発明の音響カテゴリ平均値同士の差と同一のものであ
る)は例えば図5に示すような構成となる。
【0003】すなわち図5では、入力音声は分析部51
で特徴ベクトルの時系列に変換される。マッチング部5
2は、分析部51から得られた特徴ベクトルの時系列と
予め分析部51と同様の分析方法で分析された標準パタ
ンの音声の時系列との比較を行ない、最適パスを求めて
両者の間の時間に関する対応付け情報を記憶する。この
マッチング部52は例えばDPマッチング、HMM(H
idden Markov Model:隠れマルコフ
モデル)などの時間軸を正規化して入力音声と標準パタ
ン音声からなる2次元の格子点に関する最適パスを計算
し、両者の間の最適な対応付け情報を計算するように構
成されている。バックトラック情報記憶部55はこの対
応付け情報を記憶するための、入力音声の長さ×標準パ
タン音声の長さの2次元の記憶領域である。また、標準
パタンとして複数用意するいわゆるマルチテンプレート
と呼ばれる方式を採用した場合には、各格子点において
どの標準パタンを採用したかを示すインデクス情報が必
要であり、テンプレート情報記憶部56は、この情報の
記憶領域であり、入力音声の長さ×標準パタン音声の長
さの2次元の記憶領域を必要とする。平均ベクトル算出
部54は、マッチング部52から得られた2次元の対応
付け情報、すなわちバックトラック情報記憶部55の内
容を元に各時刻の入力音声がどの標準パタンに対応付け
られたかを調べる、いわゆるバックトラックと呼ばれる
処理を行なう。このバックトラック処理は入力音声の終
端点と標準パタンの終端点からなる格子点位置から逆に
始端方向に遡り、2次元空間内で両者の対応付けを調べ
てゆく処理を行なうように構成されている。バックトラ
ックを行なうことにより対応づけられた標準パタンの音
響カテゴリ毎の入力音声の平均ベクトルを算出し、音響
カテゴリ平均値として出力する。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
平均値算出装置では、マッチング部52で行なうマッチ
ング処理および平均ベクトル算出部54で行なうバック
トラック処理の2つの処理において2次元の空間の探索
を行なう必要があり、演算量が多く、実時間処理に好適
ではないという問題点があった。特に平均ベクトル算出
部54で行なうバックトラック処理はマッチング部52
が行なうマッチング処理が完全に終了した時点以降でな
いと処理を開始出来ないため、両者を時間的に並行して
行なういわゆるパイプライン処理が適用出来ず、ひいて
は実時間での処理が行なえないという問題点があった。
【0005】また、従来の平均値算出装置では、類別す
べき音響カテゴリ数が少ない場合においても必ずバック
トラックのための2次元の記憶領域が必要であり、メモ
リ量が多いため、安価な装置を提供することが不可能で
あるという問題点を有していた。
【0006】本発明は上述の問題を解決するものであ
り、その目的は、入力音声または標準パタンの適応化を
行なう際に少ないメモリ量、およびバックトラック処理
の必要がない少ない処理量で効率的に音響カテゴリ毎の
平均値算出を行なう音響カテゴリ平均値計算装置を提供
することにある。
【0007】
【課題を解決するための手段】本発明による第1の音響
カテゴリ平均値計算装置は、入力音声を特徴ベクトルの
時系列に変換する分析部と、予め学習用音声を特徴ベク
トルの時系列に変換して学習され、音響カテゴリ重み情
報を有する標準パタンのフレーム毎に音響カテゴリの数
だけ設けられ、入力音声の音響カテゴリ毎の重み付き総
和を足し込む入力足し込みバッファと、標準パタンのフ
レーム毎に音響カテゴリの数だけ設けられ、入力足し込
みバッファ毎に足し込まれたベクトルの重み付き個数を
記憶する入力足し込みカウンタと、入力音声と標準パタ
ンとの間で時間軸の対応付を行なうマッチング部と、マ
ッチング部が行なう各時刻の各遷移において、標準パタ
ンの各フレームに割り当てられた入力足し込みバッファ
値は、遷移元フレームの同一音響カテゴリの入力足し込
みバッファ値と入力ベクトルに音響カテゴリ毎の重みを
乗じた値とを加算した値を格納し、当該バッファに割り
当てられた入力足し込みカウンタは遷移元のフレームの
同一音響カテゴリの入力足し込みカウンタ値と音響カテ
ゴリ毎の重みとを加算した値を格納する入力ベクトル足
し込み部と、マッチング部および入力ベクトル足し込み
部がマッチングおよび足し込みを完了した時点で標準パ
タンの最終位置に設けられた入力足し込みバッファ値を
対応する入力足し込みカウンタ値で割算することにより
音響カテゴリ毎の入力の平均値を算出する入力平均値算
出部とを有する。
【0008】本発明による第2の音響カテゴリ平均値計
算装置は、入力音声を特徴ベクトルの時系列に変換する
分析部と、予め学習用音声を特徴ベクトルの時系列に変
換して学習され、音響カテゴリ重み情報を有する標準パ
タンのフレーム毎に音響カテゴリの数だけ設けられ、標
準パタンの音響カテゴリ毎の重み付き総和を足し込む標
準パタン足し込みバッファと、標準パタンのフレーム毎
に音響カテゴリの数だけ設けられ、標準パタン足し込み
バッファ毎に足し込まれたベクトルの重み付き個数を記
憶する標準パタン足し込みカウンタと、入力音声と標準
パタンとの間で時間軸の対応付を行なうマッチング部
と、マッチング部が行なう各時刻の各遷移において、標
準パタンの各フレームに割り当てられた標準パタン足し
込みバッファ値は、遷移元フレームの同一音響カテゴリ
の標準パタン足し込みバッファ値と標準パタンベクトル
に音響カテゴリ毎の重みを乗じた値とを加算した値を格
納し、当該バッファに割り当てられた標準パタン足し込
みカウンタは遷移元のフレームの同一音響カテゴリの標
準パタン足し込みカウンタ値と音響カテゴリ毎の重みと
を加算した値を格納する標準パタン足し込み部と、マッ
チング部および標準パタン足し込み部がマッチングおよ
び足し込みを完了した時点で標準パタンの最終位置に設
けられた標準パタン足し込みバッファ値を対応する標準
パタン足し込みカウンタ値で割算することにより音響カ
テゴリ毎の標準パタンの平均値を算出する標準パタン平
均値算出部とを有する。
【0009】本発明による第3の音響カテゴリ平均値計
算装置は、入力音声を特徴ベクトルの時系列に変換する
分析部と、予め学習用音声を特徴ベクトルの時系列に変
換して学習され、音響カテゴリ重み情報を有する標準パ
タンのフレーム毎に音響カテゴリの数だけ設けられ、入
力音声の音響カテゴリ毎の重み付き総和を足し込む入力
足し込みバッファと、標準パタンのフレーム毎に音響カ
テゴリの数だけ設けられ、入力足し込みバッファ毎に足
し込まれたベクトルの重み付き個数を記憶する入力足し
込みカウンタと、標準パタンのフレーム毎に音響カテゴ
リの数だけ設けられ、標準パタンの音響カテゴリ毎の重
み付き総和を足し込む標準パタン足し込みバッファと、
標準パタンのフレーム毎に音響カテゴリの数だけ設けら
れ、標準パタン足し込みバッファ毎に足し込まれたベク
トルの重み付き個数を記憶する標準パタン足し込みカウ
ンタと、入力音声と前記標準パタンとの間で時間軸の対
応付を行なうマッチング部と、マッチング部が行なう各
時刻の各遷移において、標準パタンの各フレームに割り
当てられた入力足し込みバッファ値は、遷移元フレーム
の同一音響カテゴリの入力足し込みバッファ値と入力ベ
クトルに音響カテゴリ毎の重みを乗じた値とを加算した
値を格納し、当該バッファに割り当てられた入力足し込
みカウンタは遷移元のフレームの同一音響カテゴリの入
力足し込みカウンタ値と音響カテゴリ毎の重みとを加算
した値を格納する入力ベクトル足し込み部と、マッチン
グ部および入力ベクトル足し込み部がマッチングおよび
足し込みを完了した時点で標準パタンの最終位置に設け
られた入力足し込みバッファ値を対応する入力足し込み
カウンタ値で割算することにより音響カテゴリ毎の入力
の平均値を算出する入力平均値算出部と、マッチング部
が行なう各時刻の各遷移において、標準パタンの各フレ
ームに割り当てられた標準パタン足し込みバッファ値
は、遷移元フレームの同一音響カテゴリの標準パタン足
し込みバッファ値と標準パタンベクトルに音響カテゴリ
毎の重みを乗じた値とを加算した値を格納し、当該バッ
ファに割り当てられた標準パタン足し込みカウンタは遷
移元のフレームの同一音響カテゴリの標準パタン足し込
みカウンタ値と音響カテゴリ毎の重みとを加算した値を
格納する標準パタン足し込み部と、マッチング部および
標準パタン足し込み部がマッチングおよび足し込みを完
了した時点で標準パタンの最終位置に設けられた標準パ
タン足し込みバッファ値を対応する標準パタン足し込み
カウンタ値で割算することにより音響カテゴリ毎の標準
パタンの平均値を算出する標準パタン平均値算出部とを
有する。
【0010】本発明による適応化装置は、本発明による
第1または第2または第3の音響カテゴリ平均値計算装
置を備え、音響カテゴリ平均値計算装置が計算した音響
カテゴリ毎の平均値を用いて、入力または標準パタンの
一方もしくは両方を適応化する適応部とを有する。
【0011】
【作用】従来、音声認識においては不特定話者認識方式
が広く用いられて来た。不特定者方式は、標準パタンと
して多数の話者の音声を登録することにより話者毎の音
声のばらつきを包含し、どの話者の音声に対してもある
程度の高い認識率を有する方式である。しかし、この方
式では、未知の話者の入力音声が標準パタンのどの話者
の音声とも似ていない場合があり、このような話者の音
声に対しては高い性能が得られないという欠点があっ
た。このような話者の音声の認識率を比較的少ない音声
を用いて適応化により改善する方法として、いわゆる話
者適応と呼ばれる技術が存在する。例えば引用文献
[1]に示す方式もその1つである。
【0012】本発明は、入力音声または標準パタンの話
者適応化を行なう際に必要となる音響カテゴリ毎の平均
値を計算する音響カテゴリ平均値計算装置に関し、入力
音声と標準パタンとの時間に関する対応付けと、音響カ
テゴリ毎の平均値計算を同時に行なうことが可能な構成
となし、実時間処理が可能な音響カテゴリ平均値計算装
置を提供できるという効果を得るものであり、また、副
次的な効果として類別する音響カテゴリ数が少ない場合
にはより少ないメモリ量で構成可能であるという効果を
得るものである。
【0013】以下、図1に示す本発明による第1の音響
カテゴリ平均値計算装置を、図5に示す従来の音響カテ
ゴリ平均値算出装置と対比させながら本発明の作用を具
体的に説明する。入力音声は分析部11および分析部5
1にて特徴ベクトルの時系列に変換される。一般に特徴
ベクトルとして広く用いられているものは、例えば古
井:”ディジタル音声処理”、東海大学出版、pp.1
54−160(1985).(以下引用文献[2]とす
る)に述べられている種々のものが知られているが、例
えばLPC分析、FFT分析などによって得られるケプ
ストラムあるいはその線形回帰係数を用いる場合、特徴
ベクトルは20〜30チャンネル程度のベクトルとな
り、入力音声はその時系列信号として表現される。標準
パタン12および標準パタン53は、分析部11および
分析部51と同様の分析方法を用いて予め標準話者の音
声を特徴ベクトルの時系列として変換し蓄積または学習
により登録されている。マッチング部15およびマッチ
ング部52は、標準パタンの特徴ベクトルの時系列と入
力音声の特徴ベクトルの時系列との間の時間軸正規化マ
ッチングを行なう。この時間軸正規化マッチングとして
例えば引用文献[2]のpp.162−170に述べら
れているようなDPマッチングあるいはHMM(Hid
den Markov Model)などの方法が挙げ
られる。ここでは例えばDPマッチングを用いた場合に
ついて説明する。
【0014】いま入力の特徴ベクトルの時系列をX
(i,c)、標準パタンの特徴ベクトルの時系列をY
(j,c)とする。ただし、i,jはそれぞれ入力、標
準パタンの時刻とし、cはベクトルの成分を示すものと
する。音声の性質から、X、Yは時間方向に容易に伸縮
し得るので、2つのパタン間のマッチングは時間方向の
非線形伸縮を考慮したマッチングを行なう。DPマッチ
ングは、この非線形伸縮を考慮したマッチングの一つと
して現在の音声認識に広く用いられている。ここで、入
力の終端点Iと標準パタンの終端点Jとからなる2次元
空間の格子点を考えた場合、始端(0,0)から終端
(I,J)に至る経路のうち、累積距離が最小となる経
路を2つのパタン間の最適な対応付けとし、その時の累
積距離をパタン間の距離とする。音声認識にDPマッチ
ングを用いる場合は、入力音声とすべての標準パタンと
の間の距離を計算し、その最小を与える標準パタンの音
響カテゴリを認識結果として与える。一方、ここでいう
適応化あるいは学習という目的でDPマッチングを用い
た場合は、標準パタンは何らかの情報によりその対象は
すでに限定されており、その目的はむしろ2つのパタン
間の最適な対応付けを行なったときの音響カテゴリ毎の
平均値を求める問題となる。任意の格子点(i,j)で
のベクトル間距離d(i,j)を、
【0015】
【数1】
【0016】と定義する。ここで、kは各格子点で複数
用意したテンプレートの番号を示しており、各格子点距
離は複数のkが与える距離のうち最小値を選択して用い
る。DPマッチングは例えば、格子点(i,j)の累積
距離D(i,j)の漸化式として以下のように表され
る。
【0017】
【数2】
【0018】すなわち、格子点(0,0)を出発点、初
期値D(0,0)=d(0,0)とし、入力の時間的に
増加する方向に累積距離Dを計算し、最終的に格子点
(I,J)での累積距離が求められたときに2つのパタ
ン間の最適なマッチング経路が求められたことになる。
【0019】図5に示す従来の音響カテゴリ平均値算出
装置では、バックトラック情報としてバックトラック情
報記憶部55をもつ。このバックトラック情報をB
(i,j)とすると、各格子点での遷移情報を、
【0020】
【数3】
【0021】の形式で記憶する。ここでargmin
(j) は最小値を与えるj成分の値、すなわちj,j−
1,j−2のいずれかを選択するものとする。また図5
に示す従来の音響カテゴリ平均値算出装置では、各格子
点においてどのテンプレートを選択したかを示す情報を
記憶するテンプレート情報記憶部56を有している。こ
のテンプレート情報をT(i,j)とすると、各格子点
でのテンプレートの選択情報を、
【0022】
【数4】
【0023】の形式で記憶しておく。図5に示す従来の
音響カテゴリ平均値算出装置では、平均ベクトル算出部
54においてバックトラック情報記憶部55およびテン
プレート情報記憶部56で得られた情報を元にバックト
ラックを行ない音響カテゴリ毎の平均値を求める。い
ま、簡単のために類別すべき音響カテゴリの数を2と
し、入力を雑音部分または音声部分に分けて平均値を求
める場合を説明する。求める雑音部分、音声部分の平均
値をそれぞれN(c)、S(c)とすると、格子点
(I,J)から逆に格子点(0,0)に到達するまで最
適パスを遡って音響カテゴリ毎の平均値を計算する。そ
の手順を以下に示す。 STEP1 i←I、j←J、N(c)←0、S(c)
←0 STEP2 もしT(i,j)が音声のテンプレートな
ら、S(c)=S(c)+X(i,c)を実行。もしT
(i,j)が雑音のテンプレートなら、N(c)=N
(c)+X(i,c)を実行。 STEP3 もしi=0,j=0ならSTEP5へ STEP4 i←i−1、j←B(i,j)STEP2
へ STEP5 N(c)、S(c)の内容をそれぞれ足し
込まれた個数で割算し、音響カテゴリ毎の平均値を計
算。処理終了。
【0024】以上に示すように、図5に示す従来の音響
カテゴリ平均値算出装置では、音響カテゴリ毎の平均値
(ここでは雑音N(c)、音声S(c))を求めるため
にマッチング部52にて2つのパタン間の最適なパスを
求め、この処理が終了した時点で再び格子点(I,J)
から逆に格子点(0,0)へ最適パスを辿るという2段
階の処理を行なうことになる。
【0025】一方、図1に示す本発明による第1の音響
カテゴリ平均値計算装置では、入力足し込みバッファ1
3を、標準パタンの各フレーム毎にそれぞれ類別すべき
音響カテゴリの数だけ用意する。ここで用いた例ではこ
の音響カテゴリの数は音声部分および雑音部分の2個で
ある。また、簡単のため2つのカテゴリに対する重みは
1または0の値のみをとるものとする。すなわち、入力
音声は雑音または音声のどちらか一方に属するものとし
た場合について説明する。いま、このバッファを雑音部
分に関してV(j,c)、音声部分に関してW(j,
c)とし、またこれに対応する入力足し込みカウンタ1
7をそれぞれVc (j)、Wc (j)とすると、入力ベ
クトル足し込み部14は、マッチング部15が行なう各
格子点の各遷移において以下の処理を行なう。ただし、
各格子点で選択したテンプレートをk’、選択した遷移
をj’とする。もしY(k')(j,c)が音声のテンプレ
ートなら
【0026】
【数5】
【0027】を実行し、もしY(k')(j,c)が雑音の
テンプレートなら
【0028】
【数6】
【0029】を実行する。このような構成となすことに
より、マッチング部15の計算が終了した時点、すなわ
ち格子点(0,0)から格子点(I,J)へ至る最適経
路が求められた時点で、最適経路に沿った対応付けでの
各音響カテゴリ毎の総和が終端位置(I,J)に求めら
れており、また足し込んだ個数に関しても同じ位置のカ
ウンタに求められている。入力平均値算出部16では従
来のSTEP5と同様の処理、すなわち標準パタンの最
終位置に割り当てられたバッファ値を対応する位置のカ
ウンタ値で割算することにより、音響カテゴリ毎の平均
値V(J,c)、W(J,c)が求められることにな
る。
【0030】すなわち、従来マッチングおよびバックト
ラックの2段階の処理を経て音響カテゴリ毎の平均値を
算出していたが、本発明によればマッチングが終了した
時点で音響カテゴリ毎の平均値が求められ、1段階の処
理で済むため高速処理が可能となるという効果を有す
る。特に、マッチングおよび平均ベクトル足し込み処理
を同時に行なうことが可能となったため並列計算(パイ
プライン処理)が可能となり、実時間での処理が可能と
なるという効果を有する。
【0031】また、類別すべき音響カテゴリ数が少ない
場合は従来に比べてメモリ量が少なくて済む。例えば一
般に用いられている規模程度の数値として、類別すべき
音響カテゴリ数=2、標準パタンの長さ=100、入力
音声の長さ=200、特徴ベクトルの次元数=20とし
た場合、従来の音響カテゴリ平均値計算装置ではバック
トラックおよびテンプレート情報として100×200
×2=40000のメモリ量が必要であったのに比べ、
本発明の音響カテゴリ平均値計算装置では100×2×
20+100×2=4200となり、約10分の1のメ
モリ量に低減化され、ひいてはより安価な音響カテゴリ
平均値計算装置を提供可能となるという効果を有してい
る。
【0032】なお、図4に示す本発明の適応化装置で
は、図1に示す本発明の音響カテゴリ平均値計算装置に
加えて標準パタンを入力音声に適応化する適応部47を
備えている。今、入力平均値算出部46において音響カ
テゴリpに対する平均値I(p,c)が求められた場
合、例えば予め標準パタンの音響カテゴリpに対する平
均値M(p,c)を求めておいた場合、その音響カテゴ
リ毎の適応化ベクトルΔ(p,c)は、
【0033】
【数7】
【0034】で求められる。適応化部47では、例えば
この適応化ベクトルを標準パタンの音響カテゴリ毎に加
算し、標準パタンの適応化を行ない、適応化後の標準パ
タンを作成する。
【0035】
【実施例】以下、図面を参照しながら本発明の一実施例
について具体的に説明する。
【0036】図1は本発明による第1の音響カテゴリ平
均値計算装置を示す一実施例のブロック図である。この
音響カテゴリ平均値計算装置は、入力音声を特徴ベクト
ルの時系列に変換する分析部11と、予め学習用音声を
特徴ベクトルの時系列に変換して学習され、音響カテゴ
リ重み情報を有する標準パタン12と、標準パタン12
のフレーム毎に音響カテゴリの数だけ設けられ、入力音
声の音響カテゴリ毎の重み付き総和を足し込む入力足し
込みバッファ13と、標準パタンのフレーム毎に音響カ
テゴリの数だけ設けられ、入力足し込みバッファ13毎
に足し込まれたベクトルの重み付き個数を記憶する入力
足し込みカウンタ17と、入力音声と標準パタン12と
の間で時間軸の対応付を行なうマッチング部15と、マ
ッチング部15が行なう各時刻の各遷移において、標準
パタン12の各フレームに割り当てられた入力足し込み
バッファ13の値は、遷移元フレームの同一音響カテゴ
リの入力足し込みバッファ13の値と入力ベクトルに音
響カテゴリ毎の重みを乗じた値とを加算した値を格納
し、当該バッファに割り当てられた入力足し込みカウン
タ17は遷移元のフレームの同一音響カテゴリの入力足
し込みカウンタ17の値と音響カテゴリ毎の重みとを加
算した値を格納する入力ベクトル足し込み部14と、マ
ッチング部15および入力ベクトル足し込み部14がマ
ッチングおよび足し込みを完了した時点で標準パタン1
2の最終位置に設けられた入力足し込みバッファ値を対
応する入力足し込みカウンタ値で割算することにより音
響カテゴリ毎の入力の平均値を算出する入力平均値算出
部とを有している。
【0037】入力音声は分析部11にて特徴ベクトルの
時系列に変換される。一般に特徴ベクトルとして良く用
いられているものは、パワー情報、パワー情報の変化
量、ケプストラム、ケプストラムの線形回帰係数などが
考えられ、これらを含ませたものを特徴ベクトルとする
ことも可能である。あるいはまた、スペクトルそのもの
を用いたり、対数化スペクトルを用いることも可能であ
る。標準パタン12には予め標準話者音声を分析部11
と同様の方法を用いて分析したものを単語あるいは文章
のような単位で保持したり、あるいは音素のような小さ
な単位で保持してある。また、標準パタン12には予め
類別すべきカテゴリに対する重み情報が設定されてい
る。マッチング部15は入力音声の特徴ベクトルの時系
列と標準パタン12の適応用語彙との間の時間軸正規化
マッチングを行ない適応用語彙との間の時間軸方向の対
応づけを行なう。時間軸正規化マッチングとしては、例
えば引用文献[2]のpp.162−170に述べられ
ているようなDPマッチングあるいはHMM(Hidd
en Markov Model)などの方法が挙げら
れる。入力足し込みバッファ13は、標準パタンの各フ
レーム毎にそれぞれ類別すべきカテゴリの数だけ確保さ
れている。いま、入力の特徴ベクトルの時系列をX
(i,c)、標準パタンの特徴ベクトルの時系列をY
(k) (j,c)とする。ただし、i,jはそれぞれ入
力、標準パタンのフレーム(離散時刻)、cはベクトル
のチャンネルを示す添字、kは選択したテンプレートと
する。このとき入力足し込みバッファ13はカテゴリ
p、標準パタンj毎に設けられこれをVp (j,c)で
表現する。これと同様に入力足し込みカウンタ17はV
c p (j)で表される。入力ベクトル足し込み部14
は、マッチング部15が行なう各格子点の各遷移におい
て以下の処理を行なう。ただし、選択したテンプレート
をk’、選択した遷移をj’とする。
【0038】
【数8】
【0039】ここで、wp (j)は標準パタンのフレー
ムj毎に予め定めてあるカテゴリpに対する重みであ
る。すなわちフレームjがどれだけカテゴリpに帰属し
ているかを表す量であり、帰属度が大きい場合には大き
な値をとり、逆に帰属度が小さい場合は小さな値をと
る。また、もっとも簡単には帰属しているカテゴリのみ
1で他はすべて0をとる様に設定することも可能であ
り、その場合は重み付き平均値ではなく単純平均値が求
められることになる。
【0040】このような構成となすことにより、マッチ
ング部15の計算が終了した時点、すなわち格子点
(0,0)から格子点(I,J)へ至る最適経路が求め
られた時点で、最適経路に沿った対応付けでの各音響カ
テゴリ毎の重み付き総和が終端位置(I,J)に求めら
れており、また足し込んだ重み付き個数も同じ位置に求
められている。入力平均値算出部16では標準パタンの
最終位置に割り当てられたバッファ値を同じ位置のカウ
ンタ値で割算することにより、音響カテゴリ毎の平均値
p (J,c)が求められる。
【0041】図2は本発明による第2の音響カテゴリ平
均値計算装置を示す一実施例のブロック図である。この
音響カテゴリ平均値計算装置は、入力音声を特徴ベクト
ルの時系列に変換する分析部21と、予め学習用音声を
特徴ベクトルの時系列に変換して学習され、音響カテゴ
リ重み情報を有する標準パタン22と、標準パタン22
のフレーム毎に音響カテゴリの数だけ設けられ、標準パ
タン22の音響カテゴリ毎の重み付き総和を足し込む標
準パタン足し込みバッファ23と、標準パタン22のフ
レーム毎に音響カテゴリの数だけ設けられ、標準パタン
足し込みバッファ23毎に足し込まれたベクトルの重み
付き個数を記憶する標準パタン足し込みカウンタ27
と、入力音声と標準パタン22との間で時間軸の対応付
を行なうマッチング部25と、マッチング部25が行な
う各時刻の各遷移において、標準パタン22の各フレー
ムに割り当てられた標準パタン足し込みバッファ23の
値は、遷移元フレームの同一音響カテゴリの標準パタン
足し込みバッファ23の値と標準パタンベクトルに音響
カテゴリ毎の重みを乗じた値とを加算した値を格納し、
当該バッファに割り当てられた標準パタン足し込みカウ
ンタ27は遷移元のフレームの同一音響カテゴリの標準
パタン足し込みカウンタ27の値と音響カテゴリ毎の重
みとを加算した値を格納する標準パタン足し込み部24
と、マッチング部25および標準パタン足し込み部24
がマッチングおよび足し込みを完了した時点で標準パタ
ンの最終位置に設けられた標準パタン足し込みバッファ
値を対応する標準パタン足し込みカウンタ値で割算する
ことにより音響カテゴリ毎の標準パタンの平均値を算出
する標準パタン平均値算出部26とを有している。
【0042】入力音声は分析部21にて特徴ベクトルの
時系列に変換される。この分析部21は分析部11と同
様の処理を行なう。標準パタン22には予め標準話者音
声を分析部21と同様の方法を用いて分析したものを単
語あるいは文章のような単位で保持したり、あるいは音
素のような小さな単位で保持されている。また、標準パ
タン22には予めカテゴリ毎の重み情報が設定されてい
る。マッチング部25は入力音声の特徴ベクトルの時系
列と標準パタン22の適応用語彙との間の時間軸正規化
マッチングを行ない適応用語彙との間の時間軸方向の対
応づけを行なう。このマッチング部25はマッチング部
15と同様の処理を行なう。標準パタン足し込みバッフ
ァ23は、標準パタンの各フレーム毎にそれぞれ類別す
べき音響カテゴリの数だけ確保されている。いま、入力
の特徴ベクトルの時系列をX(i,c)、標準パタンの
特徴ベクトルの時系列をY(k) (j,c)とする。ただ
し、i,jはそれぞれ入力、標準パタンのフレーム(離
散時刻)、cはベクトルのチャンネルを示す添字、kは
選択したテンプレートとする。このとき標準パタン足し
込みバッファ23はカテゴリp、標準パタンj毎に設け
られこれをWp (j,c)で表現する。これと同様に標
準パタン足し込みカウンタ27はVc p (j)で表され
る。標準パタン足し込み部24は、マッチング部25が
行なう各格子点の各遷移において以下の処理を行なう。
ただし、選択したテンプレートをk’、選択した遷移を
j’とする。
【0043】
【数9】
【0044】ここで、wp (j)は標準パタンのフレー
ムj毎に予め定めてあるカテゴリpに対する重みであ
る。すなわちフレームjがどれだけカテゴリpに帰属し
ているかを表す量であり、帰属度が大きい場合には大き
な値をとり、逆に帰属度が小さい場合は小さな値をと
る。また、もっとも簡単には帰属しているカテゴリのみ
1で他はすべて0をとる様に設定することも可能であ
り、その場合は重み付き平均値ではなく単純平均値が求
められることになる。
【0045】このような構成となすことにより、マッチ
ング部25の計算が終了した時点、すなわち格子点
(0,0)から格子点(I,J)へ至る最適経路が求め
られた時点で、最適経路に沿った対応付けでの各音響カ
テゴリ毎の重み付き総和が終端位置(I,J)に求めら
れており、また足し込んだ重み付き個数も同じ位置のカ
ウンタに求められている。標準パタン平均値算出部26
では標準パタンの最終位置に割り当てられたバッファ値
を同じ位置のカウンタ値で割算することにより、音響カ
テゴリ毎の平均値Wp (J,c)が求められる。
【0046】図3は本発明による第3の音響カテゴリ平
均値計算装置を示す一実施例のブロック図である。この
音響カテゴリ平均値計算装置は、入力音声を特徴ベクト
ルの時系列に変換する分析部31と、予め学習用音声を
特徴ベクトルの時系列に変換して学習され、音響カテゴ
リ重み情報を有する標準パタン32と、標準パタン32
のフレーム毎に音響カテゴリの数だけ設けられ、入力音
声の音響カテゴリ毎の重み付き総和を足し込む入力足し
込みバッファ38と、標準パタン32のフレーム毎に音
響カテゴリの数だけ設けられ、入力足し込みバッファ3
8毎に足し込まれたベクトルの重み付き個数を記憶する
入力足し込みカウンタ138と、標準パタン32のフレ
ーム毎に音響カテゴリの数だけ設けられ、標準パタン3
2の音響カテゴリ毎の重み付き総和を足し込む標準パタ
ン足し込みバッファ35と、標準パタン32のフレーム
毎に音響カテゴリの数だけ設けられ、標準パタン足し込
みバッファ35毎に足し込まれたベクトルの重み付き個
数を記憶する標準パタン足し込みカウンタ135と、入
力音声と標準パタン32との間で時間軸の対応付けを行
なうマッチング部33と、マッチング部33が行なう各
時刻の各遷移において、標準パタン32の各フレームに
割り当てられた入力足し込みバッファ38の値は、遷移
元フレームの同一音響カテゴリの入力足し込みバッファ
38の値と入力ベクトルに音響カテゴリ毎の重みを乗じ
た値とを加算した値を格納し、当該バッファに割り当て
られた入力足し込みカウンタ138は遷移元のフレーム
の同一音響カテゴリの入力足し込みカウンタ138の値
と音響カテゴリ毎の重みとを加算した値を格納する入力
ベクトル足し込み部37と、マッチング部33および入
力ベクトル足し込み部37がマッチングおよび足し込み
を完了した時点で標準パタン32の最終位置に設けられ
た入力足し込みバッファ値を対応する入力足し込みカウ
ンタ値で割算することにより音響カテゴリ毎の入力の平
均値を算出する入力平均値算出部39と、マッチング部
33が行なう各時刻の各遷移において、標準パタン32
の各フレームに割り当てられた標準パタン足し込みバッ
ファ35の値は、遷移元フレームの同一音響カテゴリの
標準パタン足し込みバッファ35の値と標準パタンベク
トルに音響カテゴリ毎の重みを乗じた値とを加算した値
を格納し、当該バッファに割り当てられた標準パタン足
し込みカウンタ135は遷移元のフレームの同一音響カ
テゴリの標準パタン足し込みカウンタ135の値と音響
カテゴリ毎の重みとを加算した値を格納する標準パタン
足し込み部34と、マッチング部33および標準パタン
足し込み部34がマッチングおよび足し込みを完了した
時点で標準パタン32の最終位置に設けられた標準パタ
ン足し込みバッファ値を対応する標準パタン足し込みカ
ウンタ値で割算することにより音響カテゴリ毎の標準パ
タンの平均値を算出する標準パタン平均値算出部36と
を有する。
【0047】入力音声は分析部31にて特徴ベクトルの
時系列に変換される。この分析部31は分析部11と同
様の処理を行なう。標準パタン32には予め標準話者音
声を分析部31と同様の方法を用いて分析したものを単
語あるいは文章のような単位で保持したり、あるいは音
素のような小さな単位で保持してある。また、標準パタ
ン32には予めカテゴリ毎の重みが設定されている。マ
ッチング部33は入力音声の特徴ベクトルの時系列と標
準パタン32の適応用語彙との間の時間軸正規化マッチ
ングを行ない適応用語彙との間の時間軸方向の対応づけ
を行なう。このマッチング部33はマッチング部15と
同様の処理を行なう。入力足し込みバッファ38、入力
足し込みカウンタ138、入力ベクトル足し込み部37
および入力平均値算出部39はそれぞれ入力足し込みバ
ッファ13、入力足し込みカウンタ17、入力ベクトル
足し込み部14および入力平均値算出部16と同様の動
作を行なう。また、標準パタン足し込みバッファ35、
標準パタン足し込みカウンタ135、標準パタンベクト
ル足し込み部34および標準パタン平均値算出部36は
それぞれ標準パタン足し込みバッファ23、標準パタン
足し込みカウンタ27、標準パタンベクトル足し込み部
24および標準パタン平均値算出部26と同一の動作を
行なう。これらの構成となすことにより、マッチングお
よび足し込みが完了した時点で入力および標準パタンの
両方の音響カテゴリ毎の平均値が算出される。
【0048】図4は本発明による適応化装置を示す一実
施例のブロック図である。この適応化装置は、本発明に
よる第1の音響カテゴリ平均値計算装置に加えて音響カ
テゴリ平均値計算装置が計算した音響カテゴリ毎の平均
値を用いて、標準パタンを適応化する適応部47とを有
している。
【0049】例えば引用文献[1]で示すような適応化
装置と同様の動作を行なう適応化装置構成した場合、適
応化部47は、音響カテゴリ平均値計算装置が計算し
た、入力の音響カテゴリjに対する平均値
【0050】
【外1】
【0051】と、予め求めておいた標準パタンの音響カ
テゴリjに対する平均値μj とを用いてその音響カテゴ
リ毎の適応化ベクトルΔj を以下のように求める。
【0052】
【数10】
【0053】また、入力音声中に音響カテゴリが存在し
ない標準パタン42の音響カテゴリiに対しては、引用
文献[1]に述べられているように、
【0054】
【数11】
【0055】で表されるスペクトル内挿と呼ばれる方法
を用いることも可能である。ただしjは入力音声中に音
響カテゴリが存在する標準パタン42の音響カテゴリを
表すものとする。これらの適応化ベクトルを用いて適応
化部47は、音響カテゴリiあるいはjに属するすべて
の標準パタンkに対して、
【0056】
【数12】
【0057】で適応化する。ただし、Δはkの種類によ
りΔi またはΔj のどちらか一方を適宜選択して用いる
ものとする。この例では、適応化ベクトルを用いて標準
パタン42を大きく適応化した場合について述べたが、
例えば適当な係数αを用いて、
【0058】
【数13】
【0059】のようにαを用いることで適応化の度合を
制御し、大きく適応化するのを防ぐように構成すること
も可能である。
【0060】以上は本発明による第1の音響カテゴリ平
均値計算装置を用いた場合について説明したが、本発明
による第2または第3の音響カテゴリ平均値計算装置に
対して用いることが可能である。例えば本発明による第
3の音響カテゴリ平均値計算装置を用いて高木、服部、
渡辺:”スペクトル写像による環境適応機能を有する音
声認識”、日本音響学会平成6年度春季研究発表会、同
講演論文集、2−P−8、pp.173−174(19
94年3月).に述べられているような適応化装置を構
成した場合、適応化部47は以下のような動作となる。
まず、類別する音響カテゴリは音声および雑音の2個と
なる。このとき、本発明による第3の音響カテゴリ平均
値計算装置により標準パタンの音声モデルの平均スペク
トルSw、標準パタンの雑音モデルの平均スペクトルN
w 、入力の音声部分の平均スペクトルSv 、入力の雑音
部分の平均スペクトルNv が得られる。このとき、標準
パタンW(t)の音声モデルは、
【0061】
【数14】
【0062】で適応化し、標準パタンW(t)の雑音モ
デルは、
【0063】
【数15】
【0064】で適応化するような構成となる。ここでは
カテゴリ毎の平均値を用いた適応化方法の一部の例につ
いて示したが、この他音響カテゴリ毎の平均値を用いる
ような適応化あるいは学習装置であればどのようなもの
に対しても適用可能である。
【0065】
【発明の効果】以上から明らかなように、本発明の音響
カテゴリ平均値計算装置によれば、マッチングが終了し
た時点で音響カテゴリ毎の平均値が求められ、1段階の
処理で済むため高速処理が可能となるという効果を有す
る。特に、マッチングおよび平均ベクトル足し込み処理
を同時に行なうことが可能となったため並列計算(パイ
プライン処理)が可能となり、実時間での処理が可能と
なるという効果を有する。
【0066】また、類別すべき音響カテゴリ数が少ない
場合は従来に比べてメモリ量が少なくて済む。例えば一
般に用いられている規模程度の数値として、類別すべき
音響カテゴリ数=2、標準パタンの長さ=100、入力
音声の長さ=200、特徴ベクトルの次元数=20とし
た場合、従来の音響カテゴリ平均値計算装置ではバック
トラックおよびテンプレート情報として100×200
×2=40000のメモリ量が必要であったのに比べ、
本発明の音響カテゴリ平均値計算装置では100×2×
20+100×2=4200となり、約10分の1のメ
モリ量に低減化され、ひいてはより安価な音響カテゴリ
平均値計算装置を提供可能となるという効果を有してい
る。
【0067】特に本発明の第2の音響カテゴリ平均値計
算装置によれば、上述した効果に加えて、標準パタンを
入力と同様の非線形伸縮をした後に標準パタンのカテゴ
リ毎の平均値を求めることが可能であるため、平均値の
推定の精度が向上し、より高性能なカテゴリ平均値計算
装置が提供出来るという効果を有する。
【0068】また、本発明の第3の音響カテゴリ平均値
計算装置によれば、上述した効果に加えて、標準パタン
と入力の両方の非線形伸縮の度合を揃えた後に、両方の
音響カテゴリ毎の平均値を求めるため、入力、標準パタ
ンの両方を適応化することが可能であり、より高性能な
音響カテゴリ平均値計算装置が提供出来るという効果を
有する。
【図面の簡単な説明】
【図1】本発明による第1の音響カテゴリ平均値計算装
置の一実施例を示すブロック図である。
【図2】本発明による第2の音響カテゴリ平均値計算装
置の一実施例を示すブロック図である。
【図3】本発明による第3の音響カテゴリ平均値計算装
置の一実施例を示すブロック図である。
【図4】本発明による適応化装置の一実施例を示すブロ
ック図である。
【図5】従来の音響カテゴリ平均値計算装置の一実施例
を示すブロック図である。
【符号の説明】
11,21,31,41,51 分析部 12,22,32,42,53 標準パタン 15,25,33,45,52 マッチング部 14,37,44 入力ベクトル足し込み部 13,38,43 入力足し込みバッファ 17,137,47 入力足し込みカウンタ 16,39,46 入力平均値算出部 24,34 標準パタン足し込み部 23,35 標準パタン足し込みバッファ 27,135 標準パタン足し込みカウンタ 26,36 標準パタン平均値算出部 47 適応部 54 平均ベクトル算出部 55 バックトラック情報記憶部 56 テンプレート情報記憶部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】入力音声を特徴ベクトルの時系列に変換す
    る分析部と、 予め学習用音声を特徴ベクトルの時系列に変換して学習
    され、音響カテゴリ重み情報を有する標準パタンのフレ
    ーム毎に音響カテゴリの数だけ設けられ、入力音声の音
    響カテゴリ毎の重み付き総和を足し込む入力足し込みバ
    ッファと、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記入力足し込みバッファ毎に足し込まれたベ
    クトルの重み付き個数を記憶する入力足し込みカウンタ
    と、 入力音声と前記標準パタンとの間で時間軸の対応付を行
    なうマッチング部と、 前記マッチング部が行なう各時刻の各遷移において、前
    記標準パタンの各フレームに割り当てられた前記入力足
    し込みバッファ値は、遷移元フレームの同一音響カテゴ
    リの前記入力足し込みバッファ値と入力ベクトルに音響
    カテゴリ毎の重みを乗じた値とを加算した値を格納し、
    当該バッファに割り当てられた前記入力足し込みカウン
    タは遷移元のフレームの同一音響カテゴリの前記入力足
    し込みカウンタ値と音響カテゴリ毎の重みとを加算した
    値を格納する入力ベクトル足し込み部と、 前記マッチング部および前記入力ベクトル足し込み部が
    マッチングおよび足し込みを完了した時点で前記標準パ
    タンの最終位置に設けられた前記入力足し込みバッファ
    値を対応する前記入力足し込みカウンタ値で割算するこ
    とにより音響カテゴリ毎の入力の平均値を算出する入力
    平均値算出部とで構成されたことを特徴とする音響カテ
    ゴリ平均値計算装置。
  2. 【請求項2】入力音声を特徴ベクトルの時系列に変換す
    る分析部と、 予め学習用音声を特徴ベクトルの時系列に変換して学習
    され、音響カテゴリ重み情報を有する標準パタンのフレ
    ーム毎に音響カテゴリの数だけ設けられ、前記標準パタ
    ンの音響カテゴリ毎の重み付き総和を足し込む標準パタ
    ン足し込みバッファと、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記標準パタン足し込みバッファ毎に足し込ま
    れたベクトルの重み付き個数を記憶する標準パタン足し
    込みカウンタと、 入力音声と前記標準パタンとの間で時間軸の対応付を行
    なうマッチング部と、 前記マッチング部が行なう各時刻の各遷移において、前
    記標準パタンの各フレームに割り当てられた前記標準パ
    タン足し込みバッファ値は、遷移元フレームの同一音響
    カテゴリの前記標準パタン足し込みバッファ値と標準パ
    タンベクトルに音響カテゴリ毎の重みを乗じた値とを加
    算した値を格納し、当該バッファに割り当てられた前記
    標準パタン足し込みカウンタは遷移元のフレームの同一
    音響カテゴリの前記標準パタン足し込みカウンタ値と音
    響カテゴリ毎の重みとを加算した値を格納する標準パタ
    ン足し込み部と、 前記マッチング部および前記標準パタン足し込み部がマ
    ッチングおよび足し込みを完了した時点で前記標準パタ
    ンの最終位置に設けられた前記標準パタン足し込みバッ
    ファ値を対応する前記標準パタン足し込みカウンタ値で
    割算することにより音響カテゴリ毎の標準パタンの平均
    値を算出する標準パタン平均値算出部とで構成されたこ
    とを特徴とする音響カテゴリ平均値計算装置。
  3. 【請求項3】入力音声を特徴ベクトルの時系列に変換す
    る分析部と、 予め学習用音声を特徴ベクトルの時系列に変換して学習
    され、音響カテゴリ重み情報を有する標準パタンのフレ
    ーム毎に音響カテゴリの数だけ設けられ、入力音声の音
    響カテゴリ毎の重み付き総和を足し込む入力足し込みバ
    ッファと、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記入力足し込みバッファ毎に足し込まれたベ
    クトルの重み付き個数を記憶する入力足し込みカウンタ
    と、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記標準パタンの音響カテゴリ毎の重み付き総
    和を足し込む標準パタン足し込みバッファと、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記標準パタン足し込みバッファ毎に足し込ま
    れたベクトルの重み付き個数を記憶する標準パタン足し
    込みカウンタと、 入力音声と前記標準パタンとの間で時間軸の対応付を行
    なうマッチング部と、 前記マッチング部が行なう各時刻の各遷移において、前
    記標準パタンの各フレームに割り当てられた前記入力足
    し込みバッファ値は、遷移元フレームの同一音響カテゴ
    リの前記入力足し込みバッファ値と入力ベクトルに音響
    カテゴリ毎の重みを乗じた値とを加算した値を格納し、
    当該バッファに割り当てられた前記入力足し込みカウン
    タは遷移元のフレームの同一音響カテゴリの前記入力足
    し込みカウンタ値と音響カテゴリ毎の重みとを加算した
    値を格納する入力ベクトル足し込み部と、 前記マッチング部および前記入力ベクトル足し込み部が
    マッチングおよび足し込みを完了した時点で前記標準パ
    タンの最終位置に設けられた前記入力足し込みバッファ
    値を対応する前記入力足し込みカウンタ値で割算するこ
    とにより音響カテゴリ毎の入力の平均値を算出する入力
    平均値算出部と、 前記マッチング部が行なう各時刻の各遷移において、前
    記標準パタンの各フレームに割り当てられた前記標準パ
    タン足し込みバッファ値は、遷移元フレームの同一音響
    カテゴリの前記標準パタン足し込みバッファ値と標準パ
    タンベクトルに音響カテゴリ毎の重みを乗じた値とを加
    算した値を格納し、当該バッファに割り当てられた前記
    標準パタン足し込みカウンタは遷移元のフレームの同一
    音響カテゴリの前記標準パタン足し込みカウンタ値と音
    響カテゴリ毎の重みとを加算した値を格納する標準パタ
    ン足し込み部と、 前記マッチング部および前記標準パタン足し込み部がマ
    ッチングおよび足し込みを完了した時点で前記標準パタ
    ンの最終位置に設けられた前記標準パタン足し込みバッ
    ファ値を対応する前記標準パタン足し込みカウンタ値で
    割算することにより音響カテゴリ毎の標準パタンの平均
    値を算出する標準パタン平均値算出部とで構成されたこ
    とを特徴とする音響カテゴリ平均値計算装置。
  4. 【請求項4】入力音声を特徴ベクトルの時系列に変換す
    る分析部と、 予め学習用音声を特徴ベクトルの時系列に変換して学習
    され、音響カテゴリ重み情報を有する標準パタンのフレ
    ーム毎に音響カテゴリの数だけ設けられ、入力音声の音
    響カテゴリ毎の重み付き総和を足し込む入力足し込みバ
    ッファと、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記入力足し込みバッファ毎に足し込まれたベ
    クトルの重み付き個数を記憶する入力足し込みカウンタ
    と、 入力音声と前記標準パタンとの間で時間軸の対応付を行
    なうマッチング部と、 前記マッチング部が行なう各時刻の各遷移において、前
    記標準パタンの各フレームに割り当てられた前記入力足
    し込みバッファ値は、遷移元フレームの同一音響カテゴ
    リの前記入力足し込みバッファ値と入力ベクトルに音響
    カテゴリ毎の重みを乗じた値とを加算した値を格納し、
    当該バッファに割り当てられた前記入力足し込みカウン
    タは遷移元のフレームの同一音響カテゴリの前記入力足
    し込みカウンタ値と音響カテゴリ毎の重みとを加算した
    値を格納する入力ベクトル足し込み部と、 前記マッチング部および前記入力ベクトル足し込み部が
    マッチングおよび足し込みを完了した時点で前記標準パ
    タンの最終位置に設けられた前記入力足し込みバッファ
    値を対応する前記入力足し込みカウンタ値で割算するこ
    とにより音響カテゴリ毎の入力の平均値を算出する入力
    平均値算出部と、 前記音響カテゴリ毎の平均値を用いて、入力または標準
    パタンの一方もしくは両方を適応化する適応部とを有す
    る適応化装置。
  5. 【請求項5】入力音声を特徴ベクトルの時系列に変換す
    る分析部と、 予め学習用音声を特徴ベクトルの時系列に変換して学習
    され、音響カテゴリ重み情報を有する標準パタンのフレ
    ーム毎に音響カテゴリの数だけ設けられ、前記標準パタ
    ンの音響カテゴリ毎の重み付き総和を足し込む標準パタ
    ン足し込みバッファと、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記標準パタン足し込みバッファ毎に足し込ま
    れたベクトルの重み付き個数を記憶する標準パタン足し
    込みカウンタと、 入力音声と前記標準パタンとの間で時間軸の対応付を行
    なうマッチング部と、 前記マッチング部が行なう各時刻の各遷移において、前
    記標準パタンの各フレームに割り当てられた前記標準パ
    タン足し込みバッファ値は、遷移元フレームの同一音響
    カテゴリの前記標準パタン足し込みバッファ値と標準パ
    タンベクトルに音響カテゴリ毎の重みを乗じた値とを加
    算した値を格納し、当該バッファに割り当てられた前記
    標準パタン足し込みカウンタは遷移元のフレームの同一
    音響カテゴリの前記標準パタン足し込みカウンタ値と音
    響カテゴリ毎の重みとを加算した値を格納する標準パタ
    ン足し込み部と、 前記マッチング部および前記標準パタン足し込み部がマ
    ッチングおよび足し込みを完了した時点で前記標準パタ
    ンの最終位置に設けられた前記標準パタン足し込みバッ
    ファ値を対応する前記標準パタン足し込みカウンタ値で
    割算することにより音響カテゴリ毎の標準パタンの平均
    値を算出する標準パタン平均値算出部と、 前記音響カテゴリ毎の平均値を用いて、入力または標準
    パタンの一方もしくは両方を適応化する適応部とを有す
    る適応化装置。
  6. 【請求項6】入力音声を特徴ベクトルの時系列に変換す
    る分析部と、 予め学習用音声を特徴ベクトルの時系列に変換して学習
    され、音響カテゴリ重み情報を有する標準パタンのフレ
    ーム毎に音響カテゴリの数だけ設けられ、入力音声の音
    響カテゴリ毎の重み付き総和を足し込む入力足し込みバ
    ッファと、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記入力足し込みバッファ毎に足し込まれたベ
    クトルの重み付き個数を記憶する入力足し込みカウンタ
    と、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記標準パタンの音響カテゴリ毎の重み付き総
    和を足し込む標準パタン足し込みバッファと、 前記標準パタンのフレーム毎に音響カテゴリの数だけ設
    けられ、前記標準パタン足し込みバッファ毎に足し込ま
    れたベクトルの重み付き個数を記憶する標準パタン足し
    込みカウンタと、 入力音声と前記標準パタンとの間で時間軸の対応付を行
    なうマッチング部と、 前記マッチング部が行なう各時刻の各遷移において、前
    記標準パタンの各フレームに割り当てられた前記入力足
    し込みバッファ値は、遷移元フレームの同一音響カテゴ
    リの前記入力足し込みバッファ値と入力ベクトルに音響
    カテゴリ毎の重みを乗じた値とを加算した値を格納し、
    当該バッファに割り当てられた前記入力足し込みカウン
    タは遷移元のフレームの同一音響カテゴリの前記入力足
    し込みカウンタ値と音響カテゴリ毎の重みとを加算した
    値を格納する入力ベクトル足し込み部と、 前記マッチング部および前記入力ベクトル足し込み部が
    マッチングおよび足し込みを完了した時点で前記標準パ
    タンの最終位置に設けられた前記入力足し込みバッファ
    値を対応する前記入力足し込みカウンタ値で割算するこ
    とにより音響カテゴリ毎の入力の平均値を算出する入力
    平均値算出部と、 前記マッチング部が行なう各時刻の各遷移において、前
    記標準パタンの各フレームに割り当てられた前記標準パ
    タン足し込みバッファ値は、遷移元フレームの同一音響
    カテゴリの前記標準パタン足し込みバッファ値と標準パ
    タンベクトルに音響カテゴリ毎の重みを乗じた値とを加
    算した値を格納し、当該バッファに割り当てられた前記
    標準パタン足し込みカウンタは遷移元のフレームの同一
    音響カテゴリの前記標準パタン足し込みカウンタ値と音
    響カテゴリ毎の重みとを加算した値を格納する標準パタ
    ン足し込み部と、 前記マッチング部および前記標準パタン足し込み部がマ
    ッチングおよび足し込みを完了した時点で前記標準パタ
    ンの最終位置に設けられた前記標準パタン足し込みバッ
    ファ値を対応する前記標準パタン足し込みカウンタ値で
    割算することにより音響カテゴリ毎の標準パタンの平均
    値を算出する標準パタン平均値算出部と、 前記音響カテゴリ毎の平均値を用いて、入力または標準
    パタンの一方もしくは両方を適応化する適応部とを有す
    る適応化装置。
JP6125528A 1994-06-07 1994-06-07 音響カテゴリ平均値計算装置及び適応化装置 Expired - Fee Related JP2692581B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP6125528A JP2692581B2 (ja) 1994-06-07 1994-06-07 音響カテゴリ平均値計算装置及び適応化装置
US08/463,289 US5651094A (en) 1994-06-07 1995-06-05 Acoustic category mean value calculating apparatus and adaptation apparatus
EP95108667A EP0686965B1 (en) 1994-06-07 1995-06-06 Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
DE69519453T DE69519453T2 (de) 1994-06-07 1995-06-06 Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6125528A JP2692581B2 (ja) 1994-06-07 1994-06-07 音響カテゴリ平均値計算装置及び適応化装置

Publications (2)

Publication Number Publication Date
JPH07334184A true JPH07334184A (ja) 1995-12-22
JP2692581B2 JP2692581B2 (ja) 1997-12-17

Family

ID=14912415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6125528A Expired - Fee Related JP2692581B2 (ja) 1994-06-07 1994-06-07 音響カテゴリ平均値計算装置及び適応化装置

Country Status (4)

Country Link
US (1) US5651094A (ja)
EP (1) EP0686965B1 (ja)
JP (1) JP2692581B2 (ja)
DE (1) DE69519453T2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2738403B2 (ja) * 1995-05-12 1998-04-08 日本電気株式会社 音声認識装置
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
KR100453021B1 (ko) * 1996-09-27 2005-04-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 구두텍스트인식방법및시스템
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
US6654955B1 (en) * 1996-12-19 2003-11-25 International Business Machines Corporation Adding speech recognition libraries to an existing program at runtime
DE69813597T2 (de) * 1997-10-15 2004-02-12 British Telecommunications P.L.C. Mustererkennung, die mehrere referenzmodelle verwendet
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
US6917918B2 (en) * 2000-12-22 2005-07-12 Microsoft Corporation Method and system for frame alignment and unsupervised adaptation of acoustic models
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US7509257B2 (en) * 2002-12-24 2009-03-24 Marvell International Ltd. Method and apparatus for adapting reference templates
US7756709B2 (en) * 2004-02-02 2010-07-13 Applied Voice & Speech Technologies, Inc. Detection of voice inactivity within a sound stream
US8229751B2 (en) * 2004-02-26 2012-07-24 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals
EP1730105B1 (en) * 2004-02-26 2012-01-25 Mediaguide, inc. Method and apparatus for automatic detection and identification of broadcast audio or video programming signal
GB2418764B (en) * 2004-09-30 2008-04-09 Fluency Voice Technology Ltd Improving pattern recognition accuracy with distortions
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US20090006337A1 (en) * 2005-12-30 2009-01-01 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified video signals
CN101390156B (zh) * 2006-02-27 2011-12-07 日本电气株式会社 标准模式适应装置、标准模式适应方法
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
JPS5885499A (ja) * 1981-11-18 1983-05-21 株式会社デンソー 連続音声認識装置
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
JPH0792673B2 (ja) * 1984-10-02 1995-10-09 株式会社東芝 認識用辞書学習方法
JPS61145599A (ja) * 1984-12-19 1986-07-03 日本電気株式会社 連続音声認識装置
JPH0638199B2 (ja) * 1985-09-02 1994-05-18 日本電気株式会社 音声認識装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
US5159637A (en) * 1988-07-27 1992-10-27 Fujitsu Limited Speech word recognizing apparatus using information indicative of the relative significance of speech features
JP2852298B2 (ja) * 1990-07-31 1999-01-27 日本電気株式会社 標準パターン適応化方式

Also Published As

Publication number Publication date
EP0686965A3 (en) 1997-10-29
JP2692581B2 (ja) 1997-12-17
EP0686965A2 (en) 1995-12-13
US5651094A (en) 1997-07-22
EP0686965B1 (en) 2000-11-22
DE69519453D1 (de) 2000-12-28
DE69519453T2 (de) 2001-03-29

Similar Documents

Publication Publication Date Title
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP3049259B2 (ja) 音声認識方法
JP4218982B2 (ja) 音声処理
JP3664739B2 (ja) 話者の音声確認用の自動式時間的無相関変換装置
JP2986792B2 (ja) 話者正規化処理装置及び音声認識装置
US5749068A (en) Speech recognition apparatus and method in noisy circumstances
US7272561B2 (en) Speech recognition device and speech recognition method
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP3001037B2 (ja) 音声認識装置
Boite et al. A new approach towards keyword spotting.
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2003330484A (ja) 音声認識装置及び音声認識方法
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP3912089B2 (ja) 音声認識方法および音声認識装置
JP3075250B2 (ja) 話者認識方法及び装置
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
JP2005091758A (ja) 話者認識システム及び方法
KR100369478B1 (ko) 음성 모델의 생성 방법
JPH0247758B2 (ja)
JP3871774B2 (ja) 音声認識装置および音声認識方法ならびに音声認識プログラムを記録した記録媒体
JPH05323990A (ja) 話者認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19970805

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090905

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090905

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100905

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees