JP3144341B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3144341B2
JP3144341B2 JP09160797A JP9160797A JP3144341B2 JP 3144341 B2 JP3144341 B2 JP 3144341B2 JP 09160797 A JP09160797 A JP 09160797A JP 9160797 A JP9160797 A JP 9160797A JP 3144341 B2 JP3144341 B2 JP 3144341B2
Authority
JP
Japan
Prior art keywords
hmm
probability
new
coefficient
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09160797A
Other languages
English (en)
Other versions
JPH10268893A (ja
Inventor
健 一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP09160797A priority Critical patent/JP3144341B2/ja
Publication of JPH10268893A publication Critical patent/JPH10268893A/ja
Application granted granted Critical
Publication of JP3144341B2 publication Critical patent/JP3144341B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に不特定話者に対する認識率を改善した音声認識
装置に関するものである。
【0002】
【従来の抜術】新しい話者に対して少ない発声で音声認
識装置を話者適応化する方式として、予め複数(多数)
の話者のそれぞれに対する特定話者標準パターン(HM
M、隠れマルコフモデル)を用意しておき、その中から
上記新話者の発声に類似した特定話者標準パターンを1
個または複数個選択して用いる方式(特開平1−161
399号公報)や、新話者と予め用意した複数の話者の
それぞれとの類似度を算定する手段を用意しておき、新
話者の標準パターンとして、各話者への類似度を荷重係
数として各特定話者標準パターンを重ね合わせた標準パ
ターンを生成する方式(特開平4−121793号公
報)が知られている。
【0003】
【発明が解決しようとする課題】前者の方式(特開平1
−161399号公報)においては、予め用意した複数
の特定話者の中に、新話者に類似した話者が含まれてい
なかった場合は、無理失理にあまり類似していない話者
が選ばれてしまうことがあり、精度の高い話者適応化は
望めない。
【0004】また、後者の方式(特開平4−12179
3号公報)においては、類似度として予め各特定話者の
任意の発声を用いて、各話者ごとに音響特徴ベクトルの
連鎖に対する確率分布P(Xt|Xt-1,Xt-2,Xt-3,
…)(例えば、音響特徴ベクトルをベクトル量子化した
場合はコード番号列に対する確率テーブルになる)を用
意しておき、新話者の発声の音響特徴ベクトル列に対す
る確率を、各話者の確率分布を用いて算出した値をその
話者への類似度としている。この方式は、新話者の発話
内容が未知の場合も適用可能であるという利点がある
が、発話内容が既知の場合もその情報を活用できず、ま
た発話内容の既知・未知に関わらず、必ずしも数学的に
最適な類似度算定方法という保証がないために高い精度
は望めない。
【0005】
【課題を解決するための手段】前述の課題を解決するた
め、本発明による音声認識装置は、HMMを用いた音声
認識装置において、複数のHMMを格納したHMM記憶
部と、入力音声に対応して前記HMM記憶部から読み出
した複数のHMMの出力確率の線形結合を新HMMの出
力確率とし、前記新HMMの確率を最大化あるいは極大
化するように前記線形結合の係数を決定する係数推定部
とを備えて構成される。
【0006】ここで、前記係数推定部は、前記入力音声
の発話内容を既知として、対応する新HMMの確率を最
大化あるいは極大化するように前記線形結合の係数を決
定し、また、発話内容未知の入力音声に対して、認識対
象単語辞書の各単語の新HMM確率を最大化あるいは極
大化するように前記線形結合の係数を推定する係数推定
部と、最大の確率を与えた単語を認識結果として出力す
る認識結果出力部とを有するように構成される。
【0007】また、本発明の音声認識装置では、新話者
のHMMの出力確率と遷移確率として、予め用意した多
数の話者の特定話者HMMの各出力確率及び遷移確率
を、新話者の各特定話者に対する類似度パラメータで線
形結合した出力確率と遷移確率を用いて入力音声の認識
を行う音声認識装置において、前記新話者の各特定話者
に対する類似度パラメータを、新話者の未知あるいは既
知の発声に対する新話者HMMの尤度が最大または極大
になるように最適に推定するように構成される。
【0008】ここで、前記最適推定は、前記複数のHM
Mの出力確率の線形結合を新HMMの出力確率とし、前
記入力音声に対する新HMMの確率を最大化あるいは極
大化するように前記線形結合の係数を決定する。
【0009】更に、本発明の他の態様による音声認識装
置は、入力音声を分析し、一定の時間間隔ごと音響特徴
ベクトルを求める音声分析部と、複数の話者のそれぞれ
の特定話者HMMを記憶する特定話者HMM記憶部と、
各話者のHMMを線形結合するための係数を記憶する係
数記憶部と、各時刻の入力音声特徴ベクトルtに対す
る、全話者の全状態の出力確率を算出して、その線形結
合として新HMMの全状態に対する出力確率を算出する
特徴ベクトル出力確率計算部と、認識対象単語のそれぞ
れに対して、各単語がどのようなHMMの状態列で表わ
されるかを記憶する単語辞書記憶部と、前記入力音声に
対する新HMMの確率を算出する新HMM確率計算部
と、前記新HMM確率計算部からの新HMM確率の最大
値を与える単語を認識結果として出力する認識結果出力
部と、前記新HMM確率計算部で算出された入力音声に
対する確率を最大化あるいは極大化するような係数を推
定し、推定された係数を前記係数記憶部に記憶する係数
推定部とを備えて構成される。
【0010】
【発明の実施の形態】図1は本発明に基づく音声認識装
置の一実施形態の構成ブロック図である。音声分析部1
0は、入力音声を分析し、一定の時間間隔ごと(例え
ば、10ミリ秒ごと〉に抽出したケプストラムなどの音
響特徴ベクトルXtを求め、特徴ベクトル出力確率計算
部20に送出する。ここで、音響特徴ベクトルXtは、
例えば、10次元のケプストラム・ベクトルで、添字t
は時間順序を表わす番号(自然数)である。一回の入力
発声に対する音響特微ベクトル時系列全体をXで表わ
す。 X=x12…xt…xT
【0011】特定話者HMM記憶部30には、複数の話
者のそれぞれの特定話者HMMを記憶する。HMMは隠
れマルコフモデルの意味で、音声認識分野で最も一般的
に知られ、使用されている認識方式(モデル)であり、
詳細は文献「音声認識の基礎(上・下)、古井 監訳、
NTTアドバンステクノロジ株式会社」(原本は英語
で”Fundamentals of Speech
Recognition”,L.Rabiner an
d B‐H Juang,Prentice Hal
l)に詳しい。ここでは、例えば、特定話者のHMM
は、その話者の大量の音声データから学習によって構築
したもので、音素HMMであるとする(音素とは単語よ
り小さい音声の単位で、単語や文のHMMは音素HMM
の連結で表わされる)。
【0012】各話者の特定話者HMMは、出力確率bi
(s)(x)と遷移確率aij (s)で表わされる。ここで、添
字sは話者を表わす番号(自然数)で全話者数をS人と
すると、s=1,2,…,Sとなる。添字iと添字j
は、HMMの状態を表わす番号(自然数)で全状態数を
N個とすると、i,j=1,…,Nとなる。出力確率bi (s)
(x)は、話者sの特走話者HMMの状態iが音響特徴
ベクトルxを出力する確率を表わす。遷移確率aij (s)
は、話者sの特定話者HMMの状態iから状態jへの遷
移確率である。これらを用いることにより、入力音声X
に対する話者sの特定話者HMMの確率P(X,s)を
算出することができる。
【数1】 ここで、q12…qT は、各時刻におけるHMMの状態
を表わしている。
【0013】係数記憶部40は、各話者のHMMを線形
結合するための係数 Λ={λ1λ2…λs…λS} を記憶する。λsは話者sの特定話者HMMに対する係数
で、全話者に対する係数の総和は以下のように規格化さ
れている。
【数2】
【0014】特徴ベクトル出力確率計算部20は、各時
刻の入力音声特徴ベクトルxtに対する、全話者(s=
1,2,…,S)の全状態(i=1,…,N)の出力確
率bi (s)(xt)を算出して、その線形結合として新H
MMの全状態(i=1,…,N)に対する出力確率
【数3】 を算出する。
【0015】単語辞書記憶部50は、認識対象単語のそ
れぞれに対して、各単語がどのようなHMMの状態列で
表わされるかを記憶している。例えば、特定話者HMM
記憶部30が各話者の音素HMMを記憶している場合
は、各単語の音素表記を記憶している(音節HMMを用
いる場合は各単語の音節表記を記憶している)。
【0016】新HMM確率計算部60は、入力音声Xに
対する新HMMの確率
【数4】 を算出する。
【数5】
【数6】 ここで、aqt-1qtは新HMMの状態qt-1から状態qt
の遷移確率bqt(xt)は新HMMの状態qtにおける音
響特徴ベクトルxtの出力確率である。この出力確率は
前記の特徴ベクトル出力確率計算部20により特定話者
HMMの出力確率を線形結合して算出されたものであ
る。また、記号wは、認識対象単語の番号(自然数)を
表わしている。入力音声の発話内容が既知の場合は、そ
の発話に対応する単語のHMM状態列情報を単語辞書記
憶部50から読み出して、その状態列のみが状態遷移に
現れるように、遷移確率aijのそれ以外の成分を0にす
る。
【0017】入力音声の発話内容が未知の場合は、単語
辞書記憶部50に記憶されている全ての認識対象単語の
それぞれについて、上記の発話内容が既知の場合と同様
の確率計算を行い、全ての単語に対する確率を認識結果
出力部70へ送り、認識結果出力部70は、その中の最
大値を与える単語
【数7】 を認識結果として出力する。
【0018】係数推定部80は、新HMM確率計算部6
0で算出された入力音声に対する確率
【数8】 を最大化あるいは極大化するような係数 Λ={λ1λ2…λs…λS} を推定する。最適な推定式は以下のように導出すること
ができる。初めに確率
【数9】 を次式のように書き換える。
【数10】
【数11】 ここで、次のようなQ関数を定義する。
【数12】 上式では表記を簡単にするために、以下の簡略表記を用
いた。
【数13】
【数14】
【0019】また、記号νは、係数に対する制約条件を
導入するためのラグランジェ未定係数である。簡単な計
算により以下の関係があることがわかる。
【数15】 また
【数16】
【数17】 ここで記号δsstはクロネッカーのデルタ記号である。
よって
【数18】 Q関数を極大化するΛ'に対する条件式
【数19】 より
【数20】 が得られる。ここで、制約条件
【数21】 からラグランジェ未定係数を求めると、最終的に係数λ
s'の再推定式は次式になる。
【数22】 したがって、係数を、例えば、次のような初期値λs
1/Sから出発して、上記の再推定式を用いて逐次更新
していくことにより、最適(確率を極大にする)な係数
を算出することができる。係数の初期値としては各特定
話者HMMによる確率値を正規化して用いてもよい。
【0020】上記の再推定式中の確率値
【数23】
【数24】 について、漸化式を用いた効率的な計算法を以下に示し
ておく。
【0021】前向き累積確率の時刻t=1における初期
値を次式で定義する。
【数25】 時刻tにおける前向き累積確率は、
【数26】
【数27】 で計算され、確率
【数28】 で算出される。
【0022】次に、後向き累積確率の時刻t=Tにおけ
る初期値を次式で定義する。
【数29】 時刻tにおける後向き累積確率は、
【数30】 で計算され、確率
【数31】 で算出される。
【0023】以上により、係数推定部80において、最
適な係数が効率的に計算されることが示された。推定さ
れた係数は係数記憶部40に記憶される。
【0024】
【発明の効果】本発明の音声認識装置によれば、予め用
意した複数の特定話者の中に、新しい話者に類似した話
者が含まれていなかった場合にも、従来のように無理失
理にあまり類似していない話者を選んでしまうことはな
く、特定話者HMMの線形結合を用いることにより、新
話者に最適な新HMMを作成することができる。
【0025】また、この特定話者HMMの線形結合を定
める係数として、HMMの枠組みにおいて最適な推定値
を与えることができる。
【図面の簡単な説明】
【図1】本発明による音声認識装置の一実施形態を示す
構成ブロック図である。
【符号の説明】
10 音声分析部 20 特徴ベクトル出力確率計算部 30 特定話者HMM記憶部 40 係数記憶部 50 単語辞書記憶部 60 新HMM確率計算部 70 認識結果出力部 80 係数推定部
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 JICSTファイル(JOIS) IEEE/IEE Electroni c Library Online

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】HMMを用いた音声認識装置において、 複数の混合連続分布HMMを格納したHMM記憶部と、 入力音声に対応して前記HMM記憶部から読み出した
    数の混合連続分布HMMの各状態の出力確率分布を全状
    態に共通の線形結合係数で混合した出力確率分布を新H
    MMの出力確率分布とし、前記新HMMの確率を最大化
    あるいは極大化するように前記線形結合係数を決定する
    係数推定部を備えて成ることを特徴とする音声認識装
    置。
  2. 【請求項2】前記係数推定部は、前記入力音声の発話内
    容を既知として、対応する新HMMの確率を最大化ある
    いは極大化するように前記線形結合の係数を決定する請
    求項1に記載の音声認識装置。
  3. 【請求項3】発話内容未知の入力音声に対して、認識対
    象単語辞書の各単語の新HMM確率を最大化あるいは極
    大化するように前記線形結合の係数を推定する係数推定
    部と、最大の確率を与えた単語を認識結果として出力す
    る認識結果出力部とを有する請求項1に記載の音声認識
    装置。
  4. 【請求項4】新話者の混合連続分布HMMの各状態の出
    力確率分布と遷移確率として、予め用意した多数の話者
    の特定話者の混合連続分布HMMの各状態の各出力確率
    分布と遷移確率を、新話者の各特定話者に対する類似度
    パラメータで線形結合した出力確率分布と遷移確率を用
    いて入力音声の認識を行う音声認識装置において、 前記新話者の各特定話者に対する類似度パラメータを、
    新話者の未知あるいは既知の発声に対する新話者の混合
    連続分布HMMの尤度が最大または極大になるように最
    適に推定することを特徴とする音声認識装置。
  5. 【請求項5】前記最適推定は、前記複数の混合連続分布
    HMMの各状態の出力確率分布の線形結合を新HMMの
    出力確率分布とし、前記入力音声に対する新HMMの確
    率を最大化あるいは極大化するように前記線形結合の係
    数を決定する請求項4に記載の音声認識装置。
  6. 【請求項6】入力音声を分析し、一定の時間間隔ごとに
    音響特徴ベクトルを求める音声分析部と、 複数の話者のそれぞれの特定話者の全音素分の混合連続
    分布HMMを記憶する特定話者HMM記憶部と、 各話者の上記HMMを線形結合するための音素によらな
    い一定値の係数を記憶する係数記憶部と、 各時刻の入力音声特徴ベクトルtに対する、全話者の全
    状態の出力確率を算出して、その線形結合として新HM
    Mの全状態に対する出力確率を算出する特徴ベクトル出
    力確率計算部と、 認識対象単語のそれぞれに対して、各単語がどのような
    HMMの状態列で表わされるかを記憶する単語辞書記憶
    部と、 前記入力音声に対する新HMMの確率を算出する新HM
    M確率計算部と、 前記新HMM確率計算部からの新HMM確率の最大値を
    与える単語を認識結果として出力する認識結果出力部
    と、 前記新HMM確率計算部で算出された入力音声に対する
    確率を最大化あるいは極大化するような係数を推定し、
    推定された係数を前記係数記憶部に記憶する係数推定部
    と、 を備えて成ることを特徴とする音声認識装置。
JP09160797A 1997-03-26 1997-03-26 音声認識装置 Expired - Fee Related JP3144341B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09160797A JP3144341B2 (ja) 1997-03-26 1997-03-26 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09160797A JP3144341B2 (ja) 1997-03-26 1997-03-26 音声認識装置

Publications (2)

Publication Number Publication Date
JPH10268893A JPH10268893A (ja) 1998-10-09
JP3144341B2 true JP3144341B2 (ja) 2001-03-12

Family

ID=14031266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09160797A Expired - Fee Related JP3144341B2 (ja) 1997-03-26 1997-03-26 音声認識装置

Country Status (1)

Country Link
JP (1) JP3144341B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004047076A1 (ja) 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
JP5703747B2 (ja) * 2010-12-27 2015-04-22 富士通株式会社 音声認識装置,および音声認識プログラム

Also Published As

Publication number Publication date
JPH10268893A (ja) 1998-10-09

Similar Documents

Publication Publication Date Title
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4274962B2 (ja) 音声認識システム
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US6154722A (en) Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
Young HMMs and related speech recognition technologies
EP0691640A2 (en) Adaptive training method for pattern recognition
US7409346B2 (en) Two-stage implementation for phonetic recognition using a bi-directional target-filtering model of speech coarticulation and reduction
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US7565284B2 (en) Acoustic models with structured hidden dynamics with integration over many possible hidden trajectories
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3447521B2 (ja) 音声認識ダイアル装置
JP3144341B2 (ja) 音声認識装置
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
Ferreiros et al. Improving continuous speech recognition in Spanish by phone-class semicontinuous HMMs with pausing and multiple pronunciations
EP1369847B1 (en) Speech recognition method and system
Gales Transformation streams and the HMM error model
JPH09114482A (ja) 音声認識のための話者適応化方法
JP2976795B2 (ja) 話者適応化方式
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
Kim et al. Deleted strategy for MMI-based HMM training

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080105

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090105

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100105

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees