JP3583930B2 - 音声認識装置及びその方法 - Google Patents
音声認識装置及びその方法 Download PDFInfo
- Publication number
- JP3583930B2 JP3583930B2 JP26416298A JP26416298A JP3583930B2 JP 3583930 B2 JP3583930 B2 JP 3583930B2 JP 26416298 A JP26416298 A JP 26416298A JP 26416298 A JP26416298 A JP 26416298A JP 3583930 B2 JP3583930 B2 JP 3583930B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- trajectory
- model
- immediately
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、音響特徴パラメータの軌跡に基づいて音声を認識するセグメントモデルを用いた音声認識装置及び方法に関する。
【0002】
【従来の技術】
従来、音声認識における認識の基本単位としては、音素単位、副単語(サブワード)単位、単語単位等(以下これらをユニットと呼ぶ)があり、その単位に対して隠れマルコフモデル(HMM)が音響モデルとして広く用いられている(例えば、中川聖一著、“確率モデルによる音声認識”、電子情報通信学会、昭和63年7月発行参照。)。音声認識では音声をある一定時間間隔(ここではこれをフレームと呼ぶ)でパラメータ化する。このHMMに基づく方式では、隣接するフレーム間のパラメータの値は独立であるとして、音声のモデル化、及び認識候補の尤度計算を行っていた。一方、人間の発声機構の制約により、音声の特徴パラメータは隣接するフレームでは独立とは考えられない。その点を補強するモデルとしてユニット内でのパラメータの値の連続性を仮定したセグメントモデルが提案されている(例えば、M. Ostendorf他“From HMMs to segment models :A ubified view of stochastic modeling for speech recognition”IEEE Transactions on Speech and Audio Processing,SAP−4(5),pp.360−378(1996−9))。
【0003】
【発明が解決しようとする課題】
従来のHMMではパラメータ値が独立と仮定され、パラメータの軌跡の連続性を十分に扱えなかった。また、これまでのセグメントモデルはユニット内のパラメータの連続性については捉えられていたが、ユニット外(隣接するユニット間)のパラメータ値との連続性については扱っておらず、認識性能はまだ十分ではなかった。この発明の目的は、当該セグメント(ユニット)の中だけではなく、隣接するセグメント(ユニット)とのパラメータ値の連続性を考慮することで上記の問題点を解決し、これを効率よくモデル化する方式を具備した、音声認識装置及び方法を提供することにある。
【0004】
【課題を解決するための手段】
この発明によれば、入力された音声を音声音響特徴パラメータに分析し、その特徴パラメータの軌跡の情報に基づいて認識をおこなうセグメントモデルを用いた音声認識装置において、認識を行うセグメントの直前のセグメントの末尾の部分を含めた区間、あるいは直後のセグメントの先頭の部分を含めた区間、あるいは直前のセグメントの末尾の部分及び直後のセグメントの先頭の部分を含めた区間、すなわち隣接するセグメントへの遷移部分の特徴パラメータと、認識を行うセグメントの特徴パラメータを含めたセグメント区間の特徴パラメータを併せて、パラメータの軌跡を求め、その軌跡の情報に基づいたセグメントの尤度を用いて音声を認識することを特徴とする。つまり前記遷移部分を含む特徴パラメータの軌跡のそのセグメント情報に対する出現確率をモデルとして予め求めておき、このモデルと入力音声信号の特徴パラメータの軌跡との尤度を求める。
【0005】
また、請求項2記載の発明では請求項1記載の発明において、上記セグメントの尤度計算において、当該セグメントの前後のセグメントのラベル情報も考慮して、当該セグメントの尤度を計算することを特徴とする。
【0006】
【発明の実施の形態】
以下、図面を参照してこの発明に係る実施形態について説明する。図1は、この発明の要部である特徴パラメータの軌跡を求める範囲を示す図である。図1に認識対象となるi番目のセグメント(具体的には音素、副単語(サブワード)、単語)のラベルをwi、その前のセグメントのラベルをwi−1 、後ろのセグメントのラベルをwi+1 とそれぞれする。また、それぞれのセグメントのラベルwi,wi−1 ,wi+1 における各フレームごとに得られる特徴パラメータの軌跡をそれぞれAi,Ai−1 ,Ai+1 とする。この発明では、前後のセグメントのすべてを用いると、処理量が多くなるばかりでなく、軌跡の推定精度も落ちるため、前後のセグメントの遷移部分、即ち認識を行うセグメントの直前のセグメントに関しては末尾の部分Bi−1 、直後のセグメントに関しては先頭の部分Bi+1 のみを考慮する。具体的には、セグメントが音素の場合、その長さは通常50〜100ミリ秒程度であるが、遷移部分Bi−1 ,Bi+1 は10〜50ミリ秒程度とする。
【0007】
認識を行うセグメントの直前のセグメントの末尾の部分を含めた区間でパラメータの軌跡を求める場合は図1中の区間1となり、その軌跡の出現する確率、つまりラベルwiの時に、パラメータ軌跡Bi−1 ,Aiが生じる確率は、
P(Bi−1 ,Ai|wi)
あるいは前のセグメントの出現確率で正規化した確率
P(Bi−1 ,Ai|wi)/P(Bi−1 |wi)
で表す。また、直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間2となり、その軌跡の出現する確率は、
P(Ai,Bi+1 |wi)
あるいは後のセグメントの出現確率で正規化した確率
P(Ai,Bi+1 |wi)/P(Bi+1 |wi)
で表す。また、直前のセグメントの末尾の部分及び直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間3となり、その軌跡の出現する確率は、
P(Bi−1 ,Ai,Bi+1 |wi)で表す。
【0008】
一方、請求項2のコンテキスト(例えば音素環境)依存の音響セグメントモデルに関しては、認識を行うセグメントの直前のセグメントの末尾の部分を含めた区間でパラメータの軌跡を求める場合は区間1となり、その軌跡の出現する確率は、
P(Bi−1 ,Ai|wi−1 ,wi,wi+1 )
あるいは前のセグメントの出現確率で正規化した確率
P(Bi−1 ,Ai|wi−1,wi,wi+1)/ P(Bi−1 |wi−1,wi,wi+1 )
で表す。また、直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間2となり、その軌跡の出現する確率は、
P(Ai,Bi+1 |wi−1 ,wi,wi+1 )
あるいは後のセグメントの出現確率で正規化した確率
P(Ai,Bi+1 |wi−1,wi,wi+1)/ P(Bi+1 |wi−1,wi,wi+1 )
で表す。また、直前のセグメントの末尾の部分及び直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間3となり、その軌跡の出現する確率は、
P(Bi−1 ,Ai,Bi+1 |wi−1 ,wi,wi+1 )で表す。
【0009】
このコンテキスト依存の音響セグメントモデルとしては、認識を行うセグメントのラベル情報と、その直前又は直後のセグメントのラベル情報のみを考慮してもよい。
図2はこの実施例において使用する音響セグメントモデルの作成のブロック図である。入力された学習音声データは、特徴抽出部12でケプストラム等の特徴パラメータに変換され、軌跡計算部13で上記軌跡の推定区間に応じて、各パラメータの軌跡を推定する。これらの軌跡の集合と入力学習音声データのラベルデータ(発声内容を記述したもの)を用いてモデル作成部14で音響セグメントモデルを作成し、メモリ15に蓄積する。
【0010】
図3はこの実施例の音声認識システムのブロック図である。入力端子21より入力された音声は、特徴抽出部22で、ケプストラム等の特徴パラメータに変換され、上記軌跡の推定区間に応じて、軌跡計算部23で各パラメータの軌跡を推定する。メモリ24から、この推定区間の対応する音響セグメントモデルを用いて、単語辞書25と文法記述26を用いて生成した認識候補の確からしさ(尤度)を求め、最も確からしさの高い認識候補を認識結果として出力する。
【0011】
以上、説明したように、この発明によれば前後のセグメントとの関連を考慮した音響セグメントモデルを作成し、それを用いて認識する方法を提供することができる。
【0012】
【発明の効果】
以上、詳述したように、この発明によれば、音響セグメントの軌跡を基に音声を認識する技術において、前後のセグメントの音響的特徴の関連性を考慮してモデル化することにより、それを用いた音声認識において、従来のHMMに代表される音響モデルより、より優れた認識性能を提供できるという利点がある。
【0013】
以下に実施例を述べる。
学習用に15人の男性と、15人の女性とを用い、試験用に5人の男性と、5人の女性を用いた。音声の25ミリ秒の窓に対し、13メルオープドケプストラム係数のベクトルを10ミリ秒ごとに計算した。ある実験では、この静的係数に、いわゆるデルタ及び加速係数を加算して使用した。発声者の変化を強調するため、単語をパラメータ化した後、平均ベクトルを決定し、各フレームごとのパラメータベクトルから平均ベクトルを差し引いた。この実験では全てのモデルは、コンテキスト依存(三音素)であり、各モデルは3混合であり、HMMモデルは3状態をもち、セグメントモデルはHMMモデル及びセグメントモデルのパラメータの数は同一である、HMMは固有のエキスポネンシャル間隔モデルを用い、セグメントモデルはガラシアン間隔モデルを用いた。セグメントモデルは直前のセグメントの末尾の30ミリ秒だけを考慮した。この値は、全遷移領域を含むように選定したが、離れた音響データの使用を避けた。音素モデルのHMMを使用した場合の誤り率は静的パラメータでは15.47%、静的+△+△△パラメータでは13.57%、となり、ポリノミナルセグメントモデルを用いた場合の誤り率はそれぞれ11.53%、10.18%となり、この発明のモデルを用いた場合はそれぞれ10.05%、9.31%となった。セグメントモデルの使用によれば、HMMモデルの使用よりも誤り率が25%よりなり、この発明によれば誤り率が更に9〜13%よくなり、この発明が優れていることが理解される。
【図面の簡単な説明】
【図1】この発明に用いる音響モデルにおいて特徴パラメータの軌跡を求める範囲を示す図。
【図2】この発明に用いる音響モデルの生成過程を示すブロック図。
【図3】この発明に係る一実施形態である音声認識装置の機能構成を示すブロック図。
Claims (4)
- 入力された音声信号を音声音響特徴パラメータに分析し、このパラメータの軌跡と、音素、副単語もしくは単語を単位とするセグメント毎にその軌跡の確率モデルと比較して認識を行う音声認識装置において、
当該セグメントの直前のセグメントの末尾を含めた第1の区間、当該セグメントの直後のセグメントの先頭を含めた第2の区間、あるいは当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭を含めた第3の区間の少くとも1つの区間について各セグメントのラベルごとに特徴パラメータの軌跡の確率を表わすセグメントモデルを記憶するメモリと、
入力音声信号の音声音響パラメータを算出する手段と、
上記算出した音声音響パラメータの、上記メモリ内のセグメントモデルと対応した上記区間ごとの軌跡を計算する手段と、
その計算された軌跡の、上記メモリ内の各セグメントモデルに対する軌跡の尤度を、当該セグメントの直前のセグメントの末尾、あるいは当該セグメントの直後のセグメントの先頭、あるいは当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭の出現確率で正規化して正規化尤度を求める手段と、
上記正規化尤度を用いて認識候補を求める手段と
を具備すること特徴とする音声認識装置。 - 請求項1記載の音声認識装置において、
上記メモリに記憶された上記各セグメントモデルは、その各セグメントモデルのラベルとその直前のセグメントのラベル及び直後のセグメントラベルも考慮したモデルであり、
上記尤度の計算を行う手段において、当該セグメントの直前、直後のセグメントのラベル情報も考慮して軌跡の尤度を求める手段であることを特徴とする音声認識装置。 - 入力音声信号の音声音響特徴パラメータを分析し、そのパラメータの軌跡に基づいて音素、副単語、もしくは単語を単位とするセグメント毎にその軌跡の確率モデルと比較して認識を行う音声認識方法において、
学習音声から、当該セグメントの直前のセグメントの末尾を含む第1の区間、当該セグメントの直後のセグメントの先頭を含む第2の区間、当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭を含む第3の区間の少くとも1つの区間について各セグメントのラベルごとに特徴パラメータの軌跡を表わすセグメントモデルを予め作っておき、これをメモに記憶しておき、
音声認識時には、入力音声信号の音声音響パラメータを算出し、
その算出された音声音響パラメータの、上記メモリ内のセグメントモデルと対応した上記区間ごとの軌跡を計算し、
その計算された軌跡の上記メモリ内の各セグメントモデルに対する尤度を、当該セグメントの直前のセグメントの末尾、あるいは当該セグメントの直後のセグメントの先頭、あるいは当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭の出現確率で正規化して正規化尤度を求め、
その正規化尤度を用いて音声認識を行うことを特徴とする音声認識方法。 - 請求項3記載の音声認識方法において、
上記セグメントモデルを、そのモデルのラベルとその直前のセグメントのラベル及び直後のセグメントラベルを考慮した軌跡の確率モデルを作成し、
上記尤度の計算において、当該セグメントの直前、直後のセグメントのラベル情報を上記モデルに応じて考慮して尤度計算を行うことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26416298A JP3583930B2 (ja) | 1998-09-18 | 1998-09-18 | 音声認識装置及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26416298A JP3583930B2 (ja) | 1998-09-18 | 1998-09-18 | 音声認識装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000099071A JP2000099071A (ja) | 2000-04-07 |
JP3583930B2 true JP3583930B2 (ja) | 2004-11-04 |
Family
ID=17399328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26416298A Expired - Fee Related JP3583930B2 (ja) | 1998-09-18 | 1998-09-18 | 音声認識装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3583930B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4075670B2 (ja) * | 2003-04-09 | 2008-04-16 | トヨタ自動車株式会社 | 変化情報認識装置および変化情報認識方法 |
-
1998
- 1998-09-18 JP JP26416298A patent/JP3583930B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000099071A (ja) | 2000-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6317711B1 (en) | Speech segment detection and word recognition | |
US6374219B1 (en) | System for using silence in speech recognition | |
US7177810B2 (en) | Method and apparatus for performing prosody-based endpointing of a speech signal | |
JP2006038895A (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
EP1355295A2 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
US7653541B2 (en) | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
JP3069531B2 (ja) | 音声認識方法 | |
US6662158B1 (en) | Temporal pattern recognition method and apparatus utilizing segment and frame-based models | |
JP4074543B2 (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JP3583930B2 (ja) | 音声認識装置及びその方法 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP2005091504A (ja) | 音声認識装置 | |
JPH0997095A (ja) | 音声認識装置 | |
JPH10143190A (ja) | 音声認識装置 | |
JP2875179B2 (ja) | 話者適応化装置及び音声認識装置 | |
JP2975540B2 (ja) | 自由発話音声認識装置 | |
JP2001075596A (ja) | 音声認識装置、音声認識方法及び音声認識プログラムを記録した記録媒体 | |
JPH09160586A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JPH05224692A (ja) | 連続音声認識方式 | |
JPH05303391A (ja) | 音声認識装置 | |
JP4881625B2 (ja) | 音声検出装置及び音声検出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20031224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040730 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100806 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100806 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110806 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120806 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130806 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |