JP3583930B2 - 音声認識装置及びその方法 - Google Patents

音声認識装置及びその方法 Download PDF

Info

Publication number
JP3583930B2
JP3583930B2 JP26416298A JP26416298A JP3583930B2 JP 3583930 B2 JP3583930 B2 JP 3583930B2 JP 26416298 A JP26416298 A JP 26416298A JP 26416298 A JP26416298 A JP 26416298A JP 3583930 B2 JP3583930 B2 JP 3583930B2
Authority
JP
Japan
Prior art keywords
segment
trajectory
model
immediately
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26416298A
Other languages
English (en)
Other versions
JP2000099071A (ja
Inventor
昭一 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP26416298A priority Critical patent/JP3583930B2/ja
Publication of JP2000099071A publication Critical patent/JP2000099071A/ja
Application granted granted Critical
Publication of JP3583930B2 publication Critical patent/JP3583930B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、音響特徴パラメータの軌跡に基づいて音声を認識するセグメントモデルを用いた音声認識装置及び方法に関する。
【0002】
【従来の技術】
従来、音声認識における認識の基本単位としては、音素単位、副単語(サブワード)単位、単語単位等(以下これらをユニットと呼ぶ)があり、その単位に対して隠れマルコフモデル(HMM)が音響モデルとして広く用いられている(例えば、中川聖一著、“確率モデルによる音声認識”、電子情報通信学会、昭和63年7月発行参照。)。音声認識では音声をある一定時間間隔(ここではこれをフレームと呼ぶ)でパラメータ化する。このHMMに基づく方式では、隣接するフレーム間のパラメータの値は独立であるとして、音声のモデル化、及び認識候補の尤度計算を行っていた。一方、人間の発声機構の制約により、音声の特徴パラメータは隣接するフレームでは独立とは考えられない。その点を補強するモデルとしてユニット内でのパラメータの値の連続性を仮定したセグメントモデルが提案されている(例えば、M. Ostendorf他“From HMMs to segment models :A ubified view of stochastic modeling for speech recognition”IEEE Transactions on Speech and Audio Processing,SAP−4(5),pp.360−378(1996−9))。
【0003】
【発明が解決しようとする課題】
従来のHMMではパラメータ値が独立と仮定され、パラメータの軌跡の連続性を十分に扱えなかった。また、これまでのセグメントモデルはユニット内のパラメータの連続性については捉えられていたが、ユニット外(隣接するユニット間)のパラメータ値との連続性については扱っておらず、認識性能はまだ十分ではなかった。この発明の目的は、当該セグメント(ユニット)の中だけではなく、隣接するセグメント(ユニット)とのパラメータ値の連続性を考慮することで上記の問題点を解決し、これを効率よくモデル化する方式を具備した、音声認識装置及び方法を提供することにある。
【0004】
【課題を解決するための手段】
この発明によれば、入力された音声を音声音響特徴パラメータに分析し、その特徴パラメータの軌跡の情報に基づいて認識をおこなうセグメントモデルを用いた音声認識装置において、認識を行うセグメントの直前のセグメントの末尾の部分を含めた区間、あるいは直後のセグメントの先頭の部分を含めた区間、あるいは直前のセグメントの末尾の部分及び直後のセグメントの先頭の部分を含めた区間、すなわち隣接するセグメントへの遷移部分の特徴パラメータと、認識を行うセグメントの特徴パラメータを含めたセグメント区間の特徴パラメータを併せて、パラメータの軌跡を求め、その軌跡の情報に基づいたセグメントの尤度を用いて音声を認識することを特徴とする。つまり前記遷移部分を含む特徴パラメータの軌跡のそのセグメント情報に対する出現確率をモデルとして予め求めておき、このモデルと入力音声信号の特徴パラメータの軌跡との尤度を求める。
【0005】
また、請求項2記載の発明では請求項1記載の発明において、上記セグメントの尤度計算において、当該セグメントの前後のセグメントのラベル情報も考慮して、当該セグメントの尤度を計算することを特徴とする。
【0006】
【発明の実施の形態】
以下、図面を参照してこの発明に係る実施形態について説明する。図1は、この発明の要部である特徴パラメータの軌跡を求める範囲を示す図である。図1に認識対象となるi番目のセグメント(具体的には音素、副単語(サブワード)、単語)のラベルをwi、その前のセグメントのラベルをwi−1 、後ろのセグメントのラベルをwi+1 とそれぞれする。また、それぞれのセグメントのラベルwi,wi−1 ,wi+1 における各フレームごとに得られる特徴パラメータの軌跡をそれぞれAi,Ai−1 ,Ai+1 とする。この発明では、前後のセグメントのすべてを用いると、処理量が多くなるばかりでなく、軌跡の推定精度も落ちるため、前後のセグメントの遷移部分、即ち認識を行うセグメントの直前のセグメントに関しては末尾の部分Bi−1 、直後のセグメントに関しては先頭の部分Bi+1 のみを考慮する。具体的には、セグメントが音素の場合、その長さは通常50〜100ミリ秒程度であるが、遷移部分Bi−1 ,Bi+1 は10〜50ミリ秒程度とする。
【0007】
認識を行うセグメントの直前のセグメントの末尾の部分を含めた区間でパラメータの軌跡を求める場合は図1中の区間1となり、その軌跡の出現する確率、つまりラベルwiの時に、パラメータ軌跡Bi−1 ,Aiが生じる確率は、
P(Bi−1 ,Ai|wi)
あるいは前のセグメントの出現確率で正規化した確率
P(Bi−1 ,Ai|wi)/P(Bi−1 |wi)
で表す。また、直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間2となり、その軌跡の出現する確率は、
P(Ai,Bi+1 |wi)
あるいは後のセグメントの出現確率で正規化した確率
P(Ai,Bi+1 |wi)/P(Bi+1 |wi)
で表す。また、直前のセグメントの末尾の部分及び直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間3となり、その軌跡の出現する確率は、
P(Bi−1 ,Ai,Bi+1 |wi)で表す。
【0008】
一方、請求項2のコンテキスト(例えば音素環境)依存の音響セグメントモデルに関しては、認識を行うセグメントの直前のセグメントの末尾の部分を含めた区間でパラメータの軌跡を求める場合は区間1となり、その軌跡の出現する確率は、
P(Bi−1 ,Ai|wi−1 ,wi,wi+1 )
あるいは前のセグメントの出現確率で正規化した確率
P(Bi−1 ,Ai|wi−1,wi,wi+1)/ P(Bi−1 |wi−1,wi,wi+1 )
で表す。また、直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間2となり、その軌跡の出現する確率は、
P(Ai,Bi+1 |wi−1 ,wi,wi+1 )
あるいは後のセグメントの出現確率で正規化した確率
P(Ai,Bi+1 |wi−1,wi,wi+1)/ P(Bi+1 |wi−1,wi,wi+1 )
で表す。また、直前のセグメントの末尾の部分及び直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間3となり、その軌跡の出現する確率は、
P(Bi−1 ,Ai,Bi+1 |wi−1 ,wi,wi+1 )で表す。
【0009】
このコンテキスト依存の音響セグメントモデルとしては、認識を行うセグメントのラベル情報と、その直前又は直後のセグメントのラベル情報のみを考慮してもよい。
図2はこの実施例において使用する音響セグメントモデルの作成のブロック図である。入力された学習音声データは、特徴抽出部12でケプストラム等の特徴パラメータに変換され、軌跡計算部13で上記軌跡の推定区間に応じて、各パラメータの軌跡を推定する。これらの軌跡の集合と入力学習音声データのラベルデータ(発声内容を記述したもの)を用いてモデル作成部14で音響セグメントモデルを作成し、メモリ15に蓄積する。
【0010】
図3はこの実施例の音声認識システムのブロック図である。入力端子21より入力された音声は、特徴抽出部22で、ケプストラム等の特徴パラメータに変換され、上記軌跡の推定区間に応じて、軌跡計算部23で各パラメータの軌跡を推定する。メモリ24から、この推定区間の対応する音響セグメントモデルを用いて、単語辞書25と文法記述26を用いて生成した認識候補の確からしさ(尤度)を求め、最も確からしさの高い認識候補を認識結果として出力する。
【0011】
以上、説明したように、この発明によれば前後のセグメントとの関連を考慮した音響セグメントモデルを作成し、それを用いて認識する方法を提供することができる。
【0012】
【発明の効果】
以上、詳述したように、この発明によれば、音響セグメントの軌跡を基に音声を認識する技術において、前後のセグメントの音響的特徴の関連性を考慮してモデル化することにより、それを用いた音声認識において、従来のHMMに代表される音響モデルより、より優れた認識性能を提供できるという利点がある。
【0013】
以下に実施例を述べる。
学習用に15人の男性と、15人の女性とを用い、試験用に5人の男性と、5人の女性を用いた。音声の25ミリ秒の窓に対し、13メルオープドケプストラム係数のベクトルを10ミリ秒ごとに計算した。ある実験では、この静的係数に、いわゆるデルタ及び加速係数を加算して使用した。発声者の変化を強調するため、単語をパラメータ化した後、平均ベクトルを決定し、各フレームごとのパラメータベクトルから平均ベクトルを差し引いた。この実験では全てのモデルは、コンテキスト依存(三音素)であり、各モデルは3混合であり、HMMモデルは3状態をもち、セグメントモデルはHMMモデル及びセグメントモデルのパラメータの数は同一である、HMMは固有のエキスポネンシャル間隔モデルを用い、セグメントモデルはガラシアン間隔モデルを用いた。セグメントモデルは直前のセグメントの末尾の30ミリ秒だけを考慮した。この値は、全遷移領域を含むように選定したが、離れた音響データの使用を避けた。音素モデルのHMMを使用した場合の誤り率は静的パラメータでは15.47%、静的+△+△△パラメータでは13.57%、となり、ポリノミナルセグメントモデルを用いた場合の誤り率はそれぞれ11.53%、10.18%となり、この発明のモデルを用いた場合はそれぞれ10.05%、9.31%となった。セグメントモデルの使用によれば、HMMモデルの使用よりも誤り率が25%よりなり、この発明によれば誤り率が更に9〜13%よくなり、この発明が優れていることが理解される。
【図面の簡単な説明】
【図1】この発明に用いる音響モデルにおいて特徴パラメータの軌跡を求める範囲を示す図。
【図2】この発明に用いる音響モデルの生成過程を示すブロック図。
【図3】この発明に係る一実施形態である音声認識装置の機能構成を示すブロック図。

Claims (4)

  1. 入力された音声信号を音声音響特徴パラメータに分析し、このパラメータの軌跡と、音素、副単語もしくは単語を単位とするセグメント毎にその軌跡の確率モデルと比較して認識を行う音声認識装置において、
    当該セグメントの直前のセグメントの末尾を含めた第1の区間、当該セグメントの直後のセグメントの先頭を含めた第2の区間、あるいは当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭を含めた第3の区間の少くとも1つの区間について各セグメントのラベルごとに特徴パラメータの軌跡の確率を表わすセグメントモデルを記憶するメモリと、
    入力音声信号の音声音響パラメータを算出する手段と、
    上記算出した音声音響パラメータの、上記メモリ内のセグメントモデルと対応した上記区間ごとの軌跡を計算する手段と、
    その計算された軌跡の、上記メモリ内の各セグメントモデルに対する軌跡の尤度を、当該セグメントの直前のセグメントの末尾、あるいは当該セグメントの直後のセグメントの先頭、あるいは当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭の出現確率で正規化して正規化尤度を求める手段と、
    上記正規化尤度を用いて認識候補を求める手段と
    を具備すること特徴とする音声認識装置。
  2. 請求項1記載の音声認識装置において、
    上記メモリに記憶された上記各セグメントモデルは、その各セグメントモデルのラベルとその直前のセグメントのラベル及び直後のセグメントラベルも考慮したモデルであり、
    上記尤度の計算を行う手段において、当該セグメントの直前、直後のセグメントのラベル情報も考慮して軌跡の尤度を求める手段であることを特徴とする音声認識装置。
  3. 入力音声信号の音声音響特徴パラメータを分析し、そのパラメータの軌跡に基づいて音素、副単語、もしくは単語を単位とするセグメント毎にその軌跡の確率モデルと比較して認識を行う音声認識方法において、
    学習音声から、当該セグメントの直前のセグメントの末尾を含む第1の区間、当該セグメントの直後のセグメントの先頭を含む第2の区間、当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭を含む第3の区間の少くとも1つの区間について各セグメントのラベルごとに特徴パラメータの軌跡を表わすセグメントモデルを予め作っておき、これをメモに記憶しておき、
    音声認識時には、入力音声信号の音声音響パラメータを算出し、
    その算出された音声音響パラメータの、上記メモリ内のセグメントモデルと対応した上記区間ごとの軌跡を計算し、
    その計算された軌跡の上記メモリ内の各セグメントモデルに対する尤度を、当該セグメントの直前のセグメントの末尾、あるいは当該セグメントの直後のセグメントの先頭、あるいは当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭の出現確率で正規化して正規化尤度を求め、
    その正規化尤度を用いて音声認識を行うことを特徴とする音声認識方法。
  4. 請求項3記載の音声認識方法において、
    上記セグメントモデルを、そのモデルのラベルとその直前のセグメントのラベル及び直後のセグメントラベルを考慮した軌跡の確率モデルを作成し、
    上記尤度の計算において、当該セグメントの直前、直後のセグメントのラベル情報を上記モデルに応じて考慮して尤度計算を行うことを特徴とする音声認識方法。
JP26416298A 1998-09-18 1998-09-18 音声認識装置及びその方法 Expired - Fee Related JP3583930B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26416298A JP3583930B2 (ja) 1998-09-18 1998-09-18 音声認識装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26416298A JP3583930B2 (ja) 1998-09-18 1998-09-18 音声認識装置及びその方法

Publications (2)

Publication Number Publication Date
JP2000099071A JP2000099071A (ja) 2000-04-07
JP3583930B2 true JP3583930B2 (ja) 2004-11-04

Family

ID=17399328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26416298A Expired - Fee Related JP3583930B2 (ja) 1998-09-18 1998-09-18 音声認識装置及びその方法

Country Status (1)

Country Link
JP (1) JP3583930B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4075670B2 (ja) * 2003-04-09 2008-04-16 トヨタ自動車株式会社 変化情報認識装置および変化情報認識方法

Also Published As

Publication number Publication date
JP2000099071A (ja) 2000-04-07

Similar Documents

Publication Publication Date Title
US6317711B1 (en) Speech segment detection and word recognition
US6374219B1 (en) System for using silence in speech recognition
US7177810B2 (en) Method and apparatus for performing prosody-based endpointing of a speech signal
JP2006038895A (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP2002215187A (ja) 音声認識方法及びその装置
JP3069531B2 (ja) 音声認識方法
US6662158B1 (en) Temporal pattern recognition method and apparatus utilizing segment and frame-based models
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3583930B2 (ja) 音声認識装置及びその方法
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2005091504A (ja) 音声認識装置
JPH0997095A (ja) 音声認識装置
JPH10143190A (ja) 音声認識装置
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
JP2975540B2 (ja) 自由発話音声認識装置
JP2001075596A (ja) 音声認識装置、音声認識方法及び音声認識プログラムを記録した記録媒体
JPH09160586A (ja) ヒドン・マルコフ・モデルの学習方法
JPH05224692A (ja) 連続音声認識方式
JPH05303391A (ja) 音声認識装置
JP4881625B2 (ja) 音声検出装置及び音声検出プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20031224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040730

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090806

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100806

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100806

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110806

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120806

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130806

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees