JPH10143190A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH10143190A
JPH10143190A JP29830296A JP29830296A JPH10143190A JP H10143190 A JPH10143190 A JP H10143190A JP 29830296 A JP29830296 A JP 29830296A JP 29830296 A JP29830296 A JP 29830296A JP H10143190 A JPH10143190 A JP H10143190A
Authority
JP
Japan
Prior art keywords
state
transition
duration
likelihood
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP29830296A
Other languages
English (en)
Inventor
Tadamichi Tokuda
肇道 徳田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP29830296A priority Critical patent/JPH10143190A/ja
Publication of JPH10143190A publication Critical patent/JPH10143190A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 HMM(ヒドンマルコフモデル)を用いた音
声認識装置において、状態継続時間の制御処理を少ない
計算量の増加で行う事により、実時間認識システムの認
識精度の向上を図る。 【解決手段】 HMMのトレリス計算上で前状態の継続
時間によって累積尤度の重みづけを行う尤度計算部、す
なわちトレリス上で計算対象とする状態jの一つ前の状
態j-1が過去に連続して自己遷移した回数mを記憶して
おき、その回数mを用いて状態j-1から状態jへの遷移
に重み付けを行う計算部を備えた事により、HMM状態
継続時間の制御を少ない計算量の増加で行ない、実時間
処理のシステムにおいても認識精度の向上を図る事がで
きる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者が登録した音
声をHMM(ヒドンマルコフモデル)により認識する音
声認識装置に関するものである。
【0002】
【従来の技術】HMM方式による音声認識システムにお
いて、状態継続時間を検知して認識のためのパラメータ
に加えるようにすれば認識性能の向上に有効である事が
知られている。一般的な継続時間モデルでは、例えばV
iterbiアルゴリズムにおいて継続時間の最小値と最大値
の範囲でそれぞれの累積尤度とその継続時間の発生確率
を各時間別々に計算し、それらのなかで最も尤度が高く
なる継続時間のパスをフレーム毎に選択していく。
【0003】
【発明が解決しようとする課題】上記の一般的な状態継
続時間モデルを用いた場合、トレリス上の累積尤度の計
算回数が継続時間の最大値に応じて決まり、トレリス上
の累積尤度の計算量が非常に増大し、演算部の負荷が大
きくなる。
【0004】例えばAT&TのRabinerらによる方法
(“Recognition of Isolated Digits Using Hid
den Markov Models With Continuous Mixture D
ensities”AT&T Technical Journal Vol6
4,No.6)では、演算量が継続時間の最大値の二乗
に比例するため、通常のビタビアルゴリズムの数十倍の
演算量になってしまう。このため、状態継続時間の制御
は認識精度の向上に有効であっても実時間の音声認識シ
ステムにはあまり用いられていない。
【0005】本発明は、状態継続時間を検知してパラメ
ータに加え、しかも少ない計算量で処理して認識性能を
向上させることができる音声認識装置を提供することを
目的とする。
【0006】
【課題を解決するための手段】本発明は以上の課題を解
決するため、認識に用いる単語モデルの作成時に、その
全状態について状態jがmフレーム継続する確率:P'j
(m)を算出し、このP'j(m)を継続時間mの最大値
と0の間での和が1になるように正規化し、それからP
j(m)=Σm i=0 P'j(i)を算出し、これをmに対
するテーブルの形式でHMM標準パターンに追加する。
そして、認識処理時のビタビアルゴリズムを次のように
修正することにより、継続時間の分布モデルPj(m)
を尤度計算に適用する。すなわちトレリス上で計算対象
とする状態jの一つ前の状態j-1が過去に連続して自己
遷移した回数mを記憶しておき、その回数mを用いて状
態j-1から状態jへの遷移に重み付けを行う。
【0007】
【発明の実施の形態】本願発明の請求項1に記載の発明
は、音声信号を入力し、デジタル値に変換する音声信号
入力部と、音声信号をフレーム分割し、各フレームの音
声特徴量を算出する特徴抽出部と、登録済み単語音声の
HMMを格納する標準データ格納部と、入力信号の特徴
量の時系列に対する各HMMの出力尤度を計算する尤度
計算部と、上記尤度計算においてトレリス上で計算対象
とする状態jの一つ前の状態j-1が過去に連続して自己
遷移した回数mを記憶しておき、その回数mを用いて状
態j-1から状態jへの遷移に学習データの継続時間分布
で重み付けを行う継続時間制御部とを備え、上記尤度計
算部と継続時間制御部により得られる出力尤度を用いて
認識結果の判定を行う認識結果判定部とを備えたもので
あり、この構成により、状態jの継続時間mは強制的に
P'j(m)と同じ分布に従うように制御され、トレリス
上の尤度の計算回数が継続時間の最大値に関係なく通常
のビタビアルゴリズムと同一になるため、計算量の増加
が少ない(2倍以下)。また、理論的に最大値をこえる
回数の継続時間にも対応できる。
【0008】また請求項2に記載の発明は、請求項1記
載の音声認識装置において、前状態j-1からの遷移に加
えて、状態jの自己遷移についても過去に継続した回数
nを記憶しておき、その回数nを用いて状態jの自己遷
移に学習データの継続時間分布で重み付けを行うように
構成したものであり、この構成により、請求項1に記載
のものよりも計算量が若干多くなるが、より精密な継続
時間制御を行うことができる。
【0009】以下、本発明の実施の形態である音声認識
装置について図面を参照しながら説明する。
【0010】(実施の形態1)図1は本発明の実施の形
態における音声認識装置の構成ブロック図であり、1は
音声信号を入力し、デジタル値に変換する音声信号入力
部、2はフレーム分割と各フレームの音声特徴量を算出
する特徴抽出部、3は登録済み単語音声のHMMを格納
するHMM標準パターン格納部、4は入力された音声特
徴量の時系列に対する出力尤度を算出する尤度計算部、
5は4の尤度計算において継続時間制御の処理を行う継
続時間制御部、6は認識結果の決定を行なう認識結果判
定部である。
【0011】図2は本発明の実施の形態における音声認
識装置の回路ブロック図であり、7はマイク、8は中央
処理装置(CPU)、9は読み出し専用メモリ(RO
M)、10は書き込み可能メモリ(RAM)、11は出
力装置である。
【0012】構成ブロック図における音声信号入力部1
はマイク7とCPU8により、HMM標準パターン格納
部はRAM10により、特徴抽出部とHMM計算部と継
続時間制御部と認識結果判定部はCPU8がROM9に
書かれたプログラムを実行し、RAM10にアクセスす
ることにより実行される。
【0013】次に本発明に関わるHMM標準パターン学
習処理について説明する。認識に用いる単語モデルの作
成時に、その全状態についてP'j(m)すなわち状態j
がmフレーム継続する確率を算出しておく。このP'j
(m)は単語モデルの学習過程において直接推定される
ものではなく、トレーニングデータを学習後の単語モデ
ルで尤度計算することにより得られるものである。
【0014】次に、P'j(m)を継続時間mの最大値と
0の間での和が1になるように正規化し、それから次の
(数1)に示すようにPj(m)を算出し、これをmに
対するテーブルの形式でHMM標準パターンに追加す
る。
【0015】
【数1】
【0016】そして、認識処理時のビタビアルゴリズム
を次のように修正することにより、継続時間の分布モデ
ルPj(m)を尤度計算に適用する。
【0017】次ぎに、標準パターン学習時の処理内容に
ついて、図4のフローチャートに基づき説明する。
【0018】step(1)では、ユーザーが発声した
単語音声を標準パターンとして音声入力部から取り込
み、デジタル信号に変換する。step(2)では、入
力される音声信号がフレーム長に達する毎にフレーム分
割を行う。各フレームは半区間ずつ重複し、ハニング窓
を用いて切り出される。
【0019】step(3)では、音声特徴量(音声パ
ワーやケプストラム係数など)を切り出されたフレーム
単位で算出する。step(4)では、各フレームの音
声特徴量の時系列を用いて、対応するHMMの各種パラ
メータの推定を行う。
【0020】step(5)では、標準パターンの音声
特徴量をそれに対応するHMM及び他の標準パターンの
HMMに与え、通常のビタビアルゴリズムによる出力尤
度を計算する。step(6)では、step(5)の
尤度計算時に最適パスを算出するトレリス上でHMMの
各状態が何フレーム継続したか、その回数をカウントす
る。
【0021】step(7)では、HMMの各状態につ
いて、それぞれの継続時間を記録した標準パターンの個
数を算出し、その値を全継続時間の和が1になるように
正規化したテーブルをHMM標準パターンに付加する。
【0022】step(8)では、登録する全ての標準
パターンについて、step(1)からstep(7)
までを繰り返す。
【0023】本発明におけるトレリス計算の一例を図3
に示す。この方式では、トレリス上で計算対象とする状
態jの一つ前の状態j-1が過去に連続して自己遷移した
回数mを記憶しておき、その回数mを用いて(数2)に
示すように状態j-1から状態jへの遷移に重み付けを行
う。図ではm=2回になっており、この場合は状態j-1
から状態jへの遷移についてm=2回に対応した重み付
けを行う。
【0024】
【数2】
【0025】(数2)において、αは状態間遷移の継続
時間制御の重み付け係数である。ただし、状態j-1の自
己遷移回数mが継続時間の最大値よりも大きい時はPj-
1(m)=1として確率の重み付けは行わない。
【0026】次ぎに、音声認識時の処理内容について、
図9のフローチャートに基づき説明する。
【0027】step(1)では、ユーザーが発声した
登録単語音声を音声入力部より取り込み、デジタル信号
に変換する。step(2)では、入力された音声信号
をフレーム分割し、各フレームの音声特徴量(音声パワ
ーやケプストラム係数など)を算出する。step
(3)では、入力音声の音声特徴量の時系列を全てのH
MMに与え、ビタビアルゴリズムによるトレリス計算を
HMMの先頭の状態から開始する。
【0028】step(4)では、トレリス上で計算対
象とする状態jの一つ前の状態j-1が過去に連続して自
己遷移した回数mを記憶しておき、その回数mを用いて
状態j-1から状態jへの遷移に重み付けをする。ただ
し、状態j-1の自己遷移回数mが継続時間の最大値より
も大きい時は確率の重み付けは行わない。
【0029】step(5)では、トレリス計算がHM
Mの最終状態に達するまでstep(4)を繰り返す。
【0030】step(6)では、HMMの最終状態に
おける累積尤度をその単語の尤度とし、認識結果判定部
で全ての単語の尤度を比較し、最も尤度が高い標準パタ
ーンのラベル番号を認識結果として出力する。
【0031】図5は音声認識を具体的に説明するもので
あり、入力された音声[ま][つ][し]・・・・ は半区
間ずつ重複されたフレームで切り出される。これらフレ
ームを時間順にt=1,t=2,t=3 ・・・・ とする。こ
の音声が図6に示すようにマッチングしたものとする。
ここではt=1で状態1から状態2へ遷移し、t=2,3
で状態2を継続し、t=4で状態2から状態3へ遷移
し、t=5,6で状態3を継続し、t=7で状態3から状
態4へ遷移している。
【0032】この例でのトレリス図は図7(a)に示す
ようになる。トレリス図では、1つの状態に移って来る
矢印は図7(b)に示すように2通りのみでaまたはb
の何れかであり、aまたはbのうちで確立の大きい方を
取る。本発明では、モデルの元データすなわちモデルに
おいて前の状態が継続した時間mに最も近い場合が最大
確率となるように重み付けされているので、例えば図8
に示すように元データが2回継続(m=2)ならば、
(イ)や(ハ)の場合はbの遷移が選択される確率が高
くなり、(ロ)の場合はaの遷移が選択される確率が高
くなる。このように重み付けがなされるので、状態の継
続時間がモデルの元データに近付くようになる。
【0033】以上、本発明の継続時間制御方法により、
状態jの継続時間mはP'j(m)と同じ分布に従うよう
強制的に制御される。この方式では、トレリス上の尤度
の計算回数が継続時間の最大値に関係なく通常のビタビ
アルゴリズムと同一になるため、計算量の増加が少ない
(2倍以下)。また、理論的に最大値をこえる回数の継
続時間にも対応できる。
【0034】(実施の形態2)請求項2では、前状態j-
1からの遷移に加えて、状態jの自己遷移についても重
み付けを行う。状態jが過去に連続して自己遷移した回
数nを記憶しておき、その回数nを用いて(数3)に示
すように状態jの自己遷移に重みを加える。図ではn=
3回になっている。
【0035】
【数3】
【0036】(数3)において、βは自己遷移の継続時
間制御の重み付け係数である。ただし、状態jの自己遷
移回数nが継続時間の最大値よりも大きい時はPj
(n)=1として計算し、確率の重み付けは行わない。
【0037】請求項2の実施の形態では、前実施の形態
1のstep(4)において上記の処理に加えて以下の
処理を行う。
【0038】step(4)では、前状態からの遷移と
同様に状態jの自己遷移についても、状態jが過去に連
続して自己遷移した回数nを記憶しておき、その回数n
を用いて状態jの自己遷移に重み付けをする。ただし、
状態jの自己遷移回数mが継続時間の最大値よりも大き
い時はPj(m)=1として計算する。これにより、継
続時間の制御をより精密に行うことができる。
【0039】以上、本発明の継続時間制御方法により、
状態jの継続時間mはP'j(m)と同じ分布に従うよう
強制的に制御される。この方式では、トレリス上の尤度
の計算回数が継続時間の最大値に関係なく通常のビタビ
アルゴリズムと同一になるため、計算量の増加が少ない
(2倍以下)。また、理論的に最大値をこえる回数の継
続時間にも対応できる。
【0040】また、請求項2の方法では請求項1よりも
計算量が若干多くなるが、より精密な継続時間制御を行
うことができる。
【0041】
【発明の効果】以上のように本発明により、状態jの継
続時間mはトレーニングデータによる状態jの継続時間
の分布P'j(m)と同じ分布に従うよう強制的に制御さ
れる。この方式では、トレリス上の尤度の計算回数が継
続時間の最大値に関係なく、通常のビタビアルゴリズム
と同一の回数になるため、少ない計算量の増加でHMM
継続時間の制御を行うことができる。そして本発明を実
時間動作の音声認識システムに適用することにより、そ
の認識性能を向上させることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態における音声認識装置の構
成ブロック図
【図2】同音声認識装置の回路ブロック図
【図3】同音声認識装置のトレリス計算の一例を示す図
【図4】同音声認識装置の標準パターンの登録時の動作
を示すフローチャート
【図5】同音声認識装置の音声認識を具体的に説明する
ための説明図
【図6】同音声認識装置の音声認識を具体的に説明する
ための説明図
【図7】同音声認識装置の音声認識に用いるトレリス計
算の一例を示す図
【図8】同音声認識装置の音声認識における重み付けを
説明するための説明図
【図9】同音声認識装置の音声認識時の動作を示すフロ
ーチャート
【符号の説明】
1 音声信号入力部 2 特徴抽出部 3 HMM標準データ格納部 4 尤度計算部 5 継続時間制御部 6 認識結果判定部 7 マイク 8 CPU 9 ROM 10 RAM 11 出力装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】音声信号を入力し、デジタル値に変換する
    音声信号入力部と、音声信号をフレーム分割し、各フレ
    ームの音声特徴量を算出する特徴抽出部と、登録済み単
    語音声のHMMを格納する標準データ格納部と、入力信
    号の特徴量の時系列に対する各HMMの出力尤度を計算
    する尤度計算部と、上記尤度計算においてトレリス上で
    計算対象とする状態jの一つ前の状態j-1が過去に連続
    して自己遷移した回数mを記憶しておき、その回数mを
    用いて状態j-1から状態jへの遷移に学習データの継続
    時間分布で重み付けを行う継続時間制御部と、上記尤度
    計算部と継続時間制御部により得られる出力尤度を用い
    て認識結果の判定を行う認識結果判定部とを備えること
    を特徴とする音声認識装置。
  2. 【請求項2】継続時間制御部において、前状態j-1から
    の遷移に加えて、状態jの自己遷移についても過去に継
    続した回数nを記憶しておき、その回数nを用いて状態
    jの自己遷移に学習データの継続時間分布で重み付けを
    行うことを特徴とする請求項1記載の音声認識装置。
JP29830296A 1996-11-11 1996-11-11 音声認識装置 Pending JPH10143190A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29830296A JPH10143190A (ja) 1996-11-11 1996-11-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29830296A JPH10143190A (ja) 1996-11-11 1996-11-11 音声認識装置

Publications (1)

Publication Number Publication Date
JPH10143190A true JPH10143190A (ja) 1998-05-29

Family

ID=17857894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29830296A Pending JPH10143190A (ja) 1996-11-11 1996-11-11 音声認識装置

Country Status (1)

Country Link
JP (1) JPH10143190A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484514B2 (en) 2009-05-15 2013-07-09 Nec Corporation Fault cause estimating system, fault cause estimating method, and fault cause estimating program
CN105700389A (zh) * 2014-11-27 2016-06-22 青岛海尔智能技术研发有限公司 一种智能家庭自然语言控制方法
JP2018163313A (ja) * 2017-03-27 2018-10-18 カシオ計算機株式会社 音声認識装置、音声認識方法、プログラム及びロボット

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484514B2 (en) 2009-05-15 2013-07-09 Nec Corporation Fault cause estimating system, fault cause estimating method, and fault cause estimating program
CN105700389A (zh) * 2014-11-27 2016-06-22 青岛海尔智能技术研发有限公司 一种智能家庭自然语言控制方法
JP2018163313A (ja) * 2017-03-27 2018-10-18 カシオ計算機株式会社 音声認識装置、音声認識方法、プログラム及びロボット
US10540972B2 (en) 2017-03-27 2020-01-21 Casio Computer Co., Ltd. Speech recognition device, speech recognition method, non-transitory recording medium, and robot

Similar Documents

Publication Publication Date Title
US8019602B2 (en) Automatic speech recognition learning using user corrections
JPH08110791A (ja) 音声認識方法
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JPH09230888A (ja) パターンマッチング方法及び装置
EP1376537B1 (en) Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
JP2002215187A (ja) 音声認識方法及びその装置
JPH10143190A (ja) 音声認識装置
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JPH11311994A (ja) 情報処理装置および方法、並びに提供媒体
EP1369847B1 (en) Speech recognition method and system
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP3400474B2 (ja) 音声認識装置および音声認識方法
JP3583930B2 (ja) 音声認識装置及びその方法
JP3316352B2 (ja) 音声認識方法
JP3841342B2 (ja) 音声認識装置および音声認識プログラム
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPH1097270A (ja) 音声認識装置
JP2000267691A (ja) 音声認識システムにおける認識辞書選択方法
JP2001228890A (ja) 音声認識装置
JPH08110797A (ja) パターンマッチング装置
JPH1011085A (ja) 音声認識方法
JPH05241594A (ja) 音声認識方法
JPH07261780A (ja) 発声変形音声認識装置