JPH117293A - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置

Info

Publication number
JPH117293A
JPH117293A JP9159568A JP15956897A JPH117293A JP H117293 A JPH117293 A JP H117293A JP 9159568 A JP9159568 A JP 9159568A JP 15956897 A JP15956897 A JP 15956897A JP H117293 A JPH117293 A JP H117293A
Authority
JP
Japan
Prior art keywords
state
transition
likelihood
cluster
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9159568A
Other languages
English (en)
Other versions
JP3644797B2 (ja
Inventor
Masaaki Date
正晃 伊達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP15956897A priority Critical patent/JP3644797B2/ja
Publication of JPH117293A publication Critical patent/JPH117293A/ja
Application granted granted Critical
Publication of JP3644797B2 publication Critical patent/JP3644797B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 処理量を増加させることなく、リジェクト精
度を向上させる。 【解決手段】 HMMネットワークでなる音響モデルを
利用して音声認識を行う音声認識方法及び装置に関す
る。HMMネットワークの任意の状態間の状態遷移の起
こりやすさを表す状態遷移制約情報をあらかじめ作成し
て格納しておく。認識処理により得られた局所ゆう度と
格納されている状態遷移制約情報とに基づいて、入力音
声データの各フレーム毎に、上記局所ゆう度と上記状態
遷移制約情報の加重和を最大化するHMMネットワーク
の状態を求め、この状態に対する局所ゆう度あるいは加
重和を全フレームにわたって累積加算することによっ
て、参照ゆう度を算出する。認識処理により得られた認
識ゆう度と、上記参照ゆう度の比較により、入力音声デ
ータの棄却判定を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識方法及び
音声認識装置に関し、特に、HMM(隠れマルコフモデ
ル;Hidden Markov Model)ネット
ワークを音声認識に利用しているものに適用して好適な
ものである。
【0002】
【従来の技術】
文献1:渡辺他,”音節認識を用いたゆう度補正による
未知発話のリジェクション”,電子情報通信学会論文
誌,Vo1.J75−D−II,No.12(1992) 文献2:大河内,”Hidden Markov Mo
de1に基づいた音声認識”,日本音響学会誌42巻1
2号(1986) 音声認識装置では高い認識精度とリアルタイム処理を実
現するため、あらかじめ装置が受理できる単語や文法規
則等を規定することによって、認識対象を制約して認識
処理を行う。しかし、利用者が実際に装置を使用する場
合は、認識対象外の発話や言い誤り、言い直しといった
ことは避けられない。そこで、ある発話に対する認識結
果の信頼性が低い場合に発話を棄却するリジェクト機能
が必要になる。リジェクト機能を付加するための方法と
して、従来、上記文献1に開示される方法がある。
【0003】この方法では、音声を表現するモデル(一
般に、音響モデルとよばれる)として、音素や音節など
のサブワード単位のHMMを用いることを前提としてい
る。HMMを用いた音声認識方法の詳細については、上
記文献2に開示されている。サブワードモデルを連結す
ることによって、認識対象として規定された単語や文な
どの発話内容の仮説に対するモデルを構成し、各仮説に
対するモデルが入力音声データを生成する確率(ゆう
度)を計算する。最大ゆう度を与えるモデルに対応する
仮説を認識結果とする。
【0004】これにリジェクト機能を付加するために
は、以上のような認識対象を制約して行うゆう度計算
(認識処理)の他に、入力音声を任意の音素列あるいは
音節列として認識するためのゆう度計算を行う。それぞ
れのゆう度計算の結果得られた最大ゆう度の差を求め、
閾値判定により入力発話のリジェクト判定を行う。
【0005】
【発明が解決しようとする課題】しかしながら、以上述
べた従来の音声認識方法及び装置におけるリジェクト方
法は、以下の問題がある。
【0006】(a)トライフォンモデル等のコンテキス
ト依存音素モデルは、音素コンテキストに依存した異音
を表現でき、比較的高い認識精度が得られるため音響モ
デルとしてよく用いられる。しかし、音響モデルとし
て、トライフォンモデル等のコンテキスト依存音素(あ
るいは音節)モデルを用いる場合は、リジェクト機能を
付加すると、処理量が大幅に増加し、音声認識装置に求
められているリアルタイム処理が困難になる恐れがあ
る。
【0007】(b)音響モデルとして、音素や音節など
のサブワード単位のモデルを用いない場合(例えば、単
語や文節などの単位を用いる場合)、上述した従来のリ
ジェクト方法は適用できない。
【0008】(c)入力音声を任意の音素列あるいは音
節列として認識するので、非言語音や環境音に対して、
十分なリジェクト精度を期待することができない。すな
わち、認識対象外発話のリジェクト精度は、まだ十分と
いえるレベルではない。
【0009】
【課題を解決するための手段】かかる課題を解決するた
め、第1の本発明は、隠れマルコフモデルネットワーク
でなる音響モデルを利用して音声認識を行う音声認識方
法において、(1)音響モデルを構成する隠れマルコフ
モデルネットワークの任意の状態間の状態遷移の起こり
やすさを表す状態遷移制約情報をあらかじめ作成して、
格納しておき、(2)認識処理により得られた局所ゆう
度と格納されている状態遷移制約情報とに基づいて、入
力音声データの各フレーム毎に、上記局所ゆう度と上記
状態遷移制約情報の加重和を最大化する隠れマルコフモ
デルネットワークの状態を求め、この状態に対する局所
ゆう度あるいは上記加重和を全フレームにわたって累積
加算することによって、参照ゆう度を算出し、(3)認
識処理により得られた認識ゆう度と、上記参照ゆう度の
比較により、入力音声データの棄却判定を行うことを特
徴とする。
【0010】また、第2の本発明は、隠れマルコフモデ
ルネットワークでなる音響モデルを利用して音声認識を
行う音声認識装置において、(1)あらかじめ作成され
た、音響モデルを構成する隠れマルコフモデルネットワ
ークの任意の状態間の状態遷移の起こりやすさを表す状
態遷移制約情報を格納している状態遷移制約情報格納手
段と、(2)入力音声データに対する認識結果を算出す
る認識処理手段と、(3)認識処理により得られた局所
ゆう度と格納されている状態遷移制約情報とに基づい
て、入力音声データの各フレーム毎に、上記局所ゆう度
と上記状態遷移制約情報の加重和を最大化する隠れマル
コフモデルネットワークの状態を求め、この状態に対す
る局所ゆう度あるいは上記加重和を全フレームにわたっ
て累積加算することによって、参照ゆう度を算出する参
照ゆう度算出手段と、(4)認識処理により得られた認
識ゆう度と、上記参照ゆう度の比較により、入力音声デ
ータの棄却判定を行うリジェクト判定手段とを有するこ
とを特徴とする。
【0011】
【発明の実施の形態】
(A)第1の実施形態 以下、本発明による音声認識方法及び装置の第1の実施
形態を図面を参照しながら詳述する。
【0012】ここで、図1は、この第1の実施形態の音
声認識装置の全体構成を示すブロック図である。
【0013】まず、この第1の実施形態の音声認識装置
の全体構成をその概略動作と共に説明する。
【0014】図1において、第1の実施形態の音声認識
装置は、音声分析部10、音響モデル(格納部)11、
言語モデル(格納部)12、認識処理部13、参照ゆう
度算出部14、参照テーブル15及びリジェクト判定部
16からなっている。
【0015】入力音声データD10は、マイクロフォン
などから入力された音声信号(アナログ信号)をディジ
タル信号に変換した信号である。音声分析部10におい
て、入力音声データD10は音響特徴パラメータ時系列
D11に変換され、認識処理部13に入力される。認識
処理部13では、音響モデル11及び言語モデル12を
用いて、入力音声データD10に対する認識結果候補D
12及び認識ゆう度D13を求め、リジェクト判定部1
6に出力する。また、参照ゆう度算出部14では、認識
処理部13で算出された局所ゆう度D14と、参照テー
ブル15に格納されている状態遷移制約情報D15とを
用いて、参照ゆう度D16を算出する。リジェクト判定
部16では、認識ゆう度D13と参照ゆう度D16を用
いてリジェクト判定を行い、認識結果(場合によっては
リジェクトという認識結果)D17を出力する。
【0016】次に、図1に示した音声認識装置を構成し
ている各部の機能及び動作について、詳細に説明する。
【0017】(A−1)音声分析部10 音声分析部10は、LPC(Linear Predi
ctive Coding)分析等の分析手法を用い
て、入力音声データD10を数ms〜数十ms程度の短
時間周期(以後、フレームと呼ぶ)毎に音響特徴パラメ
ータに変換する。ここで、音響特徴パラメータとは、音
声データのスペクトル包絡情報を表現するパラメータで
あり、例えば、ケプストラム(対数スペクトルを逆フー
リエ変換した量)やその時間変化量などである。フレー
ム単位に得られる音響特徴パラメータを音響特徴パラメ
ータ時系列D11とする。
【0018】(A−2)音響モデル11 音響モデル11は、音声を表現するHMMの集合であ
る。この第1の実施形態では、音響モデル11の言語的
な単位として、音声の任意の構成要素(音素、音節、単
語、文節など)を採用することが可能である。また、音
素や音節などのサブワードを単語として採用した場合、
コンテキスト独立/依存のどちらのモデルでも使用する
ことができる。つまり、リジェクト機能を付加するため
に使用する音響モデルが制限されることはない。
【0019】以下の第1の実施形態の説明においては、
例として、トライフォンモデルを使用する場合について
説明する。トライフォンモデルは、コンテキスト依存音
素モデルで、各々の音素に対して、前後の音素コンテス
ト別に異なるモデルを用意するものである。
【0020】(A−3)言語モデル12 言語モデル12は、音声認識装置が受理可能な単語や文
法規則(構成)等を規定して、認識対象を制約するモデ
ルである。例えば、図2に示すように、有限状態オート
マトンを用いて、受理可能な単語系列を構文ネットワー
クの形で記述したものである。
【0021】(A−4)認識処理部13 認識処理部13は、音声が音声認識装置に入力される
(認識処理を開始する)以前に、音響モデル11及び言
語モデル12を用いて受理可能な発話内容の仮説を表現
するHMMネットワークをあらかじめ構成しておく。
【0022】ここで、HMMネットワークとは、単語の
音素表記や文法規則等の制約に従ってトライフォンモデ
ルを連結して作成する文字通りHMMのネットワークで
ある。例えば、図2に示したような構文ネットワークに
おいて、単語の部分を、トライフォンモデルの連結によ
って作成した単語モデル(HMM)に置き換えたもので
ある。このようなネットワークを構成することによって
認識処理を効率化することができる。各々の発話内容に
仮説に対応するモデルは、HMMネットワークの一部と
して表現される。
【0023】認識処理部13は、装置に発話が入力され
ると、HMMネットワークを用いて対応するモデルが音
響特徴パラメータ時系列D11を生成する確率(ゆう
度)を計算する。認識処理部13は、HMMネットワー
ク中で最大ゆう度を与える仮説を探索し、その仮説を認
識結果候補D12とし、また、このときの最大ゆう度を
対数化した最大対数ゆう度を、認識ゆう度D13とす
る。
【0024】ここで、認識処理部13は、各仮説に対す
るゆう度計算は、音響特徴パラメータ時系列D11のフ
レームに同期して並列に行う。認識処理部13は、各フ
レームについては、HMMネットワークの各状態に対す
る出力確率分布計算(当該フレームの音響特徴パラメー
タを出力する確率の計算)を行い、これを対数化して局
所ゆう度14とする。
【0025】認識処理部13は、認識ゆう度D13を、
局所ゆう度D14とHMMネットワークの状態遷移確率
を用いて、前述した文献2に開示されるビタビ(Vit
erbi)アルゴリズム等の手段により算出する。
【0026】(A−5)参照テーブル15 参照テーブル15は、参照ゆう度算出部14で用いる状
態遷移制約情報D15を格納しているテーブルである。
状態遷移制約情報D15は、あらかじめ音響モデル11
を用いて作成される。図示しない参照テーブル作成部が
行う状態遷移制約情報D15の作成方法は、以下の通り
である。
【0027】[step1]参照テーブル作成部は、ま
ず、音響モデル11を構成する全てのトライフォンモデ
ルを用いて、HMMネットワークの状態に対するクラス
タリングを行う。
【0028】クラスタリングにより生成される各クラス
タを、以後、状態クラスタと呼ぶ。クラスタリングにお
ける距離尺度は、各状態を表現するパラメータを用いて
定義する。例えば、各状態の出力確率分布が多次元正規
分布で表されている場合には、多次元正規分布の平均ベ
クトル(あるいは、さらに分散ベクトルを付加したベク
トル)を用いて、例えば、以下のように定義すればよ
い。
【0029】2つの平均ベクトル(あるいは、さらに分
散ベクトルを付加したベクトル) x=[a1,a2,…,an] y=[b1,b2,…,bn] に対する、距離尺度Dを、 D=(a1−b1)2 +(a2−b2)2 +…+(an
−bn)2 で定義する。
【0030】クラスタリング方法には、LBGアルゴリ
ズム等の一般的なクラスタリングアルゴリズムを用いる
ことができるが、ここでは、より簡易な方法を、一例と
して以下に示す。
【0031】M個のサンプル集合X={x1,x2,・
・・,xM}をクラスタリングする場合を考える。ま
た、閾値Thが与えられているとする。
【0032】まず、任意に1個のサンプル、例えばx1
を取り出し、これをクラスタ中心z1(=x1)とす
る。
【0033】次に、他のサンプルxk(k=2,…,
M)を取り出し、既に定められたクラスタ中心z1と今
回取り出したサンプルxkとの距離D1kを計算する。
そして、D1k≦Thであれば、サンプルxkはクラス
タ中心z1を中心とするクラスタに属すると判定する。
一方、D1k>Thであれば、サンプルxkを新たなク
ラスタ中心z2とする。
【0034】また次に、残りのサンプルxkの1個を取
り出し、既に定められたクラスタ中心z1,z2との距
離D1k,D2kを計算して、距離D1k,D2kのい
ずれかが閾値Thより小さければ、今回取り出したサン
プルxkはそのクラスタに属するものとし、そうでなけ
れば、今回取り出したサンプルxkを新たなクラスタ中
心z3とする。
【0035】以上の操作を全てのサンプル{x1,x
2,・・・,xM}に対して行うことによって、クラス
タリングを終了する。ここで、閾値Thの値は、例えば
実験的に決定する。
【0036】[step2]図示しない参照テーブル作
成部は、次に、状態クラスタ間の遷移確率を算出する。
状態クラスタ間の遷移確率の算出は、例えば、以下のよ
うに行う。
【0037】まず、状態クラスタ間の遷移確率を定義す
る。それぞれの状態クラスタに属する各状態は、トライ
フォンモデル上では他の状態に接続させている。例え
ば、図3に示すように、状態S1 は状態S2 に、状態S
2 は状態S3 にそれぞれ接続されている。また、トライ
フォンモデルの終端状態S3 は、次に続き得るトランフ
ォンモデルの始端状態S4 ,S5 ,S6 に接続されてい
る。一般に、あるトライフォンモデルに対して、次に続
き得るトランフォンモデルは複数存在するので、トライ
フォンモデルの終端状態は複数に接続されている。状態
の接続関係には向き(図3では矢印)はあり、向きは一
方の状態から他方の状態への遷移方向を表している。こ
のときの遷移の起こりやすさとして、状態遷移確率が付
与されている。また、各状態には自己ループ遷移を表す
接続も存在する。このようなトランフォンモデル上での
状態の遷移接続を、状態クラスタに属する各状態に対し
て適用する。そうすると、任意の状態クラスタ間に、構
成要素の状態が作る遷移接続の束ができる。図4はこの
様子を示した例である。図4において、状態クラスタ1
に属する状態S1 は、状態クラスタ2 に属する状態S2
に接続されており、トランフォンモデルにおいて、状態
1 から状態S2 への遷移接続(状態遷移確率a12)が
存在することを意味する。図4では状態クラスタ1に属
する状態から、他の状態クラスタに属する状態への遷移
接続だけを示した(一部、状態クラスタ1の内部におけ
る遷移接続も示した)。状態クラスタ間で同一の遷移方
向を持つ遷移接続を束ねたものが”遷移接続の束”であ
る。
【0038】この遷移接続の束を用いて状態クラスタ間
の遷移確率を、次の(1)式〜(3)式により定義す
る。
【0039】
【数1】 ij:状態クラスタhから状態クラスタiへの遷移確率 N:状態クラスタの総数 M:状態の総数 auv:状態Su から状態Sv への状態遷移確率 auu:状態Su の自己ループ遷移確率 ri :ともに状態クラスタiに属する異なる状態間にお
ける遷移接続の個数(自己ループ遷移接続は対象外) zi :状態クラスタiから他の状態クラスタへの”遷移
接続の束”の個数 qu :ある状態クラスタに属する状態Su から他の状態
クラスタに属する状態への遷移接続の個数 上式において、fij(i≠j)は、状態クラスタiから
状態クラスタjへの遷移接続の束に対する状態遷移確率
の総和を表している。ただし、遷移接続が存在しない状
態クラスタ間においてはfij=0である。また、f
iiは、状態クラスタiの内部における遷移接続に対する
状態遷移確率の総和を、状態クラスタiから他の状態ク
ラスタへの”遷移接続の束”の個数で割った値を表して
いる。
【0040】以上、説明した定義式を用いて状態クラス
タ間の遷移確率Pijを算出する。算出した状態クラスタ
間の遷移確率Pijは、対数化して重み係数(定数)W
を乗じる。重み係数Wについては、後述する参照ゆう度
算出部14の説明において説明する。このようにして得
られた値W・log Pijに、トランフォンモデルの各
状態がどの状態クラスタに属するかを示すヘッダ情報を
付加して状態遷移制約情報D15とする。
【0041】(A−6)参照ゆう度算出部14 参照ゆう度算出部14では、下記の(4)式、(5)式
に従って参照ゆう度D16(=LG )を算出する。
【0042】
【数2】 G :参照ゆう度D16 T:フレーム総数 W:状態遷移制約情報に対する重み係数 v:任意の状態番号 Pij:状態クラスタhから状態クラスタiへの遷移確率 i,j:任意の状態クラスタ番号 Vt :認識処理部13において、フレーム番号tに出力
確率分布計算を行う状態全体の集合 bv (Xt ):状態vにおける音響特徴パラメータXt
の出力確率(密度) Xt :フレーム番号tにおける音響特徴パラメータ INH:状態クラスタ間の遷移確率を対数化した値の下
限値 この参照ゆう度D16(=LG )の計算に必要なlog
v (Xt )は認識処理部13から参照ゆう度算出部
13に局所ゆう度D14として与えられ、また、W・l
og c(s(t−1),v)は参照テーブル15から
参照ゆう度算出部13に状態遷移制約情報D15として
与えられる。このような情報が与えられているため、参
照ゆう度算出部14で行う演算は、(4)式及び(5)
式から明らかなように、加算と大小比較((5)式にお
ける最大値探索の場合には大小比較を行う)のみであ
る。
【0043】(4)式で求まる参照ゆう度LG は、任意
の発話を表現するモデルに対する累積対数ゆう度を表し
ている。また、参照ゆう度LG を決定する各要素L
g (t)は、任意の発話内容を表現するモデルに対する
各フレームにおける局所的な対数ゆう度を表している。
【0044】次に、Lg (t)を定義する(5)式にお
けるlog c(s(t−1),v)の働きについて説
明する。s(t−1)は、フレーム番号(t−1)にお
いて、(5)式における最大値を与える状態番号であ
る。log c(s(t−1),v)は、状態番号s
(t−1)が何であるのかによって、次フレーム番号t
において、(5)式における最大値を与える状態番号s
(t)の候補を制約する。すなわち、状態番号s(t−
1)の状態から状態番号vの状態への遷移の起こりやす
さを、制約として用いている。この状態遷移制約によっ
て、トランフォンモデルが有する音声の時間構造を考慮
した参照ゆう度の算出を可能にしている。
【0045】また、(5)式において状態遷移制約情報
に対する重み係数Wは、log c(s(t−1),
v)とlog bv (Xt )のLg (t)に寄与する割
合を調節するためのパラメータ(定数)であり、c(s
(t−1),v)が0のときに、その対数値として置き
換えられる定数INHは、状態クラスタ間の遷移確率を
対数化した値の下限値を設定するためのパラメータ(定
数)である。これらの値はともに、例えば、実験的に決
定される。定数INHは、状態クラスタ別に異なる値を
設定することも可能である。
【0046】(A−7)リジェクト判定部16 リジェクト判定部16は、次の(6)式により、認識ゆ
う度LR と参照ゆう度LG との差をフレーム総数で正規
化した値LM を求め、この値LM を閾値θと比較して入
力音声データD10のリジェクト判定を行う。なお、
(6)式における認識ゆう度LR (=D13)は、認識
処理部13から与えられ、参照ゆう度LG(=D16)
は、参照ゆう度算出部14から与えられる。
【0047】
【数3】 R :認識ゆう度D13 LG :参照ゆう度D16 T:フレーム総数 θ:リジェクト判定の閾値 (6)式において、リジェクト判定の閾値θは、例えば
実験的に決定される。閾値θの値によって、入力が認識
対象である場合の認識率と、認識対象外である場合のリ
ジェクト率が変化する。一般に、両者にはトレードオフ
の関係にあるので、所望の性能に合わせて閾値θの値を
決定する。
【0048】リジェクト判定部16は、値LM が閾値θ
より大きければ、入力がリジェクトされたことを表す情
報を認識結果D17として出力し、一方、値LM が閾値
θ以下であれば、認識処理部13から与えられた認識結
果候補D12を認識結果D17として出力する。
【0049】以上のように、第1の実施形態の音声認識
方法及び装置によれば、入力発話のジェクト判定に用い
る参照ゆう度D16を、認識ゆう度D13の算出過程で
得られる局所ゆう度D14と、あらかじめ作成した状態
遷移制約情報D15とに基づいて算出しているので、参
照ゆう度D16の算出に要する演算は加算と大小比較だ
けになり、リジェクト機能の付加による処理量の増加を
きわめて小さくすることができる。
【0050】また、第1の実施形態の音声認識方法及び
装置によれば、参照ゆう度D16を、音響モデル11が
有する音声の時間構造を考慮しつつ、種々の音響的事象
に対処可能な定式化を行って算出しているため、音素あ
るいは音節認識を用いる方法(従来法)と同等のリジェ
クト精度を得ることができる。
【0051】すなわち、認識対象外の発話(認識対象語
以外の語、あるいは文法外の発話)が装置に入力された
場合に、認識のための処理量をほとんど増加されること
なく、効果的に入力を棄却することが可能になる。ま
た、せき、くしゃみなどの非言語音、あるいはベルなど
の環境音が入力された場合には、音素あるいは音節認識
を用いる方法よりも高いリジェクト精度を期待すること
ができる。
【0052】上述した効果の特徴を整理すると、以下の
通りである。
【0053】(a)音響モデルとして、音素や音節など
のサブワードに対するコンテキスト依存モデルを用いて
も、リジェクト機能の付加による処理量の増加はほどん
どない。
【0054】(b)音響モデルとして、いかなる言語的
単位(音素、音節、単語、文節など)のモデルを用いて
も、リジェクト機能を付加することが可能である。
【0055】(c)認識対象外発話の入力に対して音素
あるいは音節認識を用いる方法(従来法)と同等のリジ
ェクト精度を得ることができる。また、非言語音や環境
音の入力に対しては従来法より高いリジェクト精度を得
ることができる。
【0056】(B)第2の実施形態 次に、本発明による音声認識方法及び装置の第2の実施
形態を図面を参照しながら詳述する。
【0057】ここで、この第2の実施形態の音声認識装
置の全体構成をブロック図で示すと、第1の実施形態と
同様に図1で表され、以下の説明においては、図1での
符号を用いて行う。また、全体としての概略動作も、第
1の実施形態と同様である。すなわち、音声分析部10
において、入力音声データD10は音響特徴パラメータ
時系列D11に変換され、認識処理部13に入力され、
認識処理部13において、音響モデル11及び言語モデ
ル12を用いて、入力音声データD10に対する認識結
果候補D12及び認識ゆう度D13が求められ、リジェ
クト判定部16に出力される。一方、参照ゆう度算出部
14において、認識処理部13で算出された局所ゆう度
D14と、参照テーブル15に格納されている状態遷移
制約情報D15とを用いて、参照ゆう度D16が算出さ
れてリジェクト判定部16に与えられ、リジェクト判定
部16において、認識ゆう度D13と参照ゆう度D16
を用いてリジェクト判定を行い、認識結果(場合によっ
てはリジェクトという認識結果)D17が出力される。
【0058】しかしながら、第2の実施形態において
は、参照テーブル15に格納されている状態遷移制約情
報D15が、第1の実施形態のものと異なっている。こ
れに関連して、参照ゆう度算出部14における参照ゆう
度D16の算出方法が、第1の実施形態とは異なってい
る。
【0059】そこで、第2の実施形態については、参照
テーブル15及び参照ゆう度算出部14についてのみ、
詳細な機能、動作説明を行い、第1の実施形態と同様な
機能、動作を行う音声分析部10、音響モデル(格納
部)11、言語モデル(格納部)12、認識処理部13
及びリジェクト判定部16については、詳細な機能、動
作説明は省略する。
【0060】(B−1)参照テーブル15 参照テーブル15は、参照ゆう度算出部14で用いる状
態遷移制約情報D15を格納しているテーブルであり、
図示しない参照テーブル作成部が、あらかじめ音響モデ
ル11を用いて作成した状態遷移制約情報D15を格納
している点は、第1の実施形態と同様である。
【0061】しかし、図示しない参照テーブル作成部が
行う状態遷移制約情報D15の作成方法が、第1の実施
形態と異なっており、以下、第2の実施形態における作
成方法を説明する。
【0062】[step1]音響モデル11を構成する
すべてのトライフォンモデルを用いて、HMMの状態に
対するクラスタリングを行う。このstep1の処理
は、第1の実施形態と同様である。
【0063】[step2]HMMネットワークの状態
に対するクラスタリングが終了すると、状態クラスタ間
の遷移確率を、以下のようにして算出する。クラスタリ
ングによって得られた状態クラスタ間の遷移接続の様子
は、上述した第1の実施形態の説明で用いた図4で表す
ことができる。しかし、後述する処理のイメージが理解
しやすいように、ここでは、図5も併せて示しておく。
【0064】この第2の実施形態においては、図5及び
図4に示すような状態クラスタ間の遷移接続に基づい
て、次の(7)式〜(9)式に示す定義式に従い、状態
クラスタ間の遷移確率を定義する。
【0065】
【数4】 P(i,j|h):状態クラスタhから状態クラスタi
への遷移が起こったという条件の下で、状態クラスタi
から状態クラスタjへの遷移が起こる条件付き確率 A(h):状態クラスタhに属する状態に対する遷移接
続先の状態全体の集合 a(u,v):状態Su から状態Sv への状態遷移確率 a(u,u):状態Su の自己ループ遷移確率 q(u):ある状態クラスタに属する状態Su から、他
の状態クラスタに属する状態への遷移接続の個数 e(u):ある状態クラスタに属する状態Su から、同
一の状態クラスタに属する他の状態への遷移接続の個数 z(i):状態クラスタiに属する状態に対する遷移接
続先の状態を要素とする状態クラスタの個数 N:状態クラスタの総数 M:状態の総数 ただし、i≠hを満足する状態クラスタ番号hが存在し
ない場合には、(7)式における条件付き確率P(i,
j|h)として、状態クラスタ間の遷移確率P(i,
j)そのものを適用する。状態クラスタ間の遷移確率P
(i,j)については、(10)式〜(12)式で定義
する。
【0066】
【数5】 状態クラスタ間の条件付き遷移確率P(i,j|h)
は、例えば、図5に示すように、状態クラスタhから状
態クラスタiへの遷移が起こったという条件の下で、そ
の後、状態クラスタiから状態クラスタjへの遷移が起
こる条件付き確率を表している。ただし、状態クラスタ
hから状態クラスタiへの遷移と、状態クラスタiから
状態クラスタjへの遷移は、必ずしも隣接するフレーム
で起こらなくてもよいものとして定式化している。
【0067】上式において、f(i、j|h)(i≠
j)は、状態クラスタiから状態クラスタjへの個々の
遷移接続に対する状態遷移確率に、状態クラスタhから
状態クラスタiへの遷移接続を考慮するための係数w
(u)を乗じたものの総和を表している。係数w(u)
の定数パラメータβは、P(i,j|h)に対する状態
クラスタhから状態クラスタiへの遷移接続が与える影
響を制御するためパラメータであり、値は例えば実験的
に決定される。また、f(i,i|h)は、状態クラス
タiの内部における遷移接続に対する状態遷移確率に係
数w(u)を乗じたものの総和を、状態クラスタiから
他の状態クラスタへの”遷移接続の束”の個数で割った
値を表している。f(i,k|h)のkについての総和
に対するf(i,j|h)の割合として、状態クラスタ
間の条件付き遷移確率P(i,j|h)を定義してい
る。
【0068】以上、説明した定義式を用いて状態クラス
タ間の条件付き遷移確率P(i,j|h)を算出する。
算出した状態クラスタ間の条件付き遷移確率P(i,j
|h)は、対数化して重み係数(定数)Wを乗じる。重
み係数Wについては後述する参照ゆう度算出部14の説
明で説明する。
【0069】このようにして得られたW・logP
(i,j|h)に、トランフォンモデルの各状態がどの
状態クラスタに属するかを示すヘッダ情報を付加して状
態遷移制約情報D15として参照ゆう度算出部14に与
える。
【0070】(B−2)参照ゆう度算出部14 参照ゆう度算出部14では、次の(13)式、(14)
式に従って、参照ゆう度D16を算出する。上述したよ
うに、参照ゆう度D16(=LG )の算出に必要なlo
g bV (Xt )は認識処理部13より局所ゆう度D1
4として与えられ、また、W・log c(u,v)は
参照テーブル15より状態遷移制約情報D15として与
えられる。
【0071】
【数6】 G :参照ゆう度D16 T:フレーム総数 W:状態遷移制約情報に対する重み係数 u:フレーム番号(t−1)において、(14)式の右
辺の最大値を与える状態番号 v:任意の状態番号 Vt :認識処理部13において、フレーム番号tに出力
確率分布計算を行う状態全体の集合 h:以下の条件(1)〜(3)を満足する状態クラスタ
番号 条件(1);フレーム番号t* <(t−2)において、
(14)式の右辺の最大値を与える状態が属する状態ク
ラスタである 条件(2);状態番号uの状態が属する状態クラスタi
以外である 条件(3);上記条件(1)及び(2)を満足する状態
クラスタの内、最大のフレーム番号t* に対する状態ク
ラスタである P(i,j|h):状態クラスタhから状態クラスタi
への遷移が起こったという条件の下で、状態クラスタi
から状態クラスタjへの遷移が起こる条件付き遷移確率 i,j:任意の状態クラスタ番号 bv (XT ):状態vにおける音響特徴パラメータXt
の出力確率(密度) Xt :フレーム番号tにおける音響特徴パラメータ INH:状態クラスタ間の遷移確率を対数化した値の下
限値 (13)式及び(14)式から明らかなように、参照ゆ
う度算出部14で行う参照ゆう度D16の算出演算は、
加算と大小比較のみである。また、この第2の実施形態
においても、(14)式において、状態遷移制約情報に
対する重み係数Wは、log c(u,v)とlog
v (Xt )のLg (t)に寄与する割合を調節するた
めのパラメータ(定数)であり、定数INHは状態クラ
スタ間の遷移確率を対数化した値の下限値を設定するた
めのパラメータ(定数)であり、ともに、その値は例え
ば実験的に決定される。定数INHは状態クラスタ別に
異なる値を設定することも可能である。
【0072】また、この第2の実施形態においても、参
照ゆう度LG は、任意の発話を表現するモデルに対する
累積対数ゆう度を表し、この構成要素である参照局所ゆ
う度Lg (t)は、任意の発話内容を表現するモデルに
対する各フレームにおける局所的な対数ゆう度を表す。
【0073】さらに、参照局所ゆう度Lg (t)を定義
する(14)式におけるlog c(u,v)の基本的
な働きも、第1の実施形態とほぼ同様であるが、状態ク
ラスタ間の遷移確率の定義式が異なるため、音声の時間
構造をより精緻に考慮することを可能にしている。すな
わち、フレーム番号(t−1)において、(14)式の
右辺の最大値を与える状態番号をuとすると、log
c(u,v)は状態番号uが何であるのかによって、さ
らに、フレーム番号(t−1)以前に、(14)式の右
辺の最大値を与える状態番号の履歴によって、次フレー
ム番号tにおいて(14)式の右辺の最大値を与えた状
態番号の候補を制約する。状態番号uの状態から状態番
号vの遷移の起こりやすさが、それ以前の履歴によって
変化し、これが最大値選択における制約として働く。こ
のような状態遷移制約によって、トランフォンモデルが
有する音声の時間構造を、数フレーム間にわたる確率的
構造として考慮した参照ゆう度LG (D16)の算出を
可能にしている。
【0074】以上のように、参照ゆう度LG (D16)
の算出方法は、第1の実施形態と僅かに異なっている
が、この参照ゆう度D16を用いたリジェクト判定の方
法は、第1の実施形態と同様である。
【0075】この第2の実施形態によっても、入力発話
のリジェクト判定に用いる参照ゆう度D16を、認識ゆ
う度D13の算出過程で得られる局所ゆう度D14と、
あらかじめ作成した状態遷移制約情報D15に基づいて
算出してリジェクト判定を行っているので、第1の実施
形態とほぼ同様な効果を奏することができ、詳細には、
以下の点が効果上異なっている。
【0076】ここで、第2の実施形態によれば、音響モ
デル11が有する音声の時間構造を、数フレーム間にわ
たる確率的構造(過去の履歴に対する条件付き確率)と
して考慮しつつ、種々の音響的事象に対処可能な定式化
を行って参照ゆう度D16を算出しているため、認識対
象外の発話に対して、より高いリジェクト精度を期待す
ることができ、音素あるいは音節認識を用いる方法(従
来法)と同等あるいはそれを越えるリジェクト精度を得
ることができる。
【0077】(C)他の実施形態 上記各実施形態においては、リジェクト判定部16から
リジェクト判定の場合には、その旨の情報だけを認識結
果として出力するものを示したが、認識処理部13から
の認識結果候補D12も併せて出力するようなものであ
っても良い。また、リジェクト判定に用いる閾値も複数
段階にし、リジェクト判定結果も複数の段階で特定する
ようにしても良い。さらに、リジェクト判定に用いる値
に、認識ゆう度と参照ゆう度との比を適用するようにし
ても良い。
【0078】また、参照テーブル15に格納する参照テ
ーブル作成部は、同一の装置内に設けられていても良
く、また、外部装置上に構成されているものであっても
良い。なお、音響モデル11を更新、変更できる音声認
識装置であれば、参照テーブル作成部を内蔵することを
要する。
【0079】
【発明の効果】以上のように、本発明の音声認識方法及
び装置によれば、入力発話のリジェクト判定に用いる参
照ゆう度を、認識ゆう度の算出過程で得られる局所ゆう
度と、あらかじめ作成した状態遷移制約情報とに基づい
て算出しているので、参照ゆう度の算出に要する演算は
加算と大小比較だけになり、リジェクト機能の付加によ
る処理量の増加をきわめて小さくすることができる。
【0080】また、本発明の音声認識方法及び装置によ
れば、参照ゆう度を、音響モデルが有する音声の時間構
造を考慮しつつ、種々の音響的事象に対処可能な定式化
を行って算出しているため、音素あるいは音節認識を用
いる方法(従来法)と同等あるいはそれを越えるのリジ
ェクト精度を得ることができる。
【図面の簡単な説明】
【図1】第1の実施形態の全体構成を示すブロック図で
ある。
【図2】第1の実施形態の言語モデルの構成例を示す説
明図である。
【図3】第1の実施形態の音響モデル(トライフォンモ
デル)の構成例を示す説明図である。
【図4】第1の実施形態の状態遷移制約情報の作成方法
の説明に用いた状態クラスタ間の遷移接続を示す図面で
ある。
【図5】第2の実施形態の状態遷移制約情報の作成方法
の説明に用いた状態クラスタ間の遷移接続を示す図面で
ある。
【符号の説明】
10…音声分析部、11…音響モデル、12…言語モデ
ル、13…認識処理部、14…参照ゆう度算出部、15
…参照テーブル(状態遷移制約情報格納手段)、リジェ
クト判定部。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 隠れマルコフモデルネットワークでなる
    音響モデルを利用して音声認識を行う音声認識方法にお
    いて、 音響モデルを構成する隠れマルコフモデルネットワーク
    の任意の状態間の状態遷移の起こりやすさを表す状態遷
    移制約情報をあらかじめ作成して、格納しておき、 認識処理により得られた局所ゆう度と格納されている状
    態遷移制約情報とに基づいて、入力音声データの各フレ
    ーム毎に、上記局所ゆう度と上記状態遷移制約情報の加
    重和を最大化する隠れマルコフモデルネットワークの状
    態を求め、この状態に対する局所ゆう度あるいは上記加
    重和を全フレームにわたって累積加算することによっ
    て、参照ゆう度を算出し、 認識処理により得られた認識ゆう度と、上記参照ゆう度
    の比較により、入力音声データの棄却判定を行うことを
    特徴とする音声認識方法。
  2. 【請求項2】 請求項1に記載の音声認識方法におい
    て、 音響モデルを構成する隠れマルコフモデルネットワーク
    の状態に対するクラスタリングを行い、 状態クラスタiから状態クラスタjへの個々の遷移接続
    に対する状態遷移確率の総和fij(i≠j)と、状態ク
    ラスタiの内部における遷移接続に対する状態遷移確率
    の総和を、状態クラスタiから他の状態クラスタへの遷
    移接続の束の個数を割った値を表すfijとを用いて、f
    ikのkについての総和に対するfijの割合として、状態
    クラスタ間の遷移確率Pijを定義し、 この状態クラスタ間の遷移確率Pijに基づいた値と、音
    響モデルを構成する隠れマルコフモデルネットワークの
    各状態が属する状態クラスタの情報とを、上記状態遷移
    制約情報としていることを特徴とする音声認識方法。
  3. 【請求項3】 請求項1に記載の音声認識方法におい
    て、 音響モデルを構成する隠れマルコフモデルネットワーク
    の状態に対するクラスタリングを行い、 状態クラスタiから状態クラスタjへの個々の遷移接続
    に対する状態遷移確率に、状態クラスタhから状態クラ
    スタiへの遷移接続を考慮するための係数を乗じたもの
    の総和f(i,j|h)(i≠j)と、状態クラスタi
    の内部における遷移接続に対する状態遷移確率に上記係
    数を乗じたものの総和を、状態クラスタiから他の状態
    クラスタへの遷移接続の束の個数を割った値を表すf
    (i,i|h)とを用いて、f(i,k|h)のkにつ
    いての総和に対するf(i,j|h)の割合として、状
    態クラスタ間の遷移確率P(i,j|h)を定義し、 この状態クラスタ間の遷移確率Pijに基づいた値と、音
    響モデルを構成する隠れマルコフモデルネットワークの
    各状態が属する状態クラスタの情報とを、上記状態遷移
    制約情報としていることを特徴とする音声認識方法。
  4. 【請求項4】 隠れマルコフモデルネットワークでなる
    音響モデルを利用して音声認識を行う音声認識装置にお
    いて、 あらかじめ作成された、音響モデルを構成する隠れマル
    コフモデルネットワークの任意の状態間の状態遷移の起
    こりやすさを表す状態遷移制約情報を格納している状態
    遷移制約情報格納手段と、 入力音声データに対する認識結果を算出する認識処理手
    段と、 認識処理により得られた局所ゆう度と格納されている状
    態遷移制約情報とに基づいて、入力音声データの各フレ
    ーム毎に、上記局所ゆう度と上記状態遷移制約情報の加
    重和を最大化する隠れマルコフモデルネットワークの状
    態を求め、この状態に対する局所ゆう度あるいは上記加
    重和を全フレームにわたって累積加算することによっ
    て、参照ゆう度を算出する参照ゆう度算出手段と、 認識処理により得られた認識ゆう度と、上記参照ゆう度
    の比較により、入力音声データの棄却判定を行うリジェ
    クト判定手段とを有することを特徴とする音声認識装
    置。
  5. 【請求項5】 請求項4に記載の音声認識装置におい
    て、 音響モデルを構成する隠れマルコフモデルネットワーク
    の状態に対するクラスタリングを行い、 状態クラスタiから状態クラスタjへの個々の遷移接続
    に対する状態遷移確率の総和fij(i≠j)と、状態ク
    ラスタiの内部における遷移接続に対する状態遷移確率
    の総和を、状態クラスタiから他の状態クラスタへの遷
    移接続の束の個数を割った値を表すfiiとを用いて、f
    ikのkについての総和に対するfijの割合として、状態
    クラスタ間の遷移確率Pijを定義し、 この状態クラスタ間の遷移確率Pijに基づいた値と、音
    響モデルを構成する隠れマルコフモデルネットワークの
    各状態が属する状態クラスタの情報とを、上記状態遷移
    制約情報とし、 上記状態遷移制約情報格納手段が、このようにして作成
    された上記状態遷移制約情報を格納していることを特徴
    とする音声認識装置。
  6. 【請求項6】 請求項4に記載の音声認識装置におい
    て、 音響モデルを構成する隠れマルコフモデルネットワーク
    の状態に対するクラスタリングを行い、 状態クラスタiから状態クラスタjへの個々の遷移接続
    に対する状態遷移確率に、状態クラスタhから状態クラ
    スタiへの遷移接続を考慮するための係数を乗じたもの
    の総和f(i,j|h)(i≠j)と、状態クラスタi
    の内部における遷移接続に対する状態遷移確率に上記係
    数を乗じたものの総和を、状態クラスタiから他の状態
    クラスタへの遷移接続の束の個数を割った値を表すf
    (i,i|h)とを用いて、f(i,k|h)のkにつ
    いての総和に対するf(i,j|h)の割合として、状
    態クラスタ間の遷移確率P(i,j|h)を定義し、 この状態クラスタ間の遷移確率Pijに基づいた値と、音
    響モデルを構成する隠れマルコフモデルネットワークの
    各状態が属する状態クラスタの情報とを、上記状態遷移
    制約情報とし、 上記状態遷移制約情報格納手段が、このようにして作成
    された上記状態遷移制約情報を格納していることを特徴
    とする音声認識装置。
JP15956897A 1997-06-17 1997-06-17 音声認識方法及び音声認識装置 Expired - Fee Related JP3644797B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15956897A JP3644797B2 (ja) 1997-06-17 1997-06-17 音声認識方法及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15956897A JP3644797B2 (ja) 1997-06-17 1997-06-17 音声認識方法及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH117293A true JPH117293A (ja) 1999-01-12
JP3644797B2 JP3644797B2 (ja) 2005-05-11

Family

ID=15696573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15956897A Expired - Fee Related JP3644797B2 (ja) 1997-06-17 1997-06-17 音声認識方法及び音声認識装置

Country Status (1)

Country Link
JP (1) JP3644797B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058184A (ja) * 2001-08-09 2003-02-28 Casio Comput Co Ltd 機器制御システム、音声認識装置及び方法、並びにプログラム
JP2021089555A (ja) * 2019-12-04 2021-06-10 株式会社ビデオリサーチ 行動傾向分析方法及び行動傾向分析装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058184A (ja) * 2001-08-09 2003-02-28 Casio Comput Co Ltd 機器制御システム、音声認識装置及び方法、並びにプログラム
JP4552368B2 (ja) * 2001-08-09 2010-09-29 カシオ計算機株式会社 機器制御システム、音声認識装置及び方法、並びにプログラム
JP2021089555A (ja) * 2019-12-04 2021-06-10 株式会社ビデオリサーチ 行動傾向分析方法及び行動傾向分析装置

Also Published As

Publication number Publication date
JP3644797B2 (ja) 2005-05-11

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
Valtchev et al. MMIE training of large vocabulary recognition systems
Chen et al. Advances in speech transcription at IBM under the DARPA EARS program
Pearce et al. Aurora working group: DSR front end LVCSR evaluation AU/384/02
US6125345A (en) Method and apparatus for discriminative utterance verification using multiple confidence measures
EP2003572B1 (en) Language understanding device
EP1557822A1 (en) Automatic speech recognition adaptation using user corrections
JP3001037B2 (ja) 音声認識装置
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JP2006227628A (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
Hain et al. The cu-htk march 2000 hub5e transcription system
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP3644797B2 (ja) 音声認識方法及び音声認識装置
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
JP3698511B2 (ja) 音声認識方法
JP3868798B2 (ja) 音声認識装置
JP3461789B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JPH11184494A (ja) 音声認識方法及び装置
Chung et al. Fast speech recognition to access a very large list of items on embedded devices
JP3589508B2 (ja) 話者適応音声認識方法および話者適応音声認識装置
JP4678464B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050201

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120210

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees