JPH06118990A - ワードスポッティング音声認識装置 - Google Patents

ワードスポッティング音声認識装置

Info

Publication number
JPH06118990A
JPH06118990A JP4264874A JP26487492A JPH06118990A JP H06118990 A JPH06118990 A JP H06118990A JP 4264874 A JP4264874 A JP 4264874A JP 26487492 A JP26487492 A JP 26487492A JP H06118990 A JPH06118990 A JP H06118990A
Authority
JP
Japan
Prior art keywords
recognition
candidate
voice
likelihood
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4264874A
Other languages
English (en)
Inventor
Mikio Kitai
幹雄 北井
Akihiro Imamura
明弘 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4264874A priority Critical patent/JPH06118990A/ja
Publication of JPH06118990A publication Critical patent/JPH06118990A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 不正解候補の湧き出しおよび正解候補の脱落
を防止する。 【構成】 認識尤度計算部9から出力される認識候補に
対して、認識候補の始端位置の音声区間判定部3により
判定された音声信号区間の始端位置に対する時間的な早
さが予め設定されている許容時間より大きいか、或は認
識候補の終端位置の音声区間判定部により判定された音
声信号区間の終端位置に対する時間的な遅さが予め設定
されている許容時間より大きいか、或は認識候補の始端
位置が音声区間判定部3により判定された音声信号区間
の終端位置より時間的に遅いか或は認識候補の終端位置
が音声区間判定部3により判定された音声信号区間の始
端位置より時間的に早い場合は、当該認識候補のリジェ
クトを行なう候補リジェクト部15を具備するワードス
ポッティング音声認識装置。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、ワードスポッティン
グ音声認識装置に関し、特に、連続的に発声された音声
の音声区間中のどの位置にどれ位の確からしさで予め記
憶登録された単語が含まれるているかということを認識
するワードスポッティング技術において、認識の精度を
向上させるワードスポッティング音声認識装置に関す
る。
【0002】
【従来の技術】ワードスポッティング技術は音声認識に
おける背景雑音、余剰語の付与による音声区間検出誤り
に対処するための解決策として注目されている技術であ
るが、近年は更に連続的に発声された音声から複数キー
ワードを検出してキーワードの連鎖による意味理解を行
なう試みにも応用されている。
【0003】しかし、ワードスポッティング技術は不正
解候補の湧き出し(始端或は終端の誤った候補が検出さ
れること)、正解候補の脱落が生じ、これらが認識率を
劣化せしめる原因となっている。不正解候補の湧き出し
は、ワードスポッティング処理が入力音声の現時点を終
端として各認識対象単語に対する認識尤度最大の始点を
求めるものであるところから、根本的に避けられない問
題である。従来、この不正解候補の湧き出しに対して
は、認識候補の認識尤度にしきい値を設定すると共に、
単語長に許容範囲を設け、しきい値以下または許容範囲
外の候補をリジェクトすることで対処している。ここ
で、認識尤度のしきい値、単語長の許容範囲の設定は、
例えば学習外データによる各認識対象単語の認識実験時
の認識尤度、単語長の統計データにより決定することが
多い。しかし、認識尤度に対するしきい値、単語長の許
容範囲を適切に設定することは、これらの値が話者毎お
よび発声毎に、或は発声環境毎にかなり変動するので、
一般に困難なこととされている。
【0004】また、正解候補の脱落は、ワードスポッテ
ィング処理は上述した通り入力音声の現時点を終端とし
て各認識対象単語に対する認識尤度最大の始点を求める
ものであるところから、候補のパス選択において認識開
始時点から現時点までの各分析単位時間毎に、その時点
毎の最適なパス選択をしてもその結果が必ずしも最終的
に最適なものになっていないために発生する。勿論、入
力音声中におけるすべての部分音声区間において各認識
対象単語の認識尤度を求めればこのような脱落は発生し
ないのであるが、この様にすると計算時間が膨大となっ
て現実的ではない。従来、この正解候補脱落の防止には
パスの候補を複数残しておく方法が考えられているが、
残すパスの候補を増加すると計算量の大幅な増加を招く
し、残すパスの候補を少なくすると効果も減少するとい
う問題がある。
【0005】
【発明が解決しようとする課題】認識誤りについて解決
しなければならない問題点は、上述の通りの、誤った音
声区間における不正解候補の湧き出し(これには正解候
補の音声区間を含まないもの(A−1)と、含むもの
(A−2)とがある)、部分的にマッチングしている不
正解候補の湧き出し(B)、正しい位置における正解候
補の脱落(C)の3点である。
【0006】図1は「11時20分」と発声した場合の
ワードスポッティング認識結果の誤りの例を示す図であ
る。図1の(A−1)の候補は正解候補の音声区間を含
まない湧き出し候補の例である。図1の(A−2)の候
補は正解候補の音声区間を含む湧き出し候補の例であ
る。そして、(B)の候補は正解候補に部分的にマッチ
ングし、正解候補より良い認識尤度で検出された湧き出
し候補の例である。
【0007】また、破線の区間により示される(C)
は、「20分」と発声された区間において検出されなか
った脱落候補の例である。これらの内の部分的にマッチ
ングしている不正解候補の湧き出しについての対策は特
願平2−234745および文献「部分マッチングを考
慮したワードスポッティング音声認識の検討(北井、今
村、音響学会講演論文集、2−8−9、pp.63−6
4、1990年9月)」に報告されているので、この発
明は、誤った音声区間における不正解候補の湧き出し、
および正しい位置における正解候補の脱落に着目してこ
れに対処しようとするものである。
【0008】不正解候補の湧き出し、および正解候補の
脱落に根本的に対処するには、前者に対しては例えばガ
ーベージモデルを導入することが必要であり、後者に対
してはスポッティングアルゴリズムそのものの改良が必
要である。しかし、この発明は、不正解候補の湧き出し
には音声区間検出情報の利用による検出区間誤り候補の
リジェクト手段、および複数の候補間の位置関係の矛盾
による棄却ルール手段を採用し、正解候補の脱落には部
分的な再認識処理を行なう手段を採用することによりこ
れらの問題を解消したワードスポッティング音声認識装
置を提供するものである。
【0009】
【課題を解決するための手段】認識処理の対象となる単
語の指定、指定解除を個々の単語に対して独立に実施す
る認識対象設定部6、7を具備し、入力信号の分析を行
ない認識尤度計算用の特微量および音声区間検出用の特
微量を計算する音声分析部2を具備し、音声分析部にお
いて計算された音声区間検出用の特微量に基づいて入力
信号区間における音声信号区間の始端位置および終端位
置を判定する音声区間判定部3を具備し、音声分析部に
おいて計算された認識尤度計算用の特微量を記憶する尤
度計算用特微量記憶部5を具備し、音声分析部2におい
て計算された認識尤度計算用の特微量或は尤度計算用特
微量記憶部5に記憶されている任意の入力区間に対応す
る認識尤度計算用の特微量と、入力信号の任意の部分的
信号区間において認識対象設定部6、7により指定され
た認識対象単語とに基づいて、認識尤度を計算し、認識
結果として単語毎に予め設定されているしきい値以上の
認識尤度を持ち、候補の区間長が単語毎に予め設定され
ている範囲の長さ内である認識候補の認識単語番号、認
識尤度、および入力信号区間におけるスポッティングさ
れた始端位置および終端位置を出力する認識尤度計算部
9を具備するワードスポッティング音声認識装置におい
て、更に認識尤度計算部9から出力される認識候補に対
して、認識候補の始端位置の音声区間判定部3により判
定された音声信号区間の始端位置に対する時間的な早さ
が予め設定されている許容時間より大きいか、或は認識
候補の終端位置の音声区間判定部により判定された音声
信号区間の終端位置に対する時間的な遅さが予め設定さ
れている許容時間より大きいか、或は認識候補の始端位
置が音声区間判定部により判定された音声信号区間の終
端位置より時間的に遅いか或は認識候補の終端位置が音
声区間判定部により判定された音声信号区間の始端位置
より時間的に早い場合は、当該認識候補のリジェクトを
行なう候補リジェクト部15を具備することを特徴とす
るワードスポッティング音声認識装置を構成した。
【0010】そして、候補リジェクト部は、認識候補C
iの認識尤度が予め設定されているしきい値以上であ
り、その認識候補Ciと同一単語であって認識尤度差が
予め設定されているしきい値以内の認識候補Cjがあ
り、これらの始端位置同士の時間的なずれと終端同士の
時間的なずれとが、一方のずれが予め定められた時間以
内にあり他方のずれが予め定められた時間以内にない場
合、予め設定されている時間以上のずれの方の位置(始
端位置或は終端位置)を認識候補Ciと認識候補Cjで
入れ替える手段より成る、ものであるワードスポッティ
ング音声認識装置を構成した。
【0011】また、候補リジェクト部は、複数キーワー
ドが入力され、認識尤度が予め定められているしきい値
より高い認識候補Cが属するキーワードをKiとした
時、キーワードKiに後続するキーワードKjの認識候
補の始端位置が、キーワードKiに属する認識候補中の
認識候補Cとの間の認識尤度差が予め設定されている値
以下の認識候補の中の最も時間的に早い始端位置より、
時間的に更に前にあるか、或は予め定められている時間
以内遅い場合はこの候補をリジェクトする手段、および
キーワードKiに先行するキーワードKhの認識候補の
終端位置が、キーワードKiに属する認識候補中の認識
候補Cとの間の認識尤度差が予め設定されている値以下
の認識候補の中の最も時間的に遅い終端位置より、時間
的に更に後ろにあるか、或は予め定められている時間以
内早い場合はこの候補をリジェクトする手段より成る、
ワードスポッティング音声認識装置をも構成した。
【0012】更に、複数キーワードが入力され、隣接す
るキーワードKi、Kjについて、キーワードKiがキ
ーワードKjに先行し、キーワードKiに属する認識候
補中の最も高い認識尤度Liが予め定められているしき
い値より高く、キーワードKjに属する認識候補中の最
も高い認識尤度Ljも予め定められているしきい値より
高く、キーワードKiに属する認識候補中の認識尤度L
iとの間の認識尤度差が予め設定されているしきい値以
下である認識候補の始端位置および終端位置について、
時間的に最も早い始端位置および終端位置をそれぞれP
1、P2とし、更にキーワードKjに属する認識候補中
の認識尤度Ljとの間の認識尤度差が予め設定されてい
るしきい値以下である認識候補の始端位置および終端位
置について、時間的に最も遅い始端位置および終端位置
をそれぞれP3、P4とした場合、位置P1と位置P3
との間の区間における認識尤度計算をキーワードKiに
属する認識対象単語に対して行なうと共に、位置P2と
位置P4との間の区間における認識尤度計算をキーワー
ドKjに属する認識対象単語に対して行なって、その認
識結果を追加する手段、を具備するワードスポッティン
グ音声認識装置を構成した。
【0013】
【実施例】この発明の実施例を説明するに先立って、こ
の発明を理解するに必要とされる次の4つの処理技術、
即ち、音声区間検出情報を利用する検出区間誤り候補の
リジェクト処理、複数の候補間の位置関係の矛盾による
棄却ルールにより湧き出し候補をリジェクトする処理、
始端位置または終端位置がずれている候補の位置の補正
をその候補と字面が同じである下位の候補の始端位置お
よび終端位置を参照して行なう手段、および正解候補の
脱落に対する部分的な再認識処理を実施する手段につい
て予め説明しておく。
【0014】(その1)先ず、音声区間検出情報を利用
する検出区間誤り候補のリジェクト処理について説明す
る。音声区間検出の一般的な方法については、「音声認
識」(新見著、共立出版、pp.68から69)に示さ
れる様な音声パワーに対する2つのしきい値を使用する
方法がある。
【0015】ここで、認識尤度順にk番目(k=1、
2、・・・:認識結果数)の認識候補をwkとし、wk
に対する音声区間と候補のスポッティング区間の重なり
時間をCp(wk)、音声区間の始端位置と候補のスポ
ッティング区間の始端位置との間の時間差をDs(w
k)、音声区間の終端位置と候補のスポッテンィグ区間
の終端位置との間の時間差をDe(wk)とし、その時
のこの候補の誤り率をRe(wk)と表す。更に、入力
音声区間の始端時間をTs(0)、終端時間をTe
(∞)とし、wkのスポッティング区間の始端時間をT
s(wk)、終端時間をTe(wk)とした場合、Cp
(wk)、Ds(wk)、De(wk)はそれぞれ以下
の式で与えられる。 CP(WK)=0 ・・・ [1 ]Te(WK)≦Ts(0) or Ts
(WK) ≧Te( ∞) ならば Te(WK)-Ts(0) ・・・ [2 ]Ts(WK)≧Ts(0) and Te(WK)≦T
e( ∞) ならば Te(∞)-Ts(0) ・・・ [3 ]Ts(WK)≦Ts(0) and Te(WK)≧T
e( ∞) ならば Te(WK)-Ts(0) ・・・ [4 ]Ts(0) >Ts(wk) and Te(∞)
>Te(wk)ならば Te(∞)-Te(wk)・・・ [5 ]Ts(0) <Ts(wk) and Te(∞)
<Te(wk)ならば ただし、[4 ]および[5 ]は[1 ]、[2 ]、[3 ]
の何れでもない場合であって、この条件が満足された場
合に上記の様な値に設定される。
【0016】Ds(Wk)=Ts(0)−Ts(Wk) De(Wk)=Te(Wk)−Te(∞) この時、Wkの誤り率Re(Wk)は、Cp(Wk)、
Ds(Wk)、De(Wk)により例えば以下の様に決
定され、Re(Wk)が1の時、候補Wkはリジェクト
される。 条件1)Cp(Wk)が0ならばRe(Wk)は1とす
る。 条件2)Cp(Wk)が非零の場合は、以下の場合にR
e(Wk)を1とする。
【0017】2−1)Ds(Wk)>0 且つ Ds
(Wk)>TH(Ds,Wk) 2−2)De(Wk)>0 且つ De(Wk)>TH
(De,Wk) 但し、TH(Ds,Wk)は、音声区間の始端と候補の
始端の離れに関する候補Wkを誤りと判定するためのし
きい値であり、同様にTH(De,Wk)は音声区間の
終端と候補の終端の離れに関する候補Wkを誤りと判定
するしきい値である。
【0018】このしきい値TH(Ds,Wk)、TH
(De,Wk)は、例えば学習外データによる各認識対
象単語の認識実験時の音声区間の始端、終端位置、およ
び認識候補の始端、終端位置に関する上記データCp
(Wk)、Ds(Wk)、De(Wk)の統計データに
より決定する。データはWkが最も高い認識尤度で認識
された場合のデータの組みCp(Wk)、Ds(W
k)、De(Wk)の内の条件2−1)または条件2−
2)に相当するデータDs(Wk)、De(Wk)の平
均値および標準偏差を算出し、例えばDs(Wk)、D
e(Wk)の平均値に標準偏差の3倍を加えたものを、
それぞれしきい値TH(Ds,Wk)、TH(De,W
k)とする。
【0019】(その2)次に、複数の候補間の位置関係
の矛盾による棄却ルールにより湧き出し候補をリジェク
トする処理について説明する。これは、誤った音声区間
における候補の湧き出しの内の正解候補の音声区間を含
まないもののリジェクト処理である。この処理は、複数
の単語を入力する場合に、その単語の入力順序がある一
定のルールに従うと仮定できる場合に有効である。例を
あげると、時刻を発声する場合は、通常は「何時何分」
と発声する。この場合、一般に「何時」の認識候補と
「何分」の認識候補の位置関係は、「何時」の候補が必
ず「何分」の候補より時間的に前に存在するといえる。
この様な関係を使用して、例えば「何時」の候補が上が
るべき位置において検出される「何分」の候補をリジェ
クトする。
【0020】このリジェクト処理は、一般的には下記の
1)、2)の如くに実施される。 1) 第k番目のキーワードの認識候補の始端が、第k
−1番目のキーワードの認識候補の上位候補中の最も時
間的に早い始端より、時間的に前にあるか、または予め
定めた時間η〔k−1,k〕以内遅いならこの候補をリ
ジェクトする。ここで、ηk〔k−1,k〕はk−1番
目のキーワードと第k番目のキーワードの位置関係か
ら、第k番目のキーワードの認識候補をリジェクトする
ためのしきい値である。但し、このリジェクト処理はk
−1番目のキーワード中の1位認識候補の認識尤度があ
る決められたしきい値より低い場合は行なわない。k−
1番目のキーワードの上位候補とは、k−1番目のキー
ワード中の第1位候補との認識尤度差があらかじめ設定
した値以下のものを意味する。
【0021】2) 第k番目のキーワードの認識候補の
終端が、第k+1番目のキーワードの認識候補の上位候
補中の最も時間的に遅い始端より、時間的に後ろにある
か、または予め定めた時間θ〔k,k+1〕以内早いな
ら、この候補をリジェクトする。ここで、θk〔k,k
+1〕はk番目のキーワードと第k+1番目のキーワー
ドの位置関係から、第k番目のキーワードの認識候補を
リジェクトするためのしきい値である。ただし、このリ
ジェクト処理はk+1番目のキーワード中の1位認識候
補の認識尤度がある決められたしきい値より低い場合は
行なわない。また、k+1番目のキーワードの上位候補
とは、k+1番目のキーワード中の第1位候補との認識
尤度差が予め設定した値以下のものを意味する。
【0022】但し、ここで、しきい値η[k−1、k]
(θk[k、k+1])は例えば第k+1(k−1)番
目のキーワードの認識対象単語のうち最も平均単語長が
短い単語を、発声した場合の最小の単語長の半分程度に
設定する。また、上記処理を行なうか否かを判定するた
めのk−1(k+1)番目のキーワード中の1位認識候
補の認識尤度に対するしきい値は、例えばこの認識候補
を発声して認識した場合に1位候補として認識された場
合の認識尤度の統計量である平均値、標準偏差より、平
均値から標準偏差を1倍したものを引いた値程度に設定
する。また、上位候補として扱われる単語は、1位の候
補が不正解で、2位以下の候補が正解であった場合の1
位候補と正解候補との認識尤度差の統計データから例え
ばその平均程度に設定される。なお、この場合の2位以
下の候補の探索範囲は有限のN位(例えば5位までと
か)までに限定するのが妥当であると考えられる。
【0023】(その3)次に、始端位置または終端位置
がずれている候補の位置の補正を、その候補と字面が同
じである下位の候補の始端位置および終端位置を参照し
て行なう手段について説明する。これは、誤った音声区
間での候補の湧き出しの内の正解候補の音声区間を含む
ものに関する修正処理であり、各認識候補に対してその
認識尤度の高い順に各認識対象単語に対して1回のみ以
下の処理を行なう処理である。
【0024】即ち、認識候補Ciの認識尤度が予め設定
されているしきい値以上の場合、その認識候補Ciと全
く字面が同じで、且つ認識尤度差が予め設定されている
しきい値以内の認識候補Cjがある場合、その始端位置
同士の時間的なずれと終端位置同士の時間的なずれが、
一方のずれが予め定められた時間以内にあり一方のずれ
が予め定められた時間以内でない場合に、予め設定され
た時間以上のずれの方の位置(始端位置或は終端位置)
を認識候補Ciと認識候補Cjで入れ替える処理を実施
する。
【0025】これにより、図1に示される(A−2)の
候補の始端位置または終端位置が下位の正しい候補のも
のに修正される。 (その4)最後に、正解候補の脱落に対する部分的な再
認識処理を実施する手段について説明する。
【0026】この処理は、一般的に有効な手段と、上述
された(その2)の場合と同じく複数の単語を入力する
場合であって、その単語の入力順序がある一定のルール
に従うものと仮定することができる場合に有効な手段の
2通りある。先ず、一般的な手段は、簡単に言えば音声
区間判定部3で判定された音声信号の始端位置と終端位
置とにより定められた区間において、認識尤度計算を行
なってその結果を先の認識結果に加えるである。実際に
再認識される区間は、音声信号の始端位置より少し早い
時点から音声信号の終端時点より少し遅い時点までの区
間となり、前後への増加幅は例えば上述された(その
1)の処理のTH{Ds、wk}の最大値、TH{D
e、wk}の最大値が設定される。
【0027】次に、上述された(その2)の場合と同じ
く複数の単語を入力する場合で、且つその単語の入力順
序がある一定のルールに従うものと仮定することができ
る場合に有効な手段の説明をする。例えば「何時何分」
型の場合を例にとると、この手段は「何時」の候補の終
端を始点とし、「何分」の候補の終端を終点とした区間
で「何分」の候補の再認識処理を行ない、且つ「何時」
の候補の始端を始点とし、「何分」の候補の始端を終点
とした区間で「何時」の候補の再認識処理を行なうこと
により、脱落していた正解候補を検出しようとするもの
である。
【0028】以下、この処理について説明する。各キー
ワードに属する認識対象単語について、以下の範囲にお
いて認識尤度計算をやり直し、その結果得られる認識候
補を認識結果として追加する構成を具備する。即ち、先
行するキーワードを持つキーワードに属する認識対象単
語に対して、一つ前に先行するキーワードに属する上位
候補の終端位置の内の時間的に最も早いものを再認識開
始位置とし、着目するキーワードの上位候補の終端位置
の内の時間的に最も遅い終端位置から予め設定されてい
る時間遅い位置を再認識終了位置とする。
【0029】ただし、このリジェクト処理は着目するキ
ーワード、先行するキーワードそれぞれに属する認識候
補中の最も高い認識尤度が予め設定されているしきい値
より低い場合は実施しない。また、着目するキーワー
ド、先行するキーワードそれぞれの上位候補とは、キー
ワード中の最大認識尤度との間の認識尤度差が予め設定
されている値以下のものを意味する。
【0030】更に、後続するキーワードを持つキーワー
ドに属する認識対象単語に対して、一つ後ろに後続する
キーワード中の上位候補の始端位置の内の時間的に最も
遅いものを再認識終了位置とし、着目するキーワードの
上位候補の始端位置の内の時間的に最も早い始端位置か
ら予め設定されている時間早い位置を再認識開始位置と
する。
【0031】ただし、このリジェクト処理は着目するキ
ーワード、後続するキーワードそれぞれに属する認識候
補中の最も高い認識尤度が予め設定されているしきい値
より低い場合は実施しない。また、着目するキーワー
ド、後続するキーワードそれぞれの上位候補とは、キー
ワード中の最大認識尤度との間の認識尤度差が予め設定
されている値以下のものを意味する。なお、ここにおけ
るしきい値は(その2)のしきい値と同様に設定され
る。
【0032】ここで、図2を参照してこの発明の実施例
を説明する。1は制御部であり、図2に示される各部に
接続してこの発明のワードスポッティング音声認識装置
を音声認識装置として動作させるものである。上位WS
(Work Station)を介して認識辞書その他
の各種データファイルを所定の記憶部にロードしたり、
上位WSから認識開始が指定されたら入力信号の分析を
開始し、認識処理を行ない、認識結果を上位WSに通知
するまでの一連の処理を実施する。
【0033】2は音声分析部であり、入力された信号を
分析して、音声パワー情報その他の音声区間検出のため
の特徴量を算出したり、認識尤度計算用の特徴量を算出
するものである。3は音声区間判定部であり、音声分析
部2において算出された音声区間検出のための特徴量に
より音声区間の判定を行なうものである。
【0034】4は音声区間記憶部であり、音声区間判定
部3において判定された音声区間の始端位置および終端
位置と、入力信号の最終位置を記憶する。5は尤度計算
用特徴量記憶部であり、音声分析部2において算出され
た認識尤度計算用の特徴量を記憶するものである。6は
認識辞書記憶部であり、尤度計算用特徴量記憶部5に記
憶される特徴量から各認識対象単語の認識尤度を算出す
るに使用される各認識対象単語に対する認識用データを
記憶するものである。
【0035】7は認識対象単語記憶部であり、今回の認
識処理において認識対象となる単語の内容、例えば単語
番号を記憶するものである。8は認識対象区間記憶部で
あり、尤度計算用特徴量記憶部5に記憶される尤度計算
用特徴量の部分的な区間で、認識対象単語記憶部7で認
識対象として設定された単語の部分集合またはそれ以外
の単語を認識対象として、認識尤度の算出処理を行なう
ための、部分的な区間の始端位置および終端位置、認識
対象単語に関する情報を記憶する。
【0036】9は認識尤度計算部であり、尤度計算用特
徴量記憶部5に記憶された入力信号に対する認識尤度計
算用の特微量と認識対象単語記憶部7において指定され
た認識対象単語に対応する認識辞書記憶部6の認識デー
タとから、入力信号の現時点を終端と仮定した場合の各
認識対象単語に対する認識尤度最大の始端を求め、その
認識尤度が単語毎に予め設定されたしきい値以上で、且
つ候補の区間長も単語毎に予め設定した範囲の長さ以内
である場合、認識候補の認識単語番号、認識尤度および
入力信号区間におけるスポッティングされた始端位置、
終端位置を認識結果一時記憶部10に出力する。ここ
で、10は認識尤度計算部9から出力される認識結果デ
ータを一時的に記憶する認識結果一時記憶部である。こ
の処理は2つのモードを持つ。その内の一つは入力信号
に対して音声分析部2から分析単位毎に尤度計算用特徴
量記憶部5に特微量が記録される度毎に認識尤度を計算
するモードであり、他の一つは分析が終了後の任意の時
点において尤度計算用特徴量記憶部5の特微量の任意の
区間を対象として認識尤度を計算するモードである。後
者のモードにおいては、認識対象区間記憶部8に記憶さ
れている処理の開始位置、終了位置、認識対象単語を参
照して認識尤度計算が行なわれる。
【0037】11は候補リジェクト部であり、認識結果
一時記憶部10に記憶された認識候補の正誤の判定を、
音声区間記憶部4に記憶された音声区間の始端位置およ
び終端位置と、認識候補の始端位置および終端位置とを
比較することにより行ない、誤りと判定した場合に認識
候補をリジェクトし、リジェクトされなかった認識候補
のデータを認識結果記憶部12に追加する。
【0038】12は認識結果記憶部であり、各認識候補
の単語番号、認識尤度、始端位置および終端位置、認識
確度の順位、およびこの単語が属するキーワード番号を
記憶する。この記憶部12のデータは認識開始時にデー
タ数0にリセットされ、候補リジェクト部11から送り
込まれたデータは常に追加という形で記憶される。13
はキーワード情報記憶部であり、入力信号中に含まれる
キーワード数、キーワード出現順位、各キーワードが隣
接する場合の位置上の重なりおよび離れの許容差、およ
び各キーワードに属する認識対象単語番号を記録する。
【0039】14はラベリング、ソーティング処理部で
あり、認識結果記憶部12の認識データを認識尤度の高
い順に確度が高いものと評価して順位付けすると共に、
各認識データが属するキーワードの番号を付与するもの
である。15は区間誤り候補リジェクト部であり、認識
結果記憶部12の各認識データに対してその認識候補が
属するキーワードと前後のキーワードの位置関係からそ
の候補の正否を判断し、不正解と判断した場合に当該候
補のリジェクトを行なうものである。
【0040】16は再認識区間決定部であり、認識結果
記憶部12に記憶される各キーワードに属する各認識デ
ータの始端位置および終端位置に基づいて各キーワード
に対してもう一度認識尤度計算を行なうべき区間を決定
し、その結果を認識対象区間記憶部8に書き込むもので
ある。17は区間修正部であり、認識結果記憶部12に
記憶される各認識データに対して同一の単語番号を持つ
がその始端位置或は終端位置が異なる認識候補の始端位
置或は終端位置を、その始端位置のずれ、終端位置のず
れ、認識尤度および認識尤度差を参照して修正する。
【0041】18は連結候補作成部であり、認識結果記
憶部12の各認識データおよび、キーワード情報記憶部
13に記憶されるキーワード数、キーワードの出現順
位、および隣接する各キーワード間の位置上の重なりお
よび離れの許容差に基づいて、例えば島駆動検索方式に
より連結候補の作成を行ない、作成された連結候補を連
結候補記憶部19に書き込む。ここで、連結候補記憶部
19の記憶するデータの内容は各キーワードに対する認
識候補の単語番号、認識尤度、始端位置および終端位
置、連結候補としての順位情報および確度である。
【0042】20は連結候補評価部であり、連結候補記
憶部19の記憶する連結候補データの確度を評価して順
位を決定するものであり、確度の評価は例えば各連結候
補を構成する認識候補の認識尤度の総和が考えられる。
21は認識結果出力部であり、連結候補評価部20によ
り評価された連結候補の情報を例えば装置上のディスプ
レイ、上位WSの通信ポートを通じて出力するものであ
る。
【0043】以下、時刻「何時+何分」を入力する場合
を例としてこの発明の動作処理を具体的に説明する。こ
こで、時刻を10分単位とし、12時間制により入力可
能であるものとすると、時刻として音声入力されるキー
ワードは言い直しを許容しない場合は最大3個となり、
第1番目のキーワードは0時から11時までの「何時」
に相当する単語であり、第2番目のキーワードは0分か
ら50分までの「何分」に相当する単語であり、そして
出現順位もこの順番とすることができる。
【0044】音声分析部2は、制御部1から認識開始の
指令が送り込まれると、入力音声信号の分析を開始し、
音声区間検出用の特徴量および認識尤度計算用の特徴量
を算出する。認識開始前に今回認識対象となる単語の認
識辞書データが認識辞書記憶部6にロードされており、
また認識対象となる単語の情報は認識対象単語記憶部7
に記憶されている。時刻を構成する各単語に表1に示さ
れる単語番号およびキーワードが付与されているものと
する。 表 1 単語名 単語番号 キーワード番号 0時 1 1 1時 2 1 2時 3 1 3時 4 1 4時 5 1 5時 6 1 6時 7 1 7時 8 1 8時 9 1 9時 10 1 10時 11 1 11時 12 1 0分 13 2 10分 14 2 20分 15 2 30分 16 2 40分 17 2 50分 18 2 音声区間判定部3は音声分析部2により算出された音声
区間検出用の特徴量に基づいて入力音声信号中の音声区
間の始端位置および終端位置を判定し、始端位置の情報
および終端位置の情報を音声区間記憶部4に書き込む。
【0045】認識尤度計算部9は尤度計算用特徴量記憶
部5に書き込まれた分析単位毎の認識尤度計算用特徴量
について、現時点を終端とする認識候補の認識尤度を、
表1の単語に対応する認識辞書記憶部6に記憶されてい
る認識辞書データを使用して計算し、そして認識尤度が
予め決められているしきい値以上であり、且つその単語
長が予め決められている範囲内であれば、これらの結果
を認識結果一時記憶部10に書き込む。即ち、入力文が
「11時20分」であり、その内の「じゅういちじ」ま
で発声終了した時点であるものとすると、この時点にお
ける認識結果一時記憶部10の記憶内容は図3に示され
る如くになる。
【0046】図3は「じゅういちじ」まで発声終了した
現時点までに総計5個の候補が検出されたものとしてい
る。即ち、現時点より少し前に「10分」が2個と「1
0時」が検出され、現時点においては正解候補「11
時」が認識尤度89で検出されると共に、その他に「1
1時」の部分単語「1時」も同時に検出されたものとし
ている。
【0047】この様な尤度計算処理を、音声区間判定部
3において入力音声の終端位置が検出されるまで続け、
最終的には図4に示されるが如き認識結果が認識結果一
時記憶部10に記憶されることとなる。図4に示される
認識結果一時記憶部10の内容例は音声区間の終端確定
後に認識処理を中断した場合の例であり、認識尤度が7
0点以上のもののみ記録されている。また、[]内の数
字は認識尤度を示し、()内の数字は候補の始端位置お
よび終端位置を表す数字であり、これらの数字は分析開
始時点から起算した分析フレーム番号を意味している。
ここにおける分析単位は12msecであるものとして
いる。もちろん、音声区間が検出されない場合を考慮
し、ある一定時間αが経過しても入力音声区間の始端位
置が確定できなかった場合はある一定時間βで認識処理
を中断する。また、始端位置が確定後、或る一定時間γ
以上経過しても終端が検出されない場合はその時点で認
識処理を中断する。
【0048】候補リジェクト部11は認識結果一時記憶
部10に記憶された認識候補の始端位置および終端位置
と、音声区間記憶部4に記憶された音声区間の始端位置
および終端位置とを比較して候補のリジェクトの可否を
判定し、リジェクトされなかった候補のデータを認識結
果記憶部12に書き込む。図4に示される音声区間の例
においては、音声区間の始端位置は21フレーム目であ
り、終端位置は155フレーム目である。ここで、始端
位置が21フレーム目より5フレーム以上前の候補およ
び終端位置が155フレーム目より10フレーム以上後
ろの候補をリジェクトすると、6フレームを始端位置と
する候補「10分」および171フレームを終端位置と
する候補「10分」がリジェクトされることとなる。
【0049】認識結果記憶部12の認識候補データはラ
ベリング、ソーティング処理部14により認識尤度順に
並べ変えられると共に、各候補に対して表1に基づいて
キーワードが付与される。図5は候補のリジェクト処理
およびラベリング、ソーティング処理終了後の認識結果
記憶部12の記憶内容を示す図である。区間誤り候補リ
ジェクト部15は「何時」の候補としての位置の誤りの
有無、および「何分」の候補としての位置の誤りの有無
を下記の如くに判断して候補のリジェクトの可否を判断
する。ここにおいては、キーワード1の「何時」の候補
が必ずキーワード2の「何分」の候補に先行するものと
している。キーワード1の候補の内の時間的に最も早い
始端位置は21フレーム目であるので、キーワード2の
候補として許容される始端位置を21フレーム目に10
フレーム(単語長が最も短い「2時」の候補の単語長の
約半分)加えた31フレーム以降とすると始端位置が2
1フレームである候補「10分」はリジェクトされる。
一方、キーワード2の候補の内の時間的に最も遅い終端
位置は162フレームであるので、キーワード1の候補
として許容される終端位置を162フレームから21フ
レーム(単語長が最も短い「2時」の候補の単語長の約
半分)引いた141フレーム以前とすると、終端位置が
154フレームである候補「10時」はリジェクトされ
る。
【0050】再認識区間決定部16は、認識結果記憶部
12に記憶される各キーワードの上位候補の位置により
キーワード1およびキーワード2それぞれに対する再認
識処理区間を以下の如くにして決定する。ここで、図5
に記載される候補は上位候補である。即ち、「何時」
「何分」の1位の認識尤度が予め決められているしきい
値より高く、1位候補との間の認識尤度差が予め決めら
れているしきい値より低いものである。
【0051】キーワード1の候補中の時間的に最も早い
始端位置および終端位置を求める。最も早い始端位置は
21フレームであり、最も早い終端位置は81フレーム
である。また、キーワード2の候補中の時間的に最も遅
い始端位置および終端位置を求める。最も遅い始端位置
は103フレームであり、最も遅い終端位置は162フ
レームである。これらよりキーワード1の再認識処理区
間を21フレームから103フレームとし、キーワード
2の再認識処理区間を81フレームから162フレーム
とする。ただし、一般的にはキーワード1の区間は始端
位置を若干前にずらし、キーワード2の区間は終端位置
を若干後ろにずらすことを行なうのであるが、ここにお
いてはその様にはしていない。求められた再認識区間は
認識対象区間記憶部8に書き込む。
【0052】認識尤度計算部9は、尤度計算用特微量記
憶部5のデータの内の21フレームから103フレーム
の区間でキーワード1「何時」の尤度計算と81フレー
ムから162フレームの区間でキーワード2「何分」の
尤度計算とを順次に行ない、認識尤度が予め決められた
しきい値以上であって単語長も予め決られた範囲内のも
のを認識結果一時記憶部10に書き込む。この様に認識
尤度の計算開始位置を実際に「何時」または「何分」が
出現する確率の高い位置に変えることにより、先の認識
処理によっては脱落していた正解候補が検出される可能
性が高くなる。認識結果一時記憶部10の認識候補デー
タの内の認識結果記憶部12に存在しないデータのみを
認識結果記憶部12に追加し、この結果に対して更に、
ラベリング、ソーティング処理部14が上述と同様の処
理を行なう。
【0053】今回のこの処理によって期待されること
は、キーワード2に対する81フレームからの162フ
レームの区間の再認識によって、それまで脱落していた
正しい区間を持つ「20分」の候補が検出されるに到る
ことである。この再認識処理により始端位置95フレー
ム、終端位置165フレーム、認識尤度112で「20
分」の候補が新たに認識結果記憶部12に追加さるが、
図6にこの時点の認識結果記憶部12の内容を示す。
【0054】区間修正部17により、各認識候補に対し
てその候補と同じ単語番号を持つ一つ下位の候補の始端
位置および終端位置双方のずれを調べ、上位の方の始端
位置または終端位置を以下の如く修正する。なお、図6
に示される同じ単語番号を持つ候補の認識尤度差はすべ
てしきい値以内にあるものとする。また、ずれとして許
容されるフレーム数は5フレームとする。
【0055】始端位置21フレーム、終端位置106フ
レームの候補「11時」は、下位の始端位置21フレー
ム、終端位置87フレームの候補「11時」と比較して
始端位置は同一であって許容差内にあるが、終端位置は
19フレーム遅く、許容差外にある。よって、上位候補
と下位候補の終端位置を認識尤度をそのままにして入れ
替える。また、始端位置73フレーム、終端位置154
フレームの候補「20分」は、下位の始端位置95フレ
ーム、終端位置156フレームの候補「20分」と比較
して終端位置は2フレーム差であって許容差内にある
が、始端位置は22フレーム早く、許容差外にある。よ
って、上位候補と下位候補の始端位置を認識尤度をその
ままにして入れ替える。更に、始端位置103フレー
ム、終端位置162フレームの候補「10分」は、下位
の始端位置103フレーム、終端位置156フレームの
候補「10分」と比較して始端位置は同一であって許容
差内にあるが、終端位置は6フレーム早く、許容差外に
ある。よって、上位候補と下位候補の終端位置を認識尤
度をそのままにして入れ替える。この処理を行なった後
の認識結果記憶部12の内容を図7に示す。
【0056】連結候補作成部18は、図7に示される認
識結果から「何時」と「何分」とを連結した候補の作成
を行う。即ち、「何時」と「何分」の候補の音声区間の
重なりを或る一定範囲内で許容して「何時」と「何分」
の候補を作成する(候補の作成処理の詳細については特
願平2−9872「ワードスポッティング音声認識方
法」参照)。ここで、許容する重なりを5フレーム以内
として全ての連結候補を求めると、その結果は表2に示
される通りとなる。表2の結果が6個のみであるのは同
一意味内容のものは作成しないためである。 表 2 候補番号 認識尤度の和 キーワード1 キーワード2 1 218 1時, [103 ],(43,87) 20分, [115 ],(95,154) 2 210 11 時, [95],(21,87) 20分, [115 ],(95,154) 3 207 10 時, [92],(22,81) 20分, [115 ],(95,154) 4 213 1時, [103 ],(43,87) 10分, [110 ],(103,156) 5 205 11 時, [95],(21,87) 10分, [110 ],(103,156) 6 202 10 時, [92],(22,81) 10分, [110 ],(103,156) 表2の内容は連結候補記憶部19に記憶されるのである
が、連結候補評価部20は表2の結果に対して例えば認
識尤度に着目してその高い順に優先順位を決定し、この
優先順位に基づいて認識結果出力部21から認識結果を
出力し、或は上位WSに通知する。今回の処理に依って
は「1時20分」が1位の候補として出力され、正解の
「11時20分」は3位の候補として出力されることと
なる。なお、図7に示される部分単語「1時」と複合単
語「11時」の候補について特願平2−234745の
「ワードスポッティング音声認識方法」を使用し、21
フレームから43フレームの間に部分単語「1時」と複
合単語「11時」の差分である「じゅう」が或る一定値
以上で認識尤度検出されたならば候補の優先順位を入れ
替える、という処理をすることにより「11時」が「1
時」より上位の候補であると評価されて連結候補1位は
「11時」であると正解する可能性が高くなる。
【0057】
【発明の効果】以上の通りであって、この発明によれ
ば、不正解候補の湧き出し、正解候補の脱落が抑えら
れ、各キーワードの認識率および各キーワードを連結し
て形成される連鎖候補の正解率を向上することができ
る。特に、冗長語が発声されず、音声区間の検出が成功
した場合にこの効果をより多く期待することができる。
【0058】そして、この発明は、機械への音声入力手
段としてワードスポッティング音声認識方法を採用した
音声対話システムの構築をより容易にするものである。
【図面の簡単な説明】
【図1】不正解候補の湧き出しおよび正解候補の脱落を
説明する図。
【図2】この発明の実施例のブロック図。
【図3】認識結果一時記憶部の記憶内容を示す図。
【図4】認識結果一時記憶部の記憶内容を示す図。
【図5】候補リジェクト処理、ラベリング、ソーティン
グ処理後の認識結果記憶部の記憶内容を示す図。
【図6】再認識処理後の認識結果記憶部の記憶内容を示
す図。
【図7】音声区間修正処理後の認識結果記憶部の記憶内
容を示す図。
【符号の説明】
2 音声分析部 3 音声区間判定部 4 音声区間記憶部 5 尤度計算用特微量記憶部 6 認識辞書記憶部 7 認識対象単語記憶部 8 認識対象区間記憶部 9 認識尤度計算部 10 認識結果一時記憶部 11 候補リジェクト部 12 認識結果記憶部 13 キーワード情報記憶部 14 ラベリング、ソーティング処理部 15 区間誤り候補リジェクト部 16 再認識区間決定部 17 区間修正部 18 連結候補作成部 19 連結候補記憶部 20 連結候補評価部 21 認識結果出力部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 認識処理の対象となる単語の指定、指定
    解除を個々の単語に対して独立に実施する認識対象設定
    部を具備し、 入力信号の分析を行ない認識尤度計算用の特微量および
    音声区間検出用の特微量を計算する音声分析部を具備
    し、 音声分析部において計算された音声区間検出用の特微量
    に基づいて入力信号区間における音声信号区間の始端位
    置および終端位置を判定する音声区間判定部を具備し、 音声分析部において計算された認識尤度計算用の特微量
    を記憶する尤度計算用特微量記憶部を具備し、 音声分析部において計算された認識尤度計算用の特微量
    或は尤度計算用特微量記憶部に記憶されている任意の入
    力区間に対応する認識尤度計算用の特微量と、入力信号
    の任意の部分的信号区間において認識対象設定部により
    指定された認識対象単語とに基づいて、認識尤度を計算
    し、認識結果として単語毎に予め設定されているしきい
    値以上の認識尤度を持ち、候補の区間長が単語毎に予め
    設定されている範囲の長さ内である認識候補の認識単語
    番号、認識尤度、および入力信号区間におけるスポッテ
    ィングされた始端位置および終端位置を出力する認識尤
    度計算部を具備するワードスポッティング音声認識装置
    において、更に認識尤度計算部から出力される認識候補
    に対して、認識候補の始端位置の音声区間判定部により
    判定された音声信号区間の始端位置に対する時間的な早
    さが予め設定されている許容時間より大きいか、或は認
    識候補の終端位置の音声区間判定部により判定された音
    声信号区間の終端位置に対する時間的な遅さが予め設定
    されている許容時間より大きいか、或は認識候補の始端
    位置が音声区間判定部により判定された音声信号区間の
    終端位置より時間的に遅いか或は認識候補の終端位置が
    音声区間判定部により判定された音声信号区間の始端位
    置より時間的に早い場合は、当該認識候補のリジェクト
    を行なう候補リジェクト部を具備する、 ことを特徴とするワードスポッティング音声認識装置。
  2. 【請求項2】 請求項1に記載されるワードスポッティ
    ング音声認識装置において、候補リジェクト部は認識候
    補Ciの認識尤度が予め設定されているしきい値以上で
    あり、その認識候補Ciと同一単語であって認識尤度差
    が予め設定されているしきい値以内の認識候補Cjがあ
    り、これらの始端位置同士の時間的なずれと終端同士の
    時間的なずれとが、一方のずれが予め定められた時間以
    内にあり他方のずれが予め定められた時間以内にない場
    合、予め設定されている時間以上のずれの方の位置(始
    端位置或は終端位置)を認識候補Ciと認識候補Cjで
    入れ替える手段より成る、ものであることを特徴とする
    ワードスポッティング音声認識装置。
  3. 【請求項3】 請求項1に記載されるワードスポッティ
    ング音声認識装置において、候補リジェクト部は複数キ
    ーワードが入力され、認識尤度が予め定められているし
    きい値より高い認識候補Cが属するキーワードをKiと
    した時、キーワードKiに後続するキーワードKjの認
    識候補の始端位置が、キーワードKiに属する認識候補
    中の認識候補Cとの間の認識尤度差が予め設定されてい
    る値以下の認識候補の中の最も時間的に早い始端位置よ
    り、時間的に更に前にあるか、或は予め定められている
    時間以内遅い場合はこの候補をリジェクトする手段、お
    よびキーワードKiに先行するキーワードKhの認識候
    補の終端位置が、キーワードKiに属する認識候補中の
    認識候補Cとの間の認識尤度差が予め設定されている値
    以下の認識候補の中の最も時間的に遅い終端位置より、
    時間的に更に後ろにあるか、或は予め定められている時
    間以内早い場合はこの候補をリジェクトする手段より成
    る、 ものであることを特徴とするワードスポッティング音声
    認識装置。
  4. 【請求項4】 請求項1に記載されるワードスポッティ
    ング音声認識装置において、複数キーワードが入力さ
    れ、隣接するキーワードKi、Kjについて、キーワー
    ドKiがキーワードKjに先行し、キーワードKiに属
    する認識候補中の最も高い認識尤度Liが予め定められ
    ているしきい値より高く、キーワードKjに属する認識
    候補中の最も高い認識尤度Ljも予め定められているし
    きい値より高く、キーワードKiに属する認識候補中の
    認識尤度Liとの間の認識尤度差が予め設定されている
    しきい値以下である認識候補の始端位置および終端位置
    について、時間的に最も早い始端位置および終端位置を
    それぞれP1、P2とし、更にキーワードKjに属する
    認識候補中の認識尤度Ljとの間の認識尤度差が予め設
    定されているしきい値以下である認識候補の始端位置お
    よび終端位置について、時間的に最も遅い始端位置およ
    び終端位置をそれぞれP3、P4とした場合、位置P1
    と位置P3との間の区間における認識尤度計算をキーワ
    ードKiに属する認識対象単語に対して行なうと共に、
    位置P2と位置P4との間の区間における認識尤度計算
    をキーワードKjに属する認識対象単語に対して行なっ
    て、その認識結果を追加する手段を具備する、 ことを特徴とするワードスポッティング音声認識装置。
JP4264874A 1992-10-02 1992-10-02 ワードスポッティング音声認識装置 Pending JPH06118990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4264874A JPH06118990A (ja) 1992-10-02 1992-10-02 ワードスポッティング音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4264874A JPH06118990A (ja) 1992-10-02 1992-10-02 ワードスポッティング音声認識装置

Publications (1)

Publication Number Publication Date
JPH06118990A true JPH06118990A (ja) 1994-04-28

Family

ID=17409427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4264874A Pending JPH06118990A (ja) 1992-10-02 1992-10-02 ワードスポッティング音声認識装置

Country Status (1)

Country Link
JP (1) JPH06118990A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
US6556970B1 (en) 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2008134502A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2010032792A (ja) * 2008-07-29 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP2015520410A (ja) * 2012-04-27 2015-07-16 インタラクティブ・インテリジェンス・インコーポレイテッド 音声認識に対する負例(アンチワード)に基づく性能改善

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556970B1 (en) 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2008134502A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
US8108215B2 (en) 2006-11-29 2012-01-31 Nissan Motor Co., Ltd. Speech recognition apparatus and method
JP2010032792A (ja) * 2008-07-29 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP2015520410A (ja) * 2012-04-27 2015-07-16 インタラクティブ・インテリジェンス・インコーポレイテッド 音声認識に対する負例(アンチワード)に基づく性能改善

Similar Documents

Publication Publication Date Title
EP0705473B1 (en) Speech recognition method using a two-pass search
US9002705B2 (en) Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents
EP0715298B1 (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
US8990084B2 (en) Method of active learning for automatic speech recognition
EP0955628A2 (en) A method of and a device for speech recognition employing neural network and Markov model recognition techniques
US20140032973A1 (en) System and method for robust pattern analysis with detection and correction of errors
JP2000075895A (ja) 連続音声認識用n最良検索方法
EP1460615B1 (en) Voice processing device and method, recording medium, and program
JPH04182000A (ja) 連続音声認識装置
EP1575031A2 (en) Voice recognition apparatus
JPH06118990A (ja) ワードスポッティング音声認識装置
JP2005084436A (ja) 音声認識装置及びコンピュータプログラム
JP4220151B2 (ja) 音声対話装置
JPH06266386A (ja) ワードスポッティング方法
US20050049873A1 (en) Dynamic ranges for viterbi calculations
JPH11202886A (ja) 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
JP2000214879A (ja) 音声認識装置の適応化方法
JP3494338B2 (ja) 音声認識方法
JPH06282295A (ja) 適応的探索方式
Sancinetti et al. A transfer learning based approach for pronunciation scoring
Wang et al. Learning discriminative features in sequence training without requiring framewise labelled data
JP3550350B2 (ja) 音声認識方法及びプログラム記録媒体
US20240054992A1 (en) Labeling method, labeling device, and labeling program
JPH04307664A (ja) 音声理解方式
JPH03141398A (ja) 連続音声認識用構文処理装置