JP3428805B2 - 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法 - Google Patents

音声認識のための音声区間始端補正方法及び装置並びに音声認識方法

Info

Publication number
JP3428805B2
JP3428805B2 JP06823096A JP6823096A JP3428805B2 JP 3428805 B2 JP3428805 B2 JP 3428805B2 JP 06823096 A JP06823096 A JP 06823096A JP 6823096 A JP6823096 A JP 6823096A JP 3428805 B2 JP3428805 B2 JP 3428805B2
Authority
JP
Japan
Prior art keywords
sentence
condition
section
input signal
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06823096A
Other languages
English (en)
Other versions
JPH09258765A (ja
Inventor
正樹 内藤
眞吾 黒岩
誠一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP06823096A priority Critical patent/JP3428805B2/ja
Publication of JPH09258765A publication Critical patent/JPH09258765A/ja
Application granted granted Critical
Publication of JP3428805B2 publication Critical patent/JP3428805B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識のための
音声区間検出において、音声区間として誤検出された非
定常雑音を認識対象から除外するために音声区間始端の
補正を行う方法及び装置並びにこの方法を用いた音声認
識方法に関し、特に音声言語によるマン・マシンインタ
フェースにおける音声認識の精度向上に有用なものであ
る。
【0002】
【従来の技術】従来の音声認識装置では、音声信号が入
力された際に、入力信号のパワ−等を基にして音声区間
の始端と終端を検出し、その結果得られる音声区間にお
いて単語標準パタンを文法規則に基づいて連続的に入力
信号と照合することにより、音声を認識するようになっ
ている。
【0003】文法規則は人が発声する文を想定して、文
中に現れる通常の単語と、単語の間や前後に生じる無音
(ポーズ)とを、認識に用いるために予め各種組み合わ
せたものである。単語標準パタンには本来の単語に対応
する標準パタンと、無音に対応する標準パタン(無音標
準パタン)とがある。無音といっても全く音が無い状態
は事実上殆ど無く、例えば電話回線上のホワイトノイズ
等の定常的な雑音(以下、定常雑音)が存在するので、
通常は、認識対象環境等での定常雑音が無音として扱わ
れる。
【0004】従って、音声認識の上では無音も認識対象
なので単語の一種であると考えられるから、特に断らな
い限り、単語という場合は無音も含み、また単語標準パ
タンと言う場合は無音標準パタンも含むものとする。
【0005】この種の従来の音声認識装置は、図10に
示すように、音響分析部1と、音響分析結果遅延部2
と、始端検出部3と、終端検出部4と、文法規則格納部
5と、単語予測部6と、単語照合部7と、単語標準パタ
ン格納部8と、部分文生成部9と、認識結果出力部10
と、音声区間検出用スイッチ11と、パワ−計算部12
から構成され、主として中央処理装置(CPU)とソフ
トウェアにより実現されている。
【0006】図10において、文法規則格納部5には認
識に用いる各種の文法規則を予め格納し、また、単語標
準パタン格納部8には各種の単語標準パタンを予め格納
する。音声区間検出用スイッチ11は予め、始端検出部
3側に接続される。このような前提の下で、図10の音
声認識装置は以下に示す手順(1)〜(9)に従い音声
認識を行う。
【0007】(1)パワー計算部12は、装置の起動後
入力信号のパワーを逐次計算し、その結果12Aを音声
区間検出用スイッチ11を通して始端検出部3に送る。
【0008】ここで音声区間検出用スイッチ11は、前
述のとおり最初は始端検出部3に接続しておくものと
し、以後、始端検出部3から始端検出信号3Aを受け取
った時点で終端検出部4に接続し、終端検出部4から終
端検出信号4Aを受け取った時点で始端検出部3側に接
続を戻し、それぞれ接続した側にパワ−の計算結果12
Aを送る。
【0009】(2)始端検出部3はパワ−計算部12か
ら送られてくるパワ−を、図11に示すように始端検出
用の閾値TH1 と逐次比較し、閾値TH1 を越えた状態
が予め定めた時間t2 以上継続した時点で、始端検出信
号3Aを音声区間検出用スイッチ11及び単語予測部6
に送る。
【0010】(3)一方、終端検出部4はパワ−計算部
12から送られてくるパワ−を、図11に示すように終
端検出用の閾値TH2 と逐次比較し、閾値TH2 以下の
値をとる状態が予め定めた時間t3 以上継続した時点
で、パワ−が最初に閾値TH2 以下となった時点から時
間t4 後までの照合をも行うように、終端検出信号4A
を音声区間検出用スイッチ11、単語予測部6及び認識
結果出力部10に送る。
【0011】(4)音響分析部1は入力信号の特徴パラ
メ−タを抽出するための音響分析を逐次行い、その結果
1Aを音響分析結果遅延部2に送る。
【0012】(5)音響分析結果遅延部2は音響分析部
1から送られる音響分析結果1Aを、始端検出誤りを避
けるために設定されるマ−ジン時間t1 (図11参照)
の分だけ遅延させ、その結果2Aを単語照合部7に送
る。
【0013】(6)単語予測部6では、部分文生成部9
から送られてくる部分文照合結果(各部分文とそれぞれ
の照合スコア)9Aと、文法規則格納部5に格納された
文法規則5Aとから、単語照合部7で次に照合すべき単
語即ち照合単語6Aを1つまたは複数推定し、単語照合
部7に送る。
【0014】この単語予測部6の処理は、始端検出部3
より始端検出信号3Aを受け取った時点から開始され、
終端検出部4より終端検出信号4Aを受け取るまで継続
する。
【0015】(7)単語照合部7は単語予測部6から受
け取った照合単語6Aに対応する単語標準パタン即ち照
合単語標準パタン8Aを単語標準パタン格納部8から読
み出して、得られた照合単語標準パタン8Aと遅延され
た音響分析結果2Aとを照合し、単語標準パタンの終わ
りまで照合を行った単語についてその結果即ち単語照合
結果7Aを部分文生成部9に送る。
【0016】なお、単語照合部7において照合の際に用
いる照合スコアの計算法としては、周知の如くDPマッ
チングや隠れマルコフモデル(HMM)を用いる方法等
がある。(中川聖一著「確率モデルによる音声認識」参
照)
【0017】単語の予測及び照合が進むに連れて、各時
刻で照合された単語を文法規則に従い並べることにより
得られる文の一部即ち部分文が得られ、また、部分文毎
の照合スコアを計算することができる。
【0018】(8)そこで、部分文生成部9は、単語照
合部7より送られてくる単語照合結果7Aから各部分文
とそれぞれの照合スコアを求め、その結果9Aを単語予
測部6及び認識結果出力部10に送る。
【0019】(9)認識結果出力部10は終端検出部4
から終端検出信号4Aを受け取った後に、部分文生成部
9から送られてきた全ての部分文照合結果9Aのうち
で、照合スコアの最も高い部分文を入力信号に対する認
識結果10Aとして出力する。
【0020】
【発明が解決しようとする課題】しかし、このような従
来方法では、音声認識装置の利用者(装置利用者)が認
識対象の音声を発声する前に、咳、吸う息、吐く息、鼻
をすする音、リップノイズ、周囲の人の声、ベルの音、
パルスの音、受話器の音、ドアの音、足音、紙の擦れる
音、キーボードの音等の非定常的な雑音(以下、非定常
雑音)が入力された場合、そのパワーが十分大きければ
音声区間の始端が検出される。
【0021】そのため、これら非定常雑音は単語標準パ
タンに無い認識対象外の音であるにもかかわらず、それ
ら非定常雑音のみを音声として検出して音声認識を開始
したり、又は非定常雑音と認識対象の音声とを合わせて
一つの音声として検出して音声認識を開始することがあ
り、それらと文の標準パタンとの照合を行うことになっ
て、認識性能が低下する。
【0022】そこで本発明は、音声区間として誤検出さ
れた非定常雑音を認識対象から除外するために音声区間
始端の補正を行う方法及び装置並びにこの方法を用いた
音声認識方法を提供することを目的とする。
【0023】
【課題を解決するための手段】本発明では、単語標準パ
タンを文法規則に基づき連続的に入力信号と照合するこ
とで連続に発声された音声を認識する音声認識におい
て、入力信号と単語標準パタンとの照合結果より得られ
る、部分文の照合スコア及び構文解析結果と、無音の標
準パタンに一致すると判断される入力信号の区間長と、
入力信号と部分文との適合度とを基に、認識対象外の非
定常雑音を検出し、音声区間の始端を補正した後、再度
認識を開始する。
【0024】即ち本発明の音声区間始端検出方法は、単
語標準パタンを文法規則に基づき連続的に入力信号と照
合することで音声を認識する方法において、入力信号と
単語標準パタンとの照合結果より得られる、部分文の照
合スコアと構文解析結果、無音の標準パタンと一致する
と判断される入力信号の区間長、及び、入力信号と部分
文の適合度を基に非定常雑音を検出し、音声区間の始端
を補正することを特徴とする。
【0025】また、本発明の他の音声区間始端検出方法
は、単語標準パタンを文法規則に基づき入力信号と照合
することにより音声を認識するに際し、入力信号と単語
標準パタンとの照合結果より得られる部分文とその照合
スコアから、無音で終わる部分文の照合スコアが最大で
あるという第1の条件を満たし、且つ、部分文文末の無
音に相当する入力信号の区間長が予め定めた時間以上で
あるという第2の条件を満たす部分文が存在するか否か
を判定すること、第1と第2の条件を共に満たすと判定
した時点で、入力信号と別途定めた基準パタンとの照合
スコアを基準スコアとし、それ以前の区間の前記入力信
号と単語標準パタンとの照合結果より得られた同部分文
の照合スコアと基準スコアとの差が所定の範囲内である
という第3の条件が満たされるか否かを判定すること、
第3の条件が満たされないと判定した時、第1と第2の
条件を共に満たすと判定した部分文に対応する区間の入
力信号が非定常雑音であると判定し、音声区間の始端を
補正することを特徴とし、あるいは、単語標準パタンを
文法規則に基づき入力信号と照合することにより音声を
認識するに際し、入力信号と単語標準パタンとの照合結
果より得られる部分文とその照合スコアから、無音で終
わる部分文の照合スコアが最大であるという第1の条件
を満たし、且つ、部分文文末の無音に相当する入力信号
の区間長が予め定めた時間以上であるという第2の条件
を満たす部分文が存在するか否かを判定すること、第1
と第2の条件を共に満たすと判定した時点で、入力信号
と別途定めた基準パタンとの照合スコアを基準スコアと
し、それ以前の区間の前記入力信号と単語標準パタンと
の照合結果より得られた前記第1と第2の条件を共に満
たすと判定した部分文の照合スコアと前記基準スコアと
の差が所定の範囲内であるという第3の条件が満たされ
るか否かを判定すること、第1と第2の条件を共に満た
すと判定した時点で、前記第1と第2の条件を共に満た
すと判定した部分文に対応した入力信号の区間長を求
め、この区間長が所定の範囲で同部分文の標準区間長に
適合するという第4の条件が満たされるか否かを判定す
ること、第3の条件と第4の条件のうちいずれか一方の
条件が満たされないと判定したとき、前記第1と第2の
条件を共に満たすと判定した部分文に対応する区間の入
力信号が非定常雑音であると判定し、音声区間の始端を
補正することを特徴とし、 あるいは、前記第3の条件に
代えて、前記第1と第2の条件を共に満たすと判定した
部分文に対応した入力信号の区間長を求め、この区間長
が所定の範囲で前記部分文の標準区間長に適合するとい
う第4の条件が満たされるか否かを判定すること、第4
の条件が満たされないと判定したとき、前記第1及び第
2の条件を共に満たすと判定した部分文に対応する区間
の入力信号が非定常雑音であると判定し、音声区間の始
端を補正することを特徴とし、あるいは、前記第3の条
件に代えて、第1と第2の条件を共に満たすと判定した
部分文について、同部分文の各状態での照合スコアを比
較して最大値を求め、この最大値を取る状態で見た同部
分文に対応した入力信号と別途定めた基準パタンとの照
合スコアを基準スコアとし、この基準スコアと前記最大
値との差が所定の範囲内であるという第5の条件が満た
されるか否かを判定すること、第5の条件が満たされな
いと判定した時、第1と第2の条件を共に満たすと判定
した部分文に対応する区間の入力信号が非定常雑音であ
ると判定し、音声区間の始端を補正することを特徴と
し、あるいは、単語標準パタンを文法規則に基づき入力
信号と照合することにより音声を認識するに際し、入力
信号と単語標準パタンとの照合結果より得られる部分文
とその照合スコアから、無音で終わる部分文の照合スコ
アが最大であるという第1の条件を満たし、且つ、部分
文文末の無音に相当する入力信号の区間長が予め定めた
時間以上であるという第2の条件を満たす部分文が存在
するか否かを判定すること、第1と第2の条件を共に満
たすと判定した部分文について、同部分文の各状態での
照合スコアを比較して最大値を求め、この最大値を取る
状態で見た同部分文に対応した入力信号と別途定めた基
準パタンとの照合スコアを基準スコアとし、この基準ス
コアと前記最大値との差が所定の範囲内であるという第
5の条件が満たされるか否か判定すること、前記第1と
第2の条件を共に満たすと判定した部分文のうち前記最
大値を取る状態で見た同部分文に対応した入力信号の区
間長を求め、この区間長が所定の範囲で同部分文の平均
区間長に適合するという第6の条件が満たされるか否か
判定すること、第5の条件と第6のうちいずれか一方の
条件が満たされないとき、前記第1と第2の条件を共に
満たすと判定した部分文に対応する区間の入力信号が非
定常雑音であると判定し、音声区間 の始端を補正するこ
とを特徴とし、 あるいは、前記第3の条件に代えて、前
記第1と第2の条件を共に満たすと判定した部分文のう
ち前記最大値を取る状態で見た同部分文に対応した入力
信号の区間長を求め、この区間長が所定の範囲で同部分
文の平均区間長に適合するという第6の条件が満たされ
るか否かを判定すること、第6の条件が満たされないと
判定した時、前記第1及び第2の条件を共に満たすと判
定した部分文に対応する区間の入力信号が非定常雑音で
あると判定し、音声区間の始端を補正することを特徴と
し、あるいは、前記音声区間の始端の補正として、部分
文に対応する区間の入力信号が非定常雑音であると判定
した時点より一定時間前の時点に、音声区間の始端を補
正することを特徴とする。
【0026】また、本発明の音声区間始端検出装置は、
単語標準パタンを文法規則に基づき入力信号と照合する
ことにより音声を認識する装置において、入力信号と単
語標準パタンとの照合結果より得られる部分文とその照
合スコアから、無音で終わる部分文の照合スコアが最大
であるという第1の条件を満たし、且つ、部分文文末の
無音に相当する入力信号の区間長が予め定めた時間以上
であるという第2の条件を満たす部分文が存在するか否
かを判定する第1の判定手段と、第1と第2の条件を共
に満たすと判定した時点で、入力信号と別途定めた基準
パタンとの照合スコアを基準スコアとし、それ以前の区
間の前記入力信号と単語標準パタンとの照合結果より得
られた同部分文の照合スコアと前記基準スコアとの差が
所定の範囲内であるという第3の条件が満たされるか否
かを判定する第2の判定手段と、第3の条件が満たされ
ないと判定した時、第1と第2の条件を共に満たすと判
定した部分文に対応する区間の入力信号が非定常雑音で
あると判定し、音声区間の始端を補正する第3の手段を
有することを特徴とし、或いは、単語標準パタンを文法
規則に基づき入力信号と照合することにより音声を認識
する装置において、入力信号と単語標準パタンとの照合
結果より得られる部分文とその照合スコアから、無音で
終わる部分文の照合スコアが最大であるという第1の条
件を満たし、且つ、部分文文末の無音に相当する入力信
号の区間長が予め定めた時間以上であるという第2の条
件を満たす部分文が存在するか否かを判定する第1の判
定手段と、第1と第2の条件を共に満たすと判定した時
点で、入力信号と別途定めた基準パタンとの照合スコア
を基準スコアとし、それ以前の区間の前記入力信号と単
語標準パタンとの照合結果より得られた同部分文の照合
スコアと前記基準スコアとの差が所定の範囲内であると
いう第3の条件が満たされるか否か、及び、前記第1と
第2の条件を共に満たすと判定した部分文に対応した入
力信号の区間長を求め、この区間長が所定の範囲で前記
部分文の標準区間長に適合するという第4の条件が満た
されるか否かを判定する第2の判定手段と、第3の条件
と第4の条件のうちいずれか一方の条件が満たされない
と判定した場合に、前記第1と第2の条件を共に満たす
と判定した部分文に対応する区間の入力信号が非定常雑
音であると判定し、音声区間の始端を補正し、前記一方
の条件が満たされる場合は、第3の条件と第4の条件の
うちいずれか他方の条件が満たされないと判定した場合
に、前記第1と第2の条件を共に満たすと判定した部分
文に対応する区間の入力信号が非定常雑音であると判定
し、音声区間の始端を補正する第3の手段を有すること
を特徴とし、 或いは、単語標準パタンを文法規則に基づ
き入力信号と照合することにより音声を認識する装置に
おいて、入力信号と単語標準パタンとの照合結果より得
られる部分文とその照合スコアから、無音で終わる部分
文の照合スコアが最大であるという第1の条件を満た
し、且つ、部分文文末の無音に相当する入力信号の区間
長が予め定めた時間以上であるという第2の条件を満た
す部分文が存在するか否かを判定する第1の判定手段
と、第1と第2の条件を共に満たすと判定した時点で、
入力信号と別途定めた基準パタンとの照合スコアを基準
スコアとし、それ以前の区間の前記入力信号と単語標準
パタンとの照合結果より得られた同部分文の照合スコア
と前記基準スコアとの差が所定の範囲内であるという第
3の条件が満たされるか否か、及び、第1と第2の条件
を共に満たすと判定した部分文に対応した入力信号の区
間長を求め、この区間長が所定の範囲で前記部分文の標
準区間長に適合するという第4の条件が満たされるか否
かを判定する第2の判定手段と、第3の条件と第4の条
件のうちいずれか一方の条件が満たされないと判定した
とき、前記第1と第2の条件を共に満たすと判定した部
分文に対応する区間の入力信号が非定常雑音であると判
定し、音声区間の始端を補正する第3の手段を有するこ
とを特徴とし、 或いは、前記第2の判定手段は前記第3
の条件に代えて、前記第1と第2の条件を共に満たすと
判定した部分文に対応した入力信号の区間長を求め、こ
の区間長が所定の範囲で前記部分文の標準区間長に適合
するという第4の条件が満たされるか否かを判定するこ
と、前記第3の手段は第3の条件に代えて、第4の条件
が満たされないと判定したとき、前記第1及び第2の条
件を共に満たすと判定した部分文に対応する区間の入力
信号が非定常雑音であると判定し、音声区間の始端を補
正することを特徴とし、或いは、前記第2の判定手段は
前記第3の条件に代えて、第1と第2の条件を共に満た
すと判定した部分文について、同部分文の各状態での照
合スコアを比較して最大値を求め、この最大値を取る状
態で見た同部分文に対応した入力信号と別途定めた基準
パタンとの照合スコアを基準スコアとし、この基準スコ
アと前記最大値との差が所定の範囲内であるという第5
の条件が満たされるか否かを判定すること、前記第3の
手段は第3の条件に代えて、第5の条件が満たされない
と判定した時、第1と第2の条件を共に満たすと判定し
た部分文に対応する区間の入力信号が非定常雑音である
と判定し、音声区間の始端を補正することを特徴とし、
或いは、前記第2の判定手段は前記第3の条件に代え
て、前記第1と第2の条件を共に満たすと判定した部分
文について同部分文の各状態での照合スコアを比較して
最大値を求め、同部分文のうち前記最大値を取る状態で
見た同部分文に対応した入力信号の区間長を求め、この
区間長が所定の範囲で同部分文の平均区間長に適合する
という第6の条件が満たされるか否かを判定すること、
前記第3の手段は第3の条件に代えて、第6の条件が満
たされないと判定した時、前記第1及び第2の条件を共
に満たすと判定した部分文に対応する区間の入力信号が
非定常雑音であると判定し、音声区間の始端を補正する
ことを特徴とし、 或いは、単語標準パタンを文法規則に
基づき入力信号と照合することにより音声を認識する装
置において、入力信号と単語標準パタンとの照合結果よ
り得られる部分文とその照合スコアから、無音で終わる
部分文の照合スコアが最大であるという第1の条件を満
たし、且つ、部分文文末の無音に相当する入力信号の区
間長が予め定めた時間以上であるという第2の条件を満
たす部分文が存在するか否かを判定する第1の判定手段
と、第1と第2の条件を共に満たすと判定した部分文に
ついて、同部分文の各状態での照合スコアを比較して最
大値を求め、この最大値を取る状態で見た同部分文に対
応した入力信号と別途定めた基準パタンとの照合スコア
を基準スコアとし、この基準スコアと前記最大値との差
が所定の範囲内であるという第5の条件が満たされるか
否か、及び、前記第1と第2の条件を共に満たすと判定
した部分文のうち前記最大値を取る状態で見た同部分文
に対応した入力信号の区間長を求め、この区間長が所定
の範囲で同部分文の平均区間長に適合するという第6の
条件が満たされるか否かを判定する第2の判定手段と、
第5の条件と第6の条件のうちいずれか一方の条件が満
たされないと判定した場 合、前記第1と第2の条件を共
に満たすと判定した部分文に対応する区間の入力信号が
非定常雑音であると判定し、音声区間の始端を補正し、
前記一方の条件が満たされる場合は、第5の条件と第6
の条件のうちいずれか他方の条件が満たされないと判定
した場合に、前記第1と第2の条件を共に満たすと判定
した部分文に対応する区間の入力信号が非定常雑音であ
ると判定し、音声区間の始端を補正する第3の手段を有
することを特徴とし、 或いは、単語標準パタンを文法規
則に基づき入力信号と照合することにより音声を認識す
る装置において、入力信号と単語標準パタンとの照合結
果より得られる部分文とその照合スコアから、無音で終
わる部分文の照合スコアが最大であるという第1の条件
を満たし、且つ、部分文文末の無音に相当する入力信号
の区間長が予め定めた時間以上であるという第2の条件
を満たす部分文が存在するか否かを判定する第1の判定
手段と、第1と第2の条件を共に満たすと判定した部分
文について、同部分文の各状態での照合スコアを比較し
て最大値を求め、この最大値を取る状態で見た同部分文
に対応した入力信号と別途定めた基準パタンとの照合ス
コアを基準スコアとし、この基準スコアと前記最大値と
の差が所定の範囲内であるという第5の条件が満たされ
るか否か、及び、前記第1と第2の条件を共に満たすと
判定した部分文のうち前記最大値を取る状態で見た同部
分文に対応した入力信号の区間長を求め、この区間長が
所定の範囲で同部分文の平均区間長に適合するという第
6の条件が満たされるか否かを判定する第2の判定手段
と、第5の条件と第6の条件のうちいずれか一方の条件
が満たされないと判定したとき、前記第1と第2の条件
を共に満たすと判定した部分文に対応する区間の入力信
号が非定常雑音であると判定し、音声区間の始端を補正
する第3の手段を有することを特徴とする。
【0027】更に、本発明の音声認識方法は、単語標準
パタンを文法規則に基づき入力信号と照合することで音
声を認識する装置の起動時に、入力信号のパワー計算に
より音声区間の始端を検出した後、この検出した始端を
上記いずれかの音声区間始端補正方法により補正して音
声認識を行うことを特徴とし、或いは、単語標準パタン
を文法規則に基づき入力信号と照合することで音声を認
識する装置の起動時に、入力信号のパワー計算等による
音声区間の始端を検出することなく、音声認識と、請求
項1から8いずれかに記載の音声区間始端補正方法とを
開始し、この音声区間始端補正方法により補正しながら
音声認識を行うと共に、入力信号のパワー計算による音
声区間の終端を検出することなく、入力信号と単語標準
パタンとの照合結果より得られる、部分文の照合スコア
及び構文解析結果と、無音の標準パタンと一致すると判
断される入力信号の区間長とを基に音声区間の終端を検
出して音声認識を終了することを特徴とする。
【0028】
【発明の実施の形態】文法規則を用いて、単語標準パタ
ンを連続的に音声や雑音等の入力信号と照合すると、単
語の予測及び照合が進むに連れ各時刻で部分文と入力信
号との照合スコアが得られる。入力信号が音声又は雑音
等いずれの場合も、無音区間においては、全ての部分文
中で無音で終わる部分文の照合スコアが最大となり、且
つ無音の標準パタンと一致すると判断される区間(無音
区間)が或る程度継続する。
【0029】但し、非定常雑音という認識対象外の音
と、単語標準パタンという異なるパタンとが照合された
場合は、照合スコアが低い。また、部分文に一致すると
判断される区間長も、本来予想される部分文長とは大き
く異なる場合が多い。
【0030】そこで、入力信号と単語標準パタンとの照
合により得られる、部分文の照合スコア及び構文解析結
果と、無音の標準パタンに一致すると判断される入力信
号の区間長とを用いて、無音区間であるか否かを判断
し、更に、この時点で入力信号と部分文との適応度を基
にそれ以前の入力が非定常雑音であるか否かを判定し、
非定常雑音と判定された場合には、その時点から数フレ
−ム以前の無音区間の中に音声区間の始端を補正して、
音声認識を再開する。
【0031】上述した音声区間始端の補正方法または装
置を連続音声認識に適用することにより、従来は誤検出
していた非定常雑音を除いた区間で、入力信号と単語標
準パタンとの照合が行えるため、音声認識の性能が向上
する。
【0032】
【実施例】以下、図面を参照して本発明をその実施例と
ともに説明する。
【0033】本発明の一実施例に係る音声認識装置を図
1に示す。図1の音声認識装置は、入力信号のパワ−を
用いて音声区間の始端を検出し、同じく入力音声のパワ
−を用いて検出する音声区間の終端までの区間の入力信
号を、文法規則に基づき単語標準パタンと連続的に照合
する音声認識装置において、入力信号と単語標準パタン
との照合結果より得られる、部分文の照合スコア及び構
文解析結果と、無音の標準パタンに一致すると判断され
る入力信号の区間長と、入力信号の部分文との適合度と
を基に非定常雑音等を検出して、音声区間の始端を補正
する方法を適用したものである。
【0034】即ち、この音声認識装置は、音響分析部1
と、音響分析結果遅延部2と、始端検出部3と、終端検
出部4と、文法規則格納部5と、単語予測部6と、単語
照合部7と、単語標準パタン格納部8と、部分文生成部
9と、認識結果出力部10と、音声区間検出用スイッチ
11と、パワ−計算部12と、雑音検出部13から構成
され、主として中央処理装置(CPU)とソフトウェア
により実現される。
【0035】文法規則格納部5には、認識に用いる幾つ
かの文法規則が予め格納される。例えば、図2に示すよ
うな「(無音)総務部の(無音)矢野さん(無音)」を
表す文法規則等が各種用意される。なお、図2において
は、文法規則がネットワ−クを用いて示されている。
【0036】単語標準パタン格納部8には、文法規則に
現れる全ての単語の標準パタン(図2の例では「総務
部」、「の」、「矢野」、「さん」、「(無音)」)が
予め用意されている。
【0037】また音声区間検出用スイッチ11は最初即
ち装置の起動時に、始端検出部3側に接続しておくもの
とし、以後始端検出部3から始端検出信号3Aを受け取
った時点で終端検出部4に接続し、後述の如く終端検出
部4から終端検出信号4Aを、又は雑音検出部13から
雑音検出信号13Aを受け取った時点で始端検出部3側
に接続するものである。
【0038】音声認識の手順に沿って、図1に示された
音声認識装置の各部の機能を以下に説明する。
【0039】音声パワー計算部12は、入力信号のパワ
ーを逐次計算し、その結果12Aを音声区間検出用スイ
ッチ11を通して始端検出部3に送る。
【0040】前述のとおり音声区間検出用スイッチ11
は、最初、始端検出部3に接続しておくものとし、以後
始端検出部3から始端検出信号3Aを受け取った時点で
終端検出部4に接続し、終端検出部4から終端検出信号
4Aを受け取った時点で、または雑音検出部13から雑
音検出信号13Aを受け取った時点で始端検出部3側に
接続を戻し、それぞれ接続された側にパワ−の計算結果
12Aを送る。
【0041】始端検出部3はパワ−計算部12から送ら
れてくるパワ−を図11に示すように閾値TH1 と比較
し、閾値TH1 を越えた状態が予め定めた時間t2 以上
継続した時点で、始端検出信号3Aを音声区間検出用ス
イッチ11、単語予測部6及び雑音検出部13に送る。
【0042】一方、終端検出部4はパワ−計算部12か
ら送られてくるパワ−を図11に示すように閾値TH2
と比較し、閾値TH2 以下の値をとる状態が予め定めた
時間t3 以上継続した時点で、パワ−が最初に閾値以下
となった時点から時間t4 後までの照合も行うように、
終端検出信号4Aを音声区間検出用スイッチ11、単語
予測部6、雑音検出部13及び認識結果出力部10に送
る。
【0043】音響分析部1は入力信号の特徴パラメ−タ
を抽出するための音響分析を逐次行い、その結果1Aを
音響分析結果遅延部2に送る。
【0044】音響分析結果遅延部2は音響分析部1から
送られる音響分析結果1Aを始端検出誤りを避けるため
に置かれるマ−ジン時間t1 分だけ遅延させ、その結果
2Aを単語照合部7及び雑音検出部13に送る。
【0045】また、音響分析結果遅延部2は音響分析結
果を一定の時間保存しておき、雑音検出部13から雑音
検出信号13Aを受け取った場合は、一定時刻前の音響
分析結果から再度、単語照合部7及び雑音検出部13に
送る。この一定時刻前とは、雑音検出部13で非定常雑
音の検出を行う条件の「部分文文末の無音」に対応する
入力信号の区間長以下に対応するように設定するのが望
ましい。
【0046】単語予測部6では、部分文生成部9から送
られてくる部分文照合結果(部分文とその照合スコア)
9Aと、文法規則格納部5に格納された文法規則5Aと
から、次に単語照合部7で照合すべき単語即ち照合単語
6Aを1つまたは複数求め、単語照合部7に送る。
【0047】この単語予測部6の処理は始端検出部3よ
り始端検出信号3Aを受け取った時点から開始され、終
端検出部4より終端検出信号4Aを、または雑音検出部
13から雑音検出信号13Aを受け取るまで継続する。
雑音検出信号13Aを受け取った時は、次の始端検出信
号3Aを受け取った時点で新たに処理を開始する。
【0048】単語照合部7は単語予測部6から受け取っ
た照合単語6Aに対応する単語標準パタン即ち照合単語
標準パタン8Aを単語標準パタン格納部8から読み出し
て、遅延された音響分析結果2Aと、得られた照合単語
標準パタン8Aとを照合し、単語標準パタンの終わりま
で照合を行った単語について、その単語照合結果7Aを
部分文生成部9に送る。
【0049】なお、単語照合部2において照合の際に用
いる、照合スコアの計算法としては、前述の如くDPマ
ッチングや隠れマルコフモデルを用いる方法等がある。
【0050】照合スコアの計算に隠れマルコフモデルを
用いた場合、照合スコアは下記数1の式(1)により計
算される。
【0051】
【数1】
【0052】部分文生成部9は、単語照合部7より送ら
れてくる単語照合結果7Aから各部分文とそれぞれの照
合スコアを求め、その結果9Aを単語予測部6及び認識
結果出力部10に送る。
【0053】ここで図2に例示した文法規則について言
えば、部分文として、「(無音)」、「(無音)総務
部」、「(無音)総務部の」、「(無音)総務部の(無
音)」、「(無音)総務部の(無音)矢野」、「総務部
の(無音)矢野さん」、「(無音)総務部の(無音)矢
野さん(無音)」の7つの部分文があり、それぞれにつ
いて照合スコアが求められる。
【0054】ここでHMM(隠れマルコフモデル)を用
いた場合を例に部分文の生成とその照合スコアの計算に
ついて説明する。まず、照合スコアについては、例えば
「(無音)総務部」から「の」が予測された場合には、
部分文のHMM「(無音)総務部」に単語HMM「の」
を接続して新たに部分文「(無音)総務部の」のHMM
を作成し、上記数1の計算を続けることにより、部分文
「(無音)総務部の」の照合スコアが求められる。ま
た、「総務部」、「の」、「(無音)」、「矢野」、
「さん」という単語列を記憶しておくことで、部分文
「(無音)総務部の(無音)矢野さん(無音)」を生成
することができる。
【0055】数1の式(1)では、上述した照合スコア
の計算処理を単語別に記述している。図3(a)におい
て例えば部分文「総務部の」という部分文のHMMを単
語HMMを接続して作る代わりに、図3(b)のように
2つの単語HMMを用いて書くと、単語間では例えば単
語「総務部」と「の」との間では、各時刻tで単語「総
務部」の終了状態Aに遷移した際のスコアと、単語
「の」の先頭状態Bから同じ状態Bへ自己遷移した際の
照合スコアとを比べ、大きいものを状態Bの照合スコア
とする。
【0056】但し、最初に単語「の」の照合が要求され
た場合は、まだ先頭状態Bが照合されていないため、無
条件に単語「総務部」の終了状態Aのスコアを先頭状態
Bの照合スコアとする。また、単語「の」のその他の状
態C、D、Eのスコアは初期化のため−∞(マイナス無
限大)とする。
【0057】このように、照合スコアの計算を行うこと
で、部分文「(無音)総務部」の照合スコアは単語「総
務部」の終了状態Aにおける照合スコアとなり、部分文
「(無音)総務部の」の照合スコアは単語「の」の終了
状態Eにおける照合スコアとなる。部分文生成部9にお
いては、こうして得られた部分文と照合スコアの対応付
けを行う。
【0058】但し、部分文は必ずしも実際の単語列とし
て保持する必要はなく、単語予測に用いるために適した
形式で保持することが可能である。単語予測に用いられ
る手法としては、「Early法」、「LR法」(参考
文献:野村浩郷著、自然言語処理の基礎技術、電子情報
通信学会編)などが一般に広く用いられている。
【0059】雑音検出部13は、入力信号と単語標準パ
タンとの照合により得られる、部分文の照合スコア及び
構文解析結果と、無音の標準パタンに対応すると判断さ
れる入力信号の区間長と、入力信号と部分文との適合度
と、部分文の標準パタンに対応すると判断される入力信
号の区間長とを用い、或る時刻までに照合された入力音
声が非定常雑音(認識対象外の音)であるか否かを判断
し、非定常雑音であると判断した場合、一定時刻前に音
声区間の始端を補正した後、再度照合処理を行わせるも
のである。つまり、パワーにより始端を検出した場合は
非定常雑音を検出する毎に、再度パワーにより始端検出
から認識処理を行う。
【0060】具体的には、以下に示す条件1〜3を満た
すか否かを常時調べ、満たされた時点で入力音声が非定
常雑音であったと判断し、雑音検出信号13Aを単語予
測部6、音声区間検出スイッチ11、音響分析結果遅延
部2にそれぞれ送る。
【0061】条件1:無音で終わる部分文、例えば図2
の文法の例では、「(無音)」、「(無音)総務部の
(無音)」または「(無音)総務部の(無音)矢野さん
(無音)」の照合スコアが全ての部分文の照合スコアの
うちで最大であること。
【0062】条件2:無音の標準パタンに一致すると判
断される入力信号の区間長が予め定めた時間以上である
こと。
【0063】条件3:入力信号と部分文との適合度が基
準を満たしていないこと。
【0064】ここで、入力信号と部分文との適合度とし
て、部分文の照合スコアを用いる方法、或いは、部分文
の照合スコアと、基準として用いるその他の標準パタン
(基準パタン)と入力信号との照合スコアとの比較、例
えば差を用いる方法がある。
【0065】また、これらの照合スコアを用いた適合度
に加え、部分文に一致すると判断された区間長と部分文
の本来予想される区間長との比較、例えば比を用いるこ
とができる。このような区間長による適合度を併用する
場合は、非定常雑音の判定精度が一層向上する。
【0066】雑音検出部13の具体例を図4に例示す
る。この雑音検出部13は、無音区間長計算部16、雑
音判定部17、部分文照合スコア比較部18、構文解析
部19、状態別照合スコア比較部20、基準パタン照合
部21、適合度判定部22、無音判定部23から構成さ
れる。
【0067】図4に例示した雑音検出部13では、まず
部分文照合スコア比較部18において部分文照合結果9
Aの照合スコアを互いに比較し、照合スコアが最大とな
る部分文を探索してその結果18Aを構文解析部19に
送る。
【0068】続いて、構文解析部19が部分文照合スコ
ア比較部18において探索された最大の照合スコアを持
つ部分文の最後(部分文文末)の単語が「(無音)」で
あるか否かを判断し、その結果19Aを無音判定部23
に送る。
【0069】これら部分文照合スコア比較部18と構文
解析部19により、前述した条件1が満たされるか否か
が判定される。
【0070】無音区間長計算部16では部分文照合スコ
ア比較結果18Aから、条件2が満たされるか否かを判
定するため、即ち無音の標準パタンに一致すると判断さ
れる入力信号(図2の例では、文末の「(無音)」に相
当する信号)の区間長16Aを計算して無音判定部23
に送る。
【0071】ここで無音の標準パタンと一致する入力信
号の区間長の求め方について説明する。
【0072】単語照合部7においてHMMを用いて照合
スコアを計算する場合(数1の式(1)参照)は、下記
数2の式(2.1)〜(2.5)と、数3の式(3)により単語
(無音を含む)の標準パタンに一致する入力信号の区間
長が計算される。
【0073】
【数2】
【0074】
【数3】 〔無音の標準パタンと一致する入力音声の継続時間〕 =〔現在の時刻〕−begin(現在の時刻,無音の標準パタンの終了状態) …式(3)
【0075】ここで、図5を例に、単語標準パタンとし
てHMMを用いた場合の単語と一致すると判断される入
力信号の区間長の計算例を説明する。
【0076】図5で、時刻t+5において経路200で
照合したスコアが一番高かったとすると、この場合、時
刻t+5における単語標準パタンの状態4までの照合が
開始された時刻を求める。
【0077】まず、単語の先頭状態1では、前単語から
の遷移Aのスコアが自分自身からの遷移Bのスコアより
高い場合には、その時刻t+1を記憶する。即ち、be
gin(t+1,状態1)=t+1である。
【0078】単語の先頭状態1以外については、一番高
い照合スコアを与える状態遷移元に保持された時刻を引
き継ぐ。例えば、begin(t+3,状態2)=be
gin(t+2,状態2)となる。
【0079】この処理を繰り返すことにより、各時刻で
単語標準パタンの状態4まで照合を行った際に、一番高
い照合スコアを与える経路200での単語標準パタンと
の照合を開始した時刻が得られる。
【0080】また時刻t+5における単語標準パタンと
一致した音声区間長は、(t+5)−begin(t+
5,状態4)となる。
【0081】この計算により、部分文照合スコア比較部
18により得られた部分文の文末の、無音に対応する単
語標準パタンに一致する区間長を求めることで、無音と
一致する入力信号の区間長が求められる。
【0082】無音判定部23においては、照合スコア比
較部18において求めた最大の照合スコアを持つ部分文
の最後の単語が「(無音)」であると構文解析部19で
判断された場合に、その部分文について無音区間長計算
部16で求めた無音区間長16Aが予め定めた時間以上
であるか否かを判断し、予め定めた時間以上である場合
に、無音区間検出信号23Aを雑音判定部17に送る。
【0083】状態別照合スコア比較部20においては、
単語照合部7において入力信号と単語標準パタンとの照
合時に得られる各状態での照合スコア(状態別照合スコ
ア)を互いに比較して、状態別照合スコアの最大値と、
その最大値を取る状態でみた部分文に対応する音声区間
(入力信号)の継続時間とを求め、その結果20Aを適
合度判定部22へ送る。
【0084】ここで部分文と一致すると判断された入力
信号の区間長の求め方について説明する。
【0085】部分文の標準パタンであるHMMの或る状
態までに一致する入力信号の区間長は一般に、下記数4
の式(4)、数5の式(5.1),(5.2)、数6の式(6.1) 〜
(6.5)、数7の式(7.1),(7.2)により計算される。
【0086】
【数4】(1) 認識開始時tSの文頭の単語HMMの先頭
状態に対して: length(tS,j)=0 …式(4)
【0087】
【数5】(2) 認識開始時以外に対して:単語標準パタ
ンの先頭状態以外については length(t+1,j)=length(t,j) …式(5.1) 但し、全ての状態mに対して、 α(t,j)+O(k(t),j→j) ≧α(t,m)+O(k(t),m→j)の時 length(t+1,j)=length(t,m) …式(5.2) 但し、或る状態mに対して、 α(t,j)+O(k(t),j→j)<α(t,m)
+O(k(t),m→j)の時
【0088】
【数6】単語標準パタンの先頭状態については (a) 最初に単語の照合が要求された場合 length(t+1,j)=length(t,F) …式(6.1) 但し、前単語が無音の時 length(t+1,j)=t−begin(t,F) +length(t,F) …式(6.2) 但し、前単語が無音以外の時(b) それ以降 length(t+1,j)=length(t,j) …式(6.3) 但し、α(t,j)+O(k(t),j→j)≧α(t
+1,F)の時 length(t+1,j)=length(t,F) …式(6.4) 但し、α(t,j)+O(k(t),j→j)<α(t
+1,F)で、前単語が無音の時 length(t+1,j)=t−begin(t,F) +length(t,F) …式(6.5) 但し、前単語が無音以外の時
【0089】ここで、数4から数6中の記号の意味は次
のとおりである。 length(t,j):時刻tの時点で単語標準パタンの状態j まで照合が進んだ場合の、先行単語の終 了状態までの区間長 m :状態jに遷移可能な前状態から、j自身 を除いたもの。 F :当単語に先行する単語標準パタンの終了 状態
【0090】
【数7】 <時刻t、状態jにおいて見た部分文と一致すると判断さ
れた入力信号の区間長> 部分文末の単語が無音の時 = length(t,j) …式(7.1) 部分文末の単語が無音以外の単語の時 = t−begin(t,j)+length(t,j) …式(7.2)
【0091】ここで、図6を例に、単語標準パタンとし
てHMMを用いた場合の部分文と一致すると判断された
入力信号の区間長の計算例を説明する。
【0092】上記数2の式(2.1) 〜式(2.5) と、数3の
式(3)により各時刻で単語標準パタンと一致した音声
区間長が求められることから、先行する単語に対応する
入力信号の区間長を引き継ぐことで部分文と一致した区
間長を求める。
【0093】まず認識開始時tSに文頭の単語の先頭状
態1に部分文長0を記憶する。即ち、length(t
S,状態1)=0である。
【0094】その後、単語の先頭状態1では、前単語か
らの遷移Aのスコアが自分自身からの遷移Bのスコアよ
り高い場合に前単語の終了状態までの区間長を記憶す
る。
【0095】即ち、前単語が無音である場合はleng
th(t,状態3’)を、前単語が無音以外の単語であ
る場合はlength(t,状態3’)+(t)−be
gin(t,状態3’)を、length(t+1,状
態1)に格納する。
【0096】先頭状態1以外については、一番高い照合
スコアを与える状態遷移元に保持された時刻を引き継
ぐ。例えばlength(t+3,状態2)=leng
th(t+2,状態2)となる。
【0097】この処理を繰り返すことにより、各時刻で
単語標準パタンの各状態において前単語までの部分文と
一致する入力信号の区間長が参照できる。
【0098】このことから、例えば時刻t+5における
状態4において見た、単語標準パタンと一致した入力信
号の区間長は、無音であればlength(t+5,状
態4)となり、無音以外の単語であれば(t+5)−b
egin(t+5,状態4)+length(t+5,
状態4)となる。
【0099】このような計算により、最も高い照合スコ
アを得られた単語標準パタンの状態において部分文に一
致する区間長を求め、その結果と照合スコアとを適合度
判定部22に送る。
【0100】基準パタン照合部21においては、始端検
出信号3Aを受け取った時点から終端検出信号13Aを
受け取るまで、下記数8の式(8)に従い入力信号と基
準パタン(詳細は後で述べる)との照合を逐次行い、照
合スコアを適合度判定部22に送る。
【0101】
【数8】
【0102】ここで用いる基準パタンとしては、図7に
示す雑音標準パタンを結合したモデル、或いは図8に示
す音節認識用標準パタン、或いはこれらを複合(ハイブ
リッド)化した図9に示すパタン等が考えられる。図
7、図8、図9には基準パタンとしてHMMを用いた場
合を示した。ここでは、非定常雑音は図7に示す雑音標
準パタンを結合したモデル、或いは図8に示す音節認識
用標準パタン、或いはこれらをハイブリッド化した図9
に示すパタンと好く適合し、その照合スコアが比較的高
いが、認識対象の音声(単語及び無音)はこれらの基準
パタンとの適合があまり好くなく、比較的照合スコアが
低い、という特性の差を利用している。
【0103】適合度判定部22は基準パタンの照合スコ
アと状態別照合スコアとの差による条件である下記数9
の式(9)と、部分文の音声区間の継続時間と本来予想
される部分文の継続時間との比に関する条件である下記
数10の式(10)とのいずれかを満たさない場合に、
不適合信号22Aを雑音判定部17に送る。
【0104】
【数9】 (L(s,t)−Lp (t))÷D(s,t)≧θL …式(9)
【0105】ここで、 s(t) :ある時刻tにおける照合スコアが最大で
あった状態 L(s,t):状態s(t)における照合スコア Lp (t) :基準パタンの照合スコア D(s,t):照合結果から求めた部分文と一致する入
力信号の区間長 θL :状態別照合スコアと基準パタンの照合ス
コアとの差の上限を定めるパラメ−タである。D(s,
t)は正規化のために用いている。
【0106】
【数10】 M(s、t)×θmin≦D(s,t)≦M(s、t)×θmax …式(10)
【0107】ここで、 s(t) :ある時刻tにおける照合スコアが最大で
あった状態 D(s,t):照合結果から求めた部分文と一致する入
力信号の区間長 M(s、t):予想される部分文の区間長 θmin :区間長の下限を定めるパラメータ θmax :区間長の上限を定めるパラメータであ
る。
【0108】なお、基準パタンとして、図7〜図9に示
したような非定常雑音とは比較的好く適合しその照合ス
コアが比較的高いが、認識対象の音声(単語及び無音)
との適合はあまり好くなく比較的照合スコアが低い、と
いう特性を持つパタンを複数N種類独立的に用いても良
い。その場合は、基準パタン照合部21は各基準パタン
の照合スコアを数8の式(8)により並列的に求める。
n番目の基準パタンの照合スコアをLpn(t)とする
と、適合度判定部22には各基準パタンnに対応した上
限パラメータθLnをN個用意しておき、下記数11の式
(11)で表されるN個の条件のいづれかが満たされな
い場合、数9の式(9)が満たされない場合と同様に、
不適合信号22Aを雑音判定部17に送る。
【0109】
【数11】 (L(s,t)-Lpn(t))÷D(s,t)≧θLn (但し、n=1`N) …式(11
【0110】雑音判定部17は、無音判定部23から送
られる無音区間検出信号23Aと適合度判定部22から
送られる不適合信号22Aを共に受け取った時点で、そ
れ以前の入力が非定常雑音であったと判断し、雑音検出
信号13Aを出力する。
【0111】認識結果出力部10は終端検出部4から終
端検出信号4Aを受け取った後に、部分文生成部9から
送られてきた全ての部分文照合結果9Aのうちで、照合
スコアの最も高い文を認識結果10Aとして出力する。
【0112】上記実施例では入力信号のパワー計算結果
12Aを用いて始端検出部3及び終端検出部4により音
声区間の始端と終端を検出しているが、パワー計算によ
る音声区間の始端と終端の検出を共に省略することもで
きる。その構成例を図12に示す。図12では図1と比
較すると、音声検出用スイッチ11と音声パワー計算部
12と始端検出部3と終端検出部4がなく、代わりに終
端検出部34がある。終端検出部34では、文法上受理
される全ての部分文の内で照合スコアが最大であること
と言う条件と、文末の無音区間が一定時間以上であるこ
とという条件を共に満たした時点をもって、音声区間の
終端と検出する。具体的には、音声認識装置は起動と同
時に音声認識を開始し、また雑音検出部13も音声認識
装置の起動と同時に非定常雑音の検出を開始し、検出し
た時に雑音検出信号13Aを音響分析結果遅延部2と単
語予測部6に与える。単語予測部6は起動と同時に処理
を開始する。終端検出部34は文法規則5Aと部分文照
合結果9Aとに基づき、文法上受理される全ての部分文
の内で照合スコアが最大であることと言う条件と、文末
の無音に対応する区間が一定時間以上であることという
条件とを共に満たした時点をもって、音声区間の終端を
検出し、終端検出信号34Aを単語予測部6と認識結果
出力部9と雑音検出部13に与えする。他は図1の実施
例と同じである。これにより、入力信号のレベルが低い
場合に従来生じていた始端と終端の検出誤りによる認識
性能の劣化を回避することができる。なお、この場合、
音響分析結果遅延部2は図2に示したような音響分析部
1から送られる音響分析結果1Aを始端検出誤りを避け
るために置かれるマ−ジン時間t1 分だけ遅延させると
いう機能は必要なく、前述の如く音響分析結果を一定の
時間保存しておき、雑音検出部13から雑音検出信号1
3Aを受け取った場合は、一定時刻前の音響分析結果か
ら再度、単語照合部7及び雑音検出部13に送るという
機能を有すればよい。また、基準パタン照合部21は終
端検出信号34Aを受け取った時点で新たに基準パタン
と入力信号との照合を開始する。
【0113】次に、図4に示した実施例の雑音検出部1
3では、部分文照合スコア比較部18で求めた最大の照
合スコアを持つ部分文について構文解析部19により文
末に無音区間があるか否かを判断しているが、逆に図1
3に示すように、構文解析部19により文末に無音区間
がある部分文を探索し、その中で最大の照合スコアを持
つ部分文を部分文照合スコア比較部18で求めるように
しても良い。また、無音区間長の計算は、構文解析部1
9により得られた部分文末が無音である部分文につい
て、部分文照合スコア比較部18と同時並列的に無音区
間長計算部16で行ってもよく、或いは、部分文末に無
音区間があり且つ最大の照合スコアを持つ部分文につい
てのみ無音区間長の計算を行っても良い。
【0114】更に、図14に示すように、図4又は図1
3から状態別照合スコア比較部20を省略した構成とし
ても良い。この場合は、状態別照合スコアの最大値と、
最大値を取る状態で見た部分文に対応する入力信号の継
続期間との代わりに、各部分文のうちの照合スコアの最
大値と、最大値を取る部分文に対応する区間の入力信号
の継続期間とを求めてこれらを用いれば良い。
【0115】
【発明の効果】以上、実施例に基づいて具体的に説明し
たように、本発明は、非定常雑音を除いた音声区間で、
入力信号と単語標準パタンとの照合を行うことができる
ため、音声認識の性能が向上する。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック構成図であ
る。
【図2】文法規則の例を示す図である。
【図3】部分文と照合スコア計算の説明図である。
【図4】雑音検出部の一実施例を示すブロック構成図で
ある。
【図5】単語標準パタンと一致する区間長計算の説明図
である。
【図6】部分文と一致する区間長計算の説明図である。
【図7】基準パタンの一例(雑音標準パタン)を示す図
である。
【図8】基準パタンの一例(音節認識用標準パタン)を
示す図である。
【図9】基準パタンの一例(雑音標準パタンと音節認識
用標準パタンのハイブリッド構成)を示す図である。
【図10】従来例のブロック構成図である。
【図11】パワーを用いた音声区間検出の例を示す図で
ある。
【図12】本発明の他の実施例を示すブロック構成図で
ある。
【図13】雑音検出部の他の実施例を示すブロック構成
図である。
【図14】雑音検出部の更に他の実施例を示すブロック
構成図である。
【符号の説明】
1 音響分析部 2 音響分析結果遅延部 3 始端検出部 4 終端検出部 5 文法規則格納部 6 単語予測部 7 単語照合部 8 単語標準パタン格納部 9 部分文生成部 10 認識結果出力部 11 音声区間検出用スイッチ 12 音声パワ−計算部 13 雑音検出部 16 無音区間長計算部 17 雑音判定部 18 部分文照合スコア比較部 19 構文解析部 20 状態別照合スコア比較部 21 基準パタン照合部 22 適合度判定部 23 無音判定部 34 終端検出部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 3/00 535Z (56)参考文献 特開 平8−115093(JP,A) 内藤正樹他,文仮説の尤度を用いた音 声区間検出方法の検討,日本音響学会平 成6年秋季講論集,日本,1994年10月31 日,2−8−9,p.55−56 渡辺隆夫他,音節認識を用いたゆう度 補正による未知発話のリジェクション, 電子情報通信学会論文誌D−II,日 本,1992年12月,Vol.J75−D−I I,No.12,p.2002−2009 内藤正樹他,非音声のリジェクション による音声区間始端検出誤りの削減,日 本音響学会平成8年春季講論集,日本, 1996年 3月26日,2−5−2,p.61 −62 内藤正樹他,部分文仮説のゆう度を用 いた連続音声認識のための音声区間検出 法,電子情報通信学会論文誌D−II, 日本,1997年11月,Vol.J80−D− II,No.11,p.2895−2903 (58)調査した分野(Int.Cl.7,DB名) G10L 11/02 G10L 15/02 G10L 15/06 G10L 15/14 G10L 15/18 G10L 15/20 JICSTファイル(JOIS)

Claims (18)

    (57)【特許請求の範囲】
  1. 【請求項1】単語標準パタンを文法規則に基づき連続的
    に入力信号と照合することで音声を認識する方法におい
    て、 入力信号と単語標準パタンとの照合結果より得られる、
    部分文の照合スコアと構文解析結果、無音の標準パタン
    と一致すると判断される入力信号の区間長、及び、入力
    信号と部分文の適合度を基に非定常雑音を検出し、音声
    区間の始端を補正することを特徴とする音声区間始端補
    正方法。
  2. 【請求項2】単語標準パタンを文法規則に基づき入力信
    号と照合することにより音声を認識するに際し、 入力信号と単語標準パタンとの照合結果より得られる部
    分文とその照合スコアから、無音で終わる部分文の照合
    スコアが最大であるという第1の条件を満たし、且つ、
    部分文文末の無音に相当する入力信号の区間長が予め定
    めた時間以上であるという第2の条件を満たす部分文が
    存在するか否かを判定すること、 第1と第2の条件を共に満たすと判定した時点で、入力
    信号と別途定めた基準パタンとの照合スコアを基準スコ
    アとし、それ以前の区間の前記入力信号と単語標準パタ
    ンとの照合結果より得られた同部分文の照合スコアと前
    記基準スコアとの差が所定の範囲内であるという第3の
    条件が満たされるか否かを判定すること、 第3の条件が満たされないと判定した時、第1と第2の
    条件を共に満たすと判定した部分文に対応する区間の入
    力信号が非定常雑音であると判定し、音声区間の始端を
    補正することを特徴とする音声区間始端補正方法。
  3. 【請求項3】単語標準パタンを文法規則に基づき入力信
    号と照合することにより音声を認識するに際し、 入力信号と単語標準パタンとの照合結果より得られる部
    分文とその照合スコアから、無音で終わる部分文の照合
    スコアが最大であるという第1の条件を満たし、且つ、
    部分文文末の無音に相当する入力信号の区間長が予め定
    めた時間以上であるという第2の条件を満たす部分文が
    存在するか否かを判定すること、 第1と第2の条件を共に満たすと判定した時点で、入力
    信号と別途定めた基準パタンとの照合スコアを基準スコ
    アとし、それ以前の区間の前記入力信号と単語 標準パタ
    ンとの照合結果より得られた前記第1と第2の条件を共
    に満たすと判定した部分文の照合スコアと前記基準スコ
    アとの差が所定の範囲内であるという第3の条件が満た
    されるか否かを判定すること、 第1と第2の条件を共に満たすと判定した時点で、前記
    第1と第2の条件を共に満たすと判定した部分文に対応
    した入力信号の区間長を求め、この区間長が所定の範囲
    で同部分文の標準区間長に適合するという第4の条件が
    満たされるか否かを判定すること、 第3の条件と第4の条件のうちいずれか一方の条件が満
    たされないと判定したとき、前記第1と第2の条件を共
    に満たすと判定した部分文に対応する区間の入力信号が
    非定常雑音であると判定し、音声区間の始端を補正する
    ことを特徴とする音声区間始端補正方法。
  4. 【請求項4】前記第3の条件に代えて、前記第1と第2
    の条件を共に満たすと判定した部分文に対応した入力信
    号の区間長を求め、この区間長が所定の範囲で前記部分
    文の標準区間長に適合するという第4の条件が満たされ
    るか否かを判定すること、 第4の条件が満たされないと判定したとき、前記第1及
    び第2の条件を共に満たすと判定した部分文に対応する
    区間の入力信号が非定常雑音であると判定し、音声区間
    の始端を補正することを特徴とする請求項2に記載の音
    声区間始端補正方法。
  5. 【請求項5】前記第3の条件に代えて、第1と第2の条
    件を共に満たすと判定した部分文について、同部分文の
    各状態での照合スコアを比較して最大値を求め、この最
    大値を取る状態で見た同部分文に対応した入力信号と別
    途定めた基準パタンとの照合スコアを基準スコアとし、
    この基準スコアと前記最大値との差が所定の範囲内であ
    るという第5の条件が満たされるか否かを判定するこ
    と、 第5の条件が満たされないと判定した時、第1と第2の
    条件を共に満たすと判定した部分文に対応する区間の入
    力信号が非定常雑音であると判定し、音声区間の始端を
    補正することを特徴とする請求項2に記載の音声区間始
    端補正方法。
  6. 【請求項6】単語標準パタンを文法規則に基づき入力信
    号と照合することにより音声を認識するに際し、 入力信号と単語標準パタンとの照合結果より得られる部
    分文とその照合スコアから、無音で終わる部分文の照合
    スコアが最大であるという第1の条件を満たし、且つ、
    部分文文末の無音に相当する入力信号の区間長が予め定
    めた時間以上であるという第2の条件を満たす部分文が
    存在するか否かを判定すること、 第1と第2の条件を共に満たすと判定した部分文につい
    て、同部分文の各状態での照合スコアを比較して最大値
    を求め、この最大値を取る状態で見た同部分文に対応し
    た入力信号と別途定めた基準パタンとの照合スコアを基
    準スコアとし、この基準スコアと前記最大値との差が所
    定の範囲内であるという第5の条件が満たされるか否か
    判定すること、 前記第1と第2の条件を共に満たすと判定した部分文の
    うち前記最大値を取る状態で見た同部分文に対応した入
    力信号の区間長を求め、この区間長が所定の範囲で同部
    分文の平均区間長に適合するという第6の条件が満たさ
    れるか否か判定すること、 第5の条件と第6のうちいずれか一方の条件が満たされ
    ないとき、前記第1と第2の条件を共に満たすと判定し
    た部分文に対応する区間の入力信号が非定常雑音である
    と判定し、音声区間の始端を補正することを特徴とする
    音声区間始端補正方法。
  7. 【請求項7】前記第3の条件に代えて、前記第1と第2
    の条件を共に満たすと判定した部分文のうち前記最大値
    を取る状態で見た同部分文に対応した入力信号の区間長
    を求め、この区間長が所定の範囲で同部分文の平均区間
    長に適合するという第6の条件が満たされるか否かを判
    定すること、 第6の条件が満たされないと判定した時、前記第1及び
    第2の条件を共に満たすと判定した部分文に対応する区
    間の入力信号が非定常雑音であると判定し、音声区間の
    始端を補正することを特徴とする請求項2に記載の音声
    区間始端補正方法。
  8. 【請求項8】前記音声区間の始端の補正として、部分文
    に対応する区間の入力信号が非定常雑音であると判定し
    た時点より一定時間前の時点に、音声区間の始端を補正
    することを特徴とする請求項1から7いづれかに記載の
    音声区間始端補正方法。
  9. 【請求項9】単語標準パタンを文法規則に基づき入力信
    号と照合することにより音声を認識する装置において、 入力信号と単語標準パタンとの照合結果より得られる部
    分文とその照合スコアから、無音で終わる部分文の照合
    スコアが最大であるという第1の条件を満たし、且つ、
    部分文文末の無音に相当する入力信号の区間長が予め定
    めた時間以上であるという第2の条件を満たす部分文が
    存在するか否かを判定する第1の判定手段と、 第1と第2の条件を共に満たすと判定した時点で、入力
    信号と別途定めた基準パタンとの照合スコアを基準スコ
    アとし、それ以前の区間の前記入力信号と単語標準パタ
    ンとの照合結果より得られた同部分文の照合スコアと前
    記基準スコアとの差が所定の範囲内であるという第3の
    条件が満たされるか否かを判定する第2の判定手段と、 第3の条件が満たされないと判定した時、第1と第2の
    条件を共に満たすと判定した部分文に対応する区間の入
    力信号が非定常雑音であると判定し、音声区間の始端を
    補正する第3の手段を有することを特徴とする音声区間
    始端補正装置。
  10. 【請求項10】単語標準パタンを文法規則に基づき入力
    信号と照合することにより音声を認識する装置におい
    て、 入力信号と単語標準パタンとの照合結果より得られる部
    分文とその照合スコアから、無音で終わる部分文の照合
    スコアが最大であるという第1の条件を満たし、且つ、
    部分文文末の無音に相当する入力信号の区間長が予め定
    めた時間以上であるという第2の条件を満たす部分文が
    存在するか否かを判定する第1の判定手段と、 第1と第2の条件を共に満たすと判定した時点で、入力
    信号と別途定めた基準パタンとの照合スコアを基準スコ
    アとし、それ以前の区間の前記入力信号と単語標準パタ
    ンとの照合結果より得られた同部分文の照合スコアと前
    記基準スコアとの差が所定の範囲内であるという第3の
    条件が満たされるか否か、及び、前記第1と第2の条件
    を共に満たすと判定した部分文に対応した入力信号の区
    間長を求め、この区間長が所定の範囲で前記部分文の標
    準区間長に適合するという第4の条件が満たされるか否
    かを判定する第2の判定手段と、 第3の条件と第4の条件のうちいずれか一方の条件が満
    たされないと判定した場合に、前記第1と第2の条件を
    共に満たすと判定した部分文に対応する区間の入力信号
    が非定常雑音であると判定し、音声区間の始端を補正
    し、前記一方の条件が満たされる場合は、第3の条件と
    第4の条件のうちいずれか他方の条件が満たされないと
    判定した場合に、前記第1と第2の条件を共に満たすと
    判定した部分文に対応する区間の入力信号が非定常雑音
    であると判定し、 音声区間の始端を補正する第3の手段
    を有することを特徴とする音声区間始端補正装置。
  11. 【請求項11】単語標準パタンを文法規則に基づき入力
    信号と照合することにより音声を認識する装置におい
    て、 入力信号と単語標準パタンとの照合結果より得られる部
    分文とその照合スコアから、無音で終わる部分文の照合
    スコアが最大であるという第1の条件を満たし、且つ、
    部分文文末の無音に相当する入力信号の区間長が予め定
    めた時間以上であるという第2の条件を満たす部分文が
    存在するか否かを判定する第1の判定手段と、 第1と第2の条件を共に満たすと判定した時点で、入力
    信号と別途定めた基準パタンとの照合スコアを基準スコ
    アとし、それ以前の区間の前記入力信号と単語標準パタ
    ンとの照合結果より得られた同部分文の照合スコアと前
    記基準スコアとの差が所定の範囲内であるという第3の
    条件が満たされるか否か、及び、第1と第2の条件を共
    に満たすと判定した部分文に対応した入力信号の区間長
    を求め、この区間長が所定の範囲で前記部分文の標準区
    間長に適合するという第4の条件が満たされるか否かを
    判定する第2の判定手段と、 第3の条件と第4の条件のうちいずれか一方の条件が満
    たされないと判定したとき、前記第1と第2の条件を共
    に満たすと判定した部分文に対応する区間の入力信号が
    非定常雑音であると判定し、音声区間の始端を補正する
    第3の手段を有することを特徴とする音声区間始端補正
    装置。
  12. 【請求項12】前記第2の判定手段は前記第3の条件に
    代えて、前記第1と第2の条件を共に満たすと判定した
    部分文に対応した入力信号の区間長を求め、この区間長
    が所定の範囲で前記部分文の標準区間長に適合するとい
    う第4の条件が満たされるか否かを判定すること、 前記第3の手段は第3の条件に代えて、第4の条件が満
    たされないと判定したとき、前記第1及び第2の条件を
    共に満たすと判定した部分文に対応する区間の入力信号
    が非定常雑音であると判定し、音声区間の始端を補正す
    ることを特徴とする請求項9に記載の音声区間始端補正
    装置。
  13. 【請求項13】前記第2の判定手段は前記第3の条件に
    代えて、第1と第2の条件を共に満たすと判定した部分
    文について、同部分文の各状態での照合スコアを比較し
    て最大値を求め、この最大値を取る状態で見た同部分文
    に対応した入力信号と別途定めた基準パタンとの照合ス
    コアを基準スコアとし、この基準スコアと前記最大値と
    の差が所定の範囲内であるという第5の条件が満たされ
    るか否かを判定すること、 前記第3の手段は第3の条件に代えて、第5の条件が満
    たされないと判定した時、第1と第2の条件を共に満た
    すと判定した部分文に対応する区間の入力信号が非定常
    雑音であると判定し、音声区間の始端を補正することを
    特徴とする請求項9に記載の音声区間始端補正装置。
  14. 【請求項14】前記第2の判定手段は前記第3の条件に
    代えて、前記第1と第2の条件を共に満たすと判定した
    部分文について同部分文の各状態での照合スコアを比較
    して最大値を求め、同部分文のうち前記最大値を取る状
    態で見た同部分文に対応した入力信号の区間長を求め、
    この区間長が所定の範囲で同部分文の平均区間長に適合
    するという第6の条件が満たされるか否かを判定するこ
    と、 前記第3の手段は第3の条件に代えて、第6の条件が満
    たされないと判定した時、前記第1及び第2の条件を共
    に満たすと判定した部分文に対応する区間の入力信号が
    非定常雑音であると判定し、音声区間の始端を補正する
    ことを特徴とする請求項9に記載の音声区間始端補正装
    置。
  15. 【請求項15】単語標準パタンを文法規則に基づき入力
    信号と照合することにより音声を認識する装置におい
    て、 入力信号と単語標準パタンとの照合結果より得られる部
    分文とその照合スコアから、無音で終わる部分文の照合
    スコアが最大であるという第1の条件を満たし、且つ、
    部分文文末の無音に相当する入力信号の区間長が予め定
    めた時間以上であるという第2の条件を満たす部分文が
    存在するか否かを判定する第1の判定手 段と、 第1と第2の条件を共に満たすと判定した部分文につい
    て、同部分文の各状態での照合スコアを比較して最大値
    を求め、この最大値を取る状態で見た同部分文に対応し
    た入力信号と別途定めた基準パタンとの照合スコアを基
    準スコアとし、この基準スコアと前記最大値との差が所
    定の範囲内であるという第5の条件が満たされるか否
    か、及び、前記第1と第2の条件を共に満たすと判定し
    た部分文のうち前記最大値を取る状態で見た同部分文に
    対応した入力信号の区間長を求め、この区間長が所定の
    範囲で同部分文の平均区間長に適合するという第6の条
    件が満たされるか否かを判定する第2の判定手段と、 第5の条件と第6の条件のうちいずれか一方の条件が満
    たされないと判定した場合、前記第1と第2の条件を共
    に満たすと判定した部分文に対応する区間の入力信号が
    非定常雑音であると判定し、音声区間の始端を補正し、
    前記一方の条件が満たされる場合は、第5の条件と第6
    の条件のうちいずれか他方の条件が満たされないと判定
    した場合に、前記第1と第2の条件を共に満たすと判定
    した部分文に対応する区間の入力信号が非定常雑音であ
    ると判定し、音声区間の始端を補正する第3の手段を有
    することを特徴とする 音声区間始端補正装置。
  16. 【請求項16】単語標準パタンを文法規則に基づき入力
    信号と照合することにより音声を認識する装置におい
    て、 入力信号と単語標準パタンとの照合結果より得られる部
    分文とその照合スコアから、無音で終わる部分文の照合
    スコアが最大であるという第1の条件を満たし、且つ、
    部分文文末の無音に相当する入力信号の区間長が予め定
    めた時間以上であるという第2の条件を満たす部分文が
    存在するか否かを判定する第1の判定手段と、 第1と第2の条件を共に満たすと判定した部分文につい
    て、同部分文の各状態での照合スコアを比較して最大値
    を求め、この最大値を取る状態で見た同部分文に対応し
    た入力信号と別途定めた基準パタンとの照合スコアを基
    準スコアとし、この基準スコアと前記最大値との差が所
    定の範囲内であるという第5の条件が満たされるか否
    か、及び、前記第1と第2の条件を共に満たすと判定し
    た部分文のうち前記最大値を取る状態で見た同部分文に
    対応した入力信号の区間長を求め、 この区間長が所定の
    範囲で同部分文の平均区間長に適合するという第6の条
    件が満たされるか否かを判定する第2の判定手段と、 第5の条件と第6の条件のうちいずれか一方の条件が満
    たされないと判定したとき、前記第1と第2の条件を共
    に満たすと判定した部分文に対応する区間の入力信号が
    非定常雑音であると判定し、音声区間の始端を補正する
    第3の手段を有することを特徴とする音声区間始端補正
    装置。
  17. 【請求項17】単語標準パタンを文法規則に基づき入力
    信号と照合することで音声を認識する装置の起動時に、
    入力信号のパワー計算により音声区間の始端を検出した
    後、この検出した始端を請求項1から8いずれかに記載
    の音声区間始端補正方法により補正して音声認識を行う
    ことを特徴とする音声認識方法。
  18. 【請求項18】単語標準パタンを文法規則に基づき入力
    信号と照合することで音声を認識する装置の起動時に、
    入力信号のパワー計算等による音声区間の始端を検出す
    ることなく、音声認識と、請求項1から8いずれかに記
    載の音声区間始端補正方法とを開始し、この音声区間始
    端補正方法により補正しながら音声認識を行うと共に、 入力信号のパワー計算による音声区間の終端を検出する
    ことなく、入力信号と単語標準パタンとの照合結果より
    得られる、部分文の照合スコア及び構文解析結果と、無
    音の標準パタンと一致すると判断される入力信号の区間
    長とを基に音声区間の終端を検出して音声認識を終了す
    ることを特徴とする音声認識方法。
JP06823096A 1996-03-25 1996-03-25 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法 Expired - Fee Related JP3428805B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06823096A JP3428805B2 (ja) 1996-03-25 1996-03-25 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06823096A JP3428805B2 (ja) 1996-03-25 1996-03-25 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法

Publications (2)

Publication Number Publication Date
JPH09258765A JPH09258765A (ja) 1997-10-03
JP3428805B2 true JP3428805B2 (ja) 2003-07-22

Family

ID=13367794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06823096A Expired - Fee Related JP3428805B2 (ja) 1996-03-25 1996-03-25 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法

Country Status (1)

Country Link
JP (1) JP3428805B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813921B2 (en) 2004-03-31 2010-10-12 Pioneer Corporation Speech recognition device and speech recognition method
JP2006082154A (ja) * 2004-09-14 2006-03-30 Fuji Electric Systems Co Ltd 刃具診断装置と診断方法
JP4775788B2 (ja) * 2005-01-20 2011-09-21 株式会社国際電気通信基礎技術研究所 発音評定装置、およびプログラム
JP4981850B2 (ja) * 2009-06-16 2012-07-25 日本電信電話株式会社 音声認識装置とその方法と、プログラムと記録媒体
JP5385876B2 (ja) * 2010-08-30 2014-01-08 日本電信電話株式会社 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP6000767B2 (ja) * 2012-09-04 2016-10-05 公立大学法人公立はこだて未来大学 学習装置、判別装置、行動状態判別システム、および判別方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
内藤正樹他,文仮説の尤度を用いた音声区間検出方法の検討,日本音響学会平成6年秋季講論集,日本,1994年10月31日,2−8−9,p.55−56
内藤正樹他,部分文仮説のゆう度を用いた連続音声認識のための音声区間検出法,電子情報通信学会論文誌D−II,日本,1997年11月,Vol.J80−D−II,No.11,p.2895−2903
内藤正樹他,非音声のリジェクションによる音声区間始端検出誤りの削減,日本音響学会平成8年春季講論集,日本,1996年 3月26日,2−5−2,p.61−62
渡辺隆夫他,音節認識を用いたゆう度補正による未知発話のリジェクション,電子情報通信学会論文誌D−II,日本,1992年12月,Vol.J75−D−II,No.12,p.2002−2009

Also Published As

Publication number Publication date
JPH09258765A (ja) 1997-10-03

Similar Documents

Publication Publication Date Title
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP3691511B2 (ja) 休止検出を行う音声認識
JP3078279B2 (ja) ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置
US20140156276A1 (en) Conversation system and a method for recognizing speech
JP2018523156A (ja) 言語モデルスピーチエンドポインティング
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
JPH11175090A (ja) 話者クラスタリング処理装置及び音声認識装置
JP3069531B2 (ja) 音声認識方法
JP3428805B2 (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
Boite et al. A new approach towards keyword spotting.
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP3039634B2 (ja) 音声認識装置
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2000250593A (ja) 話者認識装置及び方法
JPH0643895A (ja) 音声認識装置
JP3006496B2 (ja) 音声認識装置
JP3104900B2 (ja) 音声認識方法
JP2002516419A (ja) 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
KR20020045960A (ko) 음성인식에서 핵심어 검출 성능 개선 방법
JP2001350494A (ja) 照合装置及び照合方法
JP3868798B2 (ja) 音声認識装置
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
JP2731133B2 (ja) 連続音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150516

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees