JPH10240290A - 音声認識処理方法、音声認識システム及び記録媒体 - Google Patents

音声認識処理方法、音声認識システム及び記録媒体

Info

Publication number
JPH10240290A
JPH10240290A JP9343026A JP34302697A JPH10240290A JP H10240290 A JPH10240290 A JP H10240290A JP 9343026 A JP9343026 A JP 9343026A JP 34302697 A JP34302697 A JP 34302697A JP H10240290 A JPH10240290 A JP H10240290A
Authority
JP
Japan
Prior art keywords
recognition
candidate
speech
post
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9343026A
Other languages
English (en)
Inventor
Isao Arima
勲 有馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP9343026A priority Critical patent/JPH10240290A/ja
Publication of JPH10240290A publication Critical patent/JPH10240290A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 無音区間による発話終了の検出以前に、認識
後処理を開始して、認識処理のレスポンスを向上する。 【解決手段】 マッチング部6は、候補生成部4で選択
生成された認識候補と、特徴抽出部2で求められた音声
特徴列とを比較してマッチングを行い、各認識候補毎に
該当確率を求める。枝刈り処理部7は、マッチングの結
果、該当確率の低い認識候補を候補記憶部5から削除し
て廃棄する。1パス候補検出部8は、枝刈り処理後に認
識候補として候補記憶部5に残っている認識候補のうち
の、ある認識候補が認識アルゴリズムを定義する単語列
のパスを一通りしかもたない場合に、その認識候補を検
出する。認識後処理部10は、1パス候補検出部8によ
る検出がなされた時点で、1つのパスしか持たない認識
候補を起点として認識後処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、リアルタイムで
の音声認識に係り、特に、音声認識のレスポンスを向上
するための音声認識処理方法及び音声認識システムに関
する。
【0002】
【従来の技術】音声認識システムでは、マイクロフォン
等から入力されるアナログ音声信号をA/D(アナログ
−ディジタル)変換した後に、音響的処理及び言語的処
理を含む認識処理により該音声信号を認識し、認識結果
を出力する。
【0003】認識率(正確な認識を行う確率)を向上す
るためには、音響的及び言語的処理を的確に行うことが
重要である。このため、入力される音声情報の情報量が
多いほど、音響的及び言語的処理のための参照要素が多
くなり、認識率の向上に寄与する。そこで、長時間にわ
たる多量の音声を収集した後に、認識処理を行えば、高
い認識率が得られることになる。
【0004】しかし、音声信号を長時間入力した後に認
識処理を行うのでは、認識処理に著しい時間を要するこ
とになり、認識処理を高速化することができない。
【0005】また、音声認識システムの利用分野とし
て、手操作等による情報入力の煩雑さを軽減するため
に、音声による情報入力の利用が期待されている分野が
ある。このような分野においては、高速な認識処理がで
きなければ、情報入力を迅速に行うことができない。そ
こで、音声認識の分野においては、認識処理の高速化が
一つの課題となっている。
【0006】従来の音声認識システムにおいては、認識
処理の高速化のために、次のような処理を行っていた。
まず、音声が入力され始めた直後から、音声認識処理を
開始するようにする。即ち、話者が話している間つまり
発話途中にも認識処理を行うようにして、トータルでの
認識レスポンスを向上する。
【0007】また、認識処理におけるマッチング処理の
途中で比較結果の正解確率が低くなりそうな認識候補を
推測し、その推測された認識候補を切り捨てることも行
われている。このように比較結果の推測に基づいて認識
候補を切り捨てる処理を枝刈り処理と称する。この枝刈
り処理等により、認識処理の演算量を低減することがで
きる。枝刈り処理のような演算量低減の手法は、他にも
提案されている。
【0008】認識結果を得るには、言葉の最後の部分の
認識候補から順次遡って認識候補を評価選択する認識後
処理を行わなければならない。該認識後処理の開始のタ
イミングは、音声情報の入力が終了したのを判断した後
である。入力終了の判断は、500msec〜1sec程度の期間
の無音状態の継続が検知された時点で行う。従って、こ
の認識後処理の開始タイミングを決定する発話の終了の
判断には、ある程度の時間を要する。
【0009】
【発明が解決しようとする課題】上述したように、話者
の発話により、音声が入力され始めた直後から音声認識
処理を開始すること、枝刈り処理等の演算量低減の手法
を採用することなどにより、認識処理の高速化が進んで
いる。しかし、認識後処理の開始タイミングについて
は、発話の終了の判断のための時間が必要であり、この
タイミングの改善には限度があった。すなわち、実際の
発話の終了から認識後処理を開始するまでには、図10
に示すように、無音区間の検出のための時間による時間
遅れが避けられず、これが認識処理全体のレスポンスを
低下させる主原因となっている。
【0010】この発明は、上述した事情に鑑みてなされ
たもので、認識処理のレスポンスを向上し得る音声認識
処理方法及び音声認識システムを提供することを目的と
する。また、この発明は、無音区間による発話終了の検
出以前に、認識後処理を開始することができる音声認識
処理方法及び音声認識システムを提供することを目的と
する。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、この発明の第1の観点による音声認識処理方法は、
入力音声情報を区分し、区分された音声情報から音声特
徴を抽出し、抽出された音声特徴の列について、認識候
補を生成する候補生成ステップと、前記候補生成ステッ
プにより生成された認識候補について、認識結果を求め
る認識後処理ステップと、最後に音声情報が入力されて
からの時間を継続的に判別し、所定期間が経過したか否
かを判別する入力終了判別ステップと、前記入力終了判
別ステップで音声情報の入力の終了を判別すると、前記
認識後処理ステップを起動する起動ステップと、前記候
補生成ステップで生成された認識候補について、予め設
定した後処理開始条件を満足する認識候補を検出する後
処理開始条件検出ステップと、前記後処理開始条件検出
ステップによる検出がなされた場合、前記入力終了判別
ステップの判別にかかわらず、前記認識後処理ステップ
を起動して、前記後処理開始条件を満足する認識候補よ
り、認識結果を求める認識後処理ステップと、を具備す
ることを特徴とする。
【0012】この構成によれば、音声情報の入力終了を
検出する前に、一部又は全部の認識候補について認識後
処理を開始できるので、認識処理を高速化することがで
きる。
【0013】また、この発明の第2の観点による音声認
識処理方法は、入力された音声情報を区分し、区分され
た音声情報から音声特徴を抽出し、抽出された音声特徴
の列について、1個以上の認識候補を生成する候補生成
ステップと、前記認識候補から、表現形態の終端に至る
パスが一通りしか存在しない1パス候補を検出する1パ
ス候補検出ステップと、前記1パス候補検出ステップに
より1パス候補が検出された場合、当該1パス候補よ
り、認識結果を求める認識後処理ステップと、を有する
ことを特徴とする。
【0014】この構成によれば、1パス候補について
は、入力の終了の判別前に、認識後処理を開始できるの
で、認識処理を高速化することができる。
【0015】また、この発明の第3の観点による音声認
識処理方法は、入力された音声情報を区分し、区分され
た音声情報から音声特徴を抽出し、抽出された音声特徴
の列について、1個以上の認識候補を生成する候補生成
ステップと、前記候補生成ステップにより生成された認
識候補から、可能性が最も高い認識候補の可能性と表現
形態の終端における認識候補の可能性との差が所定値以
下となる状況が所定期間連続的に発生したことを検出す
る確率条件検出ステップと、前記確率条件検出ステップ
による検出がなされた場合、前記可能性が最も高い認識
候補より、認識結果を求める認識後処理ステップと、を
有することを特徴とする。
【0016】この構成によれば、可能性が最も高い認識
候補の可能性と表現形態の終端における認識候補の可能
性との差(即ち、抽出された音声特徴の列に該当する可
能性が最も高い認識候補の可能性と抽出された音声特徴
の列が認識候補の終端である可能性との差)が所定値以
下となる状況が所定期間連続的に発生した場合には、入
力の終了を判別する前に、認識後処理を開始できるの
で、認識処理を高速化することができる。
【0017】また、この発明の第4の観点による音声認
識システムは、入力された音声情報から音声特徴を抽出
する特徴抽出手段と、前記特徴抽出手段にて抽出された
音声特徴の列について、1個以上の認識候補を生成する
候補生成手段と、前記候補生成手段により生成された認
識候補から、認識結果を求める認識後処理手段と、前記
音声情報の入力が終了したか否かを判別する入力終了判
別手段と、前記入力終了判別手段による音声情報の入力
の終了を判別すると、前記認識後処理手段を起動する起
動手段と、前記候補生成手段で生成された認識候補につ
いて、予め設定した後処理開始条件を満足する認識候補
を検出する後処理開始条件検出手段と、前記後処理開始
条件検出手段による検出がなされた場合、前記入力終了
判別手段の判別にかかわらず、前記認識後処理手段を起
動して、前記後処理開始条件を満足する認識候補より、
認識結果を求める認識後処理手段と、を具備することを
特徴とする。
【0018】この構成によれば、音声情報の入力終了を
検出する前に、一部又は全部の認識候補について認識後
処理を開始できるので、認識処理を高速化することがで
きる。
【0019】また、この発明の第5の観点による音声認
識システムは、入力された音声情報から音声特徴を抽出
する特徴抽出手段と、前記特徴抽出手段にて抽出された
音声特徴の列について、1個以上の認識候補を生成する
候補生成手段と、前記認識候補から、表現形態の終端に
至るパスが一通りしか存在しない1パス候補を検出する
1パス候補検出手段と、前記1パス候補検出手段により
検出された1パス候補より、認識結果を求める認識後処
理手段と、を具備することを特徴とする。
【0020】この構成によれば、1パス候補について
は、入力の終了前に、認識後処理を開始できるので、認
識処理を高速化することができる。
【0021】また、この発明の第6の観点による音声認
識システムは、入力された音声情報から音声特徴を抽出
する特徴抽出手段と、前記特徴抽出手段にて抽出された
音声特徴の列について、予め設定した認識対象の表現形
態から、1個以上の認識候補を生成する候補生成手段
と、前記認識候補から、可能性が最も高い認識候補の可
能性と表現形態の終端における認識候補の可能性との差
が所定値以下となる状況が所定期間連続的に発生したこ
とを検出する確率条件検出手段と、前記確率条件検出手
段による検出がなされた場合、前記可能性が最も高い認
識候補より、認識結果を求める認識後処理手段と、を具
備することを特徴とする。
【0022】前記認識候補の生成する際の認識対象の言
語的制約の表現形態として単語列を用いることができ
る。
【0023】認識候補生は、例えば、予め設定した認識
対象の表現形態から、類似したものを選択して生成され
る。
【0024】また、生成された認識候補を、前記音声特
徴の列と比較し、比較結果に基づき、可能性が基準より
も低い認識候補を廃棄して、認識対象の数を抑えてもよ
い。
【0025】前記認識後処理は、例えば、認識候補を逆
順にたどって認識結果を求める処理である。
【0026】一般のコンピュータに上述の各ステップ又
は各手段の機能を実行させるプログラムを記録媒体(C
D−ROM、フロッピーディスク、MO)等に格納して
配布し、これをコンピュータのメインメモリ、ハードデ
ィスク等にインストールし、上述のシステムを実現して
もよい。
【0027】
【発明の実施の形態】以下、この発明の実施の形態を図
面を参照して説明する。 (第1の実施の形態)図1〜図3を参照して、この発明
の第1の実施の形態に係る音声認識システムを説明す
る。図1は、この発明の第1の実施の形態に係る音声認
識システムの構成を示している。
【0028】図1に示す音声認識システムは、音声入力
部1、特徴抽出部2、認識辞書部3、候補生成部4、候
補記憶部5、マッチング部6、枝刈り処理部7、1パス
候補検出部8、終了検出部9、認識後処理部10、結果
記憶部11及び結果出力部12を具備し、例えば人間と
コンピュータとの対話型システムを構築している。
【0029】音声入力部1は、マイクロホン等を介して
音声情報を入力する。特徴抽出部2は、音声入力部1で
入力された音声情報を所定区間毎に時系列に区分して、
各区分毎の音声情報から、逐次、音声認識に適する物理
的特徴量である音声特徴を求める。
【0030】認識辞書部3は、予め用意した音声特徴の
候補及び音声特徴の組み合わせパターンを格納する。こ
の認識辞書部3に格納される音声特徴の組み合わせパタ
ーンは、認識対象の言語的制約として、文、つまり単語
列を制約する一種のオートマトンである成文アルゴリズ
ムの定義を含んでいる。
【0031】候補生成部4は、特徴抽出部2で求められ
る音声特徴の列に対して、認識辞書部3に格納された表
現形態を参照して、認識候補を選択的に生成する。候補
記憶部5は、候補生成部4で選択生成された認識候補を
一旦格納する。マッチング部6は、候補生成部4で選択
生成された認識候補と、特徴抽出部2で求められた音声
特徴列とを比較してマッチングを行い、各認識候補毎に
可能性すなわち該当確率を求める。枝刈り処理部7は、
マッチング部6によるマッチングの結果として求められ
る該当確率の低い認識候補を候補記憶部5から削除して
廃棄する枝刈り処理を行う。
【0032】1パス候補検出部8は、枝刈り処理部7に
よる枝刈り処理後に認識候補として候補記憶部5に残っ
ている認識候補のうちの、ある認識候補が上述した認識
アルゴリズムを定義する単語列のパターンのパスを一通
りしかもたない場合に、その認識候補を検出する。
【0033】終了検出部9は、特徴抽出部2に入力され
る時系列に区分された音声情報に基づき、所定時間以上
(例えば500msec〜1secのうちで適宜設定した時間以
上)の期間、所定の閾値レベル以下である状態を、発話
終了としてその直前の認識候補を検出する。
【0034】認識後処理部10は、1パス候補検出部8
及び終了検出部9の少なくとも一方による検出がなされ
た時点で、1パスしか持たない認識候補又は発話終了時
の認識候補から、認識後処理を行う。この認識後処理に
おいては、該当候補から後ろ向き、つまり時系列を逆順
にたどって、候補記憶部5内の認識候補を逐次評価し、
該当確率の高いものを優先して、認識結果とする。
【0035】結果記憶部11は、認識後処理部10で評
価された認識結果を記憶する。結果出力部12は、結果
記憶部11に記憶された認識結果を出力する。
【0036】なお、認識辞書部3、候補生成部4、候補
記憶部5、マッチング部6及び枝刈り処理部7は、マッ
チング処理部13を構成する。また、認識辞書部3、候
補記憶部5及び結果記憶部11は、それぞれが個別の記
憶装置であってもよいし、これらの一部又は全部が共通
の記憶装置にそれぞれ区別して記憶されるようにしても
よい。
【0037】次に、上述のように構成した音声認識シス
テムの動作を説明する。このシステムの音声認識処理に
おいては、認識対象をあらかじめ定めておきこれを言語
的制約として利用する。この音声認識システムが、例え
ば人間とコンピュータとの対話システムを構築している
場合における言語的制約としての認識対象の表現方法の
例を、図2に示す。
【0038】図2では、オートマトン、すなわち成文ア
ルゴリズムによって認識対象の単語列(文)を制約して
いる。図2においては、「始め」の状態から「終わり」
の状態ヘ至るパスを形成する単語列が認識対象である。
したがって、この例では、「表計算」、「表計算起
動」、「表計算閉じる」、「表計算終了」、「ワードプ
ロセッサ」、「ワードプロセッサ起動」、「ワードプロ
セッサ閉じる」、「ワードプロセッサ終了」、「ウェブ
ブラウザ」、「ウェブブラウザ起動」、「ウェブブラウ
ザ閉じる」、「ウェブブラウザ終了」、「はい」、「い
いえ」、「キャンセル」等の単語列が認識でき、言語的
制約として利用されることになる。
【0039】図3は、このシステムの動作の流れを示す
フローチャートである。音声認識処理は、おおむね、前
向き処理と後向き処理とに分けられる。前向き処理で
は、音声入力部1で入カされる音声に対し、特徴抽出部
2及びマッチング処理部13により時間に沿って音声特
徴の計算とマッチング処理を行う。
【0040】すなわち、特徴抽出部2は、音声特徴の計
算のため、音声入力部1から入力された音声を短い区間
ごとに分割し(ステップS1)、その区間での音声認識
に適した物理的特徴量を計算して、区間毎の音声特徴を
抽出する(ステップS2)。すなわち、特徴抽出部2
は、入力された音声から音声セグメントを生成し、音声
セグメント毎に音声特徴を抽出する。発話終了は、音声
特徴のひとつであるパワー値が十分小さいまま所定時間
が経過することにより判定するので、ステップS2の後
に発話終了か否かを判定する(ステップS3)。
【0041】ステップS3において、発話終了が検出さ
れずに、音声特徴が抽出される限り、上述のステップS
2における音声特徴の抽出操作を継続的に行う。このよ
うにして、音声特徴(量)の列が生成される。特徴抽出
部2は、音声特徴の列をマッチング処理部13に入力す
る。
【0042】マッチング処理部13は、音声特徴の列を
順次入カして、図2のような認識対象の表現パターンか
ら、認識候補を生成する。
【0043】即ち、候補生成部4は、音声特徴の列を順
次入カして、図2のような認識対象の表現パターンか
ら、認識辞書部3を参照して認識候補を選び出す(ステ
ップS4)。候補記憶部5は、候補生成部4で選出され
た認識候補を一旦格納する。マッチング部6は、候補記
憶部5に格納された認識候補を読み出し、各認識候補と
入力された音声特徴とを比較して、マッチングを行い、
認識候補が音声特徴に該当する可能性を示す該当確率を
判別し、候補記憶部5に格納する(ステップS5)。
【0044】枝刈り処理部7は、マッチング部6で比較
した結果が悪いもの、すなわち、該当確率が低いものを
切り捨てる枝刈り処理を行う(ステップS6)。
【0045】認識処理部13は、図2における「始め」
の状態から開始し、音声特徴が入力される毎に、該オー
トマトン上を「終わり」の状態ヘ逐次移動しながら、前
述のようなマッチング処理を継続的に行う。マッチング
処理における比較結果のうち、枝刈り処理で切り捨てら
れずに残った比較結果は全て候補記憶部5に保存してお
く。
【0046】後向き処理においては、枝刈り処理後に候
補記憶部5に保存されている比較結果を、時系列の逆順
にたどっていって認識結果を得る。このような―連の処
理で、前向き処理を終えて、後向き処理すなわち認識後
処理を始めるタイミングは、次のように、認識対象語彙
に関する知識を利用しながら決定する。
【0047】1パス候補検出部8は、発話途中のある時
点で、枝刈り処理後に残っている認識候補について、1
パス候補検出部8において、「終わり」すなわち単語列
の終端に至るパス数を検出し(ステップS8)、該パス
数が1であるか否かを判定する(ステップS9)。該パ
ス数が一通りしかない場合、以降のマッチング処理をす
るまでもなく、当該音声特徴に対する認識結果が、該認
識候補に一意に定まる。そこで、このように1パス候補
が検出された場合、認識後処理部10において、当該認
識候補から後向きに、認識後処理を開始し(ステップS
10)、認識結果を生成して結果記憶部11に格納する
(ステップS11)。
【0048】ステップS9で、パス数が2以上であると
判定された場合には、ステップS2に戻り次の音声特徴
を抽出する。また、ステップS3で、発話終了と判定さ
れた場合には、直ちにステップS10にジャンプする。
この場合、ステップS10では、それまでに枝刈り処理
を経て候補記憶部5に蓄積されている認識候補及びその
マッチング結果に基づいて、認識後処理を行い、ステッ
プS11で認識結果を生成する。
【0049】結果出力部12は、結果記憶部11に格納
された認識結果を、必要に応じて出力する。
【0050】このようにして、図10に示すように、認
識しようとする話者の発話が終了する以前に、認識後処
理を開始して、逐次認識結果を得ることができるため、
認識処理のレスポンスタイムが短縮される。特に、人間
とコンピュータとの対話システムを構築した場合には、
発話の終端を検出することによるレスポンスの遅れがな
いため、より早くコンピュータ側が応答することが可能
となる。また、仮にステップS9による1パスの検出が
なされない場合には、従来と同様に発話終了が検出され
た時点で認識後処理が開始されるので、1パス検出の検
出ミスによる誤動作のおそれもない。
【0051】また、このシステムでは、1パス検出によ
る認識後処理開始が行われた時は、認識後処理開始のタ
イミングから、従来の手法による発話終端の検出のタイ
ミングまでの間の認識処理の負荷がなくなるため、CP
U(中央処理装置)の負荷を軽減することができる。
【0052】上述の動作について、図2に示す表現パタ
ーンを用いて具体的に説明する。例えば、話者が「表計
算起動」と発話し、音声入力部1より、これを入力した
とする。特徴抽出部2は、この入力を適宜区分して音声
セグメントに分割し、音声特徴を抽出する。候補生成部
4は、音声特徴の列を順次入カして、認識辞書部3に格
納された認識対象の表現パターンから、認識候補を選び
出す。ここでは、例えば、「表計算」と「ワードプロセ
ッサ」と「はい」と「キャンセル」が認識候補として選
択されたとする。これらは、候補記憶部5に一旦格納さ
れる。
【0053】マッチング部6は、候補記憶部5に格納さ
れたこれらの認識候補を読み出し、各認識候補と入力さ
れた音声特徴とを比較して、マッチングを行い、認識候
補が音声特徴に該当する可能性を示す該当確率を判別
し、候補記憶部5に格納する。
【0054】枝刈り処理部7は、マッチング部6で比較
した結果が悪いもの、すなわち、該当確率が低いものを
切り捨てる枝刈り処理を行う(ステップS6)。ここで
は、認識候補の「ワードプロセッサ」と「キャンセル」
の該当確率が基準値よりも低く、廃棄されたとする。
【0055】1パス候補検出部8は、枝刈り処理後に残
っている認識候補「表計算」と「はい」について、「終
わり」すなわち単語列の終端に至るパス数を検出する。
認識候補「表計算」については、パスは「起動」、「閉
じる」、「終了」、そのまま終わりの4つのパスが存在
する。一方、「はい」については、終わりに至るパスが
一通りしか存在しない。このため、認識後処理を開始
し、マッチング処理部13でのマッチング結果に基づい
て、認識結果、この場合は、「該当せず」を生成し、結
果記憶部11に格納する。
【0056】一方、音声の入力が続く限り、認識候補が
生成されており、例えば、「起動」と「閉じる」が候補
として生成され、枝刈り処理により「起動」のみが残っ
たとする。「起動」から終わりに至るパスが1つのみで
ある。そこで、後処理が開始され、「表計算−起動」に
ついて、後ろ側、即ち、「起動」から「表計算」につい
て、該当確率に基づいて、その認識結果が判別され、こ
こでは、「表計算起動」が認識結果として出力される。
【0057】このようにして、入力終了が完了する前
に、認識後処理を開始し、入力された「表計算起動」を
判別し、出力することができる。
【0058】なお、認識候補「起動」が検出された時点
で、認識候補として「表計算」と「ウエッブブラウザ」
が残っているような場合には、「表計算−起動」と「ウ
エッブブラウザ−起動」について、それぞれ、後ろ側よ
り、該当率を判別し、最も該当率の高い候補「表計算起
動」を最終的な出力とする。
【0059】また、1パス候補が検出されない状態で、
例えば、認識候補として「表計算」と「ワードプロセッ
サ」のみが選出されている状態で、入力が1秒程度ない
場合には、終了検出部9が入力の終了を検出し、認識後
処理部10は認識後処理を開始する。ただし、この場合
は、該当する入力候補が存在しないと判断される。
【0060】以上の具体例では、理解を容易にするた
め、各単語を認識した段階で、1パス候補が存在するか
否かを判別したが、処理を高速化するため、より細かい
単位でこの判断を行うことが望ましい。
【0061】例えば、図2の例において、「キャンセ
ル」を入力したとする。最初の音声の認識候補として、
「キ(ki)」、「ク(ku)」、「カ(ka)」が選出され、枝刈
り処理により、「キ(ki)」のみが選択されたとする。こ
の場合、先頭の音声セグメントが「キ(ki)」である認識
パターンは「キャンセル」のみである。一方、「キャン
セル」は、終点に至るパスが1つしかない1パス候補で
ある。従って、この時点で(又は、ある程度音声セグメ
ントについての認識候補が蓄積されてから)「キャンセ
ル」について認識後処理を行うことが可能である。
【0062】さらに、最初の音声の最小単位である音素
(音声セグメント)単位でこの認識処理を行っても良
い。図2の例において、「キャンセル(kyanseru)」を入
力したとする。最初の音素の認識候補として、「k」、
「y」、「r」が選出され、枝刈り処理により、「k」の
みが選択されたとする。この場合、先頭の音素が「k」
である認識パターンは「キャンセル」のみである。一
方、「キャンセル」は、終点に至るパスが1つしかない
1パス候補である。従って、この時点で(又は、ある程
度音声セグメントについての認識候補が蓄積されてか
ら)「キャンセル」について認識後処理を行うことが可
能である。
【0063】同様に、例えば、図2の例において、「表
計算起動」を入力し、「表計算」が認識された後の最初
の音声区分(音声セグメント)の認識候補として、
「キ」、「ク」、「カ」が選出され、枝刈り処理によ
り、「キ」のみが選択されたとする。この場合、先頭の
音声セグメントが「キ」である認識パターンは「起動」
のみであり、「起動」は、終点に至るパスが1つしかな
い1パス候補である。従って、この時点で(又は、ある
程度音声セグメントについての認識候補が蓄積されてか
ら)「表計算起動」について認識後処理を行うことが可
能である。
【0064】(第2の実施の形態)次に、図4を参照し
て、この発明の第2の実施の形態に係る音声認識システ
ムを説明する。図4に示す音声認識システムは、図1に
示す音声認識システムと同一である。ただし、さらに1
パス候補検出部8に代えて確率条件検出部21を具備し
ている。
【0065】確率条件検出部21は、枝刈り処理部7に
よる枝刈り処理後に認識候補として候補記憶部5に残っ
ている認識候補のうちの、比較結果が最大、すなわち前
向き処理で該当確率が最大のものと、「終わり」に達し
た状態での比較結果として得られる該当確率との差が所
定の閾値以下となる状態が、所定期間連続した場合に、
その該当確率最大の認識候補を検出する。
【0066】認識後処理部10は、確率条件検出部21
及び終了検出部9の少なくとも一方による検出がなされ
た時点で、該当確率最大の認識候補又は発話終了時の認
識候補から、認識後処理を行う。
【0067】次に、上述のように構成した音声認識シス
テムにおける動作を具体的に説明する。図5は、このシ
ステムの動作の流れを示すフローチャートである。音声
認識処理は、図3の場合とおおむね同様に行われる。す
なわち、特徴抽出部2は、音声入力部から入力された音
声を短い区間ごとに分割して(ステップS21)、その
区間での音声認識に適した物理的特徴量を計算して、区
間毎の音声特徴を抽出する(ステップS22)。発話終
了は、音声特徴量が十分に小さいまま所定時間が経過す
ることにより判定するので、ステップS22の後に発話
終了か否かを判定する(ステップS23)。ステップS
23において、発話終了が検出されずに、音声特徴が抽
出される限り、上述のステップS22における音声特徴
の抽出操作を継続的に行う。このようにして、音声特徴
(量)の列が生成され、マッチング処理部13に入力さ
れる。
【0068】マッチング処理部13の候補生成部4は、
特徴抽出部2からの音声特徴の列を順次入カして、認識
辞書部3を参照して認識候補を選び出す(ステップS2
4)。マッチング部6は、各認識候補と入力された音声
特徴とを比較して、マッチングを行い、該当確率を判別
する(ステップS25)。
【0069】枝刈り処理部7は、マッチング部6で比較
した結果が悪いもの、すなわち認識候補が音声特徴に該
当する可能性を示す該当確率が低いものを切り捨てる
(ステップS26)。
【0070】マッチング処理における比較の結果のう
ち、枝刈り処理で切り捨てられずに残った、比較結果は
全て候補記憶部5に保存しておく。後向き処理において
は、枝刈り処理後に候補記憶部5に保存されている比較
結果を、時系列の逆順にたどっていって認識結果を得
る。このような―連の処理で、前向き処理を終えて、後
向き処理すなわち認識後処理を始めるタイミングは、次
のように、認識対象語彙に関する知識を利用しながら決
定する。
【0071】発話途中のある時点で、枝刈り処理後に残
っている認識候補について、確率条件検出部21におい
て、比較結果が最大、すなわち前向き処理における該当
確率が最大の認識候補と、「終わり」の状態での比較結
果つまり該当確率との差を検出し(ステップS28)、
該確率差が所定の閾値以下となる状況が所定期間連続し
たか否かを判定する(ステップS29)。
【0072】所定期間連続した場合には、認識後処理部
10において、その比較結果の該当確率が最大である認
識候補から後処理を開始する(ステップS30)。ステ
ップ30の認識後処理により、認識結果を生成して結果
記憶部11に格納する(ステップS31)。
【0073】ステップS29で、所定期間連続しないと
判定された場合には、ステップS22に戻り次の音声特
徴を抽出する。また、ステップS23で、発話終了と判
定された場合には、直ちにステップS30にジャンプす
る。この場合、ステップS30では、それまでに枝刈り
処理を経て候補記憶部5に蓄積されている認識候補及び
そのマッチング結果に基づいて、認識後処理を行い、ス
テップS31で認識結果を生成する。
【0074】結果記憶部11に格納された認識結果は、
必要に応じて結果出力部12より出力される。
【0075】上述の動作を、「はい」と「いいえ」とい
う2単語を認識する場合を例に具体的に説明する。「は
い」と「いいえ」を音声の最小単位である音素に分解す
ると、次に示すように、「はい」は3音素から、「いい
え」は2音素からなる。 「はい」・・・・’h’’a’’i’ 「いいえ」・・・’ii’’e’
【0076】通常知られているように、各音素は、HM
M(隠れマルコフモデル)と呼ばれる確率モデルで表現
され、一般に、1音素は3つの状態で表される。従っ
て、「はい」と「いいえ」はHMMで図6に示すように
表現することができる。即ち、「はい」は、状態0→1
→・・・→9→16と変化し、12個の状態を有する。
一方、「いいえ」は状態0→10→・・・→15→16
と変化し、8つの状態を有する。
【0077】HMMで表示されている確率は(例えば、
状態1から状態2に遷移する確率や、状態2に遷移した
時の出力確率等)は、予め、学習処理により、により決
定しておく。この確率の値が各音素モデルにより異な
る。
【0078】HMMの状態から状態への遷移は時間を追
って起き、例えば、音声データを10ミリ秒毎に区切っ
て(最小単位でフレームと呼ぶ)考えると、10ミリ秒
(1フレーム)毎に遷移が起きる。従って、「はじめ」
の状態(状態0)から「おわり」の状態(状態16)に
至るまでは、「はい」を通る場合は、少なくとも10フ
レーム(0.1秒)かかり、「いいえ」を通る場合は少
なくとも7フレームかかる。また、同一の状態に遷移す
る場合も起こる。これにより、話者の発音の速度の変化
を吸収することができる。
【0079】未知の音声データが入力された場合に、そ
の音声データの長さが0.12秒(12フレーム)であ
ったとすると、この文法の場合、表1に例示するような
膨大な数の状態遷移の可能性がある。
【0080】
【表1】 0→ 1→ 1→ 1→2→ 3→ 4→ 5→ 6→ 7→ 8→9→16 0→ 1→ 1→ 2→2→ 3→ 4→ 5→ 6→ 7→ 8→9→16 0→ 1→ 1→ 2→3→ 3→ 4→ 5→ 6→ 7→ 8→9→16 0→10→10→10→10→10→10→11→12→13→14→15→16 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
【0081】基本的には、各音素について、その遷移を
起こす可能性を比較計算し、その中で可能性の最大のも
のが認識結果となる。
【0082】以上は、音声データの長さが既知である条
件での説明であったが、この実施の形態では、音声区間
の終端を検出しようとするものであり、音声データの長
さは不明である。
【0083】ここで、図6の例を分析することする。な
お、終わりの状態での比較結果において最大確率を示す
状態の確率との差がある基準値5%よりも小さくなった
状態が基準値(3フレーム)以上続いた場合に、音声後
処理を開始することとする。
【0084】1フレーム目は状態0から状態1又は状態
10に到達する確率が高く、状態16を含めて他の状態
に到達する確率は0である。2フレーム目は状態1、
2、10、11に到達する確率がある。状態16に到達
する確率は0である。3フレーム目は状態1、2、3、
10、11、12に到達する確率がある。状態16に到
達する確率は0である。処理が進んで、7フレーム目に
は、一般的には、状態4又は13に到達する確率が最も
高く、状態16に到達する確率は0ではない(「いい
え」の場合)が、非常に低い。このため、この段階で状
態16(おわり)に到達する確率(即ち、終わりの状態
での比較結果)と、最大確率を示す状態4又は13との
確率との差は非常に大きい。
【0085】処理が進んで、12フレーム目には、一般
的には、状態9又は15に到達する確率が最も高く、状
態16に到達する確率も同様に高い(ここでは、状態9
の確率の方が状態15の確率よりも高いとする)。この
ため、この段階で状態16(おわり)に到達する確率
(即ち、終わりの状態での比較結果)と、最大確率を示
す状態9の確率との差が4%であり、基準値の5%より
も小さくなったと仮定する。13フレーム目、14フレ
ーム目にも、ほぼ同一の状態になったと仮定する。この
段階で状態16(おわり)に到達する確率(即ち、終わ
りの状態での比較結果)と、最大確率を示す状態9の確
率との差がある基準値よりも小さくなった状態が4フレ
ーム以上続き(基準値)を超えたと判断され、音声後処
理を開始することになる。
【0086】このようにして、入力終了を検出する前
に、最大確率を示す状態9のモデルから認識後処理を開
始し、入力された音声を判別し、出力することができ
る。
【0087】(第3の実施の形態)この発明の第3の実
施の形態に係る音声認識システムの構成を図7を参照し
て説明する。図7に示す音声認識システムの基本構成
は、図1のそれと同一である。ただし、1パス候補検出
部8に代えて後処理開始条件検出部31を具備してい
る。
【0088】後処理開始条件検出部31は、認識対象語
彙に関する知識を利用して、後処理を開始する条件を検
出する。例えば、後処理開始条件検出部31は、後処理
を開始する条件として、1パス候補検出及び確率条件検
出を行う。後処理開始条件検出部31における1パス候
補検出では、枝刈り処理部7による枝刈り処理後に認識
候補として候補記憶部5に残っている認識候補のうち
の、ある認識候補が上述した認識アルゴリズムを定義す
る単語列のパターンのパスを一通りしかもたない場合
に、その認識候補を検出する。
【0089】また、後処理開始条件検出部31における
確率条件検出では、枝刈り処理部7による枝刈り処理後
に認識候補として候補記憶部5に残っている認識候補の
うちの、比較結果が最大、すなわち前向き処理で該当確
率が最大のものと、「終わり」に達した状態での比較結
果として得られる該当確率との差が所定の閾値以下とな
る状態が、所定期間連続した場合に、その該当確率最大
の認識候補を検出する。
【0090】認識後処理部10は、後処理開始条件検出
部31及び終了検出部9の少なくとも一方による検出が
なされた時点で、該当確率最大の認識候補又は発話終了
時の認識候補から、認識後処理を行う。
【0091】次に、上述のように構成した音声認識シス
テムにおける動作を具体的に説明する。図8は、このシ
ステムの動作の流れを示すフローチャートである。音声
認識処理は、図3及び図5の場合とおおむね同様に行わ
れる。すなわち、特徴抽出部2は、音声入力部から入力
された音声を短い区間ごとに分割して(ステップS4
1)、区間毎の音声特徴を抽出する(ステップS4
2)。ステップS42の後に発話終了か否かを判定する
(ステップS43)。
【0092】ステップS43において、発話終了が検出
されずに、音声特徴が抽出される限り、上述のステップ
S42における音声特徴の抽出操作を継続的に行う。こ
のようにして、音声特徴の列が生成され、マッチング処
理部13に入力される。
【0093】候補生成部4は、音声特徴の列を順次入カ
して、認識辞書部3を参照して認識候補を選び出し(ス
テップS44)、マッチング部6では、各認識候補と入
力された音声特徴とを比較して、マッチングを行う(ス
テップS45)。
【0094】枝刈り処理部7は、枝刈り処理を行う(ス
テップS46)。
【0095】マッチング処理における比較の結果のう
ち、枝刈り処理で切り捨てられずに残った、比較結果は
全て候補記憶部5に保存しておく。後向き処理において
は、枝刈り処理後に候補記憶部5に保存されている比較
結果を、時系列の逆順にたどっていって認識結果を得
る。このような―連の処理で、前向き処理を終えて、後
向き処理すなわち認識後処理を始めるタイミングは、次
のように、認識対象語彙に関する知識を利用しながら決
定する。
【0096】発話途中のある時点で、枝刈り処理後に残
っている認識候補について、後処理開始条件検出部31
において、後処理開始条件を満足するか否かを検出し
(ステップS48)、認識後処理を開始するか否かを判
定する(ステップS49)。後処理開始条件を満足し、
認識後処理を開始すると判定された場合には、認識後処
理部10において、該当する認識候補から後処理を開始
する(ステップS50)。ステップ50の認識後処理に
より、認識結果を生成して結果記憶部11に格納する
(ステップS51)。
【0097】ステップS49で、後処理を開始しないと
判定された場合には、ステップS42に戻り次の音声特
徴を抽出する。また、ステップS43で、発話終了と判
定された場合には、直ちにステップS50にジャンプす
る。この場合、ステップS50では、それまでに枝刈り
処理を経て候補記憶部5に蓄積されている認識候補及び
そのマッチング結果に基づいて、認識後処理を行い、ス
テップS51で認識結果を生成する。ステップS48に
おける、後処理開始条件検出部31による後処理開始条
件の検出は、例えば、上述した1パス候補の検出及び確
率条件の検出により行われる。
【0098】1パス候補の検出では、「終わり」すなわ
ち単語列の終端に至るパス数を検出し、該パス数が1で
あるか否かを判定する。該パス数が一通りしかない場
合、これ以降のマッチング処理をするまでもなく、当該
音声特徴に対する認識結果が、該認識候補に一意に定ま
る。そこで、このように1パスが検出された場合、当該
認識候補から認識後処理を開始させる。
【0099】確率条件の検出では、比較結果が最大、す
なわち前向き処理における該当確率が最大の認識候補
と、「終わり」の状態での比較結果つまり該当確率との
差を検出し、該確率差が所定の閾値以下となる状況が所
定期間連続したか否かを判定する。所定期間連続した場
合には、その比較結果の該当確率が最大である認識候補
から後処理を開始させる。
【0100】結果記憶部11に格納された認識結果は、
必要に応じて結果出力部12より出力される。
【0101】上述した各実施の形態においては、発話の
終端の検出も行って、発話終端検出以前に認識後処理を
開始させることができなかった場合にも、従来と同様に
発話終端検出後に認識後処理が行われるようにした。し
かし、認識後処理の開始条件の検出が充分に確実に行え
る場合には、発話終端の検出及びそれによる認識後処理
の開始処理は不要となる。
【0102】なお、この発明は、上記実施の形態に限定
されず、種々の変形及び応用が可能である。例えば、図
3、図5、図8では、音声認識システムの動作をシーケ
ンシャルな手順で示したが、図1、図4、図7に示す各
ブロックを並列的に動作させることも可能である。ま
た、1つのMPUでシーケンシャルで処理を行って、複
数の機能を実現してもよい。
【0103】なお、マッチング部13の構成は任意であ
り、例えば、枝刈り処理の具体的手法は任意である。
【0104】また、上記実施の形態の音声認識システム
を、図9に示すように、コンピュータの入力部に接続す
ることにより、キーボード等に代えて、又は、これらと
共に入力に使用することができる。一般に、人間同士の
対話では、通常の場合、相手が話し終わる前に、話の内
容をある程度予測的に認識し、応答の発話を開始するこ
とが多い。上述した音声認識システムを用いれば、コン
ピュータ側の応答を人間のそれに近づけることができ、
より自然なインタフェースを実現することができる。
【0105】なお、この発明の音声認識システムは、専
用のシステムによらず、通常のコンピュータシステムを
用いて実現可能である。例えば、コンピュータにマイク
ロフォン等を接続し、さらに、上述の動作を実行するた
めのプログラムを格納した媒体(フロッピーディスク、
CD−ROM等)から該プログラムをインストールする
ことにより、上述の処理(手順)を実行する音声認識シ
ステムを構成することができる。
【0106】なお、上述の音声認識処理(手順)の一部
をOS(オペレーティングシステム)が担当する場合、
或いは、OSとアプリケーションプログラムが協働して
実現する場合には、記録媒体には、OS以外の部分を格
納して配布すればよい。
【0107】コンピュータにプログラムを供給するため
の媒体は、通信媒体(通信回線、通信ネットワーク、通
信システムのように、一時的且つ流動的にプログラムを
保持する媒体)でも良い。例えば、通信ネットワークの
掲示板(BBS)やデータベースにに該プログラムを掲
示し、これをネットワークを介して配信してもよい。そ
して、このプログラムを起動し、OSの制御下で、他の
アプリケーションプログラムと同様に実行することによ
り、上述の処理を実行することができる。
【0108】
【発明の効果】以上説明したように、この発明によれ
ば、無音区間による発話終了の検出以前に、認識後処理
を開始することができるので、認識処理のレスポンスを
向上し、真のリアルタイムに近い音声認識処理が実現で
きる。
【図面の簡単な説明】
【図1】この発明の第1の実施の形態に係る音声認識シ
ステムの構成を模式的に示すブロック図である。
【図2】図1の音声認識システムの原理を説明するため
の模式図である。
【図3】図1の音声認識システムにおける動作を説明す
るためのフローチャートである。
【図4】この発明の第2の実施の形態に係る音声認識シ
ステムの構成を模式的に示すブロック図である。
【図5】図4の音声認識システムにおける動作を説明す
るためのフローチャートである。
【図6】「はい」と「いいえ」のHMM音声モデルを示
す図である。
【図7】この発明の第3の実施の形態に係る音声認識シ
ステムの構成を模式的に示すブロック図である。
【図8】図7の音声認識システムにおける動作を説明す
るためのフローチャートである。
【図9】この発明の音声認識システムを入力部に応用し
たコンピュータシステムの例を示す図である。
【図10】入力音声情報に対する従来の音声認識処理に
おける認識後処理の開始タイミングとこの発明における
認識後処理の開始タイミングとの相違を説明するための
波形図である。
【符号の説明】
1 音声入力部 2 特徴抽出部 3 認識辞書部 4 候補生成部 5 候補記憶部 6 マッチング部 7 枝刈り処理部 8 1パス候補検出部 9 終了検出部 10 認識後処理部 11 結果記憶部 12 結果出力部 13 マッチング処理部 21 確率条件検出部 31 後処理開始条件検出部

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】入力音声情報を区分し、区分された音声情
    報から音声特徴を抽出し、抽出された音声特徴の列につ
    いて、認識候補を生成する候補生成ステップと、 前記候補生成ステップにより生成された認識候補につい
    て、認識結果を求める認識後処理ステップと、 最後に音声情報が入力されてからの時間を継続的に判別
    し、所定期間が経過したか否かを判別する入力終了判別
    ステップと、 前記入力終了判別ステップで音声情報の入力の終了を判
    別すると、前記認識後処理ステップを起動する起動ステ
    ップと、 前記候補生成ステップで生成された認識候補について、
    予め設定した後処理開始条件を満足する認識候補を検出
    する後処理開始条件検出ステップと、 前記後処理開始条件検出ステップによる検出がなされた
    場合、前記入力終了判別ステップの判別にかかわらず、
    前記認識後処理ステップを起動して、前記後処理開始条
    件を満足する認識候補より、認識結果を求める認識後処
    理ステップと、を具備することを特徴とする音声認識処
    理方法。
  2. 【請求項2】入力された音声情報を区分し、区分された
    音声情報から音声特徴を抽出し、抽出された音声特徴の
    列について、1個以上の認識候補を生成する候補生成ス
    テップと、 前記認識候補から、表現形態の終端に至るパスが一通り
    しか存在しない1パス候補を検出する1パス候補検出ス
    テップと、 前記1パス候補検出ステップにより1パス候補が検出さ
    れた場合、当該1パス候補より、認識結果を求める認識
    後処理ステップと、を有することを特徴とする音声認識
    処理方法。
  3. 【請求項3】入力された音声情報を区分し、区分された
    音声情報から音声特徴を抽出し、抽出された音声特徴の
    列について、1個以上の認識候補を生成する候補生成ス
    テップと、 前記候補生成ステップにより生成された認識候補から、
    可能性が最も高い認識候補の可能性と表現形態の終端に
    おける認識候補の可能性との差が所定値以下となる状況
    が所定期間連続的に発生したことを検出する確率条件検
    出ステップと、 前記確率条件検出ステップによる検出がなされた場合、
    前記可能性が最も高い認識候補より、認識結果を求める
    認識後処理ステップと、を有することを特徴とする音声
    認識処理方法。
  4. 【請求項4】前記候補生成ステップは、抽出された前記
    音声特徴の列について、予め設定した認識対象の表現形
    態から、類似した1個以上の認識候補を選択生成する生
    成ステップを備える、 ことを特徴とする請求項1乃至3のいずれか1項に記載
    の音声認識処理方法。
  5. 【請求項5】前記候補生成ステップは、 前記生成ステップにて生成された1個以上の認識候補
    を、前記音声特徴の列と比較するマッチングステップ
    と、 前記マッチングステップによる比較の結果に基づき、可
    能性が基準よりも低い認識候補を廃棄する枝刈り処理ス
    テップと、より構成される、 ことを特徴とする請求項4に記載の音声認識処理方法。
  6. 【請求項6】前記認識後処理ステップは、認識候補を逆
    順にたどって認識結果を求めるステップから構成され
    る、ことを特徴とする請求項1乃至5項のいずれか1項
    に記載の音声認識処理方法。
  7. 【請求項7】入力された音声情報から音声特徴を抽出す
    る特徴抽出手段と、 前記特徴抽出手段にて抽出された音声特徴の列につい
    て、1個以上の認識候補を生成する候補生成手段と、 前記候補生成手段により生成された認識候補から、認識
    結果を求める認識後処理手段と、 前記音声情報の入力が終了したか否かを判別する入力終
    了判別手段と、 前記入力終了判別手段による音声情報の入力の終了を判
    別すると、前記認識後処理手段を起動する起動手段と、 前記候補生成手段で生成された認識候補について、予め
    設定した後処理開始条件を満足する認識候補を検出する
    後処理開始条件検出手段と、 前記後処理開始条件検出手段による検出がなされた場
    合、前記入力終了判別手段の判別にかかわらず、前記認
    識後処理手段を起動して、前記後処理開始条件を満足す
    る認識候補より、認識結果を求める認識後処理手段と、
    を具備することを特徴とする音声認識システム。
  8. 【請求項8】入力された音声情報から音声特徴を抽出す
    る特徴抽出手段と、 前記特徴抽出手段にて抽出された音声特徴の列につい
    て、1個以上の認識候補を生成する候補生成手段と、 前記認識候補から、表現形態の終端に至るパスが一通り
    しか存在しない1パス候補を検出する1パス候補検出手
    段と、 前記1パス候補検出手段により検出された1パス候補よ
    り、認識結果を求める認識後処理手段と、 を具備することを特徴とする音声認識システム。
  9. 【請求項9】入力された音声情報から音声特徴を抽出す
    る特徴抽出手段と、 前記特徴抽出手段にて抽出された音声特徴の列につい
    て、予め設定した認識対象の表現形態から、1個以上の
    認識候補を生成する候補生成手段と、 前記認識候補から、可能性が最も高い認識候補の可能性
    と表現形態の終端における認識候補の可能性との差が所
    定値以下となる状況が所定期間連続的に発生したことを
    検出する確率条件検出手段と、 前記確率条件検出手段による検出がなされた場合、前記
    可能性が最も高い認識候補より、認識結果を求める認識
    後処理手段と、を具備することを特徴とする音声認識シ
    ステム。
  10. 【請求項10】前記候補生成手段は、前記特徴抽出手段
    により抽出された音声特徴の列について、予め設定した
    認識対象の表現形態から、類似した1個以上の認識候補
    を選択生成する生成手段を備える、 ことを特徴とする請求項7乃至9のいずれか1項に記載
    の音声認識システム。
  11. 【請求項11】前記候補生成手段は、 前記生成手段にて生成された1個以上の認識候補を、前
    記音声特徴の列と比較するマッチング手段と、 前記マッチング手段による比較の結果に基づき、可能性
    が基準よりも低い認識候補を廃棄する候補限定手段と、 を備える、ことを特徴とする請求項10に記載の音声認
    識システム。
  12. 【請求項12】前記認識後処理手段は、認識候補を逆順
    にたどって認識結果を求める手段から構成される、こと
    を特徴とする請求項7乃至11項のいずれか1項に記載
    の音声認識システム。
  13. 【請求項13】前記候補生成手段は、認識対象の言語的
    制約の表現形態として単語列を用いることを特徴とする
    請求項7乃至12のいずれか1項に記載の音声認識シス
    テム。
  14. 【請求項14】コンピュータに、 入力音声情報を区分し、区分された音声情報から音声特
    徴を抽出し、抽出された音声特徴の列について、認識候
    補を生成する候補生成ステップと、 前記候補生成ステップにより生成された認識候補につい
    て、認識結果を求める認識後処理ステップと、 最後に音声情報が入力されてからの時間を継続的に判別
    し、所定期間が経過したか否かを判別する入力終了判別
    ステップと、 前記入力終了判別ステップで音声情報の入力の終了を判
    別すると、前記認識後処理ステップを起動する起動ステ
    ップと、 前記候補生成ステップで生成された認識候補について、
    予め設定した後処理開始条件を満足する認識候補を検出
    する後処理開始条件検出ステップと、 前記後処理開始条件検出ステップによる検出がなされた
    場合、前記入力終了判別ステップの判別にかかわらず、
    前記認識後処理ステップを起動して、前記後処理開始条
    件を満足する認識候補より、認識結果を求める認識後処
    理ステップと、を実行させるためのプログラムを格納し
    たコンピュータ読み取り可能な記録媒体。
  15. 【請求項15】コンピュータに、 入力された音声情報を区分し、区分された音声情報から
    音声特徴を抽出し、抽出された音声特徴の列について、
    1個以上の認識候補を生成する候補生成ステップと、 前記認識候補から、表現形態の終端に至るパスが一通り
    しか存在しない1パス候補を検出する1パス候補検出ス
    テップと、 前記1パス候補検出ステップにより1パス候補が検出さ
    れた場合、当該1パス候補より、認識結果を求める認識
    後処理ステップと、を実行させるためのプログラムを格
    納したコンピュータ読み取り可能な記録媒体。
  16. 【請求項16】コンピュータに、 入力された音声情報を区分し、区分された音声情報から
    音声特徴を抽出し、抽出された音声特徴の列について、
    1個以上の認識候補を生成する候補生成ステップと、 前記候補生成ステップにより生成された認識候補から、
    可能性が最も高い認識候補の可能性と表現形態の終端に
    おける認識候補の可能性との差が所定値以下となる状況
    が所定期間連続的に発生したことを検出する確率条件検
    出ステップと、 前記確率条件検出ステップによる検出がなされた場合、
    前記可能性が最も高い認識候補より、認識結果を求める
    認識後処理ステップと、を実行させるためのプログラム
    を格納したコンピュータ読み取り可能な記録媒体。
JP9343026A 1996-12-27 1997-12-12 音声認識処理方法、音声認識システム及び記録媒体 Pending JPH10240290A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9343026A JPH10240290A (ja) 1996-12-27 1997-12-12 音声認識処理方法、音声認識システム及び記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP34938596 1996-12-27
JP8-349385 1996-12-27
JP9343026A JPH10240290A (ja) 1996-12-27 1997-12-12 音声認識処理方法、音声認識システム及び記録媒体

Publications (1)

Publication Number Publication Date
JPH10240290A true JPH10240290A (ja) 1998-09-11

Family

ID=26577403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9343026A Pending JPH10240290A (ja) 1996-12-27 1997-12-12 音声認識処理方法、音声認識システム及び記録媒体

Country Status (1)

Country Link
JP (1) JPH10240290A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002534719A (ja) * 1999-01-07 2002-10-15 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 大語彙音声認識のための検索アルゴリズム
JP2007256482A (ja) * 2006-03-22 2007-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、及びコンピュータプログラム
JP2020086006A (ja) * 2018-11-19 2020-06-04 トヨタ自動車株式会社 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002534719A (ja) * 1999-01-07 2002-10-15 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 大語彙音声認識のための検索アルゴリズム
JP2007256482A (ja) * 2006-03-22 2007-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、及びコンピュータプログラム
JP2020086006A (ja) * 2018-11-19 2020-06-04 トヨタ自動車株式会社 音声認識装置

Similar Documents

Publication Publication Date Title
JP3762327B2 (ja) 音声認識方法および音声認識装置および音声認識プログラム
CN112102815B (zh) 语音识别方法、装置、计算机设备和存储介质
US8019602B2 (en) Automatic speech recognition learning using user corrections
EP0867857B1 (en) Enrolment in speech recognition
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US9002705B2 (en) Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents
US6163768A (en) Non-interactive enrollment in speech recognition
US5027406A (en) Method for interactive speech recognition and training
US7634401B2 (en) Speech recognition method for determining missing speech
KR100651957B1 (ko) 음성 인식에서 무음을 사용한 시스템
US6553342B1 (en) Tone based speech recognition
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2001517816A (ja) 連続および分離音声を認識するための音声認識システム
US20030200090A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP2002215187A (ja) 音声認識方法及びその装置
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JPH10240290A (ja) 音声認識処理方法、音声認識システム及び記録媒体
JPH1185184A (ja) 音声認識装置
KR100404852B1 (ko) 언어모델적응기능을가진음성인식장치및그제어방법
JPH09114482A (ja) 音声認識のための話者適応化方法