JPH10240290A

JPH10240290A - 音声認識処理方法、音声認識システム及び記録媒体

Info

Publication number: JPH10240290A
Application number: JP9343026A
Authority: JP
Inventors: Isao Arima; 勲有馬
Original assignee: N T T DATA TSUSHIN KK; NTT Data Communications Systems Corp
Current assignee: N T T DATA TSUSHIN KK; NTT Data Corp
Priority date: 1996-12-27
Filing date: 1997-12-12
Publication date: 1998-09-11

Abstract

(57)【要約】【課題】無音区間による発話終了の検出以前に、認識
後処理を開始して、認識処理のレスポンスを向上する。【解決手段】マッチング部６は、候補生成部４で選択
生成された認識候補と、特徴抽出部２で求められた音声
特徴列とを比較してマッチングを行い、各認識候補毎に
該当確率を求める。枝刈り処理部７は、マッチングの結
果、該当確率の低い認識候補を候補記憶部５から削除し
て廃棄する。１パス候補検出部８は、枝刈り処理後に認
識候補として候補記憶部５に残っている認識候補のうち
の、ある認識候補が認識アルゴリズムを定義する単語列
のパスを一通りしかもたない場合に、その認識候補を検
出する。認識後処理部１０は、１パス候補検出部８によ
る検出がなされた時点で、１つのパスしか持たない認識
候補を起点として認識後処理を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、リアルタイムで
の音声認識に係り、特に、音声認識のレスポンスを向上
するための音声認識処理方法及び音声認識システムに関
する。

【０００２】

【従来の技術】音声認識システムでは、マイクロフォン
等から入力されるアナログ音声信号をＡ／Ｄ（アナログ
−ディジタル）変換した後に、音響的処理及び言語的処
理を含む認識処理により該音声信号を認識し、認識結果
を出力する。

【０００３】認識率（正確な認識を行う確率）を向上す
るためには、音響的及び言語的処理を的確に行うことが
重要である。このため、入力される音声情報の情報量が
多いほど、音響的及び言語的処理のための参照要素が多
くなり、認識率の向上に寄与する。そこで、長時間にわ
たる多量の音声を収集した後に、認識処理を行えば、高
い認識率が得られることになる。

【０００４】しかし、音声信号を長時間入力した後に認
識処理を行うのでは、認識処理に著しい時間を要するこ
とになり、認識処理を高速化することができない。

【０００５】また、音声認識システムの利用分野とし
て、手操作等による情報入力の煩雑さを軽減するため
に、音声による情報入力の利用が期待されている分野が
ある。このような分野においては、高速な認識処理がで
きなければ、情報入力を迅速に行うことができない。そ
こで、音声認識の分野においては、認識処理の高速化が
一つの課題となっている。

【０００６】従来の音声認識システムにおいては、認識
処理の高速化のために、次のような処理を行っていた。
まず、音声が入力され始めた直後から、音声認識処理を
開始するようにする。即ち、話者が話している間つまり
発話途中にも認識処理を行うようにして、トータルでの
認識レスポンスを向上する。

【０００７】また、認識処理におけるマッチング処理の
途中で比較結果の正解確率が低くなりそうな認識候補を
推測し、その推測された認識候補を切り捨てることも行
われている。このように比較結果の推測に基づいて認識
候補を切り捨てる処理を枝刈り処理と称する。この枝刈
り処理等により、認識処理の演算量を低減することがで
きる。枝刈り処理のような演算量低減の手法は、他にも
提案されている。

【０００８】認識結果を得るには、言葉の最後の部分の
認識候補から順次遡って認識候補を評価選択する認識後
処理を行わなければならない。該認識後処理の開始のタ
イミングは、音声情報の入力が終了したのを判断した後
である。入力終了の判断は、500msec〜１sec程度の期間
の無音状態の継続が検知された時点で行う。従って、こ
の認識後処理の開始タイミングを決定する発話の終了の
判断には、ある程度の時間を要する。

【０００９】

【発明が解決しようとする課題】上述したように、話者
の発話により、音声が入力され始めた直後から音声認識
処理を開始すること、枝刈り処理等の演算量低減の手法
を採用することなどにより、認識処理の高速化が進んで
いる。しかし、認識後処理の開始タイミングについて
は、発話の終了の判断のための時間が必要であり、この
タイミングの改善には限度があった。すなわち、実際の
発話の終了から認識後処理を開始するまでには、図１０
に示すように、無音区間の検出のための時間による時間
遅れが避けられず、これが認識処理全体のレスポンスを
低下させる主原因となっている。

【００１０】この発明は、上述した事情に鑑みてなされ
たもので、認識処理のレスポンスを向上し得る音声認識
処理方法及び音声認識システムを提供することを目的と
する。また、この発明は、無音区間による発話終了の検
出以前に、認識後処理を開始することができる音声認識
処理方法及び音声認識システムを提供することを目的と
する。

【００１１】

【課題を解決するための手段】上記目的を達成するた
め、この発明の第１の観点による音声認識処理方法は、
入力音声情報を区分し、区分された音声情報から音声特
徴を抽出し、抽出された音声特徴の列について、認識候
補を生成する候補生成ステップと、前記候補生成ステッ
プにより生成された認識候補について、認識結果を求め
る認識後処理ステップと、最後に音声情報が入力されて
からの時間を継続的に判別し、所定期間が経過したか否
かを判別する入力終了判別ステップと、前記入力終了判
別ステップで音声情報の入力の終了を判別すると、前記
認識後処理ステップを起動する起動ステップと、前記候
補生成ステップで生成された認識候補について、予め設
定した後処理開始条件を満足する認識候補を検出する後
処理開始条件検出ステップと、前記後処理開始条件検出
ステップによる検出がなされた場合、前記入力終了判別
ステップの判別にかかわらず、前記認識後処理ステップ
を起動して、前記後処理開始条件を満足する認識候補よ
り、認識結果を求める認識後処理ステップと、を具備す
ることを特徴とする。

【００１２】この構成によれば、音声情報の入力終了を
検出する前に、一部又は全部の認識候補について認識後
処理を開始できるので、認識処理を高速化することがで
きる。

【００１３】また、この発明の第２の観点による音声認
識処理方法は、入力された音声情報を区分し、区分され
た音声情報から音声特徴を抽出し、抽出された音声特徴
の列について、１個以上の認識候補を生成する候補生成
ステップと、前記認識候補から、表現形態の終端に至る
パスが一通りしか存在しない１パス候補を検出する１パ
ス候補検出ステップと、前記１パス候補検出ステップに
より１パス候補が検出された場合、当該１パス候補よ
り、認識結果を求める認識後処理ステップと、を有する
ことを特徴とする。

【００１４】この構成によれば、１パス候補について
は、入力の終了の判別前に、認識後処理を開始できるの
で、認識処理を高速化することができる。

【００１５】また、この発明の第３の観点による音声認
識処理方法は、入力された音声情報を区分し、区分され
た音声情報から音声特徴を抽出し、抽出された音声特徴
の列について、１個以上の認識候補を生成する候補生成
ステップと、前記候補生成ステップにより生成された認
識候補から、可能性が最も高い認識候補の可能性と表現
形態の終端における認識候補の可能性との差が所定値以
下となる状況が所定期間連続的に発生したことを検出す
る確率条件検出ステップと、前記確率条件検出ステップ
による検出がなされた場合、前記可能性が最も高い認識
候補より、認識結果を求める認識後処理ステップと、を
有することを特徴とする。

【００１６】この構成によれば、可能性が最も高い認識
候補の可能性と表現形態の終端における認識候補の可能
性との差（即ち、抽出された音声特徴の列に該当する可
能性が最も高い認識候補の可能性と抽出された音声特徴
の列が認識候補の終端である可能性との差）が所定値以
下となる状況が所定期間連続的に発生した場合には、入
力の終了を判別する前に、認識後処理を開始できるの
で、認識処理を高速化することができる。

【００１７】また、この発明の第４の観点による音声認
識システムは、入力された音声情報から音声特徴を抽出
する特徴抽出手段と、前記特徴抽出手段にて抽出された
音声特徴の列について、１個以上の認識候補を生成する
候補生成手段と、前記候補生成手段により生成された認
識候補から、認識結果を求める認識後処理手段と、前記
音声情報の入力が終了したか否かを判別する入力終了判
別手段と、前記入力終了判別手段による音声情報の入力
の終了を判別すると、前記認識後処理手段を起動する起
動手段と、前記候補生成手段で生成された認識候補につ
いて、予め設定した後処理開始条件を満足する認識候補
を検出する後処理開始条件検出手段と、前記後処理開始
条件検出手段による検出がなされた場合、前記入力終了
判別手段の判別にかかわらず、前記認識後処理手段を起
動して、前記後処理開始条件を満足する認識候補より、
認識結果を求める認識後処理手段と、を具備することを
特徴とする。

【００１８】この構成によれば、音声情報の入力終了を
検出する前に、一部又は全部の認識候補について認識後
処理を開始できるので、認識処理を高速化することがで
きる。

【００１９】また、この発明の第５の観点による音声認
識システムは、入力された音声情報から音声特徴を抽出
する特徴抽出手段と、前記特徴抽出手段にて抽出された
音声特徴の列について、１個以上の認識候補を生成する
候補生成手段と、前記認識候補から、表現形態の終端に
至るパスが一通りしか存在しない１パス候補を検出する
１パス候補検出手段と、前記１パス候補検出手段により
検出された１パス候補より、認識結果を求める認識後処
理手段と、を具備することを特徴とする。

【００２０】この構成によれば、１パス候補について
は、入力の終了前に、認識後処理を開始できるので、認
識処理を高速化することができる。

【００２１】また、この発明の第６の観点による音声認
識システムは、入力された音声情報から音声特徴を抽出
する特徴抽出手段と、前記特徴抽出手段にて抽出された
音声特徴の列について、予め設定した認識対象の表現形
態から、１個以上の認識候補を生成する候補生成手段
と、前記認識候補から、可能性が最も高い認識候補の可
能性と表現形態の終端における認識候補の可能性との差
が所定値以下となる状況が所定期間連続的に発生したこ
とを検出する確率条件検出手段と、前記確率条件検出手
段による検出がなされた場合、前記可能性が最も高い認
識候補より、認識結果を求める認識後処理手段と、を具
備することを特徴とする。

【００２２】前記認識候補の生成する際の認識対象の言
語的制約の表現形態として単語列を用いることができ
る。

【００２３】認識候補生は、例えば、予め設定した認識
対象の表現形態から、類似したものを選択して生成され
る。

【００２４】また、生成された認識候補を、前記音声特
徴の列と比較し、比較結果に基づき、可能性が基準より
も低い認識候補を廃棄して、認識対象の数を抑えてもよ
い。

【００２５】前記認識後処理は、例えば、認識候補を逆
順にたどって認識結果を求める処理である。

【００２６】一般のコンピュータに上述の各ステップ又
は各手段の機能を実行させるプログラムを記録媒体（Ｃ
Ｄ−ＲＯＭ、フロッピーディスク、ＭＯ）等に格納して
配布し、これをコンピュータのメインメモリ、ハードデ
ィスク等にインストールし、上述のシステムを実現して
もよい。

【００２７】

【発明の実施の形態】以下、この発明の実施の形態を図
面を参照して説明する。（第１の実施の形態）図１〜図３を参照して、この発明
の第１の実施の形態に係る音声認識システムを説明す
る。図１は、この発明の第１の実施の形態に係る音声認
識システムの構成を示している。

【００２８】図１に示す音声認識システムは、音声入力
部１、特徴抽出部２、認識辞書部３、候補生成部４、候
補記憶部５、マッチング部６、枝刈り処理部７、１パス
候補検出部８、終了検出部９、認識後処理部１０、結果
記憶部１１及び結果出力部１２を具備し、例えば人間と
コンピュータとの対話型システムを構築している。

【００２９】音声入力部１は、マイクロホン等を介して
音声情報を入力する。特徴抽出部２は、音声入力部１で
入力された音声情報を所定区間毎に時系列に区分して、
各区分毎の音声情報から、逐次、音声認識に適する物理
的特徴量である音声特徴を求める。

【００３０】認識辞書部３は、予め用意した音声特徴の
候補及び音声特徴の組み合わせパターンを格納する。こ
の認識辞書部３に格納される音声特徴の組み合わせパタ
ーンは、認識対象の言語的制約として、文、つまり単語
列を制約する一種のオートマトンである成文アルゴリズ
ムの定義を含んでいる。

【００３１】候補生成部４は、特徴抽出部２で求められ
る音声特徴の列に対して、認識辞書部３に格納された表
現形態を参照して、認識候補を選択的に生成する。候補
記憶部５は、候補生成部４で選択生成された認識候補を
一旦格納する。マッチング部６は、候補生成部４で選択
生成された認識候補と、特徴抽出部２で求められた音声
特徴列とを比較してマッチングを行い、各認識候補毎に
可能性すなわち該当確率を求める。枝刈り処理部７は、
マッチング部６によるマッチングの結果として求められ
る該当確率の低い認識候補を候補記憶部５から削除して
廃棄する枝刈り処理を行う。

【００３２】１パス候補検出部８は、枝刈り処理部７に
よる枝刈り処理後に認識候補として候補記憶部５に残っ
ている認識候補のうちの、ある認識候補が上述した認識
アルゴリズムを定義する単語列のパターンのパスを一通
りしかもたない場合に、その認識候補を検出する。

【００３３】終了検出部９は、特徴抽出部２に入力され
る時系列に区分された音声情報に基づき、所定時間以上
（例えば500msec〜１secのうちで適宜設定した時間以
上）の期間、所定の閾値レベル以下である状態を、発話
終了としてその直前の認識候補を検出する。

【００３４】認識後処理部１０は、１パス候補検出部８
及び終了検出部９の少なくとも一方による検出がなされ
た時点で、１パスしか持たない認識候補又は発話終了時
の認識候補から、認識後処理を行う。この認識後処理に
おいては、該当候補から後ろ向き、つまり時系列を逆順
にたどって、候補記憶部５内の認識候補を逐次評価し、
該当確率の高いものを優先して、認識結果とする。

【００３５】結果記憶部１１は、認識後処理部１０で評
価された認識結果を記憶する。結果出力部１２は、結果
記憶部１１に記憶された認識結果を出力する。

【００３６】なお、認識辞書部３、候補生成部４、候補
記憶部５、マッチング部６及び枝刈り処理部７は、マッ
チング処理部１３を構成する。また、認識辞書部３、候
補記憶部５及び結果記憶部１１は、それぞれが個別の記
憶装置であってもよいし、これらの一部又は全部が共通
の記憶装置にそれぞれ区別して記憶されるようにしても
よい。

【００３７】次に、上述のように構成した音声認識シス
テムの動作を説明する。このシステムの音声認識処理に
おいては、認識対象をあらかじめ定めておきこれを言語
的制約として利用する。この音声認識システムが、例え
ば人間とコンピュータとの対話システムを構築している
場合における言語的制約としての認識対象の表現方法の
例を、図２に示す。

【００３８】図２では、オートマトン、すなわち成文ア
ルゴリズムによって認識対象の単語列（文）を制約して
いる。図２においては、「始め」の状態から「終わり」
の状態ヘ至るパスを形成する単語列が認識対象である。
したがって、この例では、「表計算」、「表計算起
動」、「表計算閉じる」、「表計算終了」、「ワードプ
ロセッサ」、「ワードプロセッサ起動」、「ワードプロ
セッサ閉じる」、「ワードプロセッサ終了」、「ウェブ
ブラウザ」、「ウェブブラウザ起動」、「ウェブブラウ
ザ閉じる」、「ウェブブラウザ終了」、「はい」、「い
いえ」、「キャンセル」等の単語列が認識でき、言語的
制約として利用されることになる。

【００３９】図３は、このシステムの動作の流れを示す
フローチャートである。音声認識処理は、おおむね、前
向き処理と後向き処理とに分けられる。前向き処理で
は、音声入力部１で入カされる音声に対し、特徴抽出部
２及びマッチング処理部１３により時間に沿って音声特
徴の計算とマッチング処理を行う。

【００４０】すなわち、特徴抽出部２は、音声特徴の計
算のため、音声入力部１から入力された音声を短い区間
ごとに分割し（ステップＳ１）、その区間での音声認識
に適した物理的特徴量を計算して、区間毎の音声特徴を
抽出する（ステップＳ２）。すなわち、特徴抽出部２
は、入力された音声から音声セグメントを生成し、音声
セグメント毎に音声特徴を抽出する。発話終了は、音声
特徴のひとつであるパワー値が十分小さいまま所定時間
が経過することにより判定するので、ステップＳ２の後
に発話終了か否かを判定する（ステップＳ３）。

【００４１】ステップＳ３において、発話終了が検出さ
れずに、音声特徴が抽出される限り、上述のステップＳ
２における音声特徴の抽出操作を継続的に行う。このよ
うにして、音声特徴（量）の列が生成される。特徴抽出
部２は、音声特徴の列をマッチング処理部１３に入力す
る。

【００４２】マッチング処理部１３は、音声特徴の列を
順次入カして、図２のような認識対象の表現パターンか
ら、認識候補を生成する。

【００４３】即ち、候補生成部４は、音声特徴の列を順
次入カして、図２のような認識対象の表現パターンか
ら、認識辞書部３を参照して認識候補を選び出す（ステ
ップＳ４）。候補記憶部５は、候補生成部４で選出され
た認識候補を一旦格納する。マッチング部６は、候補記
憶部５に格納された認識候補を読み出し、各認識候補と
入力された音声特徴とを比較して、マッチングを行い、
認識候補が音声特徴に該当する可能性を示す該当確率を
判別し、候補記憶部５に格納する（ステップＳ５）。

【００４４】枝刈り処理部７は、マッチング部６で比較
した結果が悪いもの、すなわち、該当確率が低いものを
切り捨てる枝刈り処理を行う（ステップＳ６）。

【００４５】認識処理部１３は、図２における「始め」
の状態から開始し、音声特徴が入力される毎に、該オー
トマトン上を「終わり」の状態ヘ逐次移動しながら、前
述のようなマッチング処理を継続的に行う。マッチング
処理における比較結果のうち、枝刈り処理で切り捨てら
れずに残った比較結果は全て候補記憶部５に保存してお
く。

【００４６】後向き処理においては、枝刈り処理後に候
補記憶部５に保存されている比較結果を、時系列の逆順
にたどっていって認識結果を得る。このような―連の処
理で、前向き処理を終えて、後向き処理すなわち認識後
処理を始めるタイミングは、次のように、認識対象語彙
に関する知識を利用しながら決定する。

【００４７】１パス候補検出部８は、発話途中のある時
点で、枝刈り処理後に残っている認識候補について、１
パス候補検出部８において、「終わり」すなわち単語列
の終端に至るパス数を検出し（ステップＳ８）、該パス
数が１であるか否かを判定する（ステップＳ９）。該パ
ス数が一通りしかない場合、以降のマッチング処理をす
るまでもなく、当該音声特徴に対する認識結果が、該認
識候補に一意に定まる。そこで、このように１パス候補
が検出された場合、認識後処理部１０において、当該認
識候補から後向きに、認識後処理を開始し（ステップＳ
１０）、認識結果を生成して結果記憶部１１に格納する
（ステップＳ１１）。

【００４８】ステップＳ９で、パス数が２以上であると
判定された場合には、ステップＳ２に戻り次の音声特徴
を抽出する。また、ステップＳ３で、発話終了と判定さ
れた場合には、直ちにステップＳ１０にジャンプする。
この場合、ステップＳ１０では、それまでに枝刈り処理
を経て候補記憶部５に蓄積されている認識候補及びその
マッチング結果に基づいて、認識後処理を行い、ステッ
プＳ１１で認識結果を生成する。

【００４９】結果出力部１２は、結果記憶部１１に格納
された認識結果を、必要に応じて出力する。

【００５０】このようにして、図１０に示すように、認
識しようとする話者の発話が終了する以前に、認識後処
理を開始して、逐次認識結果を得ることができるため、
認識処理のレスポンスタイムが短縮される。特に、人間
とコンピュータとの対話システムを構築した場合には、
発話の終端を検出することによるレスポンスの遅れがな
いため、より早くコンピュータ側が応答することが可能
となる。また、仮にステップＳ９による１パスの検出が
なされない場合には、従来と同様に発話終了が検出され
た時点で認識後処理が開始されるので、１パス検出の検
出ミスによる誤動作のおそれもない。

【００５１】また、このシステムでは、１パス検出によ
る認識後処理開始が行われた時は、認識後処理開始のタ
イミングから、従来の手法による発話終端の検出のタイ
ミングまでの間の認識処理の負荷がなくなるため、ＣＰ
Ｕ（中央処理装置）の負荷を軽減することができる。

【００５２】上述の動作について、図２に示す表現パタ
ーンを用いて具体的に説明する。例えば、話者が「表計
算起動」と発話し、音声入力部１より、これを入力した
とする。特徴抽出部２は、この入力を適宜区分して音声
セグメントに分割し、音声特徴を抽出する。候補生成部
４は、音声特徴の列を順次入カして、認識辞書部３に格
納された認識対象の表現パターンから、認識候補を選び
出す。ここでは、例えば、「表計算」と「ワードプロセ
ッサ」と「はい」と「キャンセル」が認識候補として選
択されたとする。これらは、候補記憶部５に一旦格納さ
れる。

【００５３】マッチング部６は、候補記憶部５に格納さ
れたこれらの認識候補を読み出し、各認識候補と入力さ
れた音声特徴とを比較して、マッチングを行い、認識候
補が音声特徴に該当する可能性を示す該当確率を判別
し、候補記憶部５に格納する。

【００５４】枝刈り処理部７は、マッチング部６で比較
した結果が悪いもの、すなわち、該当確率が低いものを
切り捨てる枝刈り処理を行う（ステップＳ６）。ここで
は、認識候補の「ワードプロセッサ」と「キャンセル」
の該当確率が基準値よりも低く、廃棄されたとする。

【００５５】１パス候補検出部８は、枝刈り処理後に残
っている認識候補「表計算」と「はい」について、「終
わり」すなわち単語列の終端に至るパス数を検出する。
認識候補「表計算」については、パスは「起動」、「閉
じる」、「終了」、そのまま終わりの４つのパスが存在
する。一方、「はい」については、終わりに至るパスが
一通りしか存在しない。このため、認識後処理を開始
し、マッチング処理部１３でのマッチング結果に基づい
て、認識結果、この場合は、「該当せず」を生成し、結
果記憶部１１に格納する。

【００５６】一方、音声の入力が続く限り、認識候補が
生成されており、例えば、「起動」と「閉じる」が候補
として生成され、枝刈り処理により「起動」のみが残っ
たとする。「起動」から終わりに至るパスが１つのみで
ある。そこで、後処理が開始され、「表計算−起動」に
ついて、後ろ側、即ち、「起動」から「表計算」につい
て、該当確率に基づいて、その認識結果が判別され、こ
こでは、「表計算起動」が認識結果として出力される。

【００５７】このようにして、入力終了が完了する前
に、認識後処理を開始し、入力された「表計算起動」を
判別し、出力することができる。

【００５８】なお、認識候補「起動」が検出された時点
で、認識候補として「表計算」と「ウエッブブラウザ」
が残っているような場合には、「表計算−起動」と「ウ
エッブブラウザ−起動」について、それぞれ、後ろ側よ
り、該当率を判別し、最も該当率の高い候補「表計算起
動」を最終的な出力とする。

【００５９】また、１パス候補が検出されない状態で、
例えば、認識候補として「表計算」と「ワードプロセッ
サ」のみが選出されている状態で、入力が１秒程度ない
場合には、終了検出部９が入力の終了を検出し、認識後
処理部１０は認識後処理を開始する。ただし、この場合
は、該当する入力候補が存在しないと判断される。

【００６０】以上の具体例では、理解を容易にするた
め、各単語を認識した段階で、１パス候補が存在するか
否かを判別したが、処理を高速化するため、より細かい
単位でこの判断を行うことが望ましい。

【００６１】例えば、図２の例において、「キャンセ
ル」を入力したとする。最初の音声の認識候補として、
「キ(ki)」、「ク(ku)」、「カ(ka)」が選出され、枝刈
り処理により、「キ(ki)」のみが選択されたとする。こ
の場合、先頭の音声セグメントが「キ(ki)」である認識
パターンは「キャンセル」のみである。一方、「キャン
セル」は、終点に至るパスが１つしかない１パス候補で
ある。従って、この時点で（又は、ある程度音声セグメ
ントについての認識候補が蓄積されてから）「キャンセ
ル」について認識後処理を行うことが可能である。

【００６２】さらに、最初の音声の最小単位である音素
（音声セグメント）単位でこの認識処理を行っても良
い。図２の例において、「キャンセル(kyanseru)」を入
力したとする。最初の音素の認識候補として、「k」、
「y」、「r」が選出され、枝刈り処理により、「k」の
みが選択されたとする。この場合、先頭の音素が「k」
である認識パターンは「キャンセル」のみである。一
方、「キャンセル」は、終点に至るパスが１つしかない
１パス候補である。従って、この時点で（又は、ある程
度音声セグメントについての認識候補が蓄積されてか
ら）「キャンセル」について認識後処理を行うことが可
能である。

【００６３】同様に、例えば、図２の例において、「表
計算起動」を入力し、「表計算」が認識された後の最初
の音声区分（音声セグメント）の認識候補として、
「キ」、「ク」、「カ」が選出され、枝刈り処理によ
り、「キ」のみが選択されたとする。この場合、先頭の
音声セグメントが「キ」である認識パターンは「起動」
のみであり、「起動」は、終点に至るパスが１つしかな
い１パス候補である。従って、この時点で（又は、ある
程度音声セグメントについての認識候補が蓄積されてか
ら）「表計算起動」について認識後処理を行うことが可
能である。

【００６４】（第２の実施の形態）次に、図４を参照し
て、この発明の第２の実施の形態に係る音声認識システ
ムを説明する。図４に示す音声認識システムは、図１に
示す音声認識システムと同一である。ただし、さらに１
パス候補検出部８に代えて確率条件検出部２１を具備し
ている。

【００６５】確率条件検出部２１は、枝刈り処理部７に
よる枝刈り処理後に認識候補として候補記憶部５に残っ
ている認識候補のうちの、比較結果が最大、すなわち前
向き処理で該当確率が最大のものと、「終わり」に達し
た状態での比較結果として得られる該当確率との差が所
定の閾値以下となる状態が、所定期間連続した場合に、
その該当確率最大の認識候補を検出する。

【００６６】認識後処理部１０は、確率条件検出部２１
及び終了検出部９の少なくとも一方による検出がなされ
た時点で、該当確率最大の認識候補又は発話終了時の認
識候補から、認識後処理を行う。

【００６７】次に、上述のように構成した音声認識シス
テムにおける動作を具体的に説明する。図５は、このシ
ステムの動作の流れを示すフローチャートである。音声
認識処理は、図３の場合とおおむね同様に行われる。す
なわち、特徴抽出部２は、音声入力部から入力された音
声を短い区間ごとに分割して（ステップＳ２１）、その
区間での音声認識に適した物理的特徴量を計算して、区
間毎の音声特徴を抽出する（ステップＳ２２）。発話終
了は、音声特徴量が十分に小さいまま所定時間が経過す
ることにより判定するので、ステップＳ２２の後に発話
終了か否かを判定する（ステップＳ２３）。ステップＳ
２３において、発話終了が検出されずに、音声特徴が抽
出される限り、上述のステップＳ２２における音声特徴
の抽出操作を継続的に行う。このようにして、音声特徴
（量）の列が生成され、マッチング処理部１３に入力さ
れる。

【００６８】マッチング処理部１３の候補生成部４は、
特徴抽出部２からの音声特徴の列を順次入カして、認識
辞書部３を参照して認識候補を選び出す（ステップＳ２
４）。マッチング部６は、各認識候補と入力された音声
特徴とを比較して、マッチングを行い、該当確率を判別
する（ステップＳ２５）。

【００６９】枝刈り処理部７は、マッチング部６で比較
した結果が悪いもの、すなわち認識候補が音声特徴に該
当する可能性を示す該当確率が低いものを切り捨てる
（ステップＳ２６）。

【００７０】マッチング処理における比較の結果のう
ち、枝刈り処理で切り捨てられずに残った、比較結果は
全て候補記憶部５に保存しておく。後向き処理において
は、枝刈り処理後に候補記憶部５に保存されている比較
結果を、時系列の逆順にたどっていって認識結果を得
る。このような―連の処理で、前向き処理を終えて、後
向き処理すなわち認識後処理を始めるタイミングは、次
のように、認識対象語彙に関する知識を利用しながら決
定する。

【００７１】発話途中のある時点で、枝刈り処理後に残
っている認識候補について、確率条件検出部２１におい
て、比較結果が最大、すなわち前向き処理における該当
確率が最大の認識候補と、「終わり」の状態での比較結
果つまり該当確率との差を検出し（ステップＳ２８）、
該確率差が所定の閾値以下となる状況が所定期間連続し
たか否かを判定する（ステップＳ２９）。

【００７２】所定期間連続した場合には、認識後処理部
１０において、その比較結果の該当確率が最大である認
識候補から後処理を開始する（ステップＳ３０）。ステ
ップ３０の認識後処理により、認識結果を生成して結果
記憶部１１に格納する（ステップＳ３１）。

【００７３】ステップＳ２９で、所定期間連続しないと
判定された場合には、ステップＳ２２に戻り次の音声特
徴を抽出する。また、ステップＳ２３で、発話終了と判
定された場合には、直ちにステップＳ３０にジャンプす
る。この場合、ステップＳ３０では、それまでに枝刈り
処理を経て候補記憶部５に蓄積されている認識候補及び
そのマッチング結果に基づいて、認識後処理を行い、ス
テップＳ３１で認識結果を生成する。

【００７４】結果記憶部１１に格納された認識結果は、
必要に応じて結果出力部１２より出力される。

【００７５】上述の動作を、「はい」と「いいえ」とい
う２単語を認識する場合を例に具体的に説明する。「は
い」と「いいえ」を音声の最小単位である音素に分解す
ると、次に示すように、「はい」は３音素から、「いい
え」は２音素からなる。「はい」・・・・’ｈ’’ａ’’ｉ’ 「いいえ」・・・’ｉｉ’’ｅ’

【００７６】通常知られているように、各音素は、ＨＭ
Ｍ（隠れマルコフモデル）と呼ばれる確率モデルで表現
され、一般に、１音素は３つの状態で表される。従っ
て、「はい」と「いいえ」はＨＭＭで図６に示すように
表現することができる。即ち、「はい」は、状態０→１
→・・・→９→１６と変化し、１２個の状態を有する。
一方、「いいえ」は状態０→１０→・・・→１５→１６
と変化し、８つの状態を有する。

【００７７】ＨＭＭで表示されている確率は（例えば、
状態１から状態２に遷移する確率や、状態２に遷移した
時の出力確率等）は、予め、学習処理により、により決
定しておく。この確率の値が各音素モデルにより異な
る。

【００７８】ＨＭＭの状態から状態への遷移は時間を追
って起き、例えば、音声データを１０ミリ秒毎に区切っ
て（最小単位でフレームと呼ぶ）考えると、１０ミリ秒
（１フレーム）毎に遷移が起きる。従って、「はじめ」
の状態（状態０）から「おわり」の状態（状態１６）に
至るまでは、「はい」を通る場合は、少なくとも１０フ
レーム（０．１秒）かかり、「いいえ」を通る場合は少
なくとも７フレームかかる。また、同一の状態に遷移す
る場合も起こる。これにより、話者の発音の速度の変化
を吸収することができる。

【００７９】未知の音声データが入力された場合に、そ
の音声データの長さが０．１２秒（１２フレーム）であ
ったとすると、この文法の場合、表１に例示するような
膨大な数の状態遷移の可能性がある。

【００８０】

【表１】０→ １→ １→ １→２→ ３→ ４→ ５→ ６→ ７→ ８→９→16 ０→ １→ １→ ２→２→ ３→ ４→ ５→ ６→ ７→ ８→９→16 ０→ １→ １→ ２→３→ ３→ ４→ ５→ ６→ ７→ ８→９→16 ０→10→10→10→10→10→10→11→12→13→14→15→16 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

【００８１】基本的には、各音素について、その遷移を
起こす可能性を比較計算し、その中で可能性の最大のも
のが認識結果となる。

【００８２】以上は、音声データの長さが既知である条
件での説明であったが、この実施の形態では、音声区間
の終端を検出しようとするものであり、音声データの長
さは不明である。

【００８３】ここで、図６の例を分析することする。な
お、終わりの状態での比較結果において最大確率を示す
状態の確率との差がある基準値５％よりも小さくなった
状態が基準値（３フレーム）以上続いた場合に、音声後
処理を開始することとする。

【００８４】１フレーム目は状態０から状態１又は状態
１０に到達する確率が高く、状態１６を含めて他の状態
に到達する確率は０である。２フレーム目は状態１、
２、１０、１１に到達する確率がある。状態１６に到達
する確率は０である。３フレーム目は状態１、２、３、
１０、１１、１２に到達する確率がある。状態１６に到
達する確率は０である。処理が進んで、７フレーム目に
は、一般的には、状態４又は１３に到達する確率が最も
高く、状態１６に到達する確率は０ではない（「いい
え」の場合）が、非常に低い。このため、この段階で状
態１６（おわり）に到達する確率（即ち、終わりの状態
での比較結果）と、最大確率を示す状態４又は１３との
確率との差は非常に大きい。

【００８５】処理が進んで、１２フレーム目には、一般
的には、状態９又は１５に到達する確率が最も高く、状
態１６に到達する確率も同様に高い（ここでは、状態９
の確率の方が状態１５の確率よりも高いとする）。この
ため、この段階で状態１６（おわり）に到達する確率
（即ち、終わりの状態での比較結果）と、最大確率を示
す状態９の確率との差が４％であり、基準値の５％より
も小さくなったと仮定する。１３フレーム目、１４フレ
ーム目にも、ほぼ同一の状態になったと仮定する。この
段階で状態１６（おわり）に到達する確率（即ち、終わ
りの状態での比較結果）と、最大確率を示す状態９の確
率との差がある基準値よりも小さくなった状態が４フレ
ーム以上続き（基準値）を超えたと判断され、音声後処
理を開始することになる。

【００８６】このようにして、入力終了を検出する前
に、最大確率を示す状態９のモデルから認識後処理を開
始し、入力された音声を判別し、出力することができ
る。

【００８７】（第３の実施の形態）この発明の第３の実
施の形態に係る音声認識システムの構成を図７を参照し
て説明する。図７に示す音声認識システムの基本構成
は、図１のそれと同一である。ただし、１パス候補検出
部８に代えて後処理開始条件検出部３１を具備してい
る。

【００８８】後処理開始条件検出部３１は、認識対象語
彙に関する知識を利用して、後処理を開始する条件を検
出する。例えば、後処理開始条件検出部３１は、後処理
を開始する条件として、１パス候補検出及び確率条件検
出を行う。後処理開始条件検出部３１における１パス候
補検出では、枝刈り処理部７による枝刈り処理後に認識
候補として候補記憶部５に残っている認識候補のうち
の、ある認識候補が上述した認識アルゴリズムを定義す
る単語列のパターンのパスを一通りしかもたない場合
に、その認識候補を検出する。

【００８９】また、後処理開始条件検出部３１における
確率条件検出では、枝刈り処理部７による枝刈り処理後
に認識候補として候補記憶部５に残っている認識候補の
うちの、比較結果が最大、すなわち前向き処理で該当確
率が最大のものと、「終わり」に達した状態での比較結
果として得られる該当確率との差が所定の閾値以下とな
る状態が、所定期間連続した場合に、その該当確率最大
の認識候補を検出する。

【００９０】認識後処理部１０は、後処理開始条件検出
部３１及び終了検出部９の少なくとも一方による検出が
なされた時点で、該当確率最大の認識候補又は発話終了
時の認識候補から、認識後処理を行う。

【００９１】次に、上述のように構成した音声認識シス
テムにおける動作を具体的に説明する。図８は、このシ
ステムの動作の流れを示すフローチャートである。音声
認識処理は、図３及び図５の場合とおおむね同様に行わ
れる。すなわち、特徴抽出部２は、音声入力部から入力
された音声を短い区間ごとに分割して（ステップＳ４
１）、区間毎の音声特徴を抽出する（ステップＳ４
２）。ステップＳ４２の後に発話終了か否かを判定する
（ステップＳ４３）。

【００９２】ステップＳ４３において、発話終了が検出
されずに、音声特徴が抽出される限り、上述のステップ
Ｓ４２における音声特徴の抽出操作を継続的に行う。こ
のようにして、音声特徴の列が生成され、マッチング処
理部１３に入力される。

【００９３】候補生成部４は、音声特徴の列を順次入カ
して、認識辞書部３を参照して認識候補を選び出し（ス
テップＳ４４）、マッチング部６では、各認識候補と入
力された音声特徴とを比較して、マッチングを行う（ス
テップＳ４５）。

【００９４】枝刈り処理部７は、枝刈り処理を行う（ス
テップＳ４６）。

【００９５】マッチング処理における比較の結果のう
ち、枝刈り処理で切り捨てられずに残った、比較結果は
全て候補記憶部５に保存しておく。後向き処理において
は、枝刈り処理後に候補記憶部５に保存されている比較
結果を、時系列の逆順にたどっていって認識結果を得
る。このような―連の処理で、前向き処理を終えて、後
向き処理すなわち認識後処理を始めるタイミングは、次
のように、認識対象語彙に関する知識を利用しながら決
定する。

【００９６】発話途中のある時点で、枝刈り処理後に残
っている認識候補について、後処理開始条件検出部３１
において、後処理開始条件を満足するか否かを検出し
（ステップＳ４８）、認識後処理を開始するか否かを判
定する（ステップＳ４９）。後処理開始条件を満足し、
認識後処理を開始すると判定された場合には、認識後処
理部１０において、該当する認識候補から後処理を開始
する（ステップＳ５０）。ステップ５０の認識後処理に
より、認識結果を生成して結果記憶部１１に格納する
（ステップＳ５１）。

【００９７】ステップＳ４９で、後処理を開始しないと
判定された場合には、ステップＳ４２に戻り次の音声特
徴を抽出する。また、ステップＳ４３で、発話終了と判
定された場合には、直ちにステップＳ５０にジャンプす
る。この場合、ステップＳ５０では、それまでに枝刈り
処理を経て候補記憶部５に蓄積されている認識候補及び
そのマッチング結果に基づいて、認識後処理を行い、ス
テップＳ５１で認識結果を生成する。ステップＳ４８に
おける、後処理開始条件検出部３１による後処理開始条
件の検出は、例えば、上述した１パス候補の検出及び確
率条件の検出により行われる。

【００９８】１パス候補の検出では、「終わり」すなわ
ち単語列の終端に至るパス数を検出し、該パス数が１で
あるか否かを判定する。該パス数が一通りしかない場
合、これ以降のマッチング処理をするまでもなく、当該
音声特徴に対する認識結果が、該認識候補に一意に定ま
る。そこで、このように１パスが検出された場合、当該
認識候補から認識後処理を開始させる。

【００９９】確率条件の検出では、比較結果が最大、す
なわち前向き処理における該当確率が最大の認識候補
と、「終わり」の状態での比較結果つまり該当確率との
差を検出し、該確率差が所定の閾値以下となる状況が所
定期間連続したか否かを判定する。所定期間連続した場
合には、その比較結果の該当確率が最大である認識候補
から後処理を開始させる。

【０１００】結果記憶部１１に格納された認識結果は、
必要に応じて結果出力部１２より出力される。

【０１０１】上述した各実施の形態においては、発話の
終端の検出も行って、発話終端検出以前に認識後処理を
開始させることができなかった場合にも、従来と同様に
発話終端検出後に認識後処理が行われるようにした。し
かし、認識後処理の開始条件の検出が充分に確実に行え
る場合には、発話終端の検出及びそれによる認識後処理
の開始処理は不要となる。

【０１０２】なお、この発明は、上記実施の形態に限定
されず、種々の変形及び応用が可能である。例えば、図
３、図５、図８では、音声認識システムの動作をシーケ
ンシャルな手順で示したが、図１、図４、図７に示す各
ブロックを並列的に動作させることも可能である。ま
た、１つのＭＰＵでシーケンシャルで処理を行って、複
数の機能を実現してもよい。

【０１０３】なお、マッチング部１３の構成は任意であ
り、例えば、枝刈り処理の具体的手法は任意である。

【０１０４】また、上記実施の形態の音声認識システム
を、図９に示すように、コンピュータの入力部に接続す
ることにより、キーボード等に代えて、又は、これらと
共に入力に使用することができる。一般に、人間同士の
対話では、通常の場合、相手が話し終わる前に、話の内
容をある程度予測的に認識し、応答の発話を開始するこ
とが多い。上述した音声認識システムを用いれば、コン
ピュータ側の応答を人間のそれに近づけることができ、
より自然なインタフェースを実現することができる。

【０１０５】なお、この発明の音声認識システムは、専
用のシステムによらず、通常のコンピュータシステムを
用いて実現可能である。例えば、コンピュータにマイク
ロフォン等を接続し、さらに、上述の動作を実行するた
めのプログラムを格納した媒体（フロッピーディスク、
ＣＤ−ＲＯＭ等）から該プログラムをインストールする
ことにより、上述の処理（手順）を実行する音声認識シ
ステムを構成することができる。

【０１０６】なお、上述の音声認識処理（手順）の一部
をＯＳ（オペレーティングシステム）が担当する場合、
或いは、ＯＳとアプリケーションプログラムが協働して
実現する場合には、記録媒体には、ＯＳ以外の部分を格
納して配布すればよい。

【０１０７】コンピュータにプログラムを供給するため
の媒体は、通信媒体（通信回線、通信ネットワーク、通
信システムのように、一時的且つ流動的にプログラムを
保持する媒体）でも良い。例えば、通信ネットワークの
掲示板（ＢＢＳ）やデータベースにに該プログラムを掲
示し、これをネットワークを介して配信してもよい。そ
して、このプログラムを起動し、ＯＳの制御下で、他の
アプリケーションプログラムと同様に実行することによ
り、上述の処理を実行することができる。

【０１０８】

【発明の効果】以上説明したように、この発明によれ
ば、無音区間による発話終了の検出以前に、認識後処理
を開始することができるので、認識処理のレスポンスを
向上し、真のリアルタイムに近い音声認識処理が実現で
きる。

【図面の簡単な説明】

【図１】この発明の第１の実施の形態に係る音声認識シ
ステムの構成を模式的に示すブロック図である。

【図２】図１の音声認識システムの原理を説明するため
の模式図である。

【図３】図１の音声認識システムにおける動作を説明す
るためのフローチャートである。

【図４】この発明の第２の実施の形態に係る音声認識シ
ステムの構成を模式的に示すブロック図である。

【図５】図４の音声認識システムにおける動作を説明す
るためのフローチャートである。

【図６】「はい」と「いいえ」のＨＭＭ音声モデルを示
す図である。

【図７】この発明の第３の実施の形態に係る音声認識シ
ステムの構成を模式的に示すブロック図である。

【図８】図７の音声認識システムにおける動作を説明す
るためのフローチャートである。

【図９】この発明の音声認識システムを入力部に応用し
たコンピュータシステムの例を示す図である。

【図１０】入力音声情報に対する従来の音声認識処理に
おける認識後処理の開始タイミングとこの発明における
認識後処理の開始タイミングとの相違を説明するための
波形図である。

【符号の説明】

１音声入力部２特徴抽出部３認識辞書部４候補生成部５候補記憶部６マッチング部７枝刈り処理部８１パス候補検出部９終了検出部１０認識後処理部１１結果記憶部１２結果出力部１３マッチング処理部２１確率条件検出部３１後処理開始条件検出部

Claims

【特許請求の範囲】

【請求項１】入力音声情報を区分し、区分された音声情
報から音声特徴を抽出し、抽出された音声特徴の列につ
いて、認識候補を生成する候補生成ステップと、前記候補生成ステップにより生成された認識候補につい
て、認識結果を求める認識後処理ステップと、最後に音声情報が入力されてからの時間を継続的に判別
し、所定期間が経過したか否かを判別する入力終了判別
ステップと、前記入力終了判別ステップで音声情報の入力の終了を判
別すると、前記認識後処理ステップを起動する起動ステ
ップと、前記候補生成ステップで生成された認識候補について、
予め設定した後処理開始条件を満足する認識候補を検出
する後処理開始条件検出ステップと、前記後処理開始条件検出ステップによる検出がなされた
場合、前記入力終了判別ステップの判別にかかわらず、
前記認識後処理ステップを起動して、前記後処理開始条
件を満足する認識候補より、認識結果を求める認識後処
理ステップと、を具備することを特徴とする音声認識処
理方法。
【請求項２】入力された音声情報を区分し、区分された
音声情報から音声特徴を抽出し、抽出された音声特徴の
列について、１個以上の認識候補を生成する候補生成ス
テップと、前記認識候補から、表現形態の終端に至るパスが一通り
しか存在しない１パス候補を検出する１パス候補検出ス
テップと、前記１パス候補検出ステップにより１パス候補が検出さ
れた場合、当該１パス候補より、認識結果を求める認識
後処理ステップと、を有することを特徴とする音声認識
処理方法。
【請求項３】入力された音声情報を区分し、区分された
音声情報から音声特徴を抽出し、抽出された音声特徴の
列について、１個以上の認識候補を生成する候補生成ス
テップと、前記候補生成ステップにより生成された認識候補から、
可能性が最も高い認識候補の可能性と表現形態の終端に
おける認識候補の可能性との差が所定値以下となる状況
が所定期間連続的に発生したことを検出する確率条件検
出ステップと、前記確率条件検出ステップによる検出がなされた場合、
前記可能性が最も高い認識候補より、認識結果を求める
認識後処理ステップと、を有することを特徴とする音声
認識処理方法。
【請求項４】前記候補生成ステップは、抽出された前記
音声特徴の列について、予め設定した認識対象の表現形
態から、類似した１個以上の認識候補を選択生成する生
成ステップを備える、ことを特徴とする請求項１乃至３のいずれか１項に記載
の音声認識処理方法。
【請求項５】前記候補生成ステップは、前記生成ステップにて生成された１個以上の認識候補
を、前記音声特徴の列と比較するマッチングステップ
と、前記マッチングステップによる比較の結果に基づき、可
能性が基準よりも低い認識候補を廃棄する枝刈り処理ス
テップと、より構成される、ことを特徴とする請求項４に記載の音声認識処理方法。
【請求項６】前記認識後処理ステップは、認識候補を逆
順にたどって認識結果を求めるステップから構成され
る、ことを特徴とする請求項１乃至５項のいずれか１項
に記載の音声認識処理方法。
【請求項７】入力された音声情報から音声特徴を抽出す
る特徴抽出手段と、前記特徴抽出手段にて抽出された音声特徴の列につい
て、１個以上の認識候補を生成する候補生成手段と、前記候補生成手段により生成された認識候補から、認識
結果を求める認識後処理手段と、前記音声情報の入力が終了したか否かを判別する入力終
了判別手段と、前記入力終了判別手段による音声情報の入力の終了を判
別すると、前記認識後処理手段を起動する起動手段と、前記候補生成手段で生成された認識候補について、予め
設定した後処理開始条件を満足する認識候補を検出する
後処理開始条件検出手段と、前記後処理開始条件検出手段による検出がなされた場
合、前記入力終了判別手段の判別にかかわらず、前記認
識後処理手段を起動して、前記後処理開始条件を満足す
る認識候補より、認識結果を求める認識後処理手段と、
を具備することを特徴とする音声認識システム。
【請求項８】入力された音声情報から音声特徴を抽出す
る特徴抽出手段と、前記特徴抽出手段にて抽出された音声特徴の列につい
て、１個以上の認識候補を生成する候補生成手段と、前記認識候補から、表現形態の終端に至るパスが一通り
しか存在しない１パス候補を検出する１パス候補検出手
段と、前記１パス候補検出手段により検出された１パス候補よ
り、認識結果を求める認識後処理手段と、を具備することを特徴とする音声認識システム。
【請求項９】入力された音声情報から音声特徴を抽出す
る特徴抽出手段と、前記特徴抽出手段にて抽出された音声特徴の列につい
て、予め設定した認識対象の表現形態から、１個以上の
認識候補を生成する候補生成手段と、前記認識候補から、可能性が最も高い認識候補の可能性
と表現形態の終端における認識候補の可能性との差が所
定値以下となる状況が所定期間連続的に発生したことを
検出する確率条件検出手段と、前記確率条件検出手段による検出がなされた場合、前記
可能性が最も高い認識候補より、認識結果を求める認識
後処理手段と、を具備することを特徴とする音声認識シ
ステム。
【請求項１０】前記候補生成手段は、前記特徴抽出手段
により抽出された音声特徴の列について、予め設定した
認識対象の表現形態から、類似した１個以上の認識候補
を選択生成する生成手段を備える、ことを特徴とする請求項７乃至９のいずれか１項に記載
の音声認識システム。
【請求項１１】前記候補生成手段は、前記生成手段にて生成された１個以上の認識候補を、前
記音声特徴の列と比較するマッチング手段と、前記マッチング手段による比較の結果に基づき、可能性
が基準よりも低い認識候補を廃棄する候補限定手段と、を備える、ことを特徴とする請求項１０に記載の音声認
識システム。
【請求項１２】前記認識後処理手段は、認識候補を逆順
にたどって認識結果を求める手段から構成される、こと
を特徴とする請求項７乃至１１項のいずれか１項に記載
の音声認識システム。
【請求項１３】前記候補生成手段は、認識対象の言語的
制約の表現形態として単語列を用いることを特徴とする
請求項７乃至１２のいずれか１項に記載の音声認識シス
テム。
【請求項１４】コンピュータに、入力音声情報を区分し、区分された音声情報から音声特
徴を抽出し、抽出された音声特徴の列について、認識候
補を生成する候補生成ステップと、前記候補生成ステップにより生成された認識候補につい
て、認識結果を求める認識後処理ステップと、最後に音声情報が入力されてからの時間を継続的に判別
し、所定期間が経過したか否かを判別する入力終了判別
ステップと、前記入力終了判別ステップで音声情報の入力の終了を判
別すると、前記認識後処理ステップを起動する起動ステ
ップと、前記候補生成ステップで生成された認識候補について、
予め設定した後処理開始条件を満足する認識候補を検出
する後処理開始条件検出ステップと、前記後処理開始条件検出ステップによる検出がなされた
場合、前記入力終了判別ステップの判別にかかわらず、
前記認識後処理ステップを起動して、前記後処理開始条
件を満足する認識候補より、認識結果を求める認識後処
理ステップと、を実行させるためのプログラムを格納し
たコンピュータ読み取り可能な記録媒体。
【請求項１５】コンピュータに、入力された音声情報を区分し、区分された音声情報から
音声特徴を抽出し、抽出された音声特徴の列について、
１個以上の認識候補を生成する候補生成ステップと、前記認識候補から、表現形態の終端に至るパスが一通り
しか存在しない１パス候補を検出する１パス候補検出ス
テップと、前記１パス候補検出ステップにより１パス候補が検出さ
れた場合、当該１パス候補より、認識結果を求める認識
後処理ステップと、を実行させるためのプログラムを格
納したコンピュータ読み取り可能な記録媒体。
【請求項１６】コンピュータに、入力された音声情報を区分し、区分された音声情報から
音声特徴を抽出し、抽出された音声特徴の列について、
１個以上の認識候補を生成する候補生成ステップと、前記候補生成ステップにより生成された認識候補から、
可能性が最も高い認識候補の可能性と表現形態の終端に
おける認識候補の可能性との差が所定値以下となる状況
が所定期間連続的に発生したことを検出する確率条件検
出ステップと、前記確率条件検出ステップによる検出がなされた場合、
前記可能性が最も高い認識候補より、認識結果を求める
認識後処理ステップと、を実行させるためのプログラム
を格納したコンピュータ読み取り可能な記録媒体。