JP2000099084A

JP2000099084A - 音声認識方法及びその装置

Info

Publication number: JP2000099084A
Application number: JP10264640A
Authority: JP
Inventors: Mitsuru Endo; 充遠藤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-09-18
Filing date: 1998-09-18
Publication date: 2000-04-07
Anticipated expiration: 2018-09-18
Also published as: JP3440840B2

Abstract

(57)【要約】【課題】短時間で応答をする際の認識性能が高い音声
認識装置を実現することを目的とする。【解決手段】候補の単語系列に該当する入力の部分区
間の区間長に注目し、伸長すべき有力な候補を選択する
際に、該当入力区間長が長い候補の優先度が高くなるよ
うな基準で有力候補を選択することにより、出力可能な
候補である文頭から文末に到達した候補を早めに多数得
ることができるようになる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、単語を連続して発
声した音声の認識を行う音声認識方法及びその装置に関
するものである。

【０００２】

【従来の技術】従来、音声認識方法は「電子情報通信学
会技術報告SP91-93(1991)」に記載されたものが知られ
ている。これは、音声認識における探索方法の一つで、
best-first探索により探索を行う例であり、候補を伸長
ながら探索を行う際に、最も良いスコアを持つ候補から
逐次的に伸長するものである。

【０００３】図７は、音声認識方法の処理手順を表すフ
ローチャートであり、このフローチャートを用いて、音
声認識方法の処理手順を説明する。図中Ｓは各処理ステ
ップを表す。

【０００４】まず、マイクロホン等から音声を取り込
み、Ａ／Ｄ変換を行って音声信号をディジタル化し、Ｌ
ＰＣメルケプストラム等の特徴量を抽出する（Ｓ７
１）。初期の候補を登録する（Ｓ７２）。候補とは、入
力の一部または全体の区間に該当する認識結果の候補で
あり、単語系列と認識スコアの組で表す。例えば、発声
の開始点を表す仮想的な単語である「(begin)」という
一単語からなる単語系列と認識スコア０点の組を初期候
補の例としてあげることができる。

【０００５】候補の認識スコアを元に、（数１）に従っ
て各候補の優先度を計算し、この優先度が最も高い候補
を、候補の集合の中から選択する（Ｓ７３）。

【０００６】

【数１】

【０００７】ここで、priority(Wseq)は候補の単語系列
Wseqの優先度、 recog_score(Wseq)は候補の単語系列Ws
eqの認識スコアである。認識スコアが大きいほど優先度
が高くなる。

【０００８】選択された候補を基にして、新しい候補を
生成する処理について説明する。まず、単語系列を伸長
する（Ｓ７４）。例えば、単語系列の右側に１単語増や
す。最も単純な方法では、選択された候補の単語系列の
右側にすべての登録単語をつないで、登録単語の数と同
じ数の新しい候補の単語系列を作成する。

【０００９】次に、新しい候補の単語系列のそれぞれに
対して、認識スコアを求める（Ｓ７５）。例えば、入力
音声の特徴量とその特徴量の統計モデルである音響モデ
ル（隠れマルコフモデルなど）と照合して、入力の部分
区間の特徴量系列を条件として候補の単語系列が生起す
る確率を推定し、対数をとって音響スコアとする。さら
に、大量のテキストサンプルから求めた統計的言語モデ
ル（単語n-gramモデルなど）により、単語系列が生起す
る確率を推定し、対数をとって言語スコアとする。認識
スコアは、音響スコアと言語スコアの和とする。

【００１０】新しい候補を登録する（Ｓ７６）。その際
に、必要ならば、候補の中で、認識スコアの低いものを
除外してから登録する。

【００１１】次に終了判定を行う（Ｓ７７）。例えば、
初期候補を登録する際に、時間測定を開始しておき、１
秒や２秒などの制限時間を越えた時点で終了とする。終
了条件を満たさない場合には、Ｓ７３に戻り、終了条件
を満たした場合には、Ｓ７８に進む。

【００１２】最後に、登録されている候補の中から、出
力可能な候補を選び、認識結果として出力する（Ｓ７
８）。出力可能な候補とは、発声の開始点を表す仮想的
な単語である「(begin)」から始まり、発声の終了点を
表す仮想的な単語である「(end)」で終わる単語系列を
持つ候補である。出力可能な候補が複数ある場合は、認
識スコアで序列をつけて出力する。

【００１３】

【発明が解決しようとする課題】音声認識方法において
は、短時間で応答することができ、かつ、認識性能が高
いことが要求されている。従来例は、十分な探索をなる
べく短い時間で行うように設計されているのみであり、
より短い時間で探索を打ち切ったときの認識性能につい
ては考慮されていないという課題を有している。

【００１４】本発明は、短時間で応答する際の認識性能
が高い音声認識装置を実現することを目的とする。

【００１５】

【課題を解決するための手段】この課題を解決するため
に本発明は、探索途中の未完成の候補の中から次に伸長
すべき有力な候補を選択するときに、候補の該当音声区
間長を選択基準の要素に加えて該当音声区間長の長い候
補の優先度を高めるようにしたものである。

【００１６】これにより、出力可能な（完成した）候補
である文頭から文末まで達した候補が早めに得られるよ
うになり、短時間で応答する際の認識性能が高い音声認
識装置が実現できる。

【００１７】

【発明の実施の形態】本発明の請求項１に記載の発明
は、仮想の候補を初期候補として出力する工程と、候補
の集合から優先度に基づいて候補を選択する工程と、前
記選択した候補の言語単位の系列に連接して新たな候補
を生成する工程と、前記生成された候補に対して、入力
音声の特徴量とその特徴量の統計モデルである音響モデ
ルとの照合により求めた音響スコアと、言語単位の系列
と大量のテキストサンプルから求めた統計的言語モデル
から求めた言語スコアとの和を認識スコアとして求める
工程と、前記生成された候補に対して、候補の言語単位
の系列の各々の対応する音声区間長を求める工程と、前
記認識スコアが高く、対応する音声区間長の長い候補を
認識結果として出力する工程とを有するものであり、該
当音声区間長が長い候補の優先度が高くなるようにする
ことで、出力可能な候補である文頭から文末まで達した
候補が短時間で得られるようになるという作用を有す
る。

【００１８】請求項２に記載の発明は、請求項１に記載
の音声認識方法において、仮想の候補は、一発声の開始
を表す仮想的な単語からなる言語単位の系列と認識スコ
ア「０」と該当音声入力区間長「０」の組を初期候補と
するもので、仮想の初期候補を与えることで処理工程の
順番が自由になるという作用を有する。

【００１９】請求項３に記載の発明は、請求項１に記載
の音声認識方法において、出力する工程は、予め定めた
制限時間になったら認識結果を出力するもので、あらか
じめ設定した制限時間で探索を終了することにより短時
間での応答を確実に行うことができるという作用を有す
る。

【００２０】請求項４に記載の発明は、請求項１に記載
の音声認識方法において、言語単位の系列が、単語、音
節、形態素、文節のいずれかであるもので、音声の認識
単位の制限を受けないという作用を有する。

【００２１】請求項５に記載の発明は、仮想の候補を初
期候補として出力する初期候補登録手段と、候補の集合
から優先度に基づいて候補を選択する優先度演算手段
と、前記選択した候補の言語単位の系列に連接して新た
な候補を生成する候補伸張手段と、前記生成された候補
に対して、入力音声の特徴量とその特徴量の統計モデル
である音響モデルとの照合により求めた音響スコアと、
言語単位の系列と大量のテキストサンプルから求めた統
計的言語モデルから求めた言語スコアとの和を認識スコ
アとして求める認識スコア計算手段と、前記生成された
候補に対して、候補の言語単位の系列の各々の対応する
音声区間長を求める区間計算手段と、認識スコアが高
く、対応する音声区間長の長い候補を認識結果として出
力する判定手段とを有するであり、該当音声区間長が長
い候補の優先度が高くなるようにすることで、出力可能
な候補である文頭から文末まで達した候補が短時間に得
られるようになるという作用を有する。

【００２２】請求項６に記載の発明は、請求項５に記載
の音声認識装置において、判定手段は、予め定めた制限
時間になったら認識結果を出力するようにしたものであ
り、あらかじめ設定した制限時間で探索を終了すること
により短時間での応答を確実に行うことができるという
作用を有する。

【００２３】請求項７に記載の発明は、請求項５に記載
の音声認識装置において、言語単位の系列が、単語、音
節、形態素、文節のいずれかであるもので、音声の認識
単位の制限を受けないという作用を有する。

【００２４】請求項８に記載の発明は、プログラムを記
録した記録媒体から予めプログラムを読み込みコンピュ
ータによって音声を認識するもので、仮想の候補を初期
候補として出力する工程と、候補の集合から優先度に基
づいて候補を選択する工程と、前記選択した候補の言語
単位の系列に連接して新たな候補を生成する工程と、前
記生成された候補に対して、入力音声の特徴量とその特
徴量の統計モデルである音響モデルとの照合により求め
た音響スコアと、言語単位の系列と大量のテキストサン
プルから求めた統計的言語モデルから求めた言語スコア
との和を認識スコアとして求める工程と、前記生成され
た候補に対して、候補の言語単位の系列の各々の対応す
る音声区間長を求める工程と、前記認識スコアが高く、
対応する音声区間長の長い候補を認識結果として出力す
る工程とを有する音声認識方法をコンピュータに実行さ
せるためのプログラムを記憶したコンピュータ読み取り
可能な記録媒体であり、該当音声区間長が長い候補の優
先度が高くなるようにすることで、出力可能な候補であ
る文頭から文末まで達した候補が短時間に得られるよう
になるという作用を有する。

【００２５】以下、本発明の実施の形態について、図を
用いて説明する。（実施の形態１）図１は、本発明の実施の形態１におけ
る音声認識装置の構成図である。図１において、１は入
力音声に対してＡ／Ｄ変換処理や特徴量抽出処理などを
行う音声前処理手段、２は音声の音響的特徴をモデル化
した音響モデル、３は単語系列における単語間の関係を
モデル化した言語モデル、４はデータやプログラムを装
置に入力する入力手段、５はデータやプログラムを記憶
するメモリ、６はプログラムに従ってデータを処理した
り装置全体を制御するＣＰＵ、７は認識結果を出力する
出力手段、８はバスである。

【００２６】図１のように構成されたコンピュータシス
テムにより実現した音声認識装置の動作を以下に説明す
る。

【００２７】図２は、音声認識装置の処理手順を表すフ
ローチャートであり、このフローチャートを用いて、音
声認識装置の処理手順を説明する。図中Ｓは各処理ステ
ップを表す。

【００２８】まず、マイクロホン等から音声を取り込
み、Ａ／Ｄ変換を行って音声信号をディジタル化し、Ｌ
ＰＣメルケプストラム等の特徴量を抽出する（Ｓ２
１）。

【００２９】初期の候補を登録する（Ｓ２２）。候補と
は、入力の一部または全体の区間に該当する認識結果の
候補であり、単語系列と認識スコアと該当音声区間長の
組で表す。例えば、発声の開始点を表す仮想的な単語で
ある「(begin)」という一単語からなる単語系列と認識
スコア０点と該当音声区間長０秒の組を初期候補の例と
してあげることができる。

【００３０】候補の認識スコアと候補の該当音声区間長
を基に、（数２）に従って各候補の優先度を計算し、こ
の優先度が最も高い候補を、候補の集合の中から選択す
る（Ｓ２３）。

【００３１】

【数２】

【００３２】ここで、priority(Wseq)は候補の単語系列
Wseqの優先度、 recog_score(Wseq)は候補の単語系列Ws
eqの認識スコア、length(Wseq) 候補の単語系列Wseqの
該当音声区間長である。

【００３３】右辺第１項により認識スコアが大きいほど
優先度が高く、かつ、右辺第２項により、該当音声区間
長が長いほど、優先度が高くなる。

【００３４】選択された候補を基にして、新しい候補を
生成する処理について説明する。まず、単語系列を伸長
する（Ｓ２４）。例えば、単語系列の右側に１単語増や
す。最も単純な方法では、選択された候補の単語系列の
右側にすべての登録単語をつないで、登録単語の数と同
じ数の新しい候補の単語系列を作成する。

【００３５】次に、新しい候補の単語系列のそれぞれに
対して、認識スコアを求める（Ｓ２５）。例えば、Ｓ２
１で求めた入力音声の特徴量とその特徴量の統計モデル
である音響モデル（隠れマルコフモデルなど）と照合し
て、入力の部分区間の特徴量系列を条件として候補の単
語系列が生起する確率を推定し、対数をとって音響スコ
アとする。さらに、各単語系列に対して大量のテキスト
サンプルから求めた統計的言語モデル（単語n-gramモデ
ルなど）により、単語系列が生起する確率を推定し、対
数をとって言語スコアとする。認識スコアは、音響スコ
アと言語スコアの和とする。

【００３６】次に、新しい候補の単語系列のそれぞれに
対して、該当音声区間長を求める（Ｓ２６）。該当音声
区間とは、候補の単語系列に対応する入力の部分区間で
あり、Ｓ２５で求める音響スコアを最大化するように定
める。例えば、入力音声「午後５時５分です」に対し
て、候補の単語系列が［午後５時］であるとき、入力中
の「午後５時」と発声している部分区間に対する音響ス
コアは、入力中の「５時５分」と発声している部分区間
に対する音響スコアよりもはるかに大きな値をとる。こ
のような、音響スコアが最大となる入力の部分区間を１
０msec等の細かい時間きざみで求めて、候補の該当音声
区間とする。該当音声区間は、動的計画法やViterbiセ
グメンテーション・アルゴリズムによって求めることが
できる。

【００３７】新しい候補を登録する（Ｓ２７）。その際
に、必要に応じて、候補の中で、認識スコアの低いもの
を除外してから登録することもできる。

【００３８】次に終了判定を行う（Ｓ２８）。例えば、
初期候補を登録する際に、時間測定を開始しておき、１
秒や２秒などの制限時間を越えた時点で終了とする。終
了条件を満たさない場合には、Ｓ２３に戻りＳ２３から
Ｓ２８の処理を繰り返し、単語系列の伸張を行い文を形
成し、終了条件を満たした場合には、Ｓ２９に進む。

【００３９】最後に、登録されている候補の中から、出
力可能な候補を選び、認識結果として出力する（Ｓ２
９）。出力可能な候補とは、発声の開始点を表す仮想的
な単語である「(begin)」から始まり、発声の終了点を
表す仮想的な単語である「(end)」で終わる単語系列を
持つ候補である。出力可能な候補が複数ある場合は、認
識スコアで序列をつけて出力する。

【００４０】次に図３から図６および比較のための図８
の例を用いて処理が進行していく様子を説明する。

【００４１】図３は、Ｓ２５において言語スコアを計算
する際に用いる言語モデルの例で、時刻を読み上げるタ
スクのオートマトン表現である。このオートマトンに照
らし合わせると、「午後１時４９分です」という単語系
列は受理するが、「午後４９分です」や「午前２０時で
す」などの単語系列は受理しないなど、単語の系列とし
ての評価を行うものである。オートマトンを用いる場合
は、単語の系列としての評価値である言語確率は、１
（受理する）と０（受理しない）の２値になる。また、
単語n-gramや確率文脈自由文法を用いる場合には、０か
ら１までの間の連続的な値を与えることができる。言語
スコアは、これらの確率値の対数をとった値である。

【００４２】図４は、Ｓ２５において音響スコアを計算
する際の中間結果である単語ラティスの例である。発声
「午後、５時５分です」の中の部分的な区間に対して比
較的類似度の高い単語の例を示している。単語ラティス
は、対応する発声区間と音響スコアの組で表され、図で
は、単語を囲っている長方形の左辺が始端時刻、右辺が
終端時刻、上下の中心が音響スコアを表している。例え
ば、図中、「午後」は時刻０．０から０．２までが発声
区間で、音響スコアは２点である。この音響スコアは＋
の方向に値が大きい方が良い。この例では音響スコアと
して、事後確率の対数をとった値を想定し、０付近の値
を用いている。

【００４３】図５は、図３のオートマトンを参照しなが
ら図４の単語ラティスを接続してできるすべての単語系
列候補を前方から一致する部分を共通化して木構造で表
現した、探索木の例である。単語「(begin)」および単
語「(end)」は、仮想的な単語であり発声の始端と発声
の終端を表している。これらの発声時間や認識スコアは
０として計算する。「(begin)」から各単語にいたるま
での単語系列をもつ候補に対する認識スコアは、系列の
最後の単語の左肩に示してある。例えば、「単語系列
「(begin)午前４時」に対する認識スコアは、１であ
り、単語「４時」（「4時」は２つあるが上の方）の左
肩に表示してある。この値は、「(begin)」、「午
前」、「４時」の３単語の音響スコアの和として計算し
た。また、候補の該当音声区間長は、単語系列の最後の
単語の右肩に示してある。

【００４４】該当音声区間長は、候補の単語系列に該当
する入力音声区間の時間長（最初の単語の始端から最後
の単語の終端まで）として、図３の単語ラティスから求
めた。「(end)」に至る系列は、６通りであるので、こ
の例における出力可能な系列は６通りである。探索時間
が十分ある場合には、この６通りのすべての認識スコア
を計算して、序列をつければよい。探索時間が十分にな
い場合には、すべての認識スコアを計算することができ
ないので、探索木を伸長している途中の結果を出力する
ことになる。この際に、出力可能な候補は、「(begi
n)」で始まり「(end)」で終わる完成した候補である。
短時間で応答する場合には、完成した候補を早めに得る
必要があり、探索木を伸長する順番が重要になる。

【００４５】図８は、図５の例に対して、従来例により
探索を行った場合の探索木を伸長する順番を示した図で
ある。図５と同様に左肩に候補の認識スコアが示してあ
る。候補の伸長の優先度は（数１）により求める。

【００４６】優先度が等しい候補が複数あるときには、
図において上の方にある候補を伸長するものとする。
（数１）では、認識スコアがそのまま優先度となる。こ
の図に沿って、初期候補「(begin)」から始まって、候
補が伸長さていく様子を説明する。白抜きの数字が伸長
の順番を表している。まず、初期候補「(begin)」を選
択し、伸長する。候補は「(begin)午前」「(begin)午
後」「(begin)５時」の３つに伸長される。候補の優先
度はそれぞれ１，２，０である。続いて候補の中で優先
度の最も大きい「(begin)午後」を伸長する。「(begin)
午後４時」「(begin)午後５時」の２つに伸長される。
候補は４つである。続いて候補の中で優先度の最もの大
きい「(begin)午後５時」を伸長する。「(begin)午後５
時５分」の１つに伸長される。候補は４つである。

【００４７】続いて候補の中で優先度の最もの大きい
「(begin)午後４時」を伸長する。「(begin)午後４時５
分」の１つに伸長される。候補は４つである。続いて候
補の中で優先度の最もの大きい「(begin)午後５時５
分」を伸長する。「(begin)午後５時５分です」の１つ
に伸長される。候補は４つである。続いて候補の中で優
先度の最もの大きい「(begin)午前」を伸長する。「(be
gin)午前４時」「(begin)午前５時」の２つに伸長され
る。候補は５つである。(begin)午後４時」「(begin)午
後５時」の２つに伸長される。候補は４つである。続い
て候補の中で優先度の最もの大きい「(begin)午前５
時」を伸長する。「(begin)午前５時５分」の１つに伸
長される。候補は５つである。続いて候補の中で優先度
の最もの大きい「(begin)午前４時」を伸長する。「(be
gin)午前４時５分」の１つに伸長される。候補は５つで
ある。以下、同様にして探索木を伸長していくと、図に
示す順番で伸長が進み、１１回目の伸長で初めて「(en
d)」に達する。

【００４８】一方、図６は、図５の例に対して、本発明
の一実施の形態により探索を行った場合の探索木を伸長
する順番を示した図である。候補の伸長の優先度は（数
２）により求める。この式を用いると、該当音声区間長
の長い候補の優先度が高くなる。優先度の具体的な値
は、図中、単語系列の最後の単語の下部に、計算式とと
もに示した。この図に沿って、初期候補「(begin)」か
ら始まって、候補が伸長されていく様子を説明する。白
抜きの数字が伸長の順番を表している。まず、初期候補
「(begin)」を伸長する。候補は「(begin)午前」「(beg
in)午後」「(begin)５時」の３つに伸長される。候補の
優先度はそれぞれ1.3、2.4、0.0である。続いて候補の
中で優先度の最も大きい「(begin)午後」を伸長する。
「(begin)午後４時」「(begin)午後５時」の２つに伸長
される。候補は４つである。

【００４９】続いて候補の中で優先度の最もの大きい
「(begin)午後５時」を伸長する。「(begin)午後５時５
分」の１つに伸長される。候補は４つである。続いて候
補の中で優先度の最もの大きい「(begin)午後５時５
分」を伸長する。「(begin)午後５時５分です」の１つ
に伸長される。候補は４つである。続いて候補の中で優
先度の最もの大きい「(begin)午後４時」を伸長する。
「(begin)午後４時５分」の１つに伸長される。候補は
４つである。続いて候補の中で優先度の最もの大きい
「(begin)午後５時５分です」を伸長する。「(begin)午
後５時５分(end)」の１つに伸長される。候補は４つで
ある。このようにして、６回目の伸長で初めて「(en
d)」に達する。

【００５０】以上のように、従来例では候補の完成まで
に１１回の伸長を要していたが、本実施例においては６
回の伸長ですむことになる。

【００５１】本実施の形態による音声認識装置を用いて
認識実験を行った。評価データは、男性１名が発声した
１００文である。認識対象は発声した１００文を含む例
文４００文を基にして、文中に現れる各名詞部分を他の
名詞と入れ替えたものも受理できるようにしたものであ
る。登録語彙は、６６５単語である。候補の音響スコア
は、候補に対応する入力区間の音響スコアとそれ以外の
入力区間に対する音響スコアの推定値の和を用いた。認
識性能の評価尺度として、単語正解精度を用いる。単
語正解精度とは、認識結果の単語系列と正解である単語
系列とを比較して、単語単位で、正解・置換誤り・脱落
誤り・挿入誤りを判定し、以下の式によって集計したも
のである。

【００５２】

【数３】

【００５３】ここで、word accuracyは単語正解精度、c
orは正解の総数、subは置換誤りの総数、delは脱落誤り
の総数、insは挿入誤りの総数である。上記評価データ
を基に、時間制限を設けた場合の本発明と従来方法との
認識性能結果を（表１）に示す。

【００５４】

【表１】

【００５５】（表１）からわかるように、制限時間が１
秒の場合、２秒の場合、５秒の場合の認識性能である単
語正解精度が大幅に向上し、本発明の効果が確認され
た。

【００５６】以上のように本発明の実施の形態によれ
ば、短い時間で応答をする際の認識性能が高い音声認識
装置が実現できる。

【００５７】なお、本発明は、上記実施例の処理の順番
に限定されず、その要旨を逸脱しない範囲で処理の順番
の変更が可能である。例えば、音声を入力した後、初期
候補を登録する前に、単語ラティスなど部分的な音響ス
コアを求めても同様に実施可能であるし、音声を取り込
みながら、候補を伸長していくことも可能である。ま
た、終了判定は、候補を登録した後に限らず、候補を選
択した後や、候補の単語系列を伸長した後等に行うこと
も可能である。

【００５８】また、以上の説明では、言語的な単位を
「単語」とした例で説明したが、「音節」、「形態
素」、「文節」などの単語以外の単位についても同様に
実施可能である。

【００５９】

【発明の効果】以上のように本発明によれば、探索途中
の未完成の候補の中から次に伸長すべき有力な候補を選
択するときに、候補の該当音声区間長を選択基準の要素
に加えて該当音声区間長の長い候補の優先度を高めるよ
うにすることにより、従来考慮されていなかった短時間
で探索を打ち切ったときの認識性能が大幅に改善される
という有利な効果が得られる。このことは、音声認識装
置を実用化する上で有効であり、その効果は大きい。

【図面の簡単な説明】

【図１】本発明の実施の形態１における音声認識装置を
示す構成図

【図２】本発明の実施の形態１における音声認識装置の
処理手順を示すフローチャート

【図３】言語スコアを計算する際に用いる言語モデルの
例を示す図

【図４】音響スコアを計算する際の中間結果である単語
ラティスの例を示す図

【図５】音声認識装置で処理する探索木の例を示す図

【図６】探索木の伸長過程の例を示す図

【図７】従来例による音声認識装置の処理手順を示すフ
ローチャート

【図８】従来例による音声認識装置で処理する探索木の
伸長過程の例を示す図

【符号の説明】

１音声前処理手段２音響モデル３言語モデル４入力手段５メモリ６ＣＰＵ７出力手段８バス

Claims

【特許請求の範囲】

【請求項１】仮想の候補を初期候補として出力する工
程と、候補の集合から優先度に基づいて候補を選択する
工程と、前記選択した候補の言語単位の系列に連接して
新たな候補を生成する工程と、前記生成された候補に対
して、入力音声の特徴量とその特徴量の統計モデルであ
る音響モデルとの照合により求めた音響スコアと、言語
単位の系列と大量のテキストサンプルから求めた統計的
言語モデルから求めた言語スコアとの和を認識スコアと
して求める工程と、前記生成された候補に対して、候補
の言語単位の系列の各々の対応する音声区間長を求める
工程と、前記認識スコアが高く、対応する音声区間長の
長い候補を認識結果として出力する工程とを有すること
を特徴とする音声認識方法。
【請求項２】仮想の候補は、一発声の開始を表す仮想
的な単語からなる言語単位の系列と認識スコア「０」と
該当音声入力区間長「０」の組を初期候補とすることを
特徴とする請求項１記載の音声認識方法。
【請求項３】出力する工程は、予め定めた制限時間に
なったら認識結果を出力することを特徴とする請求項１
記載の音声認識方法。
【請求項４】言語単位の系列が、単語、音節、形態
素、文節のいずれかであることを特徴とする請求項１記
載の音声認識方法。
【請求項５】仮想の候補を初期候補として出力する初
期候補登録手段と、候補の集合から優先度に基づいて候
補を選択する優先度演算手段と、前記選択した候補の言
語単位の系列に連接して新たな候補を生成する候補伸張
手段と、前記生成された候補に対して、入力音声の特徴
量とその特徴量の統計モデルである音響モデルとの照合
により求めた音響スコアと、言語単位の系列と大量のテ
キストサンプルから求めた統計的言語モデルから求めた
言語スコアとの和を認識スコアとして求める認識スコア
計算手段と、前記生成された候補に対して、候補の言語
単位の系列の各々の対応する音声区間長を求める区間計
算手段と、認識スコアが高く、対応する音声区間長の長
い候補を認識結果として出力する判定手段とを有するこ
とを特徴とする音声認識装置。
【請求項６】判定手段は、予め定めた制限時間になっ
たら認識結果を出力することを特徴とする請求項５記載
の音声認識装置。
【請求項７】言語単位の系列が、単語、音節、形態
素、文節のいずれかであることを特徴とする請求項５記
載の音声認識装置。
【請求項８】プログラムされたコンピュータによって
音声を認識するプログラムを記録した記録媒体であっ
て、仮想の候補を初期候補として出力する工程と、候補
の集合から優先度に基づいて候補を選択する工程と、前
記選択した候補の言語単位の系列に連接して新たな候補
を生成する工程と、前記生成された候補に対して、入力
音声の特徴量とその特徴量の統計モデルである音響モデ
ルとの照合により求めた音響スコアと、言語単位の系列
と大量のテキストサンプルから求めた統計的言語モデル
から求めた言語スコアとの和を認識スコアとして求める
工程と、前記生成された候補に対して、候補の言語単位
の系列の各々の対応する音声区間長を求める工程と、前
記認識スコアが高く、対応する音声区間長の長い候補を
認識結果として出力する工程とを有する音声認識方法を
コンピュータに実行させるためのプログラムを記憶した
コンピュータ読み取り可能な記録媒体。