JP3440840B2 - 音声認識方法及びその装置 - Google Patents

音声認識方法及びその装置

Info

Publication number
JP3440840B2
JP3440840B2 JP26464098A JP26464098A JP3440840B2 JP 3440840 B2 JP3440840 B2 JP 3440840B2 JP 26464098 A JP26464098 A JP 26464098A JP 26464098 A JP26464098 A JP 26464098A JP 3440840 B2 JP3440840 B2 JP 3440840B2
Authority
JP
Japan
Prior art keywords
new
linguistic
speech
score
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26464098A
Other languages
English (en)
Other versions
JP2000099084A (ja
Inventor
充 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP26464098A priority Critical patent/JP3440840B2/ja
Publication of JP2000099084A publication Critical patent/JP2000099084A/ja
Application granted granted Critical
Publication of JP3440840B2 publication Critical patent/JP3440840B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、単語を連続して発
声した音声の認識を行う音声認識方法及びその装置に関
するものである。
【0002】
【従来の技術】従来、音声認識方法は「電子情報通信学
会技術報告SP91-93(1991)」に記載されたものが知られ
ている。これは、音声認識における探索方法の一つで、
best-first探索により探索を行う例であり、候補を伸長
ながら探索を行う際に、最も良いスコアを持つ候補から
逐次的に伸長するものである。
【0003】図7は、音声認識方法の処理手順を表すフ
ローチャートであり、このフローチャートを用いて、音
声認識方法の処理手順を説明する。図中Sは各処理ステ
ップを表す。
【0004】まず、マイクロホン等から音声を取り込
み、A/D変換を行って音声信号をディジタル化し、L
PCメルケプストラム等の特徴量を抽出する(S7
1)。初期の候補を登録する(S72)。候補とは、入
力の一部または全体の区間に該当する認識結果の候補で
あり、単語系列と認識スコアの組で表す。例えば、発声
の開始点を表す仮想的な単語である「(begin)」という
一単語からなる単語系列と認識スコア0点の組を初期候
補の例としてあげることができる。
【0005】候補の認識スコアを元に、(数1)に従っ
て各候補の優先度を計算し、この優先度が最も高い候補
を、候補の集合の中から選択する(S73)。
【0006】
【数1】
【0007】ここで、priority(Wseq)は候補の単語系列
Wseqの優先度、 recog_score(Wseq)は候補の単語系列Ws
eqの認識スコアである。認識スコアが大きいほど優先度
が高くなる。
【0008】選択された候補を基にして、新しい候補を
生成する処理について説明する。まず、単語系列を伸長
する(S74)。例えば、単語系列の右側に1単語増や
す。最も単純な方法では、選択された候補の単語系列の
右側にすべての登録単語をつないで、登録単語の数と同
じ数の新しい候補の単語系列を作成する。
【0009】次に、新しい候補の単語系列のそれぞれに
対して、認識スコアを求める(S75)。例えば、入力
音声の特徴量とその特徴量の統計モデルである音響モデ
ル(隠れマルコフモデルなど)と照合して、入力の部分
区間の特徴量系列を条件として候補の単語系列が生起す
る確率を推定し、対数をとって音響スコアとする。さら
に、大量のテキストサンプルから求めた統計的言語モデ
ル(単語n-gramモデルなど)により、単語系列が生起す
る確率を推定し、対数をとって言語スコアとする。認識
スコアは、音響スコアと言語スコアの和とする。
【0010】新しい候補を登録する(S76)。その際
に、必要ならば、候補の中で、認識スコアの低いものを
除外してから登録する。
【0011】次に終了判定を行う(S77)。例えば、
初期候補を登録する際に、時間測定を開始しておき、1
秒や2秒などの制限時間を越えた時点で終了とする。終
了条件を満たさない場合には、S73に戻り、終了条件
を満たした場合には、S78に進む。
【0012】最後に、登録されている候補の中から、出
力可能な候補を選び、認識結果として出力する(S7
8)。出力可能な候補とは、発声の開始点を表す仮想的
な単語である「(begin)」から始まり、発声の終了点を
表す仮想的な単語である「(end)」で終わる単語系列を
持つ候補である。出力可能な候補が複数ある場合は、認
識スコアで序列をつけて出力する。
【0013】
【発明が解決しようとする課題】音声認識方法において
は、短時間で応答することができ、かつ、認識性能が高
いことが要求されている。従来例は、十分な探索をなる
べく短い時間で行うように設計されているのみであり、
より短い時間で探索を打ち切ったときの認識性能につい
ては考慮されていないという課題を有している。
【0014】本発明は、短時間で応答する際の認識性能
が高い音声認識装置を実現することを目的とする。
【0015】
【課題を解決するための手段】この課題を解決するため
に本発明は、探索途中の未完成の候補の中から次に伸長
すべき有力な候補を選択するときに、候補の該当音声区
間長を選択基準の要素に加えて該当音声区間長の長い候
補の優先度を高めるようにしたものである。
【0016】これにより、出力可能な(完成した)候補
である文頭から文末まで達した候補が早めに得られるよ
うになり、短時間で応答する際の認識性能が高い音声認
識装置が実現できる。
【0017】
【発明の実施の形態】本発明の請求項1に記載の発明
は、入力された音声を複数の音声区間に分離し、前記音
声から前記音声区間毎に複数の言語単位を求め、前記言
語単位の特徴量から前記言語単位が生起する確率である
音響スコアを求める第1の工程と、前記音声の開始点を
示す第1の仮想的単語を前記音声の先頭に付加し、前
第1の仮想的単語を初期候補として登録する第2の工程
と、前記言語単位を複数接続した言語単位の系列の統計
的言語モデルから求められる言語スコアと前記音響スコ
アとの和である認知スコアと前記言語単位の系列の前記
音声区間長とを用いて算出される優先度に基づいて、前
記音声区間毎に前記言語単位を選択する第3の工程と、
前記選択された言語単位の次の音声区間に複数の前記言
語単位を伸長して新たな言語単位の系列を生成し、前記
新たな言語単位の系列の新たな認識スコア及び新たな音
声区間長を求め、前記新たな言語単位の系列、前記新た
な認識スコア及び前記新たな音声区間長の組を出力する
第4の工程と、前記新たな言語単位の系列の後尾が、
記音声の終了点を示す第2の仮想的単語である場合は、
前記新たな言語単位の系列を出力候補として出力し、前
記第3の工程に移行し、前記新たな言語単位の系列の後
尾が、前記第2の仮想的単語でない場合は、前記新たな
単語列の後尾が、前記第2の仮想的単語となるまで前記
第3の工程に移行する第5の工程と、複数の前記出力候
補から前記新たな認識スコアが最良となる前記出力候補
を認識結果として出力する第6の工程とを含む音声認識
方法としたものであり、該当音声区間長が長い候補の優
先度が高くなるようにすることで、出力可能な候補であ
る文頭から文末まで達した候補が短時間で得られるよう
になるという作用を有する。
【0018】請求項2に記載の発明は、初期候補は、一
発声の開始を表す仮想的な単語からなる言語単位と認
識スコア「0」と該当音声入力区間長「0」の組であ
る請求項1記載の音声認識方法とするもので、仮想の初
期候補を与えることで処理工程の順番が自由になるとい
う作用を有する。
【0019】請求項3に記載の発明は、第5の工程は、
更に、予め設定した時間に達した場合は、第6の工程に
移行する請求項1記載の音声認識方法とするもので、あ
らかじめ設定した制限時間で探索を終了することにより
短時間での応答を確実に行うことができるという作用を
有する。
【0020】請求項4に記載の発明は、請求項1に記載
の音声認識方法において、言語単位の系列が、単語、音
節、形態素、文節のいずれかであるもので、音声の認識
単位の制限を受けないという作用を有する。
【0021】請求項5に記載の発明は、入力された音声
を複数の音声区間に分離し、前記音声から前記音声区間
毎に複数の言語単位を求め、前記言語単位の特徴量から
前記言語単位が生起する確率である音響スコアを求める
音響スコア計算手段と、前記音声の開始点を示す第1の
仮想的単語を前記音声の先頭に付加し、前記第1の仮想
的単語を初期候補として登録する初期候補登録手段と、
前記言語単位を複数接続した言語単位の系列の統計的言
語モデルから求められる言語スコアと前記音響スコアと
の和である認知スコアと前記言語単位の系列の前記音声
区間長とを用いて算出される優先度に基づいて、前記音
声区間毎に前記言語単位を選択する優先度演算手段と、
前記選択された言語単位の次の音声区間に複数の前記言
語単位を伸長して新たな言語単位の系列を生成し、前記
新たな言語単位の系列の新たな認識スコア及び新たな音
声区間長を求め、前記新たな言語単位の系列、前記新た
な認識スコア及び前記新たな音声区間長の組を出力する
言語単位伸長手段と、前記新たな言語単位の系列の後尾
が、前記音声の終了点を示す第2の仮想的単語である場
合は、前記新たな言語単位の系列を出力候補として出力
し、前記優先度演算手段に移行し、前記新たな言語単位
の系列の後尾が、前記第2の仮想的単語でない場合は、
前記新たな単語列の後尾が、前記第2の仮想的単語とな
るまで前記第3の工程に移行する判定手段と、複数の前
記出力候補から前記新たな認識スコアが最良となる前記
出力候補を認識結果として出力する認識結果出力手段と
を含む音声認識装置であり、該当音声区間長が長い候補
の優先度が高くなるようにすることで、出力可能な候補
である文頭から文末まで達した候補が短時間に得られる
ようになるという作用を有する。
【0022】請求項6に記載の発明は、判定手段は、
に、予め設定した時間に達した場合は、認識結果出力手
段に移行する請求項5記載の音声認識装置としたもので
あり、あらかじめ設定した制限時間で探索を終了するこ
とにより短時間での応答を確実に行うことができるとい
う作用を有する。
【0023】請求項7に記載の発明は、請求項5に記載
の音声認識装置において、言語単位の系列が、単語、音
節、形態素、文節のいずれかであるもので、音声の認識
単位の制限を受けないという作用を有する。
【0024】請求項8に記載の発明は、プログラムされ
たコンピュータによって音声を認識するプログラムを記
録した記録媒体であって、入力された音声を複数の音声
区間に分離し、前記音声から前記音声区間毎に複数の言
語単位を求め、前記言語単位の特徴量から前記言語単位
が生起する確率である音響スコアを求める第1の工程
と、前記音声の開始点を示す第1の仮想的単語を前記音
声の先頭に付加し、前記第1の仮想的単語を初期候補と
して登録する第2の工程と、前記言語単位を複数接続し
た言語単位の系列の統計的言語モデルから求められる言
語スコアと前記音響スコアとの和である認知スコアと前
記言語単位の系列の前記音声区間長とを用いて算出され
る優先度に基づいて、前記音声区間毎に前記言語単位を
選択する第3の工程と、前記選択された言語単位の次の
音声区間に複数の前記言語単位を伸長して新たな言語単
位の系列を生成し、前記新たな言語単位の系列の新たな
認識スコア及び新たな音声区間長を求め、前記新たな言
語単位の系列、前記新たな認識スコア及び前記新たな音
声区間長の組を出力する第4の工程と、前記新たな言語
単位の系列の後尾が、前記音声の終了点を示す第2の仮
想的単語である場合は、前記新たな言語単位の系列を出
力候補として出力し、前記第3の工程に移行し、前記新
たな言語単位の系列の後尾が、前記第2の仮想的単語で
ない場合は、前記新たな単語列の後尾が、前記第2の仮
想的単語となるまで前記第3の工程に移行する第5の工
程と、複数の前記出力候補から前記新たな認識スコアが
最良となる前記出力候補を認識結果として出力する第6
の工程とを含む音声認識方法をコンピュータに実行させ
るためのプログラムを記憶したコンピュータ読み取り可
能な記録媒体であり、該当音声区間長が長い候補の優先
度が高くなるようにすることで、出力可能な候補である
文頭から文末まで達した候補が短時間に得られるように
なるという作用を有する。
【0025】以下、本発明の実施の形態について、図を
用いて説明する。 (実施の形態1)図1は、本発明の実施の形態1におけ
る音声認識装置の構成図である。図1において、1は入
力音声に対してA/D変換処理や特徴量抽出処理などを
行う音声前処理手段、2は音声の音響的特徴をモデル化
した音響モデル、3は単語系列における単語間の関係を
モデル化した言語モデル、4はデータやプログラムを装
置に入力する入力手段、5はデータやプログラムを記憶
するメモリ、6はプログラムに従ってデータを処理した
り装置全体を制御するCPU、7は認識結果を出力する
出力手段、8はバスである。
【0026】図1のように構成されたコンピュータシス
テムにより実現した音声認識装置の動作を以下に説明す
る。
【0027】図2は、音声認識装置の処理手順を表すフ
ローチャートであり、このフローチャートを用いて、音
声認識装置の処理手順を説明する。図中Sは各処理ステ
ップを表す。
【0028】まず、マイクロホン等から音声を取り込
み、A/D変換を行って音声信号をディジタル化し、L
PCメルケプストラム等の特徴量を抽出する(S2
1)。
【0029】初期の候補を登録する(S22)。候補と
は、入力の一部または全体の区間に該当する認識結果の
候補であり、単語系列と認識スコアと該当音声区間長の
組で表す。例えば、発声の開始点を表す仮想的な単語で
ある「(begin)」という一単語からなる単語系列と認識
スコア0点と該当音声区間長0秒の組を初期候補の例と
してあげることができる。
【0030】候補の認識スコアと候補の該当音声区間長
を基に、(数2)に従って各候補の優先度を計算し、こ
の優先度が最も高い候補を、候補の集合の中から選択す
る(S23)。
【0031】
【数2】
【0032】ここで、priority(Wseq)は候補の単語系列
Wseqの優先度、 recog_score(Wseq)は候補の単語系列Ws
eqの認識スコア、length(Wseq) 候補の単語系列Wseqの
該当音声区間長である。
【0033】右辺第1項により認識スコアが大きいほど
優先度が高く、かつ、右辺第2項により、該当音声区間
長が長いほど、優先度が高くなる。
【0034】選択された候補を基にして、新しい候補を
生成する処理について説明する。まず、単語系列を伸長
する(S24)。例えば、単語系列の右側に1単語増や
す。最も単純な方法では、選択された候補の単語系列の
右側にすべての登録単語をつないで、登録単語の数と同
じ数の新しい候補の単語系列を作成する。
【0035】次に、新しい候補の単語系列のそれぞれに
対して、認識スコアを求める(S25)。例えば、S2
1で求めた入力音声の特徴量とその特徴量の統計モデル
である音響モデル(隠れマルコフモデルなど)と照合し
て、入力の部分区間の特徴量系列を条件として候補の単
語系列が生起する確率を推定し、対数をとって音響スコ
アとする。さらに、各単語系列に対して大量のテキスト
サンプルから求めた統計的言語モデル(単語n-gramモデ
ルなど)により、単語系列が生起する確率を推定し、対
数をとって言語スコアとする。認識スコアは、音響スコ
アと言語スコアの和とする。
【0036】次に、新しい候補の単語系列のそれぞれに
対して、該当音声区間長を求める(S26)。該当音声
区間とは、候補の単語系列に対応する入力の部分区間で
あり、S25で求める音響スコアを最大化するように定
める。例えば、入力音声「午後5時5分です」に対し
て、候補の単語系列が[午後5時]であるとき、入力中
の「午後5時」と発声している部分区間に対する音響ス
コアは、入力中の「5時5分」と発声している部分区間
に対する音響スコアよりもはるかに大きな値をとる。こ
のような、音響スコアが最大となる入力の部分区間を1
0msec等の細かい時間きざみで求めて、候補の該当音声
区間とする。該当音声区間は、動的計画法やViterbiセ
グメンテーション・アルゴリズムによって求めることが
できる。
【0037】新しい候補を登録する(S27)。その際
に、必要に応じて、候補の中で、認識スコアの低いもの
を除外してから登録することもできる。
【0038】次に終了判定を行う(S28)。例えば、
初期候補を登録する際に、時間測定を開始しておき、1
秒や2秒などの制限時間を越えた時点で終了とする。終
了条件を満たさない場合には、S23に戻りS23から
S28の処理を繰り返し、単語系列の伸張を行い文を形
成し、終了条件を満たした場合には、S29に進む。
【0039】最後に、登録されている候補の中から、出
力可能な候補を選び、認識結果として出力する(S2
9)。出力可能な候補とは、発声の開始点を表す仮想的
な単語である「(begin)」から始まり、発声の終了点を
表す仮想的な単語である「(end)」で終わる単語系列を
持つ候補である。出力可能な候補が複数ある場合は、認
識スコアで序列をつけて出力する。
【0040】次に図3から図6および比較のための図8
の例を用いて処理が進行していく様子を説明する。
【0041】図3は、S25において言語スコアを計算
する際に用いる言語モデルの例で、時刻を読み上げるタ
スクのオートマトン表現である。このオートマトンに照
らし合わせると、「午後1時49分です」という単語系
列は受理するが、「午後49分です」や「午前20時で
す」などの単語系列は受理しないなど、単語の系列とし
ての評価を行うものである。オートマトンを用いる場合
は、単語の系列としての評価値である言語確率は、1
(受理する)と0(受理しない)の2値になる。また、
単語n-gramや確率文脈自由文法を用いる場合には、0か
ら1までの間の連続的な値を与えることができる。言語
スコアは、これらの確率値の対数をとった値である。
【0042】図4は、S25において音響スコアを計算
する際の中間結果である単語ラティスの例である。発声
「午後、5時5分です」の中の部分的な区間に対して比
較的類似度の高い単語の例を示している。単語ラティス
は、対応する発声区間と音響スコアの組で表され、図で
は、単語を囲っている長方形の左辺が始端時刻、右辺が
終端時刻、上下の中心が音響スコアを表している。例え
ば、図中、「午後」は時刻0.0から0.2までが発声
区間で、音響スコアは2点である。この音響スコアは+
の方向に値が大きい方が良い。この例では音響スコアと
して、事後確率の対数をとった値を想定し、0付近の値
を用いている。
【0043】図5は、図3のオートマトンを参照しなが
ら図4の単語ラティスを接続してできるすべての単語系
列候補を前方から一致する部分を共通化して木構造で表
現した、探索木の例である。単語「(begin)」および単
語「(end)」は、仮想的な単語であり発声の始端と発声
の終端を表している。これらの発声時間や認識スコアは
0として計算する。「(begin)」から各単語にいたるま
での単語系列をもつ候補に対する認識スコアは、系列の
最後の単語の左肩に示してある。例えば、「単語系列
「(begin)午前4時」に対する認識スコアは、1であ
り、単語「4時」(「4時」は2つあるが上の方)の 左
肩に表示してある。この値は、「(begin)」、「午
前」、「4時」の3単語の音響スコアの和として計算し
た。また、候補の該当音声区間長は、単語系列の最後の
単語の右肩に示してある。
【0044】該当音声区間長は、候補の単語系列に該当
する入力音声区間の時間長(最初の単語の始端から最後
の単語の終端まで)として、図3の単語ラティスから求
めた。「(end)」に至る系列は、6通りであるので、こ
の例における出力可能な系列は6通りである。探索時間
が十分ある場合には、この6通りのすべての認識スコア
を計算して、序列をつければよい。探索時間が十分にな
い場合には、すべての認識スコアを計算することができ
ないので、探索木を伸長している途中の結果を出力する
ことになる。この際に、出力可能な候補は、「(begi
n)」で始まり「(end)」で終わる完成した候補である。
短時間で応答する場合には、完成した候補を早めに得る
必要があり、探索木を伸長する順番が重要になる。
【0045】図8は、図5の例に対して、従来例により
探索を行った場合の探索木を伸長する順番を示した図で
ある。図5と同様に左肩に候補の認識スコアが示してあ
る。候補の伸長の優先度は(数1)により求める。
【0046】優先度が等しい候補が複数あるときには、
図において上の方にある候補を伸長するものとする。
(数1)では、認識スコアがそのまま優先度となる。こ
の図に沿って、初期候補「(begin)」から始まって、候
補が伸長さていく様子を説明する。白抜きの数字が伸長
の順番を表している。まず、初期候補「(begin)」を選
択し、伸長する。候補は「(begin)午前」「(begin)午
後」「(begin)5時」の3つに伸長される。候補の優先
度はそれぞれ1,2,0である。続いて候補の中で優先
度の最も大きい「(begin)午後」を伸長する。「(begin)
午後4時」「(begin)午後5時」の2つに伸長される。
候補は4つである。続いて候補の中で優先度の最も大き
「(begin)午後5時」を伸長する。「(begin)午後5時
5分」の1つに伸長される。候補は4つである。
【0047】続いて候補の中で優先度の最も大きい「(b
egin)午後4時」を伸長する。「(begin)午後4時5分」
の1つに伸長される。候補は4つである。続いて候補の
中で優先度の最も大きい「(begin)午後5時5分」を伸
長する。「(begin)午後5時5分です」の1つに伸長さ
れる。候補は4つである。続いて候補の中で優先度の
も大きい「(begin)午前」を伸長する。「(begin)午前4
時」「(begin)午前5時」の2つに伸長される。候補は
5つである。(begin)午後4時」「(begin)午後5時」の
2つに伸長される。候補は4つである。続いて候補の中
で優先度の最も大きい「(begin)午前5時」を伸長す
る。「(begin)午前5時5分」の1つに伸長される。候
補は5つである。続いて候補の中で優先度の最も大きい
「(begin)午前4時」を伸長する。「(begin)午前4時5
分」の1つに伸長される。候補は5つである。以下、同
様にして探索木を伸長していくと、図に示す順番で伸長
が進み、11回目の伸長で初めて「(end)」に達する。
【0048】一方、図6は、図5の例に対して、本発明
の一実施の形態により探索を行った場合の探索木を伸長
する順番を示した図である。候補の伸長の優先度は(数
2)により求める。この式を用いると、該当音声区間長
の長い候補の優先度が高くなる。優先度の具体的な値
は、図中、単語系列の最後の単語の下部に、計算式とと
もに示した。この図に沿って、初期候補「(begin)」か
ら始まって、候補が伸長されていく様子を説明する。白
抜きの数字が伸長の順番を表している。まず、初期候補
「(begin)」を伸長する。候補は「(begin)午前」「(beg
in)午後」「(begin)5時」の3つに伸長される。候補の
優先度はそれぞれ1.3、2.4、0.0である。続いて候補の
中で優先度の最も大きい「(begin)午後」を伸長する。
「(begin)午後4時」「(begin)午後5時」の2つに伸長
される。候補は4つである。
【0049】続いて候補の中で優先度の最も大きい「(b
egin)午後5時」を伸長する。「(begin)午後5時5分」
の1つに伸長される。候補は4つである。続いて候補の
中で優先度の最も大きい「(begin)午後5時5分」を伸
長する。「(begin)午後5時5分です」の1つに伸長さ
れる。候補は4つである。続いて候補の中で優先度の
も大きい「(begin)午後4時」を伸長する。「(begin)午
後4時5分」の1つに伸長される。候補は4つである。
続いて候補の中で優先度の最も大きい「(begin)午後5
時5分です」を伸長する。「(begin)午後5時5分(en
d)」の1つに伸長される。候補は4つである。このよう
にして、6回目の伸長で初めて「(end)」に達する。
【0050】以上のように、従来例では候補の完成まで
に11回の伸長を要していたが、本実施例においては6
回の伸長ですむことになる。
【0051】本実施の形態による音声認識装置を用いて
認識実験を行った。評価データは、男性1名が発声した
100文である。認識対象は発声した100文を含む例
文400文を基にして、文中に現れる各名詞部分を他の
名詞と入れ替えたものも受理できるようにしたものであ
る。登録語彙は、665単語である。候補の音響スコア
は、候補に対応する入力区間の音響スコアとそれ以外の
入力区間に対する音響スコアの推定値の和を用いた。認
識性能の評価尺度として、単語正解精度を用いる。 単
語正解精度とは、認識結果の単語系列と正解である単語
系列とを比較して、単語単位で、正解・置換誤り・脱落
誤り・挿入誤りを判定し、以下の式によって集計したも
のである。
【0052】
【数3】
【0053】ここで、word accuracyは単語正解精度、c
orは正解の総数、subは置換誤りの総数、delは脱落誤り
の総数、insは挿入誤りの総数である。上記評価データ
を基に、時間制限を設けた場合の本発明と従来方法との
認識性能結果を(表1)に示す。
【0054】
【表1】
【0055】(表1)からわかるように、制限時間が1
秒の場合、2秒の場合、5秒の場合の認識性能である単
語正解精度が大幅に向上し、本発明の効果が確認され
た。
【0056】以上のように本発明の実施の形態によれ
ば、短い時間で応答をする際の認識性能が高い音声認識
装置が実現できる。
【0057】なお、本発明は、上記実施例の処理の順番
に限定されず、その要旨を逸脱しない範囲で処理の順番
の変更が可能である。例えば、音声を入力した後、初期
候補を登録する前に、単語ラティスなど部分的な音響ス
コアを求めても同様に実施可能であるし、音声を取り込
みながら、候補を伸長していくことも可能である。ま
た、終了判定は、候補を登録した後に限らず、候補を選
択した後や、候補の単語系列を伸長した後等に行うこと
も可能である。
【0058】また、以上の説明では、言語的な単位を
「単語」とした例で説明したが、「音節」、「形態
素」、「文節」などの単語以外の単位についても同様に
実施可能である。
【0059】
【発明の効果】以上のように本発明によれば、探索途中
の未完成の候補の中から次に伸長すべき有力な候補を選
択するときに、候補の該当音声区間長を選択基準の要素
に加えて該当音声区間長の長い候補の優先度を高めるよ
うにすることにより、従来考慮されていなかった短時間
で探索を打ち切ったときの認識性能が大幅に改善される
という有利な効果が得られる。このことは、音声認識装
置を実用化する上で有効であり、その効果は大きい。
【図面の簡単な説明】
【図1】本発明の実施の形態1における音声認識装置を
示す構成図
【図2】本発明の実施の形態1における音声認識装置の
処理手順を示すフローチャート
【図3】言語スコアを計算する際に用いる言語モデルの
例を示す図
【図4】音響スコアを計算する際の中間結果である単語
ラティスの例を示す図
【図5】音声認識装置で処理する探索木の例を示す図
【図6】探索木の伸長過程の例を示す図
【図7】従来例による音声認識装置の処理手順を示すフ
ローチャート
【図8】従来例による音声認識装置で処理する探索木の
伸長過程の例を示す図
【符号の説明】
1 音声前処理手段 2 音響モデル 3 言語モデル 4 入力手段 5 メモリ 6 CPU 7 出力手段 8 バス
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−362699(JP,A) 特開 平10−105188(JP,A) 遠藤充,伊藤達朗,星見昌克,A*探 索を用いた連続音声認識方法の検討,日 本音響学会平成10年度秋季研究発表会講 演論文集,1998年 9月24日,3−1− 9,p.99−100 (58)調査した分野(Int.Cl.7,DB名) G10L 15/08 G10L 15/10 G10L 15/18 G10L 15/28 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された音声を複数の音声区間に分離
    し、前記音声から前記音声区間毎に複数の言語単位を求
    め、前記言語単位の特徴量から前記言語単位が生起する
    確率である音響スコアを求める第1の工程と、前記音声
    の開始点を示す第1の仮想的単語を前記音声の先頭に付
    し、前記第1の仮想的単語を初期候補として登録する
    第2の工程と、前記言語単位を複数接続した言語単位の
    系列の統計的言語モデルから求められる言語スコアと前
    記音響スコアとの和である認知スコアと前記言語単位の
    系列の前記音声区間長とを用いて算出される優先度に基
    づいて、前記音声区間毎に前記言語単位を選択する第3
    の工程と、前記選択された言語単位の次の音声区間に複
    数の前記言語単位を伸長して新たな言語単位の系列を生
    成し、前記新たな言語単位の系列の新たな認識スコア及
    び新たな音声区間長を求め、前記新たな言語単位の系
    列、前記新たな認識スコア及び前記新たな音声区間長の
    組を出力する第4の工程と、前記新たな言語単位の系列
    の後尾が、前記音声の終了点を示す第2の仮想的単語で
    ある場合は、前記新たな言語単位の系列を出力候補とし
    て出力し、前記第3の工程に移行し、前記新たな言語単
    位の系列の後尾が、前記第2の仮想的単語でない場合
    は、前記新たな単語列の後尾が、前記第2の仮想的単語
    となるまで前記第3の工程に移行する第5の工程と、複
    数の前記出力候補から前記新たな認識スコアが最良とな
    る前記出力候補を認識結果として出力する第6の工程と
    を含む音声認識方法。
  2. 【請求項2】 初期候補は、一発声の開始を表す仮想的
    な一単語からなる言語単位と認識スコア「0」と該当音
    声入力区間長「0」との組である請求項1記載の音声認
    識方法。
  3. 【請求項3】 第5の工程は、更に、予め設定した時間
    に達した場合は、第6の工程に移行する請求項1記載の
    音声認識方法。
  4. 【請求項4】 言語単位の系列が、単語、音節、形態
    素、文節のいずれかであることを特徴とする請求項1記
    載の音声認識方法。
  5. 【請求項5】 入力された音声を複数の音声区間に分離
    し、前記音声から前記音声区間毎に複数の言語単位を求
    め、前記言語単位の特徴量から前記言語単位が生起する
    確率である音響スコアを求める音響スコア計算手段と、
    前記音声の開始点を示す第1の仮想的単語を前記音声の
    先頭に付加し、前記第1の仮想的単語を初期候補として
    登録する初期候補登録手段と、前記言語単位を複数接続
    した言語単位の系列の統計的言語モデルから求められる
    言語スコアと前記音響スコアとの和である認知スコアと
    前記言語単位の系列の前記音声区間長とを用いて算出さ
    れる優先度に基づいて、前記音声区間毎に前記言語単位
    を選択する優先度演算手段と、前記選択された言語単位
    の次の音声区間に複数の前記言語単位を伸長して新たな
    言語単位の系列を生成し、前記新たな言語単位の系列の
    新たな認識スコア及び新たな音声区間長を求め、前記新
    たな言語単位の系列、前記新たな認識スコア及び前記新
    たな音声区間長の組を出力する言語単位伸長手段と、前
    記新たな言語単位の系列の後尾が、前記音声の終了点を
    示す第2の仮想的単語である場合は、前記新たな言語単
    位の系列を出力候補として出力し、前記優先度演算手段
    に移行し、前記新たな言語単位の系列の後尾が、前記第
    2の仮想的単語でない場合は、前記新たな単語列の後尾
    が、前記第2の仮想的単語となるまで前記第3の工程に
    移行する判定手段と、複数の前記出力候補から前記新た
    な認識スコアが最良となる前記出力候補を認識結果とし
    て出力する認識結果出力手段とを含む音声認識装置。
  6. 【請求項6】 判定手段は、更に、予め設定した時間に
    達した場合は、認識結果出力手段に移行する請求項5記
    載の音声認識装置。
  7. 【請求項7】 言語単位の系列が、単語、音節、形態
    素、文節のいずれかであることを特徴とする請求項5記
    載の音声認識装置。
  8. 【請求項8】 プログラムされたコンピュータによって
    音声を認識するプログラムを記録した記録媒体であっ
    て、入力された音声を複数の音声区間に分離し、前記音
    声から前記音声区間毎に複数の言語単位を求め、前記言
    語単位の特徴量から前記言語単位が生起する確率である
    音響スコアを求める第1の工程と、前記音声の開始点を
    示す第1の仮想的単語を前記音声の先頭に付加し、前
    第1の仮想的単語を初期候補として登録する第2の工程
    と、前記言語単位を複数接続した言語単位の系列の統計
    的言語モデルから求められる言語スコアと前記音響スコ
    アとの和である認知スコアと前記言語単位の系列の前記
    音声区間長とを用いて算出される優先度に基づいて、前
    記音声区間毎に前記言語単位を選択する第3の工程と、
    前記選択された言語単位の次の音声区間に複数の前記言
    語単位を伸長して新たな言語単位の系列を生成し、前記
    新たな言語単位の系列の新たな認識スコア及び新たな音
    声区間長を求め、前記新たな言語単位の系列、前記新た
    な認識スコア及び前記新たな音声区間長の組を出力する
    第4の工程と、前記新たな言語単位の系列の後尾が、
    記音声の終了点を示す第2の仮想的単語である場合は、
    前記新たな言語単位の系列を出力候補として出力し、前
    記第3の工程に移行し、前記新たな言語単位の系列の後
    尾が、前記第2の仮想的単語でない場合は、前記新たな
    単語列の後尾が、前記第2の仮想的単語となるまで前記
    第3の工程に移行する第5の工程と、複数の前記出力候
    補から前記新たな認識スコアが最良となる前記出力候補
    を認識結果として出力する第6の工程とを含む音声認識
    方法をコンピュータに実行させるためのプログラムを記
    憶したコンピュータ読み取り可能な記録媒体。
JP26464098A 1998-09-18 1998-09-18 音声認識方法及びその装置 Expired - Fee Related JP3440840B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26464098A JP3440840B2 (ja) 1998-09-18 1998-09-18 音声認識方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26464098A JP3440840B2 (ja) 1998-09-18 1998-09-18 音声認識方法及びその装置

Publications (2)

Publication Number Publication Date
JP2000099084A JP2000099084A (ja) 2000-04-07
JP3440840B2 true JP3440840B2 (ja) 2003-08-25

Family

ID=17406169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26464098A Expired - Fee Related JP3440840B2 (ja) 1998-09-18 1998-09-18 音声認識方法及びその装置

Country Status (1)

Country Link
JP (1) JP3440840B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631414B2 (en) 2019-10-22 2023-04-18 Samsung Electronics Co., Ltd. Speech recognition method and speech recognition apparatus

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4297349B2 (ja) * 2004-03-30 2009-07-15 Kddi株式会社 音声認識システム
JP4604178B2 (ja) 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
JP4829910B2 (ja) * 2008-02-20 2011-12-07 日本電信電話株式会社 音声認識誤り分析装置、方法、プログラム及びその記録媒体
KR101614756B1 (ko) * 2014-08-22 2016-04-27 현대자동차주식회사 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
遠藤充,伊藤達朗,星見昌克,A*探索を用いた連続音声認識方法の検討,日本音響学会平成10年度秋季研究発表会講演論文集,1998年 9月24日,3−1−9,p.99−100

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631414B2 (en) 2019-10-22 2023-04-18 Samsung Electronics Co., Ltd. Speech recognition method and speech recognition apparatus

Also Published As

Publication number Publication date
JP2000099084A (ja) 2000-04-07

Similar Documents

Publication Publication Date Title
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US8321218B2 (en) Searching in audio speech
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP3834169B2 (ja) 連続音声認識装置および記録媒体
US20020091520A1 (en) Method and apparatus for text input utilizing speech recognition
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP2002215187A (ja) 音声認識方法及びその装置
JP3440840B2 (ja) 音声認識方法及びその装置
JPWO2007114346A1 (ja) 音声認識装置
JP3472101B2 (ja) 音声入力解釈装置及び音声入力解釈方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2009116075A (ja) 音声認識装置
JP3914709B2 (ja) 音声認識方法およびシステム
JP3104900B2 (ja) 音声認識方法
JP3494338B2 (ja) 音声認識方法
JP4430964B2 (ja) 記号列変換方法及びその記号列変換方法を用いた音声認識方法、並びに記号列変換装置及びその記号列変換装置を用いた音声認識装置
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
JP2753255B2 (ja) 音声による対話型情報検索装置
JPWO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
JP2015152661A (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080620

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090620

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100620

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees