JP4270770B2 - Speech recognition apparatus, speech recognition method, and speech recognition program - Google Patents
Speech recognition apparatus, speech recognition method, and speech recognition program Download PDFInfo
- Publication number
- JP4270770B2 JP4270770B2 JP2001123317A JP2001123317A JP4270770B2 JP 4270770 B2 JP4270770 B2 JP 4270770B2 JP 2001123317 A JP2001123317 A JP 2001123317A JP 2001123317 A JP2001123317 A JP 2001123317A JP 4270770 B2 JP4270770 B2 JP 4270770B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- partial section
- candidate
- signal
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
この発明は音声認識装置、音声認識方法及び音声認識プログラムに関するものである。
【0002】
【従来の技術】
音声認識装置はデータの効率的な入力手段である。しかし、発声者が発声した音声が誤認識された場合、誤認識された部分を修正する手間がかかるという問題がある。このため、音声認識装置では、誤認識された部分を簡単に修正するための手段が必要とされる。
【0003】
図21は特開平4−181299号公報に示された従来の音声認識装置の構成を示すブロック図である。図において、101は音声認識装置、102は入力された音声を音声信号として出力する音声入力手段、103は認識対象となる単語の情報を含む単語辞書を記憶する単語辞書記憶手段、104は音声入力手段102に入力された、複数の認識対象となる単語の音声(1回目の音声)の音声信号(1回目の音声信号)と、単語辞書記憶手段103に記憶されている単語辞書との間でモデル照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得るモデル照合手段、105はモデル照合手段104で照合対象となった1回目の音声信号を記憶する音声信号記憶手段、106は音声信号記憶手段105に記憶されている1回目の音声信号と、音声入力手段102に入力された、1回目の音声中の誤認識された単語の音声(2回目の音声)の音声信号(2回目の音声信号)との間でスポッティング処理を行い、1回目の音声信号のそれぞれの部分区間と2回目の音声信号との間の音響的類似度を求めるスポッティング手段、107は1回目の音声の認識結果を認識結果表示手段108に表示し、1回目の音声の認識結果が正しくない場合、2回目の音声信号と音響的類似度が高い1回目の音声信号の部分区間に対する候補を他の候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段108に表示し、正しい認識結果が得られた段階で1回目の音声の認識結果を確定し、確定した1回目の音声の認識結果を出力する認識結果入れ替え手段である。
【0004】
なお、音声入力手段102は訂正キーの入力があった場合に音声信号の出力先をモデル照合手段104からスポッティング手段106に変更する。
【0005】
次に動作について説明する。
発声者が複数の認識対象となる単語の音声(1回目の音声)を発声し、1回目の音声が音声入力手段102に入力すると、音声入力手段102は1回目の音声の音声信号(1回目の音声信号)を出力する。音声入力手段102から出力された1回目の音声信号は、モデル照合手段104に入力する。モデル照合手段104は、1回目の音声信号と単語辞書記憶手段103に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得て、それを認識結果入れ替え手段107に出力する。認識結果入れ替え手段107は、1回目の音声信号の照合結果を記憶し、1回目の音声の認識結果を認識結果表示手段108に表示する。また、音声信号記憶手段105は、モデル照合手段104から出力された、モデル照合手段104で照合対象となった1回目の音声信号を記憶する。
【0006】
発声者は、認識結果表示手段108に表示された1回目の音声の認識結果を見て、それが正しいか否かを判断し、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段107は、確定した1回目の音声の認識結果を出力する。
【0007】
認識結果表示手段108に表示された1回目の音声の認識結果が正しくないとき、発声者は、訂正キーを押し、1回目の音声中の誤認識された単語の音声(2回目の音声)を発声する。2回目の音声が音声入力手段102に入力すると、音声入力手段102は2回目の音声の音声信号(2回目の音声信号)を出力する。訂正キーの入力があった場合、音声入力手段102は音声信号の出力先をモデル照合手段104からスポッティング手段106に変更するため、音声入力手段102から出力された2回目の音声信号は、スポッティング手段106に入力する。
【0008】
スポッティング手段106は、音声信号記憶手段105に記憶されている1回目の音声信号と、2回目の音声信号との間で連続DPマッチングによるスポッティング処理を行い、1回目の音声信号のそれぞれの部分区間と2回目の音声信号との間の音響的類似度を求め、それを認識結果入れ替え手段107に出力する。
【0009】
認識結果入れ替え手段107は、2回目の音声信号と音響的類似度が高い1回目の音声信号の部分区間を検出し、その部分区間に対する候補を他の候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段108に表示する。
【0010】
発声者は、認識結果表示手段108に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段107は、確定した1回目の音声の認識結果を出力する。
【0011】
認識結果表示手段108に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段107は、検出された1回目の音声信号の部分区間に対する候補を他の候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段108に表示する。
【0012】
検出された1回目の音声信号の部分区間に対する候補の中に、正しい候補が含まれていない場合、発声者は、訂正キーを押して1回目の音声信号をキャンセルし、1回目の音声を発声し直す。
【0013】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区」と発声した場合について説明する。
【0014】
発声者が「神奈川県横浜市中区」と発声したとき、図23に示すように、モデル照合手段104により、音声入力手段102から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、2位の候補として「川崎市」、部分区間S13に対する1位の候補として「西区」、2位の候補として「多摩区」、3位の候補として「中区」が得られ、認識結果入れ替え手段107に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段108に表示された。
【0015】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区」と発声すると、スポッティング手段106により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S13と2回目の音声信号S2との間の音響的類似度が求められた。また、図24に示すように、認識結果入れ替え手段107により、2回目の音声信号S2と音響的類似度が高い1回目の音声信号S1の部分区間S13が検出された。そして、図25に示すように、認識結果入れ替え手段107により、検出された1回目の音声信号S1の部分区間S13に対する1位の候補である「西区」が、2位の候補である「多摩区」に入れ替えられ、新たな1回目の音声の認識結果である「神奈川県横浜市多摩区」が認識結果表示手段108に表示された。
【0016】
認識結果表示手段108に表示された新たな1回目の音声の認識結果が正しくないため、発声者が次候補キーを押すと、図26に示すように、認識結果入れ替え手段107により、検出された1回目の音声信号S1の部分区間S13に対する2位の候補である「多摩区」が、3位の候補である「中区」に入れ替えられた。そして、新たな1回目の音声の認識結果の候補である「神奈川県横浜市中区」が認識結果表示手段108に表示された。
【0017】
認識結果表示手段108に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果が確定し、確定した1回目の音声の認識結果が認識結果入れ替え手段107から出力された。
【0018】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、誤認識された部分に対応する1回目の音声信号の部分区間に対する候補の中に、正しい候補が含まれていない場合、1回目の音声信号をキャンセルし、1回目の音声を発声し直さなければならないという課題があった。
【0019】
また、連続して長い文章を発声しようとして途中で区切り、そのときに誤認識を生じた場合、人間は誤認識された部分に続けて後続する文章を発声する傾向があるが、従来の音声認識装置では誤認識された部分の音声だけを新たに発声することを前提としているため、このような場合に誤認識された部分を正しく修正することができないという課題があった。
【0020】
この発明は上記のような課題を解決するためになされたもので、効率的に誤認識された部分を修正することができる音声認識装置、音声認識方法及び音声認識プログラムを得ることを目的とする。
【0021】
【課題を解決するための手段】
この発明に係る音声認識装置は、認識対象となる単語の情報を含む単語辞書を記憶する単語辞書記憶手段と、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合手段と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合手段と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング手段と、スポッティング手段で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え手段とを備え、上記単語辞書記憶手段は、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書を記憶するものであり、上記認識結果入れ替え手段は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、上記単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とするものである。
【0022】
この発明に係る音声認識装置は、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え手段を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0023】
この発明に係る音声認識装置は、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え手段を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするものである。
【0024】
この発明に係る音声認識装置は、認識結果入れ替え手段を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0026】
この発明に係る音声認識装置は、第1の照合手段を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え手段を、スポッティング手段で得られた音響的類似度と第1の照合手段で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0027】
この発明に係る音声認識方法は、1回目の音声信号と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合工程と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合工程と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング工程と、スポッティング工程で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え工程とを備え、上記認識結果入れ替え工程は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであるたものである。
【0028】
この発明に係る音声認識方法は、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え工程を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0029】
この発明に係る音声認識方法は、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え工程を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするものである。
【0030】
この発明に係る音声認識方法は、認識結果入れ替え工程を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0032】
この発明に係る音声認識方法は、第1の照合工程を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え工程を、スポッティング工程で得られた音響的類似度と第1の照合工程で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0033】
この発明に係る音声認識プログラムは、コンピュータに、1回目の音声信号と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合機能と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合機能と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング機能と、スポッティング機能で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え機能とを実現させ、上記認識結果入れ替え機能は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであるものである。
【0034】
この発明に係る音声認識プログラムは、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え機能を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0035】
この発明に係る音声認識プログラムは、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え機能を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするものである。
【0036】
この発明に係る音声認識プログラムは、認識結果入れ替え機能を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0038】
この発明に係る音声認識プログラムは、第1の照合機能を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え機能を、スポッティング機能で得られた音響的類似度と第1の照合機能で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0039】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において、1は音声認識装置、2は入力された音声を音声信号として出力する音声入力手段、3は認識対象となる単語の情報を含む単語辞書を記憶する単語辞書記憶手段、4は音声入力手段2に入力された、複数の認識対象となる単語の音声(1回目の音声)の音声信号(1回目の音声信号)と、単語辞書記憶手段3に記憶されている単語辞書との間でモデル照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得る第1のモデル照合手段、5は第1のモデル照合手段4で照合対象となった1回目の音声信号を記憶する音声信号記憶手段、6は音声入力手段2に入力された、1回目の音声中の誤認識された単語の音声(2回目の音声)の音声信号(2回目の音声信号)と、単語辞書記憶手段3に記憶されている単語辞書との間でモデル照合処理を行い、2回目の音声信号から1つの部分区間を検出し、1または複数の候補を順位をつけて得る第2のモデル照合手段、7は音声信号記憶手段5に記憶されている1回目の音声信号と、2回目の音声信号との間でスポッティング処理を行い、1回目の音声信号のそれぞれ部分区間と2回目の音声信号の部分区間との間の音響的類似度を求めるスポッティング手段、8は1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、その部分区間に対する候補を2回目の音声信号の部分区間に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果を確定し、確定した1回目の音声の認識結果を出力する認識結果入れ替え手段である。
【0040】
なお、音声入力手段2は訂正キーの入力があった場合に音声信号の出力先を第1のモデル照合手段4から第2のモデル照合手段6及びスポッティング手段7に変更する。
【0041】
次に動作について説明する。
図2から図4はこの発明の実施の形態1による音声認識装置の動作の説明に供するフローチャートである。
【0042】
発声者が複数の認識対象となる単語の音声(1回目の音声)を発声し、1回目の音声が音声入力手段2に入力する(ステップST1)と、音声入力手段2は1回目の音声の音声信号(1回目の音声信号)を出力する。音声入力手段2から出力された1回目の音声信号は、第1のモデル照合手段4に入力する。第1のモデル照合手段4は、1回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い(ステップST2)、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得て、それを認識結果入れ替え手段8に出力する。認識結果入れ替え手段8は、それぞれの部分区間に対する1位の候補からなる1回目の音声信号の照合結果を記憶し(ステップST3)、1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST4)。また、音声信号記憶手段5は、第1のモデル照合手段4から出力された、第1のモデル照合手段4で照合対象となった1回目の音声信号を記憶する(ステップST5)。
【0043】
発声者は、認識結果表示手段9に表示された1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST6)、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段8は、確定した1回目の音声の認識結果を出力する(ステップST7)。
【0044】
認識結果表示手段9に表示された1回目の音声の認識結果が正しくないとき、発声者は、訂正キーを押し、1回目の音声中の誤認識された単語の音声(2回目の音声)を発声する。2回目の音声が音声入力手段2に入力する(ステップST8)と、音声入力手段2は2回目の音声の音声信号(2回目の音声信号)を出力する。訂正キーの入力があった場合、音声入力手段2は音声信号の出力先を第1のモデル照合手段4から第2のモデル照合手段6及びスポッティング手段7に変更するため、音声入力手段2から出力された2回目の音声信号は、第2のモデル照合手段6及びスポッティング手段7に入力する。
【0045】
第2のモデル照合手段6は、2回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い(ステップST9)、2回目の音声信号から1つの部分区間を検出し、1または複数の候補を順位をつけて得て、それを認識結果入れ替え手段8に出力する。認識結果入れ替え手段8は、2回目の音声信号の照合結果を記憶する(ステップST10)。
【0046】
スポッティング手段7は、音声信号記憶手段5に記憶されている1回目の音声信号と、2回目の音声信号との間で連続DPマッチングによるスポッティング処理を行い(ステップST11)、1回目の音声信号のそれぞれの部分区間と2回目の音声信号の部分区間との間の音響的類似度を求め、それを認識結果入れ替え手段8に出力する。
【0047】
認識結果入れ替え手段8は、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を検出し(ステップST12)、M=1とした(ステップST13)後、その部分区間に対する候補を2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST14)、新たな1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST15)。
【0048】
発声者は、認識結果表示手段9に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST16)、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段8は、確定した1回目の音声の認識結果を出力する(ステップST17)。
【0049】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段8は、2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST18)、下位の候補がある場合、M=2とした(ステップST19)後、検出された1回目の音声信号の部分区間に対する候補を2回目の音声信号の部分区間に対する2位の候補に入れ替え(ステップST14)、新たな1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST15)。
【0050】
その後、1回目の音声の正しい認識結果が認識結果表示手段9に表示されるまで、検出された1回目の音声信号の部分区間に対する候補が2回目の音声信号の部分区間に対する下位の候補に入れ替えられ、下位の候補がなくなった場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0051】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区」と発声した場合について説明する。
【0052】
発声者が「神奈川県横浜市中区」と発声したとき、図5に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「西区」が得られ、認識結果入れ替え手段8に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段9に表示された。
【0053】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区」と発声すると、図6に示すように、第2のモデル照合手段6により、音声入力手段2から出力された2回目の音声信号S2から1つの部分区間S21が検出され、1位の候補として「中区」、2位の候補として「多摩区」、3位の候補として「西区」が得られ、認識結果入れ替え手段8に記憶された。また、スポッティング手段7により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S13と2回目の音声信号S2の部分区間S21との間の音響的類似度が求められた。また、図6に示すように、認識結果入れ替え手段8により、2回目の音声信号S2の部分区間S21と音響的類似度が高い1回目の音声信号S1の部分区間S13が検出された。そして、図7に示すように、認識結果入れ替え手段8により、検出された1回目の音声信号S1の部分区間S13に対する候補である「西区」が、2回目の音声信号S2の部分区間S21に対する1位の候補である「中区」に入れ替えられ、新たな1回目の音声の認識結果である「神奈川県横浜市中区」が認識結果表示手段9に表示された。
【0054】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果が確定し、確定した1回目の音声の認識結果が認識結果入れ替え手段8から出力された。
【0055】
以上のように、この実施の形態1によれば、1回目の音声が誤認識された場合、1回目の音声中の誤認識された単語の音声を2回目の音声として発声し、2回目の音声信号の部分区間に対する候補を用いて誤認識された単語を修正する。また、一般に、1回目の音声が誤認識された場合、2回目の音声をより丁寧に発声する傾向があるため、1回目の音声の認識結果より2回目の音声の認識結果の方が認識率が高い。従って、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0056】
なお、この実施の形態では、音声信号の照合方式として連続DPマッチングを用いる場合について説明したが、他の照合方式を用いる場合でも同様の効果が得られる。
【0057】
また、この実施の形態では、1回目の音声信号と2回目の音声信号を異なるモデル照合手段を用いて照合処理する場合について説明したが、同じモデル照合手段を繰り返し用いる場合でも同様の効果が得られる。
【0058】
また、この実施の形態では、訂正キーを押すことにより、音声入力手段2から出力される音声信号の出力先を第2のモデル照合手段6及びスポッティング手段7に変更する場合について説明したが、1回目の音声の発声後に自動的に変更する場合でも同様の効果が得られる。
【0059】
また、この実施の形態では、訂正キー、確定キー、次候補キーを押すことにより、誤認識された単語を修正するプロセスを進行する場合について説明したが、音声認識装置からの音声による確認に対して、「ハイ」、「イエス」などと発声して応答することにより、音声だけで誤認識された単語を修正するプロセスを進行する場合でも同様の効果が得られる。
【0060】
実施の形態2.
連続して長い文章を発声しようとして途中で区切り、そのときに誤認識を生じた場合、人間は誤認識された単語に続けて後続する1または複数の単語を発声する傾向がある。実施の形態2では、このような場合でも誤認識された単語を正しく修正することができるように構成した場合について説明する。
【0061】
図8はこの発明の実施の形態2による音声認識装置の構成を示すブロック図である。図において、21は音声認識装置、22は音声入力手段2に入力された、誤認識された単語及びそれに後続する1または複数の単語の音声(2回目の音声)の音声信号(2回目の音声信号)と、単語辞書記憶手段3に記憶されている単語辞書との間でモデル照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得る第2のモデル照合手段、23は第2のモデル照合手段22で照合対象となった2回目の音声信号を記憶する部分区間記憶手段、24は音声信号記憶手段5に記憶されている1回目の音声信号と、部分区間記憶手段23に記憶されている2回目の音声信号との間でスポッティング処理を行い、1回目の音声信号のそれぞれの部分区間と2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング手段、25は1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、音響的類似度が高い1回目の音声信号の部分区間と2回目の音声信号の部分区間とを検出し、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加して、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果及び2回目の音声の認識結果を確定し、確定した1回目の音声の認識結果及び2回目の音声の認識結果を出力する認識結果入れ替え手段である。
【0062】
その他の構成要素は図1において同一符号を付して示したものと同一あるいは同等であるため、その詳細な説明は省略する。
【0063】
なお、音声入力手段2は訂正キーの入力があった場合に音声信号の出力先を第1のモデル照合手段4から第2のモデル照合手段22に変更する。
【0064】
次に動作について説明する。
図9及び図10はこの発明の実施の形態2による音声認識装置の動作の説明に供するフローチャートである。
【0065】
ステップST7までは、実施の形態1の場合と同様に行う。
認識結果表示手段9に表示された1回目の音声の認識結果が正しくないとき、発声者は、訂正キーを押し、誤認識された単語及びそれに後続する1または複数の単語の音声(2回目の音声)を発声する。2回目の音声が音声入力手段2に入力する(ステップST21)と、音声入力手段2は2回目の音声の音声信号(2回目の音声信号)を出力する。訂正キーの入力があった場合、音声入力手段2は音声信号の出力先を第1のモデル照合手段4から第2のモデル照合手段22に変更するため、音声入力信号2から出力された2回目の音声信号は、第2のモデル照合手段22に入力する。
【0066】
第2のモデル照合手段22は、2回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い(ステップST22)、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得て、それを認識結果入れ替え手段25に出力する。認識結果入れ替え手段25は、第2のモデル照合手段22で得られた2回目の音声信号の照合結果を記憶する(ステップST23)。また、部分区間記憶手段23は、第2のモデル照合手段22から出力された、第2のモデル照合手段22で照合対象となった2回目の音声信号を記憶する(ステップST24)。
【0067】
スポッティング手段24は、音声信号記憶手段5に記憶されている1回目の音声信号と、部分区間記憶手段23に記憶されている2回目の音声信号との間で連続DPマッチングによるスポッティング処理を行い(ステップST25)、1回目の音声信号のそれぞれの部分区間と2回目の音声信号のそれぞの部分区間との間の音響的類似度を求め、それを認識結果入れ替え手段25に出力する。
【0068】
認識結果入れ替え手段25は、音響的類似度が高い1回目の音声信号の部分区間と2回目の音声信号の部分区間とを検出し(ステップST26)、M=1とした(ステップST27)後、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST28)、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加し(ステップST29)、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示する(ステップST30)。
【0069】
発声者は、認識結果表示手段9に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST31)、正しいとき、確定キーを押し、1回目の音声の認識結果及び2回目の音声の認識結果を確定する。認識結果入れ替え手段25は、確定した1回目の音声の認識結果及び2回目の音声の認識結果を出力する(ステップST32)。
【0070】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段25は、検出された2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST33)、下位の候補がある場合、M=2とした(ステップST34)後、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する2位の候補に入れ替え(ステップST28)、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示する(ステップST30)。
【0071】
その後、1回目の音声の正しい認識結果が認識結果表示手段9に表示されるまで、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対する下位の候補に入れ替えられ、下位の候補がなくなった場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0072】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声しようとして「神奈川県横浜市中区」まで発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区石川町」と発声した場合について説明する。
【0073】
発声者が「神奈川県横浜市中区」まで発声したとき、図5に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「西区」が得られ、認識結果入れ替え手段25に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段9に表示された。
【0074】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区石川町」と発声すると、図11に示すように、第2のモデル照合手段22により、音声入力手段2から出力された2回目の音声信号S2から2回目の音声中の2つの単語に対応する2つの部分区間S21,S22が検出され、部分区間S21に対する1位の候補として「中区」、2位の候補として「多摩区」、3位の候補として「西区」、部分区間S22に対する1位の候補として「石川町」が得られ、認識結果入れ替え手段25に記憶された。また、スポッティング手段24により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞの部分区間S11〜S13と2回目の音声信号S2のそれぞれの部分区間S21,S22との間の音響的類似度が求められた。また、図11に示すように、認識結果入れ替え手段25により、音響的類似度が高い1回目の音声信号S1の部分区間S13と2回目の音声信号S2の部分区間S21とが検出された。そして、図11に示すように、認識結果入れ替え手段25により、検出された1回目の音声信号S1の部分区間S13に対する候補である「西区」が、検出された2回目の音声信号S2の部分区間S21に対する1位の候補である「中区」に入れ替えられ、検出されなかった2回目の音声信号S2の部分区間S22に対する候補である「石川町」がそれに付加され、新たな1回目の音声の認識結果と2回目の音声の認識結果である「神奈川県横浜市中区石川町」が認識結果表示手段9に表示された。
【0075】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果及び2回目の音声の認識結果が確定し、確定した1回目の音声の認識結果及び2回目の音声の認識結果が認識結果入れ替え手段25から出力された。
【0076】
以上のように、この実施の形態2によれば、1回目の音声が誤認識された場合、1回目の音声中の誤認識された単語及びそれに後続する1または複数の単語の音声を2回目の音声として発声し、誤認識された単語を修正するため、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0077】
なお、1回目の音声信号S1の部分区間S13と、2回目の音声信号S2の部分区間S21及びS22を合わせた区間との間の音響的類似度が高い場合、2回目の音声信号S2の部分区間S21及びS22が1つの単語に対応する部分区間であるとして、実施の形態1の場合のように処理される。すなわち、1回目の音声信号S1の部分区間S13に対する候補が、2回目の音声信号S2の部分区間S21及びS22に対する候補に入れ替えられる。具体的には、1回目の音声信号S1の部分区間S13に対する候補である「西区」が、2回目の音声信号S2の部分区間S21及びS22に対する候補である「中区石川町」に入れ替えられる。
【0078】
実施の形態3.
音声認識では声質、発声様態などにより誤認識されやすい単語が存在するため、1回目の音声の認識結果に生じた誤認識と同じ誤認識が2回目の音声の認識結果に生じる場合がある。実施の形態3では、このような場合でも誤認識された単語を効率的に修正することができるように構成した場合について説明する。
【0079】
実施の形態3の音声認識装置の構成は、図8に示す実施の形態2の音声認識装置の構成と同様である。ただし、実施の形態3の音声認識装置では、認識結果入れ替え手段25は、1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、音響的類似度が高い1回目の音声信号の部分区間と2回目の音声信号の部分区間とを検出し、検出された1回目の音声信号の部分区間に対する候補をその候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加して、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、検出された1回目の音声信号の部分区間に対する候補をその候補と異なる検出された2回目の音声信号の部分区間に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果及び2回目の音声の認識結果を確定し、確定した1回目の音声の認識結果及び2回目の音声の認識結果を出力するものである。
【0080】
次に動作について説明する。
図12はこの発明の実施の形態3による音声認識装置の動作の説明に供するフローチャートである。
【0081】
ステップST25までは、実施の形態2の場合と同様に行う。
認識結果入れ替え手段25は、音響的類似度が高い1回目の音声信号の部分区間と2回目の音声信号の部分区間とを検出し(ステップST41)、M=1とした(ステップST42)後、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対する1位の候補と同じでか否かを判断し(ステップST43)、同じでないとき、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST44)、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加し(ステップST45)、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示する(ステップST46)。
【0082】
なお、認識結果入れ替え手段25は、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対するM位の候補と同じであるとき、検出された2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST47)、下位の候補がある場合、M=M+1とした(ステップST48)後、ステップST43に戻る。下位の候補がない場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0083】
発声者は、認識結果表示手段9に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST49)、正しいとき、確定キーを押し、1回目の音声の認識結果及び2回目の音声の認識結果を確定する。認識結果入れ替え手段25は、確定した1回目の音声の認識結果及び2回目の音声の認識結果を出力する(ステップST50)。
【0084】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段25は、検出された2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST51)、下位の候補がある場合、M=2とした(ステップST52)後、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対する2位の候補と同じか否かを判断する(ステップST43)。
【0085】
その後、1回目の音声の正しい認識結果が認識結果表示手段9に表示されるまで、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対する下位の候補に入れ替えられ、下位の候補がなくなった場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0086】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声しようとして「神奈川県横浜市中区」まで発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区石川町」と発声した場合について説明する。
【0087】
発声者が「神奈川県横浜市中区」まで発声したとき、図5に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「西区」が得られ、認識結果入れ替え手段25に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段9に表示された。
【0088】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区石川町」と発声すると、図13に示すように、第2のモデル照合手段22により、音声入力手段2から出力された2回目の音声信号S2から2回目の音声中の2つの単語に対応する2つの部分区間S21,S22が検出され、部分区間S21に対する1位の候補として「西区」、2位の候補として「中区」、3位の候補として「多摩区」、部分区間S22に対する1位の候補として「石川町」が得られ、認識結果入れ替え手段25に記憶された。また、スポッティング手段24により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S13と2回目の音声信号S2のそれぞれの部分区間S21,S22との間の音響的類似度が求められた。また、図13に示すように、認識結果入れ替え手段25により、音響的類似度が高い1回目の音声信号S1の部分区間S13と2回目の音声信号S2の部分区間S21とが検出された。そして、図13に示すように、検出された1回目の音声信号S1の部分区間S13に対する候補が、検出された2回目の音声信号S2の部分区間S21に対する1位の候補と同じであるため、認識結果入れ替え手段25により、検出された1回目の音声信号S1の部分区間S13に対する候補である「西区」が、検出された2回目の音声信号S2の部分区間S21に対する2位の候補である「中区」に入れ替えられ、検出されなかった2回目の音声信号S2の部分区間S22に対する候補である「石川町」がそれに付加され、新たな1回目の音声の認識結果と2回目の音声の認識結果である「神奈川県横浜市中区石川町」が認識結果表示手段9に表示された。
【0089】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果及び2回目の音声の認識結果が確定し、確定した1回目の音声の認識結果及び2回目の音声の認識結果が認識結果入れ替え手段25から出力された。
【0090】
以上のように、この実施の形態3によれば、1回目の音声が誤認識された場合、1回目の音声中の誤認識された単語の音声を2回目の音声として発声し、誤認識された単語に対応する1回目の音声信号の部分区間に対する候補を、その候補と異なる、誤認識された単語に対応する2回目の音声信号の部分区間に対する候補に入れ替え、誤認識された単語を修正するため、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0091】
なお、この実施の形態では、音声認識装置の構成が実施の形態2の音声認識装置の構成と同様である場合について説明したが、実施の形態1の音声認識装置の構成と同様である場合であっても同様の効果が得られる。
【0092】
実施の形態4.
実施の形態4の音声認識装置の構成は、図1に示す実施の形態1の音声認識装置の構成と同様である。ただし、実施の形態4の音声認識装置では、単語辞書記憶手段3は、認識対象となる単語の情報を、接続関係を規定する構文規則に従って含む単語辞書を記憶するものである。
【0093】
また、認識結果入れ替え手段8は、1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を検出し、その部分区間に対する候補を、単語辞書中の構文規則に従ってその前後の部分区間に対する候補と接続可能な、2回目の音声信号の部分区間に対する候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、その部分区間に対する候補を、単語辞書中の構文規則に従ってその前後の部分区間に対する候補と接続可能な、2回目の音声信号の部分区間に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果を確定し、確定した1回目の音声の認識結果を出力するものである。
【0094】
次に動作について説明する。
図14はこの発明の実施の形態4による音声認識装置の動作の説明に供するフローチャートである。
【0095】
ステップST11までは、実施の形態1の場合と同様に行う。
認識結果入れ替え手段8は、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を検出し(ステップST61)、M=1とした(ステップST62)後、2回目の音声信号の部分区間に対する1位の候補が、単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能か否かを判断し(ステップST63)、接続可能であるとき、検出された1回目の音声信号の部分区間に対する候補を2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST64)、新たな1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST65)。
【0096】
なお、認識結果入れ替え手段8は、2回目の音声信号の部分区間に対するM位の候補が、単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続不可能であるとき、2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST66)、下位の候補がある場合、M=M+1とした(ステップST67)後、ステップST63に戻る。下位の候補がない場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0097】
発声者は、認識結果表示手段9に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST68)、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段8は、確定した1回目の音声の認識結果を出力する(ステップST69)。
【0098】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段8は、2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST70)、下位の候補がある場合、M=2とした(ステップST71)後、2回目の音声信号の部分区間に対する2位の候補が、単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能か否かを判断する(ステップST63)。
【0099】
その後、1回目の音声の正しい認識結果が認識結果表示手段9に表示されるまで、検出された1回目の音声信号の部分区間に対する候補が2回目の音声信号の部分区間に対する下位の候補に入れ替えられ、下位の候補がなくなった場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0100】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区」と発声した場合について説明する。また、単語辞書記憶手段3には、認識対象となる単語の情報が接続関係を矢印で表わす図15に示す構文規則に従って含まれた単語辞書が記憶されているものとする。
【0101】
発声者が「神奈川県横浜市中区」と発声したとき、図5に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「西区」が得られ、認識結果入れ替え手段8に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段9に表示された。
【0102】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区」と発声すると、図16に示すように、第2のモデル照合手段6により、音声入力手段2から出力された2回目の音声信号S2から1つの部分区間S21が検出され、1位の候補として「多摩区」、2位の候補として「中区」、3位の候補として「西区」が得られ、認識結果入れ替え手段8に記憶された。また、スポッティング手段7により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S13と2回目の音声信号S2の部分区間S21との間の音響的類似度が求められた。また、図16に示すように、認識結果入れ替え手段8により、2回目の音声信号S2の部分区間S21と音響的類似度が高い1回目の音声信号S1の部分区間S13が検出された。そして、図15に示すように、2回目の音声信号S2の部分区間S21に対する1位の候補である「多摩区」が、検出された1回目の音声信号S1の部分区間S13前の部分区間S12に対する候補である「横浜市」と接続不可能であり、2回目の音声信号S2の部分区間S21に対する2位の候補である「中区」が、検出された1回目の音声信号S1の部分区間S13前の部分区間S12に対する候補である「横浜市」と接続可能であるため、図16に示すように、認識結果入れ替え手段8により、検出された1回目の音声信号S1の部分区間S13に対する候補である「西区」が、2回目の音声信号S2の部分区間S21に対する2位の候補である「中区」に入れ替えられ、新たな1回目の音声の認識結果である「神奈川県横浜市中区」が認識結果表示手段9に表示された。
【0103】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果が確定し、確定した1回目の音声の認識結果が認識結果入れ替え手段8から出力された。
【0104】
以上のように、この実施の形態4によれば、1回目の音声が誤認識された場合、1回目の音声中の誤認識された単語の音声を2回目の音声として発声し、誤認識された単語に対応する1回目の音声信号の部分区間に対する候補を、単語辞書中の構文規則に従って、誤認識された単語に対応する2回目の音声信号に対する候補に入れ替え、誤認識された単語を修正するため、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0105】
なお、この実施の形態では、音声認識装置の構成が実施の形態1の音声認識装置の構成と同様である場合について説明したが、実施の形態2の音声認識装置の構成と同様である場合であっても同様の効果が得られる。
【0106】
実施の形態5.
実施の形態1では、連続DPマッチングにより求められた音響的類似度から1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替える場合について説明した。実施の形態5では、音響的類似度と照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替える場合について説明する。
【0107】
実施の形態5の音声認識装置の構成は、図1に示す実施の形態1の音声認識装置の構成と同様である。ただし、実施の形態5の音声認識装置では、第1のモデル照合手段4は、1回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間でモデル照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものである。
【0108】
また、認識結果入れ替え手段8は、1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、1回目の音声信号の部分区間毎に、2回目の音声信号の部分区間との音響的類似度と照合スコアとの差分スコアを求め、差分スコアが高い1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、その部分区間に対する候補を2回目の音声信号に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果を確定し、確定した1回目の音声の認識結果を出力するものである。
【0109】
次に動作について説明する。
図17及び図18はこの発明の実施の形態5による音声認識装置の動作の説明に供するフローチャートである。
【0110】
発声者が複数の認識対象となる単語の音声(1回目の音声)を発声し、1回目の音声が音声入力手段2に入力する(ステップST81)と、音声入力手段2は1回目の音声の音声信号(1回目の音声信号)を出力する。音声入力手段2から出力された1回目の音声信号は、第1のモデル照合手段4に入力する。第1のモデル照合手段4は、1回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い(ステップST82)、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得るとともに、1回目の音声信号の部分区間毎に照合スコアを求め、それらを認識結果入れ替え手段8に出力する。
その後、ステップST3からステップST11までを実施の形態1の場合と同様に行う。
【0111】
認識結果入れ替え手段8は、1回目の音声信号の部分区間毎に、2回目の音声信号の部分区間との音響的類似度と照合スコアとの差分スコアを求め(ステップST83)、差分スコアが高い1回目の音声信号の部分区間を検出し(ステップST84)、M=1とした(ステップST85)後、その部分区間に対する候補を2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST86)、新たな1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST87)。
その後、ステップST16からステップST19までを実施の形態1の場合と同様に行う。
【0112】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市南区本牧」と発声したとき、「本牧」が「中里」と誤認識されたため、新たに「本牧」と発声した場合について説明する。また、照合スコア及び音響的類似度が0〜1000までの範囲の数値で表わされ、数値が大きいほど、照合の度合いや類似の度合いが高いものとする。
【0113】
発声者が「神奈川県横浜市南区本牧」と発声したとき、図19に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の4つの単語に対応する4つの部分区間S11〜S14が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「南区」、部分区間S14に対する1位の候補として「中里」が得られ、認識結果入れ替え手段8に記憶された。また、図19に示すように、第1のモデル照合手段4により、1回目の音声信号S1の部分区間S11〜S14毎に、照合スコアC2[i]が、それぞれ「800」、「750」、「800」、「400」と求められた。部分区間S14は1回目の音声中の誤認識された単語に対応する部分区間であるため、部分区間S14の照合スコアが他の部分区間の照合スコアより小さい値となっている。また、「神奈川県横浜市南区中里」と認識結果表示手段9に表示された。
【0114】
この場合、「本牧」が「中里」と誤認識されたため、発声者が訂正キーを押し、新たに「本牧」と発声すると、図19に示すように、第2のモデル照合手段6により、音声入力手段2から出力された2回目の音声信号S2から1つの部分区間S21が検出され、1位の候補として「本牧」、2位の候補として「中区」、3位の候補として「多摩区」が得られ、認識結果入れ替え手段8に記憶された。また、図19に示すように、スポッティング手段7により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S14と2回目の音声信号S2の部分区間S21との間の音響的類似度C1[i]が、それぞれ「100」、「150」、「800」、「780」と求められた。また、図19に示すように、認識結果入れ替え手段8により、1回目の音声信号S1の部分区間S11〜S14毎に、2回目の音声信号S2の部分区間S21との音響的類似度と照合スコアとの差分スコアC3[i]が、それぞれ「−700」、「−600」、「0」、「380」と求められ、差分スコアが高い1回目の音声信号S1の部分区間S14が検出された。そして、図19に示すように、認識結果入れ替え手段8により、検出された1回目の音声信号S1の部分区間S14に対する候補である「中里」が、2回目の音声信号S2の部分区間S21に対する1位の候補である「本牧」に入れ替えられ、新たな1回目の音声の認識結果である「神奈川県横浜市南区本牧」が認識結果表示手段9に表示された。
【0115】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果が確定し、確定した1回目の音声の認識結果が認識結果入れ替え手段8から出力された。
【0116】
ここで照合スコアについて説明する。
図20は「神奈川県横浜市南区本牧」と発声したときに得られた音声信号と、「神奈川県」、「横浜市」、「南区」、「中里」という単語の情報を連続して含む単語辞書との間にモデル照合処理を行った結果を示したものである。横軸は音声信号を表わし、tフレームという単位で表わす。縦軸は単語辞書を表わし、u状態という単位で表わす。音声信号は全体でTフレーム存在し、単語辞書は全体でU状態存在する。
【0117】
音声信号は発声により長さが変化し、部分的にも伸縮する。このため、モデル照合処理する際に、音声信号と単語辞書との対応関係を演算して最適な対応関係を求める。この対応関係はダイナミックプログラミング、あるいはビタビ演算と呼ばれる演算方法により効率よく計算することができる。このようにして音声信号のフレームtと単語辞書の状態uとの最適な対応関係を示したものが図20中の最適経路である。状態uに対するフレームtの最適な対応関係を(1)式で示す。
【0118】
u=G(t) ・・・(1)
【0119】
一方、フレームtの音声信号と状態uの単語辞書との音響的類似度を局所距離D(t,u)で表わす。局所距離は値が小さい程、音声信号と単語辞書との音響的類似度が高いことを意味する。単語iの照合スコアC2[i]は単語iに属する最適経路上の局所距離をフレームについて平均したものである。図20に示すように単語iに属する状態と対応する音声信号のフレームをts(i)からte(i)であるとすると、単語iに対する照合スコアC2[i]は(2)式で演算される。
【0120】
【数1】
【0121】
以上のように、この実施の形態5によれば、1回目の音声が誤認識された場合、音響的類似度と照合スコアとを用いて、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替えるので、音声信号のゆらぎなどにより、誤認識された単語に対応する部分区間と異なる部分区間の音響的類似度が高くなった場合でも、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0122】
なお、この実施の形態では、音響的類似度と照合スコアとの差分スコアを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間を検出する場合について説明したが、別の演算手法から得られる値を用いて誤認識された単語に対応する部分区間を検出する場合であっても同様の効果が得られる。
【0123】
また、この実施の形態では、音声認識装置の構成が実施の形態2の音声認識装置の構成と同様である場合について説明したが、実施の形態1の音声認識装置の構成と同様である場合であっても同様の効果が得られる。
【0124】
上述した各実施の形態で説明した音声認識装置及び音声認識方法は、コンピュータに音声認識プログラムを組み込むことによっても得られる。
【0125】
【発明の効果】
以上のように、この発明によれば、認識対象となる単語の情報を含む単語辞書を記憶する単語辞書記憶手段と、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合手段と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合手段と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング手段と、スポッティング手段で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え手段とを備えるように音声認識装置を構成したので、効率的に誤認識された部分を修正することができる音声認識装置が得られる効果がある。
【0126】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え手段を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識装置を構成したので、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0127】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え手段を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするように音声認識装置を構成したので、誤認識された単語及びそれに後続する1または複数の単語の音声を2回目の音声として発声した場合でも、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0128】
この発明によれば、認識結果入れ替え手段を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識装置を構成したので、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0129】
この発明によれば、単語辞書記憶手段を、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書を記憶するものとし、認識結果入れ替え手段を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識装置を構成したので、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0130】
この発明によれば、第1の照合手段を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え手段を、スポッティング手段で得られた音響的類似度と第1の照合手段で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識装置を構成したので、音声信号のゆらぎなどにより、誤認識された部分に対応する部分区間と異なる部分区間の音響的類似度が高くなった場合でも、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0131】
この発明によれば、1回目の音声信号と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合工程と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合工程と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング工程と、スポッティング工程で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え工程とを備えるように音声認識方法を構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0132】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え工程を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識方法を構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0133】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え工程を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするように音声認識方法を構成したので、誤認識された単語及びそれに後続する1または複数の単語の音声を2回目の音声として発声した場合でも、誤認識された部分を効率的に修正することができる音声認識方法が得られる効果がある。
【0134】
この発明によれば、認識結果入れ替え工程を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識方法を構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0135】
この発明によれば、認識結果入れ替え工程を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識方法を構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0136】
この発明によれば、第1の照合工程を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え工程を、スポッティング工程で得られた音響的類似度と第1の照合工程で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識方法を構成したので、音声信号のゆらぎなどにより、誤認識された部分に対応する部分区間と異なる部分区間の音響的類似度が高くなった場合でも、誤認識された部分を効率的に修正することができる音声認識方法が得られる効果がある。
【0137】
この発明によれば、コンピュータに、1回目の音声信号と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合機能と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合機能と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング機能と、スポッティング機能で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え機能とを実現させるものであるように音声認識プログラムを構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0138】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え機能を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識プログラムを構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0139】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え機能を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするように音声認識プログラムを構成したので、誤認識された単語及びそれに後続する1または複数の単語の音声を2回目の音声として発声した場合でも、誤認識された部分を効率的に修正することができる音声認識プログラムが得られる効果がある。
【0140】
この発明によれば、認識結果入れ替え機能を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識プログラムを構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0141】
この発明によれば、認識結果入れ替え機能を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識プログラムを構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0142】
この発明によれば、第1の照合機能を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え機能を、スポッティング機能で得られた音響的類似度と第1の照合機能で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識プログラムを構成したので、音声信号のゆらぎなどにより、誤認識された部分に対応する部分区間と異なる部分区間の音響的類似度が高くなった場合でも、誤認識された部分を効率的に修正することができる音声認識プログラムが得られる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】 この発明の実施の形態1による音声認識装置の動作の説明に供するフローチャートである(その1)。
【図3】 この発明の実施の形態1による音声認識装置の動作の説明に供するフローチャートである(その2)。
【図4】 この発明の実施の形態1による音声認識装置の動作の説明に供するフローチャートである(その3)。
【図5】 この発明の実施の形態1による音声認識装置の具体的な動作の説明に供する図である(その1)。
【図6】 この発明の実施の形態1による音声認識装置の具体的な動作の説明に供する図である(その2)。
【図7】 この発明の実施の形態1による音声認識装置の具体的な動作の説明に供する図である(その3)。
【図8】 この発明の実施の形態2による音声認識装置の構成を示すブロック図である。
【図9】 この発明の実施の形態2による音声認識装置の動作の説明に供するフローチャートである(その1)。
【図10】 この発明の実施の形態2による音声認識装置の動作の説明に供するフローチャートである(その2)。
【図11】 この発明の実施の形態2による音声認識装置の具体的な動作の説明に供する図である。
【図12】 この発明の実施の形態3による音声認識装置の動作の説明に供するフローチャートである。
【図13】 この発明の実施の形態3による音声認識装置の具体的な動作の説明に供する図である。
【図14】 この発明の実施の形態4による音声認識装置の動作の説明に供するフローチャートである。
【図15】 この発明の実施の形態4による音声認識装置の単語辞書記憶手段に記憶されている単語辞書の状態図である。
【図16】 この発明の実施の形態4による音声認識装置の具体的な動作の説明に供する図である。
【図17】 この発明の実施の形態5による音声認識装置の動作の説明に供するフローチャートである(その1)。
【図18】 この発明の実施の形態5による音声認識装置の動作の説明に供するフローチャートである(その2)。
【図19】 この発明の実施の形態5による音声認識装置の具体的な動作の説明に供する図である。
【図20】 照合スコアの算出方法の説明に供する図である。
【図21】 特開平4−181299号公報に示された従来の音声認識装置の構成を示すブロック図である。
【図22】 音声認識装置の認識対象の具体例を示す図である。
【図23】 従来の音声認識装置の具体的な動作の説明に供する図である(その1)。
【図24】 従来の音声認識装置の具体的な動作の説明に供する図である(その2)。
【図25】 従来の音声認識装置の具体的な動作の説明に供する図である(その3)。
【図26】 従来の音声認識装置の具体的な動作の説明に供する図である(その4)。
【符号の説明】
1,21 音声認識装置、2 音声入力手段、3 単語辞書記憶手段、4 第1のモデル照合手段、5 音声信号記憶手段、6,22 第2のモデル照合手段、7,24 スポッティング手段、8,25 認識結果入れ替え手段、9 認識結果表示手段、23 部分区間記憶手段。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice recognition device, a voice recognition method, and a voice recognition program.
[0002]
[Prior art]
The voice recognition device is an efficient data input means. However, when the voice uttered by the speaker is misrecognized, there is a problem that it takes time to correct the misrecognized portion. For this reason, in the speech recognition apparatus, means for easily correcting a misrecognized portion is required.
[0003]
FIG. 21 is a block diagram showing the configuration of a conventional speech recognition apparatus disclosed in Japanese Patent Laid-Open No. 4-181299. In the figure, 101 is a voice recognition device, 102 is a voice input means for outputting the inputted voice as a voice signal, 103 is a word dictionary storage means for storing a word dictionary including information of words to be recognized, and 104 is a voice input. Between a speech signal (first speech signal) of a plurality of recognition target words input to the means 102 (first speech signal) and the word dictionary stored in the word dictionary storage means 103 Model matching means for performing model matching processing, detecting partial sections corresponding to the respective words in the first speech from the first speech signal, and obtaining one or a plurality of candidates for each partial section by ranking;
[0004]
The
[0005]
Next, the operation will be described.
When a speaker utters a plurality of recognition target words (first speech) and the first speech is input to the
[0006]
The speaker sees the recognition result of the first speech displayed on the recognition result display means 108, determines whether or not it is correct, and when it is correct, presses the confirm key to display the recognition result of the first speech. Determine. The recognition result replacing means 107 outputs the confirmed first speech recognition result.
[0007]
When the recognition result of the first voice displayed on the recognition result display means 108 is not correct, the speaker presses the correction key and the voice of the erroneously recognized word in the first voice (second voice). Speak. When the second voice is input to the voice input means 102, the voice input means 102 outputs a voice signal (second voice signal) of the second voice. When the correction key is input, the
[0008]
The spotting means 106 performs spotting processing by continuous DP matching between the first audio signal stored in the audio signal storage means 105 and the second audio signal, and each partial section of the first audio signal. And the second sound signal are obtained and output to the recognition result switching means 107.
[0009]
The recognition
[0010]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 108, determines whether or not it is correct, and when it is correct, presses the confirm key to recognize the first voice. Confirm the result. The recognition result replacing means 107 outputs the confirmed first speech recognition result.
[0011]
When the new first speech recognition result displayed on the recognition result display means 108 is not correct, the speaker presses the next candidate key. The recognition
[0012]
When the correct candidate is not included in the detected candidates for the partial section of the first speech signal, the speaker presses the correction key to cancel the first speech signal and utter the first speech. cure.
[0013]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Ishikawa-cho, Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” was misrecognized as “Nishi-ku”. A case where “ku” is spoken will be described.
[0014]
When the speaker utters “Naka Ward, Yokohama, Kanagawa”, the
[0015]
In this case, since “Naka Ward” is misrecognized as “Nishi Ward”, the speaker presses the correction key and newly speaks “Naka Ward”. Spotting processing by continuous DP matching was performed with the audio signal S2, and the acoustic similarity between each of the partial sections S11 to S13 of the first audio signal S1 and the second audio signal S2 was obtained. . Further, as shown in FIG. 24, the recognition result exchanging means 107 detects the partial section S13 of the first audio signal S1 having a high acoustic similarity with the second audio signal S2. Then, as shown in FIG. 25, “Nishi-ku”, which is the first candidate for the partial section S13 of the first audio signal S1 detected by the recognition
[0016]
Since the recognition result of the new first voice displayed on the recognition result display means 108 is not correct, when the speaker presses the next candidate key, it is detected by the recognition result replacement means 107 as shown in FIG. “Tama Ward” that is the second candidate for the partial section S13 of the first audio signal S1 has been replaced with “Naka Ward” that is the third candidate. Then, “Naka Ward, Yokohama-shi, Kanagawa”, which is a candidate for the new first speech recognition result, is displayed on the recognition result display means 108.
[0017]
Since the new first speech recognition result displayed on the recognition result display means 108 is correct, when the speaker presses the confirmation key, the first speech recognition result is confirmed, and the confirmed first speech recognition is performed. The result is output from the recognition result switching means 107.
[0018]
[Problems to be solved by the invention]
Since the conventional speech recognition apparatus is configured as described above, if the correct candidate is not included in the candidates for the partial section of the first speech signal corresponding to the erroneously recognized portion, the first time There was a problem that the voice signal had to be canceled and the first voice had to be uttered again.
[0019]
Also, if you try to utter a long sentence continuously and break it in the middle, and a misrecognition occurs at that time, humans tend to utter the sentence that follows the misrecognized part, but conventional speech recognition Since the apparatus presupposes that only the voice of the erroneously recognized part is newly uttered, there has been a problem that the erroneously recognized part cannot be corrected correctly in such a case.
[0020]
The present invention has been made to solve the above-described problems, and an object thereof is to obtain a voice recognition device, a voice recognition method, and a voice recognition program that can efficiently correct a misrecognized portion. .
[0021]
[Means for Solving the Problems]
The speech recognition apparatus according to the present invention performs a collation process between a word dictionary storage unit that stores a word dictionary including information on a word to be recognized, a first speech signal and a word dictionary, and performs a first speech A partial section corresponding to each word in the first speech is detected from the signal, and a matching process is performed between the first collating means for obtaining candidates for each partial section, and the second speech signal and the word dictionary. And a second collating unit for detecting a partial section corresponding to each word in the second speech from the second speech signal and obtaining a candidate for each partial section, and each part of the first speech signal Spotting means for obtaining the acoustic similarity between the section and each partial section of the second speech signal, and the erroneous recognition in the first speech using the acoustic similarity obtained by the spotting means single Are detected for the first segment of the first audio signal and the second segment of the second audio signal, and the candidates for the first segment of the first audio signal are detected. A recognition result replacement means for replacing with a candidate for The word dictionary storage means stores a word dictionary including information of words to be recognized in accordance with a syntax rule that defines a connection relationship, and the recognition result replacement means is erroneously recognized in the first speech. And detecting a partial section of the first speech signal and a second section of the second speech signal corresponding to the detected word, and candidates for the detected second section of the speech signal are determined according to the syntax rules in the word dictionary. It is determined whether or not it is possible to connect with a candidate for a partial section before and after the detected partial section of the first audio signal, and a candidate for the detected partial section of the first audio signal is determined as a partial section before and after that. The candidate is replaced with a candidate for a partial section of the detected second audio signal connectable with a candidate for Is.
[0022]
In the speech recognition apparatus according to the present invention, when the second speech consists only of speech of a misrecognized word in the first speech, the recognition result replacing means is acoustically connected with the partial section of the second speech signal. A partial section of the first speech signal having a high similarity is detected as a partial section of the first speech signal corresponding to a misrecognized word in the first speech, and a portion of the detected first speech signal The candidate for the section is replaced with the candidate for the partial section of the second audio signal.
[0023]
In the speech recognition apparatus according to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacing means is acoustically similar. The first segment of the first speech signal and the second segment of the second speech signal, which have a high degree, are divided into the first segment of the first speech signal and the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the partial section of the second audio signal not detected A candidate for is to be added to it.
[0024]
In the speech recognition apparatus according to the present invention, the recognition result switching means detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech, It is determined whether the candidate for the detected second section of the audio signal is the same as the candidate for the detected first section of the audio signal, and the candidate for the detected first section of the audio signal is determined. Is replaced with a candidate for a partial section of the detected second audio signal different from the candidate.
[0026]
In the speech recognition apparatus according to the present invention, the first collating unit performs collation processing between the first speech signal and the word dictionary, and corresponds to each word in the first speech from the first speech signal. And detecting candidates for each partial section, obtaining a matching score for each partial section of the first speech signal, and replacing the recognition result replacement means with the acoustic similarity obtained by the spotting means And a partial section of the first speech signal and a partial section of the second speech signal corresponding to the misrecognized word in the first speech, using the collation score obtained by the first collation means The candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal.
[0027]
The speech recognition method according to the present invention performs a collation process between a first speech signal and a word dictionary including information on a word to be recognized, and each word in the first speech from the first speech signal. The first matching step for detecting the partial sections corresponding to each of the partial sections, and performing a matching process between the second speech signal and the word dictionary, and obtaining a candidate for each partial section. A second matching step for detecting a partial section corresponding to each word in the speech and obtaining a candidate for each partial section, each partial section of the first speech signal, and each of the second speech signal A spotting step for obtaining the acoustic similarity between the partial sections, and a portion of the first speech signal corresponding to the erroneously recognized word in the first speech using the acoustic similarity obtained in the spotting step section Detecting a subinterval beauty second audio signal, a candidate for the subinterval of the detected first audio signal, and a recognition result replacement step replacing the candidate for subinterval of the detected second audio signal The recognition result switching step detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech, and the detected second speech Candidates for the partial section of the signal are for the partial sections before and after the detected partial section of the first speech signal according to the syntax rule in the word dictionary including the information of the word to be recognized according to the syntax rule defining the connection relation. It is determined whether or not it is connectable with the candidate, and the candidate for the detected first segment of the audio signal is connected to the candidate for the second and subsequent partial segments of the detected second audio signal. To replace candidates for It is a thing.
[0028]
In the speech recognition method according to the present invention, when the second speech consists only of speech of a misrecognized word in the first speech, the recognition result replacement step is acoustically separated from the second segment of the speech signal. A partial section of the first speech signal having a high similarity is detected as a partial section of the first speech signal corresponding to a misrecognized word in the first speech, and a portion of the detected first speech signal The candidate for the section is replaced with the candidate for the partial section of the second audio signal.
[0029]
In the speech recognition method according to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacement step is acoustically similar. The first segment of the first speech signal and the second segment of the second speech signal, which have a high degree, are divided into the first segment of the first speech signal and the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the partial section of the second audio signal not detected A candidate for is to be added to it.
[0030]
The speech recognition method according to the present invention detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech in the recognition result replacement step, It is determined whether the candidate for the detected second section of the audio signal is the same as the candidate for the detected first section of the audio signal, and the candidate for the detected first section of the audio signal is determined. Is replaced with a candidate for a partial section of the detected second audio signal different from the candidate.
[0032]
In the speech recognition method according to the present invention, the first matching step is performed by performing a matching process between the first speech signal and the word dictionary, and corresponding to each word in the first speech from the first speech signal. And detecting candidates for each partial section, obtaining a matching score for each partial section of the first speech signal, and replacing the recognition result with the acoustic similarity obtained in the spotting process And a partial section of the first speech signal and a partial section of the second speech signal corresponding to the misrecognized word in the first speech using the matching score obtained in the first matching step. The candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal.
[0033]
The speech recognition program according to the present invention performs a collation process between a first speech signal and a word dictionary including information on a word to be recognized in a computer. The first collation function that detects partial sections corresponding to the respective words and obtains candidates for the respective partial sections, and performs collation processing between the second speech signal and the word dictionary, and from the second speech signal A second collation function that detects partial sections corresponding to the respective words in the second speech and obtains candidates for the respective partial sections, each partial section of the first speech signal, and the second speech signal A spotting function for obtaining the acoustic similarity between each of the sub-sections of the first time, and one time corresponding to a misrecognized word in the first speech using the acoustic similarity obtained by the spotting function Recognition to detect a partial section of the first audio signal and a partial section of the second audio signal, and replace a candidate for the detected first section of the audio signal with a candidate for the detected second section of the audio signal Realize the result replacement function The recognition result switching function detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech, and the detected second speech Candidates for the partial section of the signal are for the partial sections before and after the detected partial section of the first speech signal according to the syntax rule in the word dictionary including the information of the word to be recognized according to the syntax rule defining the connection relation. It is determined whether or not it is connectable with the candidate, and the candidate for the detected first segment of the audio signal is connected to the candidate for the second and subsequent partial segments of the detected second audio signal. To replace candidates for Is.
[0034]
In the speech recognition program according to the present invention, in the case where the second speech is composed only of the speech of the misrecognized word in the first speech, the recognition result replacement function is acoustically combined with the partial section of the second speech signal. A partial section of the first speech signal having a high similarity is detected as a partial section of the first speech signal corresponding to a misrecognized word in the first speech, and a portion of the detected first speech signal The candidate for the section is replaced with the candidate for the partial section of the second audio signal.
[0035]
In the speech recognition program according to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words following it, the recognition result replacement function is acoustically similar. The first segment of the first speech signal and the second segment of the second speech signal, which have a high degree, are divided into the first segment of the first speech signal and the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the partial section of the second audio signal not detected A candidate for is to be added to it.
[0036]
The speech recognition program according to the present invention detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech by using the recognition result replacement function, It is determined whether the candidate for the detected second section of the audio signal is the same as the candidate for the detected first section of the audio signal, and the candidate for the detected first section of the audio signal is determined. Is replaced with a candidate for a partial section of the detected second audio signal different from the candidate.
[0038]
The speech recognition program according to the present invention performs the collation process between the first speech signal and the word dictionary for the first collation function, and handles each word in the first speech from the first speech signal. In addition to obtaining candidates for each partial section, obtaining a matching score for each partial section of the first speech signal, the recognition result replacement function is obtained by using the acoustic similarity obtained by the spotting function. And a partial section of the first speech signal and a second section of the second speech signal corresponding to the misrecognized word in the first speech using the collation score obtained by the first collation function The candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal.
[0039]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described below.
1 is a block diagram showing a configuration of a speech recognition apparatus according to
[0040]
The voice input means 2 changes the output destination of the voice signal from the first model matching means 4 to the second model matching means 6 and the spotting means 7 when a correction key is input.
[0041]
Next, the operation will be described.
2 to 4 are flowcharts for explaining the operation of the speech recognition apparatus according to the first embodiment of the present invention.
[0042]
When the speaker utters a plurality of recognition target words (first speech) and the first speech is input to the speech input means 2 (step ST1), the speech input means 2 receives the first speech. An audio signal (first audio signal) is output. The first audio signal output from the
[0043]
The speaker sees the recognition result of the first voice displayed on the recognition result display means 9 and determines whether or not it is correct (step ST6). Confirm the recognition result. The recognition result replacement means 8 outputs the confirmed first speech recognition result (step ST7).
[0044]
When the recognition result of the first voice displayed on the recognition result display means 9 is not correct, the speaker presses the correction key and the voice of the erroneously recognized word in the first voice (second voice). Speak. When the second voice is input to the voice input means 2 (step ST8), the voice input means 2 outputs a voice signal (second voice signal) of the second voice. When there is an input of the correction key, the voice input means 2 changes the output destination of the voice signal from the first model matching means 4 to the second model matching means 6 and the spotting means 7, so that the output from the voice input means 2 is performed. The second audio signal thus inputted is inputted to the second model matching means 6 and the spotting means 7.
[0045]
The second model matching means 6 performs model matching processing by continuous DP matching between the second speech signal and the word dictionary stored in the word dictionary storage means 3 (step ST9), and the second speech signal. One partial section is detected, one or a plurality of candidates are obtained by ranking, and are output to the recognition
[0046]
The spotting means 7 performs spotting processing by continuous DP matching between the first audio signal stored in the audio signal storage means 5 and the second audio signal (step ST11). The acoustic similarity between each partial section and the partial section of the second audio signal is obtained and output to the recognition
[0047]
The recognition
[0048]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 9 to determine whether or not it is correct (step ST16). Confirm the speech recognition result. The recognition
[0049]
When the recognition result of the new first voice displayed on the recognition result display means 9 is not correct, the speaker presses the next candidate key. The recognition result replacement means 8 determines whether or not there is a lower candidate for the partial section of the second audio signal (step ST18), and if there is a lower candidate, M = 2 (step ST19), The detected candidate for the partial section of the first speech signal is replaced with the second candidate for the partial section of the second speech signal (step ST14), and the new first speech recognition result is displayed in the recognition result display means 9. Displayed (step ST15).
[0050]
Thereafter, until the correct recognition result of the first speech is displayed on the recognition result display means 9, the detected candidate for the partial section of the first speech signal is replaced with a lower candidate for the partial section of the second speech signal. If there are no lower candidates, the speaker presses the correction key to cancel the second sound signal and re-utter the second sound.
[0051]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Ishikawacho, Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” is misrecognized as “Nishi-ku”, so A case where “ku” is spoken will be described.
[0052]
When the speaker utters “Naka Ward, Yokohama, Kanagawa Prefecture”, the first
[0053]
In this case, since “Naka Ward” was misrecognized as “Nishi Ward”, when the speaker presses the correction key and newly speaks “Naka Ward”, as shown in FIG. One partial section S21 is detected from the second audio signal S2 output from the voice input means 2, and “Naka Ward” is selected as the first candidate, “Tama Ward” as the second candidate, and “Tama Ward” as the third candidate. “Nishi-ku” was obtained and stored in the recognition result replacement means 8. Further, the spotting means 7 performs spotting processing by continuous DP matching between the first audio signal S1 and the second audio signal S2, and the respective partial sections S11 to S13 and 2 of the first audio signal S1. The acoustic similarity with the partial section S21 of the second audio signal S2 was obtained. Further, as shown in FIG. 6, the recognition
[0054]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result is confirmed and the confirmed first speech recognition is performed. The result was output from the recognition result replacement means 8.
[0055]
As described above, according to the first embodiment, when the first speech is erroneously recognized, the speech of the misrecognized word in the first speech is uttered as the second speech, and the second speech Correct a misrecognized word using a candidate for a partial section of the speech signal. In general, when the first voice is misrecognized, there is a tendency to utter the second voice more carefully. Therefore, the recognition rate of the second voice is higher than the first voice recognition result. Is expensive. Therefore, it is possible to efficiently correct misrecognized words and to obtain an easy-to-use speech recognition device.
[0056]
In this embodiment, the case where continuous DP matching is used as the collation method of the audio signal has been described, but the same effect can be obtained even when another collation method is used.
[0057]
In this embodiment, the case where the first audio signal and the second audio signal are collated using different model matching means has been described, but the same effect can be obtained even when the same model matching means is used repeatedly. It is done.
[0058]
In this embodiment, the case where the output destination of the audio signal output from the
[0059]
Further, in this embodiment, the case where the process of correcting a misrecognized word by pressing the correction key, the confirmation key, and the next candidate key is described. However, for the confirmation by voice from the voice recognition device, The same effect can be obtained even when a process of correcting a misrecognized word only by speech is performed by responding by saying “high” or “yes”.
[0060]
If a long sentence is divided in the middle while trying to utter continuously, and a misrecognition occurs at that time, humans tend to utter one or more words following the misrecognized word. In the second embodiment, a case will be described in which a misrecognized word can be corrected correctly even in such a case.
[0061]
FIG. 8 is a block diagram showing the configuration of a speech recognition apparatus according to
[0062]
The other components are the same as or equivalent to those shown with the same reference numerals in FIG.
[0063]
The voice input means 2 changes the output destination of the voice signal from the first model matching means 4 to the second model matching means 22 when a correction key is input.
[0064]
Next, the operation will be described.
9 and 10 are flowcharts for explaining the operation of the speech recognition apparatus according to the second embodiment of the present invention.
[0065]
The process up to step ST7 is performed in the same manner as in the first embodiment.
When the recognition result of the first speech displayed on the recognition result display means 9 is not correct, the speaker presses the correction key and the speech of the erroneously recognized word and one or more words following it (the second speech) (Speech). When the second sound is input to the sound input means 2 (step ST21), the sound input means 2 outputs a sound signal of the second sound (second sound signal). When the correction key is input, the voice input means 2 changes the output destination of the voice signal from the first model matching means 4 to the second model matching means 22, so that the second time output from the
[0066]
The second model matching means 22 performs model matching processing by continuous DP matching between the second speech signal and the word dictionary stored in the word dictionary storage means 3 (step ST22). , The partial section corresponding to each word in the second speech is detected, one or a plurality of candidates for each partial section are obtained by ranking, and are output to the recognition
[0067]
The spotting
[0068]
The recognition
[0069]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 9 to determine whether or not it is correct (step ST31). The speech recognition result and the second speech recognition result are determined. The recognition
[0070]
When the recognition result of the new first voice displayed on the recognition result display means 9 is not correct, the speaker presses the next candidate key. The recognition
[0071]
Thereafter, until the correct recognition result of the first speech is displayed on the recognition result display means 9, the candidate for the detected partial section of the first speech signal is detected as a subordinate to the partial section of the second speech signal. When the candidate is replaced and there are no lower candidates, the speaker presses the correction key to cancel the second audio signal and re-utter the second audio.
[0072]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Ishikawacho, Naka-ku, Yokohama-shi, Kanagawa” to “Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” A case where “Nishi-ku Ishikawa-cho” is newly spoken because it was misrecognized as “Nishi-ku” will be described.
[0073]
When the speaker utters up to “Naka Ward, Yokohama, Kanagawa Prefecture”, as shown in FIG. 5, the first
[0074]
In this case, since “Naka Ward” is misrecognized as “Nishi Ward”, when the speaker presses the correction key and newly says “Naka Ward Ishikawacho”, as shown in FIG. 22, two partial sections S21 and S22 corresponding to two words in the second voice are detected from the second voice signal S2 output from the voice input means 2, and the first candidate for the partial section S21 is detected. “Naka Ward”, “Tama Ward” as the second candidate, “Nishi Ward” as the third candidate, “Ishikawacho” as the first candidate for the partial section S22 were obtained and stored in the recognition result replacement means 25 . The spotting means 24 performs spotting processing by continuous DP matching between the first audio signal S1 and the second audio signal S2, and the respective partial sections S11 to S13 of the first audio signal S1. The acoustic similarity between the partial sections S21 and S22 of the second audio signal S2 was obtained. Also, as shown in FIG. 11, the recognition
[0075]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result and the second speech recognition result are confirmed, The confirmed first speech recognition result and the second speech recognition result are output from the recognition
[0076]
As described above, according to the second embodiment, when the first speech is misrecognized, the misrecognized word in the first speech and the speech of one or more words following the second recognition speech are Therefore, the misrecognized word can be corrected efficiently, and an easy-to-use speech recognition apparatus can be obtained.
[0077]
If the acoustic similarity between the partial section S13 of the first audio signal S1 and the section of the partial sections S21 and S22 of the second audio signal S2 is high, the portion of the second audio signal S2 Assuming that the sections S21 and S22 are partial sections corresponding to one word, the processing is performed as in the first embodiment. That is, the candidate for the partial section S13 of the first audio signal S1 is replaced with the candidate for the partial sections S21 and S22 of the second audio signal S2. Specifically, “Nishi-ku”, which is a candidate for the partial section S13 of the first audio signal S1, is replaced with “Naka-ku Ishikawa-cho”, which is a candidate for the partial sections S21 and S22 of the second audio signal S2.
[0078]
Embodiment 3 FIG.
In speech recognition, there are words that are easily misrecognized due to voice quality, utterance mode, etc., and therefore, the same misrecognition as that generated in the first speech recognition result may occur in the second speech recognition result. In the third embodiment, a case will be described in which a misrecognized word can be efficiently corrected even in such a case.
[0079]
The configuration of the speech recognition apparatus according to Embodiment 3 is the same as that of the speech recognition apparatus according to
[0080]
Next, the operation will be described.
FIG. 12 is a flowchart for explaining the operation of the speech recognition apparatus according to the third embodiment of the present invention.
[0081]
The process up to step ST25 is performed in the same manner as in the second embodiment.
The recognition
[0082]
The recognition
[0083]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 9 to determine whether or not it is correct (step ST49). The speech recognition result and the second speech recognition result are determined. The recognition
[0084]
When the recognition result of the new first voice displayed on the recognition result display means 9 is not correct, the speaker presses the next candidate key. The recognition
[0085]
Thereafter, until the correct recognition result of the first speech is displayed on the recognition result display means 9, the candidate for the detected partial section of the first speech signal is detected as a subordinate to the partial section of the second speech signal. When the candidate is replaced and there are no lower candidates, the speaker presses the correction key to cancel the second audio signal and re-utter the second audio.
[0086]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker speaks to “Naka-ku, Yokohama-shi, Kanagawa-ken” and speaks to “Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” A case where “Nishi-ku Ishikawa-cho” is newly spoken because it was misrecognized as “Nishi-ku” will be described.
[0087]
When the speaker utters up to “Naka Ward, Yokohama, Kanagawa Prefecture”, as shown in FIG. 5, the first
[0088]
In this case, since “Naka Ward” is misrecognized as “Nishi Ward”, when the speaker presses the correction key and newly says “Naka Ward Ishikawacho”, as shown in FIG. 22, two partial sections S21 and S22 corresponding to two words in the second voice are detected from the second voice signal S2 output from the voice input means 2, and the first candidate for the partial section S21 is detected. “Nishi Ward”, “Naka Ward” as the 2nd candidate, “Tama Ward” as the 3rd candidate, “Ishikawacho” as the 1st candidate for the partial section S22, and stored in the recognition
[0089]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result and the second speech recognition result are confirmed, The confirmed first speech recognition result and the second speech recognition result are output from the recognition
[0090]
As described above, according to the third embodiment, when the first speech is misrecognized, the misrecognized word speech in the first speech is uttered as the second speech and misrecognized. The candidate for the first segment of the first speech signal corresponding to the word is replaced with a candidate for the second segment of the second speech signal corresponding to the misrecognized word, which is different from the candidate, and the misrecognized word is corrected. Therefore, it is possible to efficiently correct misrecognized words and to obtain an easy-to-use speech recognition device.
[0091]
In this embodiment, the case where the configuration of the speech recognition apparatus is the same as the configuration of the speech recognition apparatus according to the second embodiment has been described. Even if it exists, the same effect is acquired.
[0092]
The configuration of the speech recognition apparatus according to the fourth embodiment is the same as that of the speech recognition apparatus according to the first embodiment shown in FIG. However, in the speech recognition apparatus according to the fourth embodiment, the word dictionary storage unit 3 stores a word dictionary that includes information about words to be recognized in accordance with a syntax rule that defines a connection relationship.
[0093]
In addition, the recognition
[0094]
Next, the operation will be described.
FIG. 14 is a flowchart for explaining the operation of the speech recognition apparatus according to the fourth embodiment of the present invention.
[0095]
The process up to step ST11 is performed in the same manner as in the first embodiment.
The recognition
[0096]
It should be noted that the recognition
[0097]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 9 to determine whether or not it is correct (step ST68). Confirm the speech recognition result. The recognition
[0098]
When the recognition result of the new first voice displayed on the recognition result display means 9 is not correct, the speaker presses the next candidate key. The recognition
[0099]
Thereafter, until the correct recognition result of the first speech is displayed on the recognition result display means 9, the detected candidate for the partial section of the first speech signal is replaced with a lower candidate for the partial section of the second speech signal. If there are no lower candidates, the speaker presses the correction key to cancel the second sound signal and re-utter the second sound.
[0100]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Ishikawacho, Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” is misrecognized as “Nishi-ku”, so A case where “ku” is spoken will be described. In addition, it is assumed that the word dictionary storage means 3 stores a word dictionary in which information about words to be recognized is included according to the syntax rules shown in FIG.
[0101]
When the speaker utters “Naka Ward, Yokohama, Kanagawa Prefecture”, the first
[0102]
In this case, since “Naka Ward” was erroneously recognized as “Nishi Ward”, when the speaker presses the correction key and newly speaks “Naka Ward”, as shown in FIG. One partial section S21 is detected from the second audio signal S2 output from the voice input means 2, and “Tama Ward” is selected as the first candidate, “Naka Ward” as the second candidate, and “3rd candidate” as the third candidate. “Nishi-ku” was obtained and stored in the recognition result replacement means 8. Further, the spotting means 7 performs spotting processing by continuous DP matching between the first audio signal S1 and the second audio signal S2, and the respective partial sections S11 to S13 and 2 of the first audio signal S1. The acoustic similarity with the partial section S21 of the second audio signal S2 was obtained. Further, as shown in FIG. 16, the recognition
[0103]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result is confirmed and the confirmed first speech recognition is performed. The result was output from the recognition result replacement means 8.
[0104]
As described above, according to the fourth embodiment, when the first speech is misrecognized, the misrecognized word speech in the first speech is uttered as the second speech and misrecognized. The candidate for the partial section of the first speech signal corresponding to the word is replaced with the candidate for the second speech signal corresponding to the misrecognized word according to the syntax rules in the word dictionary, and the misrecognized word is corrected. Therefore, it is possible to efficiently correct misrecognized words and to obtain an easy-to-use speech recognition device.
[0105]
In this embodiment, the case where the configuration of the voice recognition device is the same as the configuration of the voice recognition device of the first embodiment has been described. Even if it exists, the same effect is acquired.
[0106]
In the first embodiment, a partial section of the first speech signal corresponding to a misrecognized word in the first speech is detected from the acoustic similarity obtained by continuous DP matching, and candidates for the partial section are detected. The case where the candidate is replaced with a candidate for the partial section of the second audio signal has been described. In the fifth embodiment, the partial section of the first speech signal corresponding to the misrecognized word in the first speech is detected using the acoustic similarity and the matching score, and two candidates for the partial section are detected. The case where it replaces with the candidate with respect to the partial area of the 2nd audio | voice signal is demonstrated.
[0107]
The configuration of the speech recognition apparatus according to the fifth embodiment is the same as that of the speech recognition apparatus according to the first embodiment shown in FIG. However, in the speech recognition apparatus according to the fifth embodiment, the first
[0108]
In addition, the recognition
[0109]
Next, the operation will be described.
17 and 18 are flowcharts for explaining the operation of the speech recognition apparatus according to the fifth embodiment of the present invention.
[0110]
When a speaker speaks a plurality of recognition target words (first speech) and inputs the first speech to the speech input means 2 (step ST81), the speech input means 2 receives the first speech. An audio signal (first audio signal) is output. The first audio signal output from the
Thereafter, steps ST3 to ST11 are performed in the same manner as in the first embodiment.
[0111]
The recognition result switching means 8 obtains a difference score between the acoustic similarity with the partial section of the second audio signal and the matching score for each partial section of the first audio signal (step ST83), and the difference score is high. After detecting the partial section of the first audio signal (step ST84) and setting M = 1 (step ST85), the candidate for the partial section is replaced with the first candidate for the partial section of the second audio signal (step ST84). (ST86) The new first speech recognition result is displayed on the recognition result display means 9 (step ST87).
Thereafter, steps ST16 to ST19 are performed in the same manner as in the first embodiment.
[0112]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Honmoku, Minami-ku, Yokohama-shi, Kanagawa”, “Honmoku” is misrecognized as “Nakazato”. A case of speaking will be described. The collation score and the acoustic similarity are represented by numerical values in the range of 0 to 1000, and the larger the numerical value, the higher the degree of collation and the degree of similarity.
[0113]
When the speaker utters “Honmoku, Minami-ku, Yokohama, Kanagawa” as shown in FIG. 19, the first time from the first
[0114]
In this case, since “Honmoku” is misrecognized as “Nakazato”, when the speaker presses the correction key and newly utters “Honmoku”, the second model matching means 6 performs the speech as shown in FIG. One partial section S21 is detected from the second audio signal S2 output from the input means 2, and "Honmaki" is selected as the first candidate, "Naka Ward" as the second candidate, "Tama Ward" as the third candidate Is obtained and stored in the recognition
[0115]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result is confirmed and the confirmed first speech recognition is performed. The result was output from the recognition result replacement means 8.
[0116]
Here, the matching score will be described.
FIG. 20 shows the voice signal obtained when saying “Honmoku, Minami-ku, Yokohama-shi, Kanagawa” and information on the words “Kanagawa-ken”, “Yokohama-city”, “Minami-ku”, “Nakazato” in succession. The result of having performed a model collation process between the word dictionary containing it is shown. The horizontal axis represents an audio signal and is expressed in units of t frames. The vertical axis represents the word dictionary and is expressed in units of u state. The voice signal has T frames as a whole, and the word dictionary has U states as a whole.
[0117]
The length of the audio signal changes depending on the utterance, and it partially expands and contracts. For this reason, when performing the model matching process, the correspondence between the speech signal and the word dictionary is calculated to obtain the optimum correspondence. This correspondence can be efficiently calculated by dynamic programming or an arithmetic method called Viterbi arithmetic. The optimum path in FIG. 20 shows the optimum correspondence between the frame t of the speech signal and the state u of the word dictionary. The optimum correspondence of the frame t with respect to the state u is expressed by equation (1).
[0118]
u = G (t) (1)
[0119]
On the other hand, the acoustic similarity between the audio signal in frame t and the word dictionary in state u is represented by a local distance D (t, u). The smaller the local distance, the higher the acoustic similarity between the speech signal and the word dictionary. The collation score C2 [i] of the word i is an average of local distances on the optimum route belonging to the word i with respect to the frame. As shown in FIG. 20, when the frame of the audio signal corresponding to the state belonging to the word i is from ts (i) to te (i), the matching score C2 [i] for the word i is calculated by the equation (2). The
[0120]
[Expression 1]
[0121]
As described above, according to the fifth embodiment, when the first speech is misrecognized, it corresponds to the misrecognized word in the first speech using the acoustic similarity and the matching score. Since the partial section of the first speech signal is detected and the candidate for the partial section is replaced with the candidate for the partial section of the second speech signal, the partial section corresponding to the word misrecognized due to the fluctuation of the speech signal, etc. Even when the acoustic similarity of the partial sections different from the above becomes high, the erroneously recognized word can be corrected efficiently, and an easy-to-use speech recognition device can be obtained.
[0122]
In this embodiment, a case where a partial section of the first speech signal corresponding to a misrecognized word in the first speech is detected using a difference score between the acoustic similarity and the matching score will be described. However, the same effect can be obtained even when a partial section corresponding to a misrecognized word is detected using a value obtained from another calculation method.
[0123]
In this embodiment, the case where the configuration of the voice recognition device is the same as the configuration of the voice recognition device of the second embodiment has been described. However, the case is the same as the configuration of the voice recognition device of the first embodiment. Even if it exists, the same effect is acquired.
[0124]
The speech recognition apparatus and speech recognition method described in each of the above-described embodiments can also be obtained by incorporating a speech recognition program into a computer.
[0125]
【The invention's effect】
As described above, according to the present invention, the word dictionary storage means for storing the word dictionary including the information of the word to be recognized and the first speech signal and the word dictionary are collated, and the first time The first collation means for detecting a partial section corresponding to each word in the first speech from the first speech signal and obtaining a candidate for each partial section, collation between the second speech signal and the word dictionary A second collating unit that performs processing, detects a partial section corresponding to each word in the second speech from the second speech signal, and obtains a candidate for each partial section; and each of the first speech signal Spotting means for obtaining the acoustic similarity between each partial section of the second speech signal and each partial section of the second speech signal, and erroneous recognition in the first speech using the acoustic similarity obtained by the spotting means Was The first audio signal partial section and the second audio signal partial section corresponding to the word are detected, and candidates for the detected first audio signal partial section are determined as the detected second audio signal part. Since the speech recognition apparatus is configured to include the recognition result replacement means for replacing the candidate for the section, there is an effect that a speech recognition apparatus that can efficiently correct a misrecognized portion can be obtained.
[0126]
According to the present invention, when the second speech consists only of speech of a word that has been misrecognized in the first speech, the recognition result replacing means has an acoustic similarity with the partial section of the second speech signal. A candidate for the detected first segment of the first speech signal is detected as the first segment of the first speech signal corresponding to the erroneously recognized word in the first speech. Is replaced with a candidate for the partial section of the second speech signal, the speech recognition apparatus is configured to efficiently correct the erroneously recognized part. .
[0127]
According to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacement means has a high acoustic similarity. The first segment of the first speech signal and the second segment of the second speech signal are divided into the first segment of the first speech signal and the partial segment of the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the candidate for the partial section of the second audio signal not detected is replaced with Since the speech recognition device is configured to be added to the speech recognition device, even if the misrecognized word and the subsequent speech of one or more words are uttered as the second speech, they are misrecognized. The effect of the speech recognition device is obtained which can be modified partially efficiently.
[0128]
According to the present invention, the recognition result switching means detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech, and is detected. It is determined whether the candidate for the partial section of the second audio signal is the same as the candidate for the detected partial section of the first audio signal, and the candidate for the detected partial section of the first audio signal is Since the speech recognition apparatus is configured to replace the candidate for the partial section of the detected second speech signal different from the candidate, a speech recognition apparatus capable of efficiently correcting a misrecognized part is obtained. There is an effect.
[0129]
According to the present invention, the word dictionary storage means stores the word dictionary including the information of the word to be recognized in accordance with the syntax rule that defines the connection relation, and the recognition result replacement means is used as an error in the first speech. A partial section of the first speech signal and a partial section of the second speech signal corresponding to the recognized word are detected, and candidates for the detected second section of the speech signal are determined according to the syntax rules in the word dictionary. , It is determined whether or not it is possible to connect with a candidate for a partial section before and after the detected partial section of the first audio signal, and a candidate for the detected partial section of the first audio signal is determined Since the speech recognition device is configured to replace the candidate for the second section of the detected second speech signal that can be connected to the candidate for the section, the erroneously recognized part is efficiently repaired. The effect of the speech recognition device is obtained which can be.
[0130]
According to this invention, the first matching means performs the matching process between the first speech signal and the word dictionary, and the partial section corresponding to each word in the first speech from the first speech signal. And a candidate for each partial section is obtained, and a matching score is obtained for each partial section of the first speech signal, and the recognition result replacing means is connected to the acoustic similarity obtained by the spotting means and the first The partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech are detected and detected using the collation score obtained by the collation means. In addition, since the speech recognition apparatus is configured to replace the candidate for the partial section of the first speech signal with the candidate for the detected partial section of the second speech signal, Even when the acoustic similarity of a partial section different from the partial section corresponding to the misrecognized part becomes high, there is an effect that a voice recognition device capable of efficiently correcting the misrecognized part can be obtained. .
[0131]
According to the present invention, a collation process is performed between the first speech signal and a word dictionary including information on a word to be recognized, and each word in the first speech is handled from the first speech signal. The first collation process that detects partial sections and obtains candidates for the respective partial sections, and performs collation processing between the second speech signal and the word dictionary, and from the second speech signal to the second speech A second matching step for detecting partial sections corresponding to the respective words and obtaining candidates for the respective partial sections; a respective partial section of the first speech signal; and a respective partial section of the second speech signal; A spotting step for obtaining an acoustic similarity between the first speech signal and a second segment of the first speech signal corresponding to a misrecognized word in the first speech using the acoustic similarity obtained in the spotting step, and 2 Second time Voice recognition so as to comprise a recognition result replacing step of detecting a partial section of the voice signal and replacing a candidate for the detected partial section of the first speech signal with a candidate for the detected partial section of the second speech signal. Since the method is configured, it is possible to obtain a speech recognition method that can efficiently correct a misrecognized portion.
[0132]
According to the present invention, when the second speech is composed only of a misrecognized word speech in the first speech, the recognition result replacement step is performed with an acoustic similarity with the partial section of the second speech signal. A candidate for the detected first segment of the first speech signal is detected as the first segment of the first speech signal corresponding to the erroneously recognized word in the first speech. Is replaced with a candidate for the second segment of the speech signal, the speech recognition method can be efficiently corrected so that the speech recognition method can be obtained. .
[0133]
According to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacement step has a high acoustic similarity. The first segment of the first speech signal and the second segment of the second speech signal are divided into the first segment of the first speech signal and the partial segment of the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the candidate for the partial section of the second audio signal not detected is replaced with Since the speech recognition method is configured so as to be added to it, even if the misrecognized word and the speech of one or more words following it are uttered as the second speech, they are misrecognized. The effect of the speech recognition method capable of correcting the partial efficiently can be obtained.
[0134]
According to this invention, the recognition result replacement step is performed by detecting the first section of the first speech signal and the second section of the second speech signal corresponding to the misrecognized word in the first speech. It is determined whether the candidate for the partial section of the second audio signal is the same as the candidate for the detected partial section of the first audio signal, and the candidate for the detected partial section of the first audio signal is Since the speech recognition method is configured to replace the candidate for the partial section of the detected second speech signal different from the candidate, a speech recognition method capable of correcting the erroneously recognized portion efficiently is obtained. There is an effect.
[0135]
According to this invention, the recognition result replacement step is performed by detecting the first section of the first speech signal and the second section of the second speech signal corresponding to the misrecognized word in the first speech. Candidates for the second segment of the speech signal before and after the first segment of the first speech signal detected according to the syntax rule in the word dictionary including the information of the word to be recognized according to the syntax rule that defines the connection relationship It is determined whether or not it is connectable with a candidate for the partial section of the second, and the candidate for the partial section of the detected first speech signal is connected to the candidate for the previous and subsequent partial sections. Since the speech recognition method is configured so as to be replaced with candidates for the partial sections of the signal, there is an effect that a speech recognition method capable of correcting a misrecognized portion efficiently can be obtained. .
[0136]
According to this invention, the first matching step is performed by performing a matching process between the first speech signal and the word dictionary, and the partial sections corresponding to the respective words in the first speech from the first speech signal. And a candidate for each partial section is obtained, and a matching score is obtained for each partial section of the first speech signal, and the recognition result replacement step is performed using the acoustic similarity obtained in the spotting step and the first And detecting a partial section of the first speech signal and a partial section of the second speech signal corresponding to the misrecognized word in the first speech using the matching score obtained in the matching step Since the speech recognition method is configured so that the candidate for the partial section of the first speech signal is replaced with the candidate for the detected partial section of the second speech signal, the speech recognition method may be used. Even if the acoustic similarity of a partial section different from the partial section corresponding to the misrecognized part increases, there is an effect that a speech recognition method capable of efficiently correcting the misrecognized part can be obtained. .
[0137]
According to this invention, the computer performs collation processing between the first speech signal and the word dictionary including the information of the word to be recognized, and each word in the first speech from the first speech signal. The first matching function for detecting partial sections corresponding to the first section and obtaining candidates for the respective partial sections, and performing a matching process between the second speech signal and the word dictionary, A second collation function that detects partial sections corresponding to respective words in the speech and obtains candidates for the respective partial sections, each partial section of the first speech signal, and each of the second speech signal A spotting function for obtaining the acoustic similarity between the partial sections, and a portion of the first speech signal corresponding to a misrecognized word in the first speech using the acoustic similarity obtained by the spotting function A recognition result replacement function that detects a partial interval of the second and second audio signals, and replaces the candidate for the detected first interval of the audio signal with a candidate for the detected second interval of the audio signal; Since the speech recognition program is configured to be realized, there is an effect that a speech recognition method capable of correcting a misrecognized portion efficiently can be obtained.
[0138]
According to the present invention, when the second speech is composed only of the misrecognized word speech in the first speech, the recognition result replacement function is set so that the acoustic similarity with the partial section of the second speech signal is increased. A candidate for the detected first segment of the first speech signal is detected as the first segment of the first speech signal corresponding to the erroneously recognized word in the first speech. Is replaced with a candidate for the second segment of the speech signal, the speech recognition program is configured, so that it is possible to obtain a speech recognition method that can efficiently correct a misrecognized portion. .
[0139]
According to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacement function has a high acoustic similarity. The first segment of the first speech signal and the second segment of the second speech signal are divided into the first segment of the first speech signal and the partial segment of the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the candidate for the partial section of the second audio signal not detected is replaced with Since the speech recognition program is configured to be added to it, it is misidentified even when the misrecognized word and the speech of one or more words following it are uttered as the second speech. The effect of the speech recognition program is obtained that can modify the portion efficiently.
[0140]
According to the present invention, the recognition result switching function is detected by detecting the first segment of the first speech signal and the second segment of the second speech signal corresponding to the misrecognized word in the first speech. It is determined whether the candidate for the partial section of the second audio signal is the same as the candidate for the detected partial section of the first audio signal, and the candidate for the detected partial section of the first audio signal is Since the speech recognition program is configured to replace the candidate for the detected partial section of the second speech signal different from the candidate, a speech recognition method capable of correcting the erroneously recognized portion efficiently is obtained. There is an effect.
[0141]
According to the present invention, the recognition result switching function is detected by detecting the first segment of the first speech signal and the second segment of the second speech signal corresponding to the misrecognized word in the first speech. Before and after the first segment of the first speech signal detected by the candidate for the second segment of the speech signal in accordance with the syntax rules in the word dictionary including the information of the word to be recognized in accordance with the syntax rules defining the connection relationship It is determined whether or not it is connectable with a candidate for the partial section of the second, and the candidate for the partial section of the detected first speech signal is connected to the candidate for the previous and subsequent partial sections. Since the speech recognition program is configured to be replaced with candidates for signal partial sections, it is possible to obtain a speech recognition method that can efficiently correct misrecognized portions. There is.
[0142]
According to this invention, the first matching function performs a matching process between the first speech signal and the word dictionary, and the partial section corresponding to each word in the first speech from the first speech signal. And a candidate for each partial section is obtained, and a matching score is obtained for each partial section of the first speech signal, and the recognition result replacement function is the first difference between the acoustic similarity obtained by the spotting function and the first The first speech signal partial section and the second speech signal partial section corresponding to the misrecognized word in the first speech are detected using the collation score obtained by the collation function of Since the speech recognition program is configured so that the candidate for the partial section of the first speech signal is replaced with the candidate for the detected partial section of the second speech signal, the fluctuation of the speech signal Thus, even if the acoustic similarity of a partial section different from the partial section corresponding to the misrecognized part increases, an effect of obtaining a speech recognition program that can efficiently correct the misrecognized part is obtained. is there.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to
FIG. 2 is a flowchart for explaining the operation of the speech recognition apparatus according to the first embodiment of the present invention (part 1);
FIG. 3 is a flowchart (part 2) for explaining the operation of the speech recognition apparatus according to the first embodiment of the present invention.
FIG. 4 is a flowchart (part 3) for explaining the operation of the speech recognition apparatus according to the first embodiment of the present invention.
FIG. 5 is a diagram for explaining a specific operation of the voice recognition device according to the first embodiment of the present invention (part 1);
FIG. 6 is a diagram for explaining a specific operation of the voice recognition device according to the first embodiment of the present invention (part 2);
FIG. 7 is a diagram for explaining a specific operation of the speech recognition apparatus according to the first embodiment of the present invention (part 3);
FIG. 8 is a block diagram showing a configuration of a speech recognition apparatus according to
FIG. 9 is a flowchart for explaining an operation of the speech recognition apparatus according to the second embodiment of the present invention (part 1);
FIG. 10 is a flowchart for explaining an operation of the speech recognition apparatus according to the second embodiment of the present invention (part 2);
FIG. 11 is a diagram for explaining a specific operation of the speech recognition apparatus according to the second embodiment of the present invention.
FIG. 12 is a flowchart for explaining the operation of the speech recognition apparatus according to Embodiment 3 of the present invention;
FIG. 13 is a diagram for explaining a specific operation of the speech recognition apparatus according to the third embodiment of the present invention.
FIG. 14 is a flowchart for explaining the operation of the speech recognition apparatus according to
FIG. 15 is a state diagram of a word dictionary stored in word dictionary storage means of a speech recognition apparatus according to
FIG. 16 is a diagram for explaining a specific operation of the speech recognition apparatus according to the fourth embodiment of the present invention.
FIG. 17 is a flowchart for explaining an operation of the speech recognition apparatus according to the fifth embodiment of the present invention (part 1);
FIG. 18 is a flowchart for explaining an operation of the speech recognition apparatus according to the fifth embodiment of the present invention (part 2);
FIG. 19 is a diagram for explaining a specific operation of the speech recognition apparatus according to the fifth embodiment of the present invention.
FIG. 20 is a diagram for explaining a method of calculating a matching score.
FIG. 21 is a block diagram showing a configuration of a conventional speech recognition apparatus disclosed in Japanese Patent Laid-Open No. 4-181299.
FIG. 22 is a diagram illustrating a specific example of a recognition target of the speech recognition apparatus.
FIG. 23 is a diagram for explaining a specific operation of the conventional speech recognition apparatus (part 1);
FIG. 24 is a diagram for explaining a specific operation of the conventional speech recognition device (part 2);
FIG. 25 is a diagram for explaining a specific operation of the conventional speech recognition device (part 3);
FIG. 26 is a diagram for explaining a specific operation of the conventional voice recognition device (part 4);
[Explanation of symbols]
1, 21 speech recognition device, 2 speech input means, 3 word dictionary storage means, 4 first model collation means, 5 speech signal storage means, 6, 22 2nd model collation means, 7, 24 spotting means, 8, 25 recognition result replacement means, 9 recognition result display means, 23 partial section storage means.
Claims (15)
複数の認識対象となる単語の音声(以下、1回目の音声という)の音声信号(以下、1回目の音声信号という)と上記単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合手段と、
1回目の音声中の誤認識された単語を含む1または複数の単語の音声(以下、2回目の音声という)の音声信号(以下、2回目の音声信号という)と上記単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合手段と、
1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング手段と、
上記スポッティング手段で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え手段とを備え、
上記単語辞書記憶手段は、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書を記憶するものであり、
上記認識結果入れ替え手段は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、上記単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする音声認識装置。Word dictionary storage means for storing a word dictionary including information of words to be recognized;
A collation process is performed between a speech signal (hereinafter referred to as the first speech signal) of a plurality of recognition target words (hereinafter referred to as the first speech signal) and the word dictionary, and from the first speech signal. First verification means for detecting a partial section corresponding to each word in the first speech and obtaining a candidate for each partial section;
Between a speech signal (hereinafter referred to as a second speech signal) of one or a plurality of words including a misrecognized word in the first speech and the word dictionary A second matching unit that performs a matching process, detects a partial section corresponding to each word in the second voice from the second voice signal, and obtains a candidate for each partial section;
Spotting means for obtaining an acoustic similarity between each partial section of the first audio signal and each partial section of the second audio signal;
Using the acoustic similarity obtained by the spotting means, a first speech signal partial section and a second speech signal partial section corresponding to a misrecognized word in the first speech are detected and detected. A recognition result replacement unit that replaces the candidate for the partial section of the first audio signal that has been detected with the candidate for the partial section of the detected second audio signal ;
The word dictionary storage means stores a word dictionary including information of words to be recognized in accordance with a syntax rule that defines a connection relationship;
The recognition result replacing means detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech, and the detected second speech signal It is determined whether or not the candidate for the partial section can be connected to the candidates for the partial sections before and after the detected partial section of the first speech signal in accordance with the syntax rules in the word dictionary. A speech recognition apparatus characterized in that a candidate for a partial section of a second speech signal is replaced with a candidate for a partial section of a detected second speech signal that can be connected to a candidate for a preceding and subsequent partial section .
認識結果入れ替え手段は、スポッティング手段で得られた音響的類似度と上記第1の照合手段で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項1記載の音声認識装置。The first matching means performs a matching process between the first speech signal and the word dictionary, detects a partial section corresponding to each word in the first speech from the first speech signal, A candidate for a partial section is obtained and a matching score is obtained for each partial section of the first audio signal.
The recognition result replacement means uses the acoustic similarity obtained by the spotting means and the collation score obtained by the first collation means for the first time corresponding to the erroneously recognized word in the first speech. A partial section of the audio signal and a partial section of the second audio signal are detected, and the candidate for the detected partial section of the first audio signal is replaced with a candidate for the detected partial section of the second audio signal. The speech recognition apparatus according to claim 1, wherein the voice recognition apparatus is provided.
1回目の音声中の誤認識された単語を含む1または複数の単語の音声(以下、2回目の音声という)の音声信号(以下、2回目の音声信号という)と上記単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合工程と、
1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング工程と、
スポッティング工程で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え工程とを備え、
上記認識結果入れ替え工程は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする音声認識方法。A collation process is performed between a speech signal (hereinafter referred to as a first speech signal) of a plurality of recognition target words (hereinafter referred to as a first speech signal) and a word dictionary including information on the recognition target words. Performing a first matching step of detecting a partial section corresponding to each word in the first speech from the first speech signal and obtaining a candidate for each partial section;
Between a speech signal (hereinafter referred to as a second speech signal) of one or a plurality of words including a misrecognized word in the first speech and the word dictionary A second matching step of performing a matching process, detecting a partial section corresponding to each word in the second voice from the second voice signal, and obtaining a candidate for each partial section;
A spotting step for obtaining an acoustic similarity between each partial section of the first audio signal and each partial section of the second audio signal;
Using the acoustic similarity obtained in the spotting process, the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech are detected and detected. A recognition result replacing step of replacing a candidate for the partial section of the first audio signal with a candidate for the detected partial section of the second audio signal ,
The recognition result replacing step detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech, and detects the detected second speech signal. Are candidates for partial sections before and after the partial section of the first speech signal detected in accordance with the syntax rules in the word dictionary including the information of the words to be recognized in accordance with the syntax rules defining the connection relationship. And the candidate for the detected first segment of the first audio signal is set to the candidate for the second segment of the detected second audio signal that can be connected to the candidate for the first and second partial segments. A speech recognition method characterized by being replaced with a candidate .
認識結果入れ替え工程は、スポッティング工程で得られた音響的類似度と第1の照合工程で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項6記載の音声認識方法。The first matching step performs a matching process between the first speech signal and the word dictionary, detects a partial section corresponding to each word in the first speech from the first speech signal, A candidate for a partial section is obtained and a matching score is obtained for each partial section of the first audio signal.
The recognition result replacement step is a first speech corresponding to a misrecognized word in the first speech using the acoustic similarity obtained in the spotting step and the collation score obtained in the first collation step. The partial section of the signal and the partial section of the second audio signal are detected, and the candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal. The speech recognition method according to claim 6 .
複数の認識対象となる単語の音声(以下、1回目の音声という)の音声信号(以下、1回目の音声信号という)と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合機能と、
1回目の音声中の誤認識された単語を含む1または複数の単語の音声(以下、2回目の音声という)の音声信号(以下、2回目の音声信号という)と上記単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合機能と、
1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング機能と、
スポッティング機能で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え機能とを実現させ、
上記認識結果入れ替え機能は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものである音声認識プログラム。On the computer,
A collation process is performed between a speech signal (hereinafter referred to as a first speech signal) of a plurality of recognition target words (hereinafter referred to as a first speech signal) and a word dictionary including information on the recognition target words. A first matching function for detecting a partial section corresponding to each word in the first speech from the first speech signal and obtaining a candidate for each partial section;
Between a speech signal (hereinafter referred to as a second speech signal) of one or a plurality of words including a misrecognized word in the first speech and the word dictionary A second matching function that performs a matching process, detects a partial section corresponding to each word in the second voice from the second voice signal, and obtains a candidate for each partial section;
A spotting function for obtaining an acoustic similarity between each partial section of the first audio signal and each partial section of the second audio signal;
Using the acoustic similarity obtained by the spotting function, a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech are detected and detected. A recognition result replacement function that replaces the candidate for the partial section of the first speech signal with the candidate for the detected partial section of the second speech signal ,
The recognition result switching function detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech, and the detected second speech signal Are candidates for partial sections before and after the partial section of the first speech signal detected in accordance with the syntax rules in the word dictionary including the information of the words to be recognized in accordance with the syntax rules defining the connection relationship. And the candidate for the detected first segment of the first audio signal is set to the candidate for the second segment of the detected second audio signal that can be connected to the candidate for the first and second partial segments. A speech recognition program that replaces candidates .
認識結果入れ替え機能は、スポッティング機能で得られた音響的類似度と第1の照合機能で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項11記載の音声認識プログラム。The first matching function performs a matching process between the first speech signal and the word dictionary, detects a partial section corresponding to each word in the first speech from the first speech signal, A candidate for a partial section is obtained and a matching score is obtained for each partial section of the first audio signal.
The recognition result replacement function uses the acoustic similarity obtained by the spotting function and the collation score obtained by the first collation function, and the first speech corresponding to the erroneously recognized word in the first speech. The partial section of the signal and the partial section of the second audio signal are detected, and the candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal. The speech recognition program according to claim 11 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001123317A JP4270770B2 (en) | 2001-04-20 | 2001-04-20 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001123317A JP4270770B2 (en) | 2001-04-20 | 2001-04-20 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002318596A JP2002318596A (en) | 2002-10-31 |
JP4270770B2 true JP4270770B2 (en) | 2009-06-03 |
Family
ID=18972897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001123317A Expired - Fee Related JP4270770B2 (en) | 2001-04-20 | 2001-04-20 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4270770B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4734155B2 (en) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | Speech recognition apparatus, speech recognition method, and speech recognition program |
JP5893588B2 (en) * | 2013-07-09 | 2016-03-23 | 京セラ株式会社 | Mobile terminal, editing guide program, and editing guide method |
-
2001
- 2001-04-20 JP JP2001123317A patent/JP4270770B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002318596A (en) | 2002-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2308042B1 (en) | Method and device for generating vocabulary entries from acoustic data | |
US7996218B2 (en) | User adaptive speech recognition method and apparatus | |
EP1317750B1 (en) | Speech recognition method with a replace command | |
JP4845118B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US7617106B2 (en) | Error detection for speech to text transcription systems | |
US20030061043A1 (en) | Select a recognition error by comparing the phonetic | |
JP2000122691A (en) | Automatic recognizing method for spelling reading type speech speaking | |
WO2007055233A1 (en) | Speech-to-text system, speech-to-text method, and speech-to-text program | |
JP4340685B2 (en) | Speech recognition apparatus and speech recognition method | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
JP4270770B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP4639094B2 (en) | Speech recognition system, speech recognition apparatus, and speech recognition program | |
JP4639990B2 (en) | Spoken dialogue apparatus and speech understanding result generation method | |
WO2021024869A1 (en) | Speech processing device, speech processing method, and recording medium | |
JPH1083195A (en) | Input language recognition device and input language recognizing method | |
JP3437492B2 (en) | Voice recognition method and apparatus | |
JP2005234504A (en) | Speech recognition apparatus and method for training hmm pronunciation model | |
JP2002215184A (en) | Speech recognition device and program for the same | |
US7818172B2 (en) | Voice recognition method and system based on the contexual modeling of voice units | |
JP2003330488A (en) | Voice recognition device | |
JP2975542B2 (en) | Voice recognition device | |
WO2021246304A1 (en) | Signal processing device, signal processing method, and program | |
WO2021064886A1 (en) | Information processing device, program, and information processing method | |
JPH1097270A (en) | Speech recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071107 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071107 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080313 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090210 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090224 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120306 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120306 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130306 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130306 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140306 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |