JP4270770B2 - Speech recognition apparatus, speech recognition method, and speech recognition program - Google Patents

Speech recognition apparatus, speech recognition method, and speech recognition program Download PDF

Info

Publication number
JP4270770B2
JP4270770B2 JP2001123317A JP2001123317A JP4270770B2 JP 4270770 B2 JP4270770 B2 JP 4270770B2 JP 2001123317 A JP2001123317 A JP 2001123317A JP 2001123317 A JP2001123317 A JP 2001123317A JP 4270770 B2 JP4270770 B2 JP 4270770B2
Authority
JP
Japan
Prior art keywords
speech
partial section
candidate
signal
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001123317A
Other languages
Japanese (ja)
Other versions
JP2002318596A (en
Inventor
知弘 岩▲さき▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001123317A priority Critical patent/JP4270770B2/en
Publication of JP2002318596A publication Critical patent/JP2002318596A/en
Application granted granted Critical
Publication of JP4270770B2 publication Critical patent/JP4270770B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は音声認識装置、音声認識方法及び音声認識プログラムに関するものである。
【0002】
【従来の技術】
音声認識装置はデータの効率的な入力手段である。しかし、発声者が発声した音声が誤認識された場合、誤認識された部分を修正する手間がかかるという問題がある。このため、音声認識装置では、誤認識された部分を簡単に修正するための手段が必要とされる。
【0003】
図21は特開平4−181299号公報に示された従来の音声認識装置の構成を示すブロック図である。図において、101は音声認識装置、102は入力された音声を音声信号として出力する音声入力手段、103は認識対象となる単語の情報を含む単語辞書を記憶する単語辞書記憶手段、104は音声入力手段102に入力された、複数の認識対象となる単語の音声(1回目の音声)の音声信号(1回目の音声信号)と、単語辞書記憶手段103に記憶されている単語辞書との間でモデル照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得るモデル照合手段、105はモデル照合手段104で照合対象となった1回目の音声信号を記憶する音声信号記憶手段、106は音声信号記憶手段105に記憶されている1回目の音声信号と、音声入力手段102に入力された、1回目の音声中の誤認識された単語の音声(2回目の音声)の音声信号(2回目の音声信号)との間でスポッティング処理を行い、1回目の音声信号のそれぞれの部分区間と2回目の音声信号との間の音響的類似度を求めるスポッティング手段、107は1回目の音声の認識結果を認識結果表示手段108に表示し、1回目の音声の認識結果が正しくない場合、2回目の音声信号と音響的類似度が高い1回目の音声信号の部分区間に対する候補を他の候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段108に表示し、正しい認識結果が得られた段階で1回目の音声の認識結果を確定し、確定した1回目の音声の認識結果を出力する認識結果入れ替え手段である。
【0004】
なお、音声入力手段102は訂正キーの入力があった場合に音声信号の出力先をモデル照合手段104からスポッティング手段106に変更する。
【0005】
次に動作について説明する。
発声者が複数の認識対象となる単語の音声(1回目の音声)を発声し、1回目の音声が音声入力手段102に入力すると、音声入力手段102は1回目の音声の音声信号(1回目の音声信号)を出力する。音声入力手段102から出力された1回目の音声信号は、モデル照合手段104に入力する。モデル照合手段104は、1回目の音声信号と単語辞書記憶手段103に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得て、それを認識結果入れ替え手段107に出力する。認識結果入れ替え手段107は、1回目の音声信号の照合結果を記憶し、1回目の音声の認識結果を認識結果表示手段108に表示する。また、音声信号記憶手段105は、モデル照合手段104から出力された、モデル照合手段104で照合対象となった1回目の音声信号を記憶する。
【0006】
発声者は、認識結果表示手段108に表示された1回目の音声の認識結果を見て、それが正しいか否かを判断し、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段107は、確定した1回目の音声の認識結果を出力する。
【0007】
認識結果表示手段108に表示された1回目の音声の認識結果が正しくないとき、発声者は、訂正キーを押し、1回目の音声中の誤認識された単語の音声(2回目の音声)を発声する。2回目の音声が音声入力手段102に入力すると、音声入力手段102は2回目の音声の音声信号(2回目の音声信号)を出力する。訂正キーの入力があった場合、音声入力手段102は音声信号の出力先をモデル照合手段104からスポッティング手段106に変更するため、音声入力手段102から出力された2回目の音声信号は、スポッティング手段106に入力する。
【0008】
スポッティング手段106は、音声信号記憶手段105に記憶されている1回目の音声信号と、2回目の音声信号との間で連続DPマッチングによるスポッティング処理を行い、1回目の音声信号のそれぞれの部分区間と2回目の音声信号との間の音響的類似度を求め、それを認識結果入れ替え手段107に出力する。
【0009】
認識結果入れ替え手段107は、2回目の音声信号と音響的類似度が高い1回目の音声信号の部分区間を検出し、その部分区間に対する候補を他の候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段108に表示する。
【0010】
発声者は、認識結果表示手段108に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段107は、確定した1回目の音声の認識結果を出力する。
【0011】
認識結果表示手段108に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段107は、検出された1回目の音声信号の部分区間に対する候補を他の候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段108に表示する。
【0012】
検出された1回目の音声信号の部分区間に対する候補の中に、正しい候補が含まれていない場合、発声者は、訂正キーを押して1回目の音声信号をキャンセルし、1回目の音声を発声し直す。
【0013】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区」と発声した場合について説明する。
【0014】
発声者が「神奈川県横浜市中区」と発声したとき、図23に示すように、モデル照合手段104により、音声入力手段102から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、2位の候補として「川崎市」、部分区間S13に対する1位の候補として「西区」、2位の候補として「多摩区」、3位の候補として「中区」が得られ、認識結果入れ替え手段107に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段108に表示された。
【0015】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区」と発声すると、スポッティング手段106により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S13と2回目の音声信号S2との間の音響的類似度が求められた。また、図24に示すように、認識結果入れ替え手段107により、2回目の音声信号S2と音響的類似度が高い1回目の音声信号S1の部分区間S13が検出された。そして、図25に示すように、認識結果入れ替え手段107により、検出された1回目の音声信号S1の部分区間S13に対する1位の候補である「西区」が、2位の候補である「多摩区」に入れ替えられ、新たな1回目の音声の認識結果である「神奈川県横浜市多摩区」が認識結果表示手段108に表示された。
【0016】
認識結果表示手段108に表示された新たな1回目の音声の認識結果が正しくないため、発声者が次候補キーを押すと、図26に示すように、認識結果入れ替え手段107により、検出された1回目の音声信号S1の部分区間S13に対する2位の候補である「多摩区」が、3位の候補である「中区」に入れ替えられた。そして、新たな1回目の音声の認識結果の候補である「神奈川県横浜市中区」が認識結果表示手段108に表示された。
【0017】
認識結果表示手段108に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果が確定し、確定した1回目の音声の認識結果が認識結果入れ替え手段107から出力された。
【0018】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、誤認識された部分に対応する1回目の音声信号の部分区間に対する候補の中に、正しい候補が含まれていない場合、1回目の音声信号をキャンセルし、1回目の音声を発声し直さなければならないという課題があった。
【0019】
また、連続して長い文章を発声しようとして途中で区切り、そのときに誤認識を生じた場合、人間は誤認識された部分に続けて後続する文章を発声する傾向があるが、従来の音声認識装置では誤認識された部分の音声だけを新たに発声することを前提としているため、このような場合に誤認識された部分を正しく修正することができないという課題があった。
【0020】
この発明は上記のような課題を解決するためになされたもので、効率的に誤認識された部分を修正することができる音声認識装置、音声認識方法及び音声認識プログラムを得ることを目的とする。
【0021】
【課題を解決するための手段】
この発明に係る音声認識装置は、認識対象となる単語の情報を含む単語辞書を記憶する単語辞書記憶手段と、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合手段と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合手段と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング手段と、スポッティング手段で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え手段とを備え、上記単語辞書記憶手段は、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書を記憶するものであり、上記認識結果入れ替え手段は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、上記単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とするものである。
【0022】
この発明に係る音声認識装置は、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え手段を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0023】
この発明に係る音声認識装置は、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え手段を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするものである。
【0024】
この発明に係る音声認識装置は、認識結果入れ替え手段を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0026】
この発明に係る音声認識装置は、第1の照合手段を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え手段を、スポッティング手段で得られた音響的類似度と第1の照合手段で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0027】
この発明に係る音声認識方法は、1回目の音声信号と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合工程と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合工程と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング工程と、スポッティング工程で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え工程とを備え、上記認識結果入れ替え工程は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであるたものである。
【0028】
この発明に係る音声認識方法は、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え工程を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0029】
この発明に係る音声認識方法は、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え工程を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするものである。
【0030】
この発明に係る音声認識方法は、認識結果入れ替え工程を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0032】
この発明に係る音声認識方法は、第1の照合工程を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え工程を、スポッティング工程で得られた音響的類似度と第1の照合工程で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0033】
この発明に係る音声認識プログラムは、コンピュータに、1回目の音声信号と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合機能と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合機能と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング機能と、スポッティング機能で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え機能とを実現させ、上記認識結果入れ替え機能は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであるものである。
【0034】
この発明に係る音声認識プログラムは、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え機能を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0035】
この発明に係る音声認識プログラムは、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え機能を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするものである。
【0036】
この発明に係る音声認識プログラムは、認識結果入れ替え機能を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0038】
この発明に係る音声認識プログラムは、第1の照合機能を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え機能を、スポッティング機能で得られた音響的類似度と第1の照合機能で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするものである。
【0039】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において、1は音声認識装置、2は入力された音声を音声信号として出力する音声入力手段、3は認識対象となる単語の情報を含む単語辞書を記憶する単語辞書記憶手段、4は音声入力手段2に入力された、複数の認識対象となる単語の音声(1回目の音声)の音声信号(1回目の音声信号)と、単語辞書記憶手段3に記憶されている単語辞書との間でモデル照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得る第1のモデル照合手段、5は第1のモデル照合手段4で照合対象となった1回目の音声信号を記憶する音声信号記憶手段、6は音声入力手段2に入力された、1回目の音声中の誤認識された単語の音声(2回目の音声)の音声信号(2回目の音声信号)と、単語辞書記憶手段3に記憶されている単語辞書との間でモデル照合処理を行い、2回目の音声信号から1つの部分区間を検出し、1または複数の候補を順位をつけて得る第2のモデル照合手段、7は音声信号記憶手段5に記憶されている1回目の音声信号と、2回目の音声信号との間でスポッティング処理を行い、1回目の音声信号のそれぞれ部分区間と2回目の音声信号の部分区間との間の音響的類似度を求めるスポッティング手段、8は1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、その部分区間に対する候補を2回目の音声信号の部分区間に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果を確定し、確定した1回目の音声の認識結果を出力する認識結果入れ替え手段である。
【0040】
なお、音声入力手段2は訂正キーの入力があった場合に音声信号の出力先を第1のモデル照合手段4から第2のモデル照合手段6及びスポッティング手段7に変更する。
【0041】
次に動作について説明する。
図2から図4はこの発明の実施の形態1による音声認識装置の動作の説明に供するフローチャートである。
【0042】
発声者が複数の認識対象となる単語の音声(1回目の音声)を発声し、1回目の音声が音声入力手段2に入力する(ステップST1)と、音声入力手段2は1回目の音声の音声信号(1回目の音声信号)を出力する。音声入力手段2から出力された1回目の音声信号は、第1のモデル照合手段4に入力する。第1のモデル照合手段4は、1回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い(ステップST2)、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得て、それを認識結果入れ替え手段8に出力する。認識結果入れ替え手段8は、それぞれの部分区間に対する1位の候補からなる1回目の音声信号の照合結果を記憶し(ステップST3)、1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST4)。また、音声信号記憶手段5は、第1のモデル照合手段4から出力された、第1のモデル照合手段4で照合対象となった1回目の音声信号を記憶する(ステップST5)。
【0043】
発声者は、認識結果表示手段9に表示された1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST6)、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段8は、確定した1回目の音声の認識結果を出力する(ステップST7)。
【0044】
認識結果表示手段9に表示された1回目の音声の認識結果が正しくないとき、発声者は、訂正キーを押し、1回目の音声中の誤認識された単語の音声(2回目の音声)を発声する。2回目の音声が音声入力手段2に入力する(ステップST8)と、音声入力手段2は2回目の音声の音声信号(2回目の音声信号)を出力する。訂正キーの入力があった場合、音声入力手段2は音声信号の出力先を第1のモデル照合手段4から第2のモデル照合手段6及びスポッティング手段7に変更するため、音声入力手段2から出力された2回目の音声信号は、第2のモデル照合手段6及びスポッティング手段7に入力する。
【0045】
第2のモデル照合手段6は、2回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い(ステップST9)、2回目の音声信号から1つの部分区間を検出し、1または複数の候補を順位をつけて得て、それを認識結果入れ替え手段8に出力する。認識結果入れ替え手段8は、2回目の音声信号の照合結果を記憶する(ステップST10)。
【0046】
スポッティング手段7は、音声信号記憶手段5に記憶されている1回目の音声信号と、2回目の音声信号との間で連続DPマッチングによるスポッティング処理を行い(ステップST11)、1回目の音声信号のそれぞれの部分区間と2回目の音声信号の部分区間との間の音響的類似度を求め、それを認識結果入れ替え手段8に出力する。
【0047】
認識結果入れ替え手段8は、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を検出し(ステップST12)、M=1とした(ステップST13)後、その部分区間に対する候補を2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST14)、新たな1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST15)。
【0048】
発声者は、認識結果表示手段9に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST16)、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段8は、確定した1回目の音声の認識結果を出力する(ステップST17)。
【0049】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段8は、2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST18)、下位の候補がある場合、M=2とした(ステップST19)後、検出された1回目の音声信号の部分区間に対する候補を2回目の音声信号の部分区間に対する2位の候補に入れ替え(ステップST14)、新たな1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST15)。
【0050】
その後、1回目の音声の正しい認識結果が認識結果表示手段9に表示されるまで、検出された1回目の音声信号の部分区間に対する候補が2回目の音声信号の部分区間に対する下位の候補に入れ替えられ、下位の候補がなくなった場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0051】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区」と発声した場合について説明する。
【0052】
発声者が「神奈川県横浜市中区」と発声したとき、図5に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「西区」が得られ、認識結果入れ替え手段8に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段9に表示された。
【0053】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区」と発声すると、図6に示すように、第2のモデル照合手段6により、音声入力手段2から出力された2回目の音声信号S2から1つの部分区間S21が検出され、1位の候補として「中区」、2位の候補として「多摩区」、3位の候補として「西区」が得られ、認識結果入れ替え手段8に記憶された。また、スポッティング手段7により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S13と2回目の音声信号S2の部分区間S21との間の音響的類似度が求められた。また、図6に示すように、認識結果入れ替え手段8により、2回目の音声信号S2の部分区間S21と音響的類似度が高い1回目の音声信号S1の部分区間S13が検出された。そして、図7に示すように、認識結果入れ替え手段8により、検出された1回目の音声信号S1の部分区間S13に対する候補である「西区」が、2回目の音声信号S2の部分区間S21に対する1位の候補である「中区」に入れ替えられ、新たな1回目の音声の認識結果である「神奈川県横浜市中区」が認識結果表示手段9に表示された。
【0054】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果が確定し、確定した1回目の音声の認識結果が認識結果入れ替え手段8から出力された。
【0055】
以上のように、この実施の形態1によれば、1回目の音声が誤認識された場合、1回目の音声中の誤認識された単語の音声を2回目の音声として発声し、2回目の音声信号の部分区間に対する候補を用いて誤認識された単語を修正する。また、一般に、1回目の音声が誤認識された場合、2回目の音声をより丁寧に発声する傾向があるため、1回目の音声の認識結果より2回目の音声の認識結果の方が認識率が高い。従って、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0056】
なお、この実施の形態では、音声信号の照合方式として連続DPマッチングを用いる場合について説明したが、他の照合方式を用いる場合でも同様の効果が得られる。
【0057】
また、この実施の形態では、1回目の音声信号と2回目の音声信号を異なるモデル照合手段を用いて照合処理する場合について説明したが、同じモデル照合手段を繰り返し用いる場合でも同様の効果が得られる。
【0058】
また、この実施の形態では、訂正キーを押すことにより、音声入力手段2から出力される音声信号の出力先を第2のモデル照合手段6及びスポッティング手段7に変更する場合について説明したが、1回目の音声の発声後に自動的に変更する場合でも同様の効果が得られる。
【0059】
また、この実施の形態では、訂正キー、確定キー、次候補キーを押すことにより、誤認識された単語を修正するプロセスを進行する場合について説明したが、音声認識装置からの音声による確認に対して、「ハイ」、「イエス」などと発声して応答することにより、音声だけで誤認識された単語を修正するプロセスを進行する場合でも同様の効果が得られる。
【0060】
実施の形態2.
連続して長い文章を発声しようとして途中で区切り、そのときに誤認識を生じた場合、人間は誤認識された単語に続けて後続する1または複数の単語を発声する傾向がある。実施の形態2では、このような場合でも誤認識された単語を正しく修正することができるように構成した場合について説明する。
【0061】
図8はこの発明の実施の形態2による音声認識装置の構成を示すブロック図である。図において、21は音声認識装置、22は音声入力手段2に入力された、誤認識された単語及びそれに後続する1または複数の単語の音声(2回目の音声)の音声信号(2回目の音声信号)と、単語辞書記憶手段3に記憶されている単語辞書との間でモデル照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得る第2のモデル照合手段、23は第2のモデル照合手段22で照合対象となった2回目の音声信号を記憶する部分区間記憶手段、24は音声信号記憶手段5に記憶されている1回目の音声信号と、部分区間記憶手段23に記憶されている2回目の音声信号との間でスポッティング処理を行い、1回目の音声信号のそれぞれの部分区間と2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング手段、25は1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、音響的類似度が高い1回目の音声信号の部分区間と2回目の音声信号の部分区間とを検出し、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加して、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果及び2回目の音声の認識結果を確定し、確定した1回目の音声の認識結果及び2回目の音声の認識結果を出力する認識結果入れ替え手段である。
【0062】
その他の構成要素は図1において同一符号を付して示したものと同一あるいは同等であるため、その詳細な説明は省略する。
【0063】
なお、音声入力手段2は訂正キーの入力があった場合に音声信号の出力先を第1のモデル照合手段4から第2のモデル照合手段22に変更する。
【0064】
次に動作について説明する。
図9及び図10はこの発明の実施の形態2による音声認識装置の動作の説明に供するフローチャートである。
【0065】
ステップST7までは、実施の形態1の場合と同様に行う。
認識結果表示手段9に表示された1回目の音声の認識結果が正しくないとき、発声者は、訂正キーを押し、誤認識された単語及びそれに後続する1または複数の単語の音声(2回目の音声)を発声する。2回目の音声が音声入力手段2に入力する(ステップST21)と、音声入力手段2は2回目の音声の音声信号(2回目の音声信号)を出力する。訂正キーの入力があった場合、音声入力手段2は音声信号の出力先を第1のモデル照合手段4から第2のモデル照合手段22に変更するため、音声入力信号2から出力された2回目の音声信号は、第2のモデル照合手段22に入力する。
【0066】
第2のモデル照合手段22は、2回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い(ステップST22)、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得て、それを認識結果入れ替え手段25に出力する。認識結果入れ替え手段25は、第2のモデル照合手段22で得られた2回目の音声信号の照合結果を記憶する(ステップST23)。また、部分区間記憶手段23は、第2のモデル照合手段22から出力された、第2のモデル照合手段22で照合対象となった2回目の音声信号を記憶する(ステップST24)。
【0067】
スポッティング手段24は、音声信号記憶手段5に記憶されている1回目の音声信号と、部分区間記憶手段23に記憶されている2回目の音声信号との間で連続DPマッチングによるスポッティング処理を行い(ステップST25)、1回目の音声信号のそれぞれの部分区間と2回目の音声信号のそれぞの部分区間との間の音響的類似度を求め、それを認識結果入れ替え手段25に出力する。
【0068】
認識結果入れ替え手段25は、音響的類似度が高い1回目の音声信号の部分区間と2回目の音声信号の部分区間とを検出し(ステップST26)、M=1とした(ステップST27)後、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST28)、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加し(ステップST29)、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示する(ステップST30)。
【0069】
発声者は、認識結果表示手段9に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST31)、正しいとき、確定キーを押し、1回目の音声の認識結果及び2回目の音声の認識結果を確定する。認識結果入れ替え手段25は、確定した1回目の音声の認識結果及び2回目の音声の認識結果を出力する(ステップST32)。
【0070】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段25は、検出された2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST33)、下位の候補がある場合、M=2とした(ステップST34)後、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する2位の候補に入れ替え(ステップST28)、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示する(ステップST30)。
【0071】
その後、1回目の音声の正しい認識結果が認識結果表示手段9に表示されるまで、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対する下位の候補に入れ替えられ、下位の候補がなくなった場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0072】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声しようとして「神奈川県横浜市中区」まで発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区石川町」と発声した場合について説明する。
【0073】
発声者が「神奈川県横浜市中区」まで発声したとき、図5に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「西区」が得られ、認識結果入れ替え手段25に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段9に表示された。
【0074】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区石川町」と発声すると、図11に示すように、第2のモデル照合手段22により、音声入力手段2から出力された2回目の音声信号S2から2回目の音声中の2つの単語に対応する2つの部分区間S21,S22が検出され、部分区間S21に対する1位の候補として「中区」、2位の候補として「多摩区」、3位の候補として「西区」、部分区間S22に対する1位の候補として「石川町」が得られ、認識結果入れ替え手段25に記憶された。また、スポッティング手段24により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞの部分区間S11〜S13と2回目の音声信号S2のそれぞれの部分区間S21,S22との間の音響的類似度が求められた。また、図11に示すように、認識結果入れ替え手段25により、音響的類似度が高い1回目の音声信号S1の部分区間S13と2回目の音声信号S2の部分区間S21とが検出された。そして、図11に示すように、認識結果入れ替え手段25により、検出された1回目の音声信号S1の部分区間S13に対する候補である「西区」が、検出された2回目の音声信号S2の部分区間S21に対する1位の候補である「中区」に入れ替えられ、検出されなかった2回目の音声信号S2の部分区間S22に対する候補である「石川町」がそれに付加され、新たな1回目の音声の認識結果と2回目の音声の認識結果である「神奈川県横浜市中区石川町」が認識結果表示手段9に表示された。
【0075】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果及び2回目の音声の認識結果が確定し、確定した1回目の音声の認識結果及び2回目の音声の認識結果が認識結果入れ替え手段25から出力された。
【0076】
以上のように、この実施の形態2によれば、1回目の音声が誤認識された場合、1回目の音声中の誤認識された単語及びそれに後続する1または複数の単語の音声を2回目の音声として発声し、誤認識された単語を修正するため、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0077】
なお、1回目の音声信号S1の部分区間S13と、2回目の音声信号S2の部分区間S21及びS22を合わせた区間との間の音響的類似度が高い場合、2回目の音声信号S2の部分区間S21及びS22が1つの単語に対応する部分区間であるとして、実施の形態1の場合のように処理される。すなわち、1回目の音声信号S1の部分区間S13に対する候補が、2回目の音声信号S2の部分区間S21及びS22に対する候補に入れ替えられる。具体的には、1回目の音声信号S1の部分区間S13に対する候補である「西区」が、2回目の音声信号S2の部分区間S21及びS22に対する候補である「中区石川町」に入れ替えられる。
【0078】
実施の形態3.
音声認識では声質、発声様態などにより誤認識されやすい単語が存在するため、1回目の音声の認識結果に生じた誤認識と同じ誤認識が2回目の音声の認識結果に生じる場合がある。実施の形態3では、このような場合でも誤認識された単語を効率的に修正することができるように構成した場合について説明する。
【0079】
実施の形態3の音声認識装置の構成は、図8に示す実施の形態2の音声認識装置の構成と同様である。ただし、実施の形態3の音声認識装置では、認識結果入れ替え手段25は、1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、音響的類似度が高い1回目の音声信号の部分区間と2回目の音声信号の部分区間とを検出し、検出された1回目の音声信号の部分区間に対する候補をその候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加して、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、検出された1回目の音声信号の部分区間に対する候補をその候補と異なる検出された2回目の音声信号の部分区間に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果及び2回目の音声の認識結果を確定し、確定した1回目の音声の認識結果及び2回目の音声の認識結果を出力するものである。
【0080】
次に動作について説明する。
図12はこの発明の実施の形態3による音声認識装置の動作の説明に供するフローチャートである。
【0081】
ステップST25までは、実施の形態2の場合と同様に行う。
認識結果入れ替え手段25は、音響的類似度が高い1回目の音声信号の部分区間と2回目の音声信号の部分区間とを検出し(ステップST41)、M=1とした(ステップST42)後、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対する1位の候補と同じでか否かを判断し(ステップST43)、同じでないとき、検出された1回目の音声信号の部分区間に対する候補を検出された2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST44)、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加し(ステップST45)、新たな1回目の音声の認識結果と2回目の音声の認識結果を認識結果表示手段9に表示する(ステップST46)。
【0082】
なお、認識結果入れ替え手段25は、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対するM位の候補と同じであるとき、検出された2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST47)、下位の候補がある場合、M=M+1とした(ステップST48)後、ステップST43に戻る。下位の候補がない場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0083】
発声者は、認識結果表示手段9に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST49)、正しいとき、確定キーを押し、1回目の音声の認識結果及び2回目の音声の認識結果を確定する。認識結果入れ替え手段25は、確定した1回目の音声の認識結果及び2回目の音声の認識結果を出力する(ステップST50)。
【0084】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段25は、検出された2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST51)、下位の候補がある場合、M=2とした(ステップST52)後、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対する2位の候補と同じか否かを判断する(ステップST43)。
【0085】
その後、1回目の音声の正しい認識結果が認識結果表示手段9に表示されるまで、検出された1回目の音声信号の部分区間に対する候補が検出された2回目の音声信号の部分区間に対する下位の候補に入れ替えられ、下位の候補がなくなった場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0086】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声しようとして「神奈川県横浜市中区」まで発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区石川町」と発声した場合について説明する。
【0087】
発声者が「神奈川県横浜市中区」まで発声したとき、図5に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「西区」が得られ、認識結果入れ替え手段25に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段9に表示された。
【0088】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区石川町」と発声すると、図13に示すように、第2のモデル照合手段22により、音声入力手段2から出力された2回目の音声信号S2から2回目の音声中の2つの単語に対応する2つの部分区間S21,S22が検出され、部分区間S21に対する1位の候補として「西区」、2位の候補として「中区」、3位の候補として「多摩区」、部分区間S22に対する1位の候補として「石川町」が得られ、認識結果入れ替え手段25に記憶された。また、スポッティング手段24により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S13と2回目の音声信号S2のそれぞれの部分区間S21,S22との間の音響的類似度が求められた。また、図13に示すように、認識結果入れ替え手段25により、音響的類似度が高い1回目の音声信号S1の部分区間S13と2回目の音声信号S2の部分区間S21とが検出された。そして、図13に示すように、検出された1回目の音声信号S1の部分区間S13に対する候補が、検出された2回目の音声信号S2の部分区間S21に対する1位の候補と同じであるため、認識結果入れ替え手段25により、検出された1回目の音声信号S1の部分区間S13に対する候補である「西区」が、検出された2回目の音声信号S2の部分区間S21に対する2位の候補である「中区」に入れ替えられ、検出されなかった2回目の音声信号S2の部分区間S22に対する候補である「石川町」がそれに付加され、新たな1回目の音声の認識結果と2回目の音声の認識結果である「神奈川県横浜市中区石川町」が認識結果表示手段9に表示された。
【0089】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果及び2回目の音声の認識結果が確定し、確定した1回目の音声の認識結果及び2回目の音声の認識結果が認識結果入れ替え手段25から出力された。
【0090】
以上のように、この実施の形態3によれば、1回目の音声が誤認識された場合、1回目の音声中の誤認識された単語の音声を2回目の音声として発声し、誤認識された単語に対応する1回目の音声信号の部分区間に対する候補を、その候補と異なる、誤認識された単語に対応する2回目の音声信号の部分区間に対する候補に入れ替え、誤認識された単語を修正するため、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0091】
なお、この実施の形態では、音声認識装置の構成が実施の形態2の音声認識装置の構成と同様である場合について説明したが、実施の形態1の音声認識装置の構成と同様である場合であっても同様の効果が得られる。
【0092】
実施の形態4.
実施の形態4の音声認識装置の構成は、図1に示す実施の形態1の音声認識装置の構成と同様である。ただし、実施の形態4の音声認識装置では、単語辞書記憶手段3は、認識対象となる単語の情報を、接続関係を規定する構文規則に従って含む単語辞書を記憶するものである。
【0093】
また、認識結果入れ替え手段8は、1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を検出し、その部分区間に対する候補を、単語辞書中の構文規則に従ってその前後の部分区間に対する候補と接続可能な、2回目の音声信号の部分区間に対する候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、その部分区間に対する候補を、単語辞書中の構文規則に従ってその前後の部分区間に対する候補と接続可能な、2回目の音声信号の部分区間に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果を確定し、確定した1回目の音声の認識結果を出力するものである。
【0094】
次に動作について説明する。
図14はこの発明の実施の形態4による音声認識装置の動作の説明に供するフローチャートである。
【0095】
ステップST11までは、実施の形態1の場合と同様に行う。
認識結果入れ替え手段8は、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を検出し(ステップST61)、M=1とした(ステップST62)後、2回目の音声信号の部分区間に対する1位の候補が、単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能か否かを判断し(ステップST63)、接続可能であるとき、検出された1回目の音声信号の部分区間に対する候補を2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST64)、新たな1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST65)。
【0096】
なお、認識結果入れ替え手段8は、2回目の音声信号の部分区間に対するM位の候補が、単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続不可能であるとき、2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST66)、下位の候補がある場合、M=M+1とした(ステップST67)後、ステップST63に戻る。下位の候補がない場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0097】
発声者は、認識結果表示手段9に表示された新たな1回目の音声の認識結果を見て、それが正しいか否かを判断し(ステップST68)、正しいとき、確定キーを押し、1回目の音声の認識結果を確定する。認識結果入れ替え手段8は、確定した1回目の音声の認識結果を出力する(ステップST69)。
【0098】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しくないとき、発声者は、次候補キーを押す。認識結果入れ替え手段8は、2回目の音声信号の部分区間に対する下位の候補があるか否かを判断し(ステップST70)、下位の候補がある場合、M=2とした(ステップST71)後、2回目の音声信号の部分区間に対する2位の候補が、単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能か否かを判断する(ステップST63)。
【0099】
その後、1回目の音声の正しい認識結果が認識結果表示手段9に表示されるまで、検出された1回目の音声信号の部分区間に対する候補が2回目の音声信号の部分区間に対する下位の候補に入れ替えられ、下位の候補がなくなった場合、発声者は、訂正キーを押して2回目の音声信号をキャンセルし、2回目の音声を発声し直す。
【0100】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市中区石川町」と発声したとき、「中区」が「西区」と誤認識されたため、新たに「中区」と発声した場合について説明する。また、単語辞書記憶手段3には、認識対象となる単語の情報が接続関係を矢印で表わす図15に示す構文規則に従って含まれた単語辞書が記憶されているものとする。
【0101】
発声者が「神奈川県横浜市中区」と発声したとき、図5に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の3つの単語に対応する3つの部分区間S11〜S13が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「西区」が得られ、認識結果入れ替え手段8に記憶された。また、「神奈川県横浜市西区」と認識結果表示手段9に表示された。
【0102】
この場合、「中区」が「西区」と誤認識されたため、発声者が訂正キーを押し、新たに「中区」と発声すると、図16に示すように、第2のモデル照合手段6により、音声入力手段2から出力された2回目の音声信号S2から1つの部分区間S21が検出され、1位の候補として「多摩区」、2位の候補として「中区」、3位の候補として「西区」が得られ、認識結果入れ替え手段8に記憶された。また、スポッティング手段7により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S13と2回目の音声信号S2の部分区間S21との間の音響的類似度が求められた。また、図16に示すように、認識結果入れ替え手段8により、2回目の音声信号S2の部分区間S21と音響的類似度が高い1回目の音声信号S1の部分区間S13が検出された。そして、図15に示すように、2回目の音声信号S2の部分区間S21に対する1位の候補である「多摩区」が、検出された1回目の音声信号S1の部分区間S13前の部分区間S12に対する候補である「横浜市」と接続不可能であり、2回目の音声信号S2の部分区間S21に対する2位の候補である「中区」が、検出された1回目の音声信号S1の部分区間S13前の部分区間S12に対する候補である「横浜市」と接続可能であるため、図16に示すように、認識結果入れ替え手段8により、検出された1回目の音声信号S1の部分区間S13に対する候補である「西区」が、2回目の音声信号S2の部分区間S21に対する2位の候補である「中区」に入れ替えられ、新たな1回目の音声の認識結果である「神奈川県横浜市中区」が認識結果表示手段9に表示された。
【0103】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果が確定し、確定した1回目の音声の認識結果が認識結果入れ替え手段8から出力された。
【0104】
以上のように、この実施の形態4によれば、1回目の音声が誤認識された場合、1回目の音声中の誤認識された単語の音声を2回目の音声として発声し、誤認識された単語に対応する1回目の音声信号の部分区間に対する候補を、単語辞書中の構文規則に従って、誤認識された単語に対応する2回目の音声信号に対する候補に入れ替え、誤認識された単語を修正するため、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0105】
なお、この実施の形態では、音声認識装置の構成が実施の形態1の音声認識装置の構成と同様である場合について説明したが、実施の形態2の音声認識装置の構成と同様である場合であっても同様の効果が得られる。
【0106】
実施の形態5.
実施の形態1では、連続DPマッチングにより求められた音響的類似度から1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替える場合について説明した。実施の形態5では、音響的類似度と照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替える場合について説明する。
【0107】
実施の形態5の音声認識装置の構成は、図1に示す実施の形態1の音声認識装置の構成と同様である。ただし、実施の形態5の音声認識装置では、第1のモデル照合手段4は、1回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間でモデル照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものである。
【0108】
また、認識結果入れ替え手段8は、1回目の音声の認識結果を認識結果表示手段9に表示し、1回目の音声の認識結果が正しくない場合、1回目の音声信号の部分区間毎に、2回目の音声信号の部分区間との音響的類似度と照合スコアとの差分スコアを求め、差分スコアが高い1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替え、新たな1回目の音声の認識結果を認識結果表示手段9に表示し、新たな1回目の音声の認識結果が正しくない場合、その部分区間に対する候補を2回目の音声信号に対する他の候補に入れ替え、正しい1回目の音声の認識結果が得られた段階で1回目の音声の認識結果を確定し、確定した1回目の音声の認識結果を出力するものである。
【0109】
次に動作について説明する。
図17及び図18はこの発明の実施の形態5による音声認識装置の動作の説明に供するフローチャートである。
【0110】
発声者が複数の認識対象となる単語の音声(1回目の音声)を発声し、1回目の音声が音声入力手段2に入力する(ステップST81)と、音声入力手段2は1回目の音声の音声信号(1回目の音声信号)を出力する。音声入力手段2から出力された1回目の音声信号は、第1のモデル照合手段4に入力する。第1のモデル照合手段4は、1回目の音声信号と単語辞書記憶手段3に記憶されている単語辞書との間で連続DPマッチングによるモデル照合処理を行い(ステップST82)、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する1または複数の候補を順位をつけて得るとともに、1回目の音声信号の部分区間毎に照合スコアを求め、それらを認識結果入れ替え手段8に出力する。
その後、ステップST3からステップST11までを実施の形態1の場合と同様に行う。
【0111】
認識結果入れ替え手段8は、1回目の音声信号の部分区間毎に、2回目の音声信号の部分区間との音響的類似度と照合スコアとの差分スコアを求め(ステップST83)、差分スコアが高い1回目の音声信号の部分区間を検出し(ステップST84)、M=1とした(ステップST85)後、その部分区間に対する候補を2回目の音声信号の部分区間に対する1位の候補に入れ替え(ステップST86)、新たな1回目の音声の認識結果を認識結果表示手段9に表示する(ステップST87)。
その後、ステップST16からステップST19までを実施の形態1の場合と同様に行う。
【0112】
以下、具体例により上述した動作を説明する。
ここでは、認識対象が図22に示す住所であり、発声者が「神奈川県横浜市南区本牧」と発声したとき、「本牧」が「中里」と誤認識されたため、新たに「本牧」と発声した場合について説明する。また、照合スコア及び音響的類似度が0〜1000までの範囲の数値で表わされ、数値が大きいほど、照合の度合いや類似の度合いが高いものとする。
【0113】
発声者が「神奈川県横浜市南区本牧」と発声したとき、図19に示すように、第1のモデル照合手段4により、音声入力手段2から出力された1回目の音声信号S1から1回目の音声中の4つの単語に対応する4つの部分区間S11〜S14が検出され、部分区間S11に対する1位の候補として「神奈川県」、部分区間S12に対する1位の候補として「横浜市」、部分区間S13に対する1位の候補として「南区」、部分区間S14に対する1位の候補として「中里」が得られ、認識結果入れ替え手段8に記憶された。また、図19に示すように、第1のモデル照合手段4により、1回目の音声信号S1の部分区間S11〜S14毎に、照合スコアC2[i]が、それぞれ「800」、「750」、「800」、「400」と求められた。部分区間S14は1回目の音声中の誤認識された単語に対応する部分区間であるため、部分区間S14の照合スコアが他の部分区間の照合スコアより小さい値となっている。また、「神奈川県横浜市南区中里」と認識結果表示手段9に表示された。
【0114】
この場合、「本牧」が「中里」と誤認識されたため、発声者が訂正キーを押し、新たに「本牧」と発声すると、図19に示すように、第2のモデル照合手段6により、音声入力手段2から出力された2回目の音声信号S2から1つの部分区間S21が検出され、1位の候補として「本牧」、2位の候補として「中区」、3位の候補として「多摩区」が得られ、認識結果入れ替え手段8に記憶された。また、図19に示すように、スポッティング手段7により、1回目の音声信号S1と2回目の音声信号S2との間で連続DPマッチングによるスポッティング処理が行われ、1回目の音声信号S1のそれぞれの部分区間S11〜S14と2回目の音声信号S2の部分区間S21との間の音響的類似度C1[i]が、それぞれ「100」、「150」、「800」、「780」と求められた。また、図19に示すように、認識結果入れ替え手段8により、1回目の音声信号S1の部分区間S11〜S14毎に、2回目の音声信号S2の部分区間S21との音響的類似度と照合スコアとの差分スコアC3[i]が、それぞれ「−700」、「−600」、「0」、「380」と求められ、差分スコアが高い1回目の音声信号S1の部分区間S14が検出された。そして、図19に示すように、認識結果入れ替え手段8により、検出された1回目の音声信号S1の部分区間S14に対する候補である「中里」が、2回目の音声信号S2の部分区間S21に対する1位の候補である「本牧」に入れ替えられ、新たな1回目の音声の認識結果である「神奈川県横浜市南区本牧」が認識結果表示手段9に表示された。
【0115】
認識結果表示手段9に表示された新たな1回目の音声の認識結果が正しいため、発声者が確定キーを押すと、1回目の音声の認識結果が確定し、確定した1回目の音声の認識結果が認識結果入れ替え手段8から出力された。
【0116】
ここで照合スコアについて説明する。
図20は「神奈川県横浜市南区本牧」と発声したときに得られた音声信号と、「神奈川県」、「横浜市」、「南区」、「中里」という単語の情報を連続して含む単語辞書との間にモデル照合処理を行った結果を示したものである。横軸は音声信号を表わし、tフレームという単位で表わす。縦軸は単語辞書を表わし、u状態という単位で表わす。音声信号は全体でTフレーム存在し、単語辞書は全体でU状態存在する。
【0117】
音声信号は発声により長さが変化し、部分的にも伸縮する。このため、モデル照合処理する際に、音声信号と単語辞書との対応関係を演算して最適な対応関係を求める。この対応関係はダイナミックプログラミング、あるいはビタビ演算と呼ばれる演算方法により効率よく計算することができる。このようにして音声信号のフレームtと単語辞書の状態uとの最適な対応関係を示したものが図20中の最適経路である。状態uに対するフレームtの最適な対応関係を(1)式で示す。
【0118】
u=G(t) ・・・(1)
【0119】
一方、フレームtの音声信号と状態uの単語辞書との音響的類似度を局所距離D(t,u)で表わす。局所距離は値が小さい程、音声信号と単語辞書との音響的類似度が高いことを意味する。単語iの照合スコアC2[i]は単語iに属する最適経路上の局所距離をフレームについて平均したものである。図20に示すように単語iに属する状態と対応する音声信号のフレームをts(i)からte(i)であるとすると、単語iに対する照合スコアC2[i]は(2)式で演算される。
【0120】
【数1】

Figure 0004270770
【0121】
以上のように、この実施の形態5によれば、1回目の音声が誤認識された場合、音響的類似度と照合スコアとを用いて、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間を検出し、その部分区間に対する候補を2回目の音声信号の部分区間に対する候補に入れ替えるので、音声信号のゆらぎなどにより、誤認識された単語に対応する部分区間と異なる部分区間の音響的類似度が高くなった場合でも、効率的に誤認識された単語を修正することができ、使用しやすい音声認識装置が得られる効果がある。
【0122】
なお、この実施の形態では、音響的類似度と照合スコアとの差分スコアを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間を検出する場合について説明したが、別の演算手法から得られる値を用いて誤認識された単語に対応する部分区間を検出する場合であっても同様の効果が得られる。
【0123】
また、この実施の形態では、音声認識装置の構成が実施の形態2の音声認識装置の構成と同様である場合について説明したが、実施の形態1の音声認識装置の構成と同様である場合であっても同様の効果が得られる。
【0124】
上述した各実施の形態で説明した音声認識装置及び音声認識方法は、コンピュータに音声認識プログラムを組み込むことによっても得られる。
【0125】
【発明の効果】
以上のように、この発明によれば、認識対象となる単語の情報を含む単語辞書を記憶する単語辞書記憶手段と、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合手段と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合手段と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング手段と、スポッティング手段で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え手段とを備えるように音声認識装置を構成したので、効率的に誤認識された部分を修正することができる音声認識装置が得られる効果がある。
【0126】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え手段を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識装置を構成したので、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0127】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え手段を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするように音声認識装置を構成したので、誤認識された単語及びそれに後続する1または複数の単語の音声を2回目の音声として発声した場合でも、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0128】
この発明によれば、認識結果入れ替え手段を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識装置を構成したので、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0129】
この発明によれば、単語辞書記憶手段を、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書を記憶するものとし、認識結果入れ替え手段を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識装置を構成したので、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0130】
この発明によれば、第1の照合手段を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え手段を、スポッティング手段で得られた音響的類似度と第1の照合手段で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識装置を構成したので、音声信号のゆらぎなどにより、誤認識された部分に対応する部分区間と異なる部分区間の音響的類似度が高くなった場合でも、誤認識された部分を効率的に修正することができる音声認識装置が得られる効果がある。
【0131】
この発明によれば、1回目の音声信号と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合工程と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合工程と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング工程と、スポッティング工程で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え工程とを備えるように音声認識方法を構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0132】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え工程を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識方法を構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0133】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え工程を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするように音声認識方法を構成したので、誤認識された単語及びそれに後続する1または複数の単語の音声を2回目の音声として発声した場合でも、誤認識された部分を効率的に修正することができる音声認識方法が得られる効果がある。
【0134】
この発明によれば、認識結果入れ替え工程を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識方法を構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0135】
この発明によれば、認識結果入れ替え工程を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識方法を構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0136】
この発明によれば、第1の照合工程を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え工程を、スポッティング工程で得られた音響的類似度と第1の照合工程で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識方法を構成したので、音声信号のゆらぎなどにより、誤認識された部分に対応する部分区間と異なる部分区間の音響的類似度が高くなった場合でも、誤認識された部分を効率的に修正することができる音声認識方法が得られる効果がある。
【0137】
この発明によれば、コンピュータに、1回目の音声信号と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合機能と、2回目の音声信号と単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合機能と、1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング機能と、スポッティング機能で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え機能とを実現させるものであるように音声認識プログラムを構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0138】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え機能を、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識プログラムを構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0139】
この発明によれば、2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え機能を、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものとするように音声認識プログラムを構成したので、誤認識された単語及びそれに後続する1または複数の単語の音声を2回目の音声として発声した場合でも、誤認識された部分を効率的に修正することができる音声認識プログラムが得られる効果がある。
【0140】
この発明によれば、認識結果入れ替え機能を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識プログラムを構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0141】
この発明によれば、認識結果入れ替え機能を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識プログラムを構成したので、効率的に誤認識された部分を修正することができる音声認識方法が得られる効果がある。
【0142】
この発明によれば、第1の照合機能を、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものとし、認識結果入れ替え機能を、スポッティング機能で得られた音響的類似度と第1の照合機能で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものとするように音声認識プログラムを構成したので、音声信号のゆらぎなどにより、誤認識された部分に対応する部分区間と異なる部分区間の音響的類似度が高くなった場合でも、誤認識された部分を効率的に修正することができる音声認識プログラムが得られる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】 この発明の実施の形態1による音声認識装置の動作の説明に供するフローチャートである(その1)。
【図3】 この発明の実施の形態1による音声認識装置の動作の説明に供するフローチャートである(その2)。
【図4】 この発明の実施の形態1による音声認識装置の動作の説明に供するフローチャートである(その3)。
【図5】 この発明の実施の形態1による音声認識装置の具体的な動作の説明に供する図である(その1)。
【図6】 この発明の実施の形態1による音声認識装置の具体的な動作の説明に供する図である(その2)。
【図7】 この発明の実施の形態1による音声認識装置の具体的な動作の説明に供する図である(その3)。
【図8】 この発明の実施の形態2による音声認識装置の構成を示すブロック図である。
【図9】 この発明の実施の形態2による音声認識装置の動作の説明に供するフローチャートである(その1)。
【図10】 この発明の実施の形態2による音声認識装置の動作の説明に供するフローチャートである(その2)。
【図11】 この発明の実施の形態2による音声認識装置の具体的な動作の説明に供する図である。
【図12】 この発明の実施の形態3による音声認識装置の動作の説明に供するフローチャートである。
【図13】 この発明の実施の形態3による音声認識装置の具体的な動作の説明に供する図である。
【図14】 この発明の実施の形態4による音声認識装置の動作の説明に供するフローチャートである。
【図15】 この発明の実施の形態4による音声認識装置の単語辞書記憶手段に記憶されている単語辞書の状態図である。
【図16】 この発明の実施の形態4による音声認識装置の具体的な動作の説明に供する図である。
【図17】 この発明の実施の形態5による音声認識装置の動作の説明に供するフローチャートである(その1)。
【図18】 この発明の実施の形態5による音声認識装置の動作の説明に供するフローチャートである(その2)。
【図19】 この発明の実施の形態5による音声認識装置の具体的な動作の説明に供する図である。
【図20】 照合スコアの算出方法の説明に供する図である。
【図21】 特開平4−181299号公報に示された従来の音声認識装置の構成を示すブロック図である。
【図22】 音声認識装置の認識対象の具体例を示す図である。
【図23】 従来の音声認識装置の具体的な動作の説明に供する図である(その1)。
【図24】 従来の音声認識装置の具体的な動作の説明に供する図である(その2)。
【図25】 従来の音声認識装置の具体的な動作の説明に供する図である(その3)。
【図26】 従来の音声認識装置の具体的な動作の説明に供する図である(その4)。
【符号の説明】
1,21 音声認識装置、2 音声入力手段、3 単語辞書記憶手段、4 第1のモデル照合手段、5 音声信号記憶手段、6,22 第2のモデル照合手段、7,24 スポッティング手段、8,25 認識結果入れ替え手段、9 認識結果表示手段、23 部分区間記憶手段。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice recognition device, a voice recognition method, and a voice recognition program.
[0002]
[Prior art]
The voice recognition device is an efficient data input means. However, when the voice uttered by the speaker is misrecognized, there is a problem that it takes time to correct the misrecognized portion. For this reason, in the speech recognition apparatus, means for easily correcting a misrecognized portion is required.
[0003]
FIG. 21 is a block diagram showing the configuration of a conventional speech recognition apparatus disclosed in Japanese Patent Laid-Open No. 4-181299. In the figure, 101 is a voice recognition device, 102 is a voice input means for outputting the inputted voice as a voice signal, 103 is a word dictionary storage means for storing a word dictionary including information of words to be recognized, and 104 is a voice input. Between a speech signal (first speech signal) of a plurality of recognition target words input to the means 102 (first speech signal) and the word dictionary stored in the word dictionary storage means 103 Model matching means for performing model matching processing, detecting partial sections corresponding to the respective words in the first speech from the first speech signal, and obtaining one or a plurality of candidates for each partial section by ranking; Reference numeral 105 denotes an audio signal storage means for storing the first audio signal to be verified by the model matching means 104, and reference numeral 106 denotes a first sound stored in the audio signal storage means 105. Performing a spotting process between the signal and the voice signal (second voice signal) of the misrecognized word voice (second voice) in the first voice input to the voice input means 102; Spotting means 107 for obtaining the acoustic similarity between each partial section of the first speech signal and the second speech signal, 107 displays the recognition result of the first speech on the recognition result display means 108, and the first time. If the speech recognition result is incorrect, the candidate for the partial section of the first speech signal having high acoustic similarity to the second speech signal is replaced with another candidate, and the new first speech recognition result is recognized. This is a recognition result replacement means for displaying the result on the result display means 108, confirming the first speech recognition result when a correct recognition result is obtained, and outputting the confirmed first speech recognition result.
[0004]
The voice input unit 102 changes the output destination of the voice signal from the model matching unit 104 to the spotting unit 106 when a correction key is input.
[0005]
Next, the operation will be described.
When a speaker utters a plurality of recognition target words (first speech) and the first speech is input to the speech input unit 102, the speech input unit 102 receives the first speech signal (first time speech). Audio signal). The first audio signal output from the audio input unit 102 is input to the model matching unit 104. The model matching unit 104 performs model matching processing by continuous DP matching between the first speech signal and the word dictionary stored in the word dictionary storage unit 103, and the model matching unit 104 includes the first speech signal from the first speech signal. A partial section corresponding to each word is detected, one or a plurality of candidates for each partial section are obtained by ranking, and are output to the recognition result replacing means 107. The recognition result replacement unit 107 stores the first speech signal collation result, and displays the first speech recognition result on the recognition result display unit 108. The audio signal storage unit 105 stores the first audio signal output from the model matching unit 104 and subjected to verification by the model matching unit 104.
[0006]
The speaker sees the recognition result of the first speech displayed on the recognition result display means 108, determines whether or not it is correct, and when it is correct, presses the confirm key to display the recognition result of the first speech. Determine. The recognition result replacing means 107 outputs the confirmed first speech recognition result.
[0007]
When the recognition result of the first voice displayed on the recognition result display means 108 is not correct, the speaker presses the correction key and the voice of the erroneously recognized word in the first voice (second voice). Speak. When the second voice is input to the voice input means 102, the voice input means 102 outputs a voice signal (second voice signal) of the second voice. When the correction key is input, the voice input unit 102 changes the output destination of the voice signal from the model matching unit 104 to the spotting unit 106. Therefore, the second voice signal output from the voice input unit 102 is the spotting unit. 106.
[0008]
The spotting means 106 performs spotting processing by continuous DP matching between the first audio signal stored in the audio signal storage means 105 and the second audio signal, and each partial section of the first audio signal. And the second sound signal are obtained and output to the recognition result switching means 107.
[0009]
The recognition result replacing unit 107 detects a partial section of the first audio signal having a high acoustic similarity to the second audio signal, replaces the candidate for the partial section with another candidate, and generates a new first audio signal. The recognition result is displayed on the recognition result display means 108.
[0010]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 108, determines whether or not it is correct, and when it is correct, presses the confirm key to recognize the first voice. Confirm the result. The recognition result replacing means 107 outputs the confirmed first speech recognition result.
[0011]
When the new first speech recognition result displayed on the recognition result display means 108 is not correct, the speaker presses the next candidate key. The recognition result replacement unit 107 replaces the candidate for the detected partial section of the first speech signal with another candidate, and displays the new first speech recognition result on the recognition result display unit 108.
[0012]
When the correct candidate is not included in the detected candidates for the partial section of the first speech signal, the speaker presses the correction key to cancel the first speech signal and utter the first speech. cure.
[0013]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Ishikawa-cho, Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” was misrecognized as “Nishi-ku”. A case where “ku” is spoken will be described.
[0014]
When the speaker utters “Naka Ward, Yokohama, Kanagawa”, the model matching unit 104 includes the first voice signal S1 output from the voice input unit 102, as shown in FIG. Three partial sections S11 to S13 corresponding to the three words are detected, “Kanagawa” as the first candidate for the partial section S11, “Yokohama City” as the first candidate for the partial section S12, and the second candidate. “Kawasaki City”, “Nishi Ward” as the first candidate for the partial section S13, “Tama Ward” as the second candidate, “Naka Ward” as the third candidate, and stored in the recognition result replacement means 107 . Also, “Nishi-ku, Yokohama-shi, Kanagawa” is displayed on the recognition result display means 108.
[0015]
In this case, since “Naka Ward” is misrecognized as “Nishi Ward”, the speaker presses the correction key and newly speaks “Naka Ward”. Spotting processing by continuous DP matching was performed with the audio signal S2, and the acoustic similarity between each of the partial sections S11 to S13 of the first audio signal S1 and the second audio signal S2 was obtained. . Further, as shown in FIG. 24, the recognition result exchanging means 107 detects the partial section S13 of the first audio signal S1 having a high acoustic similarity with the second audio signal S2. Then, as shown in FIG. 25, “Nishi-ku”, which is the first candidate for the partial section S13 of the first audio signal S1 detected by the recognition result switching unit 107, is “Tama-ku”, which is the second candidate. And “Tama Ward, Yokohama City, Kanagawa Prefecture”, which is the new first speech recognition result, is displayed on the recognition result display means 108.
[0016]
Since the recognition result of the new first voice displayed on the recognition result display means 108 is not correct, when the speaker presses the next candidate key, it is detected by the recognition result replacement means 107 as shown in FIG. “Tama Ward” that is the second candidate for the partial section S13 of the first audio signal S1 has been replaced with “Naka Ward” that is the third candidate. Then, “Naka Ward, Yokohama-shi, Kanagawa”, which is a candidate for the new first speech recognition result, is displayed on the recognition result display means 108.
[0017]
Since the new first speech recognition result displayed on the recognition result display means 108 is correct, when the speaker presses the confirmation key, the first speech recognition result is confirmed, and the confirmed first speech recognition is performed. The result is output from the recognition result switching means 107.
[0018]
[Problems to be solved by the invention]
Since the conventional speech recognition apparatus is configured as described above, if the correct candidate is not included in the candidates for the partial section of the first speech signal corresponding to the erroneously recognized portion, the first time There was a problem that the voice signal had to be canceled and the first voice had to be uttered again.
[0019]
Also, if you try to utter a long sentence continuously and break it in the middle, and a misrecognition occurs at that time, humans tend to utter the sentence that follows the misrecognized part, but conventional speech recognition Since the apparatus presupposes that only the voice of the erroneously recognized part is newly uttered, there has been a problem that the erroneously recognized part cannot be corrected correctly in such a case.
[0020]
The present invention has been made to solve the above-described problems, and an object thereof is to obtain a voice recognition device, a voice recognition method, and a voice recognition program that can efficiently correct a misrecognized portion. .
[0021]
[Means for Solving the Problems]
The speech recognition apparatus according to the present invention performs a collation process between a word dictionary storage unit that stores a word dictionary including information on a word to be recognized, a first speech signal and a word dictionary, and performs a first speech A partial section corresponding to each word in the first speech is detected from the signal, and a matching process is performed between the first collating means for obtaining candidates for each partial section, and the second speech signal and the word dictionary. And a second collating unit for detecting a partial section corresponding to each word in the second speech from the second speech signal and obtaining a candidate for each partial section, and each part of the first speech signal Spotting means for obtaining the acoustic similarity between the section and each partial section of the second speech signal, and the erroneous recognition in the first speech using the acoustic similarity obtained by the spotting means single Are detected for the first segment of the first audio signal and the second segment of the second audio signal, and the candidates for the first segment of the first audio signal are detected. A recognition result replacement means for replacing with a candidate for The word dictionary storage means stores a word dictionary including information of words to be recognized in accordance with a syntax rule that defines a connection relationship, and the recognition result replacement means is erroneously recognized in the first speech. And detecting a partial section of the first speech signal and a second section of the second speech signal corresponding to the detected word, and candidates for the detected second section of the speech signal are determined according to the syntax rules in the word dictionary. It is determined whether or not it is possible to connect with a candidate for a partial section before and after the detected partial section of the first audio signal, and a candidate for the detected partial section of the first audio signal is determined as a partial section before and after that. The candidate is replaced with a candidate for a partial section of the detected second audio signal connectable with a candidate for Is.
[0022]
In the speech recognition apparatus according to the present invention, when the second speech consists only of speech of a misrecognized word in the first speech, the recognition result replacing means is acoustically connected with the partial section of the second speech signal. A partial section of the first speech signal having a high similarity is detected as a partial section of the first speech signal corresponding to a misrecognized word in the first speech, and a portion of the detected first speech signal The candidate for the section is replaced with the candidate for the partial section of the second audio signal.
[0023]
In the speech recognition apparatus according to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacing means is acoustically similar. The first segment of the first speech signal and the second segment of the second speech signal, which have a high degree, are divided into the first segment of the first speech signal and the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the partial section of the second audio signal not detected A candidate for is to be added to it.
[0024]
In the speech recognition apparatus according to the present invention, the recognition result switching means detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech, It is determined whether the candidate for the detected second section of the audio signal is the same as the candidate for the detected first section of the audio signal, and the candidate for the detected first section of the audio signal is determined. Is replaced with a candidate for a partial section of the detected second audio signal different from the candidate.
[0026]
In the speech recognition apparatus according to the present invention, the first collating unit performs collation processing between the first speech signal and the word dictionary, and corresponds to each word in the first speech from the first speech signal. And detecting candidates for each partial section, obtaining a matching score for each partial section of the first speech signal, and replacing the recognition result replacement means with the acoustic similarity obtained by the spotting means And a partial section of the first speech signal and a partial section of the second speech signal corresponding to the misrecognized word in the first speech, using the collation score obtained by the first collation means The candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal.
[0027]
The speech recognition method according to the present invention performs a collation process between a first speech signal and a word dictionary including information on a word to be recognized, and each word in the first speech from the first speech signal. The first matching step for detecting the partial sections corresponding to each of the partial sections, and performing a matching process between the second speech signal and the word dictionary, and obtaining a candidate for each partial section. A second matching step for detecting a partial section corresponding to each word in the speech and obtaining a candidate for each partial section, each partial section of the first speech signal, and each of the second speech signal A spotting step for obtaining the acoustic similarity between the partial sections, and a portion of the first speech signal corresponding to the erroneously recognized word in the first speech using the acoustic similarity obtained in the spotting step section Detecting a subinterval beauty second audio signal, a candidate for the subinterval of the detected first audio signal, and a recognition result replacement step replacing the candidate for subinterval of the detected second audio signal The recognition result switching step detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech, and the detected second speech Candidates for the partial section of the signal are for the partial sections before and after the detected partial section of the first speech signal according to the syntax rule in the word dictionary including the information of the word to be recognized according to the syntax rule defining the connection relation. It is determined whether or not it is connectable with the candidate, and the candidate for the detected first segment of the audio signal is connected to the candidate for the second and subsequent partial segments of the detected second audio signal. To replace candidates for It is a thing.
[0028]
In the speech recognition method according to the present invention, when the second speech consists only of speech of a misrecognized word in the first speech, the recognition result replacement step is acoustically separated from the second segment of the speech signal. A partial section of the first speech signal having a high similarity is detected as a partial section of the first speech signal corresponding to a misrecognized word in the first speech, and a portion of the detected first speech signal The candidate for the section is replaced with the candidate for the partial section of the second audio signal.
[0029]
In the speech recognition method according to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacement step is acoustically similar. The first segment of the first speech signal and the second segment of the second speech signal, which have a high degree, are divided into the first segment of the first speech signal and the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the partial section of the second audio signal not detected A candidate for is to be added to it.
[0030]
The speech recognition method according to the present invention detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech in the recognition result replacement step, It is determined whether the candidate for the detected second section of the audio signal is the same as the candidate for the detected first section of the audio signal, and the candidate for the detected first section of the audio signal is determined. Is replaced with a candidate for a partial section of the detected second audio signal different from the candidate.
[0032]
In the speech recognition method according to the present invention, the first matching step is performed by performing a matching process between the first speech signal and the word dictionary, and corresponding to each word in the first speech from the first speech signal. And detecting candidates for each partial section, obtaining a matching score for each partial section of the first speech signal, and replacing the recognition result with the acoustic similarity obtained in the spotting process And a partial section of the first speech signal and a partial section of the second speech signal corresponding to the misrecognized word in the first speech using the matching score obtained in the first matching step. The candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal.
[0033]
The speech recognition program according to the present invention performs a collation process between a first speech signal and a word dictionary including information on a word to be recognized in a computer. The first collation function that detects partial sections corresponding to the respective words and obtains candidates for the respective partial sections, and performs collation processing between the second speech signal and the word dictionary, and from the second speech signal A second collation function that detects partial sections corresponding to the respective words in the second speech and obtains candidates for the respective partial sections, each partial section of the first speech signal, and the second speech signal A spotting function for obtaining the acoustic similarity between each of the sub-sections of the first time, and one time corresponding to a misrecognized word in the first speech using the acoustic similarity obtained by the spotting function Recognition to detect a partial section of the first audio signal and a partial section of the second audio signal, and replace a candidate for the detected first section of the audio signal with a candidate for the detected second section of the audio signal Realize the result replacement function The recognition result switching function detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech, and the detected second speech Candidates for the partial section of the signal are for the partial sections before and after the detected partial section of the first speech signal according to the syntax rule in the word dictionary including the information of the word to be recognized according to the syntax rule defining the connection relation. It is determined whether or not it is connectable with the candidate, and the candidate for the detected first segment of the audio signal is connected to the candidate for the second and subsequent partial segments of the detected second audio signal. To replace candidates for Is.
[0034]
In the speech recognition program according to the present invention, in the case where the second speech is composed only of the speech of the misrecognized word in the first speech, the recognition result replacement function is acoustically combined with the partial section of the second speech signal. A partial section of the first speech signal having a high similarity is detected as a partial section of the first speech signal corresponding to a misrecognized word in the first speech, and a portion of the detected first speech signal The candidate for the section is replaced with the candidate for the partial section of the second audio signal.
[0035]
In the speech recognition program according to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words following it, the recognition result replacement function is acoustically similar. The first segment of the first speech signal and the second segment of the second speech signal, which have a high degree, are divided into the first segment of the first speech signal and the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the partial section of the second audio signal not detected A candidate for is to be added to it.
[0036]
The speech recognition program according to the present invention detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech by using the recognition result replacement function, It is determined whether the candidate for the detected second section of the audio signal is the same as the candidate for the detected first section of the audio signal, and the candidate for the detected first section of the audio signal is determined. Is replaced with a candidate for a partial section of the detected second audio signal different from the candidate.
[0038]
The speech recognition program according to the present invention performs the collation process between the first speech signal and the word dictionary for the first collation function, and handles each word in the first speech from the first speech signal. In addition to obtaining candidates for each partial section, obtaining a matching score for each partial section of the first speech signal, the recognition result replacement function is obtained by using the acoustic similarity obtained by the spotting function. And a partial section of the first speech signal and a second section of the second speech signal corresponding to the misrecognized word in the first speech using the collation score obtained by the first collation function The candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal.
[0039]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described below.
Embodiment 1 FIG.
1 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 1 of the present invention. In the figure, 1 is a voice recognition device, 2 is a voice input means for outputting the inputted voice as a voice signal, 3 is a word dictionary storage means for storing a word dictionary including information on a word to be recognized, and 4 is a voice input. Between a speech signal (first speech signal) of a plurality of recognition target words input to the means 2 and a word dictionary stored in the word dictionary storage means 3 First model obtained by performing model matching processing, detecting partial sections corresponding to each word in the first speech from the first speech signal, and ranking one or more candidates for each partial section Collating means 5 is a voice signal storing means for storing the first voice signal to be collated by the first model matching means 4, and 6 is an erroneous recognition in the first voice inputted to the voice input means 2. Voice of the played word (twice Model matching processing is performed between the voice signal (second voice signal) and the word dictionary stored in the word dictionary storage means 3 to detect one partial section from the second voice signal. A second model matching means for obtaining one or a plurality of candidates by ranking; 7 is a spotting process between the first audio signal stored in the audio signal storage means 5 and the second audio signal; And spotting means for obtaining the acoustic similarity between the respective partial sections of the first audio signal and the partial section of the second audio signal, and 8 displays the recognition result of the first voice on the recognition result display means 9. If the first speech recognition result is not correct, a partial section of the first speech signal having a high acoustic similarity with the partial section of the second speech signal is detected, and candidates for that partial section are selected for the second time. Partial section of audio signal When the new first speech recognition result is displayed on the recognition result display means 9 and the new first speech recognition result is not correct, the candidate for the partial section is selected as the second speech signal. Recognizing result replacement means for substituting with another candidate for the partial section, confirming the first speech recognition result when the correct first speech recognition result is obtained, and outputting the confirmed first speech recognition result It is.
[0040]
The voice input means 2 changes the output destination of the voice signal from the first model matching means 4 to the second model matching means 6 and the spotting means 7 when a correction key is input.
[0041]
Next, the operation will be described.
2 to 4 are flowcharts for explaining the operation of the speech recognition apparatus according to the first embodiment of the present invention.
[0042]
When the speaker utters a plurality of recognition target words (first speech) and the first speech is input to the speech input means 2 (step ST1), the speech input means 2 receives the first speech. An audio signal (first audio signal) is output. The first audio signal output from the audio input unit 2 is input to the first model matching unit 4. The first model matching means 4 performs model matching processing by continuous DP matching between the first speech signal and the word dictionary stored in the word dictionary storage means 3 (step ST2). , The partial section corresponding to each word in the first speech is detected, one or a plurality of candidates for each partial section are obtained by ranking, and are output to the recognition result replacing means 8. The recognition result replacement unit 8 stores the first speech signal collation result including the first candidate for each partial section (step ST3), and displays the first speech recognition result on the recognition result display unit 9. (Step ST4). Also, the audio signal storage means 5 stores the first audio signal output from the first model matching means 4 and subjected to matching by the first model matching means 4 (step ST5).
[0043]
The speaker sees the recognition result of the first voice displayed on the recognition result display means 9 and determines whether or not it is correct (step ST6). Confirm the recognition result. The recognition result replacement means 8 outputs the confirmed first speech recognition result (step ST7).
[0044]
When the recognition result of the first voice displayed on the recognition result display means 9 is not correct, the speaker presses the correction key and the voice of the erroneously recognized word in the first voice (second voice). Speak. When the second voice is input to the voice input means 2 (step ST8), the voice input means 2 outputs a voice signal (second voice signal) of the second voice. When there is an input of the correction key, the voice input means 2 changes the output destination of the voice signal from the first model matching means 4 to the second model matching means 6 and the spotting means 7, so that the output from the voice input means 2 is performed. The second audio signal thus inputted is inputted to the second model matching means 6 and the spotting means 7.
[0045]
The second model matching means 6 performs model matching processing by continuous DP matching between the second speech signal and the word dictionary stored in the word dictionary storage means 3 (step ST9), and the second speech signal. One partial section is detected, one or a plurality of candidates are obtained by ranking, and are output to the recognition result replacing means 8. The recognition result replacement means 8 stores the second verification result of the audio signal (step ST10).
[0046]
The spotting means 7 performs spotting processing by continuous DP matching between the first audio signal stored in the audio signal storage means 5 and the second audio signal (step ST11). The acoustic similarity between each partial section and the partial section of the second audio signal is obtained and output to the recognition result replacing means 8.
[0047]
The recognition result exchanging means 8 detects the partial section of the first speech signal having a high acoustic similarity with the partial section of the second speech signal (step ST12), and sets M = 1 (step ST13). The candidate for the partial section is replaced with the first candidate for the partial section of the second speech signal (step ST14), and the new first speech recognition result is displayed on the recognition result display means 9 (step ST15).
[0048]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 9 to determine whether or not it is correct (step ST16). Confirm the speech recognition result. The recognition result replacing means 8 outputs the confirmed first speech recognition result (step ST17).
[0049]
When the recognition result of the new first voice displayed on the recognition result display means 9 is not correct, the speaker presses the next candidate key. The recognition result replacement means 8 determines whether or not there is a lower candidate for the partial section of the second audio signal (step ST18), and if there is a lower candidate, M = 2 (step ST19), The detected candidate for the partial section of the first speech signal is replaced with the second candidate for the partial section of the second speech signal (step ST14), and the new first speech recognition result is displayed in the recognition result display means 9. Displayed (step ST15).
[0050]
Thereafter, until the correct recognition result of the first speech is displayed on the recognition result display means 9, the detected candidate for the partial section of the first speech signal is replaced with a lower candidate for the partial section of the second speech signal. If there are no lower candidates, the speaker presses the correction key to cancel the second sound signal and re-utter the second sound.
[0051]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Ishikawacho, Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” is misrecognized as “Nishi-ku”, so A case where “ku” is spoken will be described.
[0052]
When the speaker utters “Naka Ward, Yokohama, Kanagawa Prefecture”, the first model matching unit 4 starts the first speech signal S1 output from the speech input unit 2 as shown in FIG. Three partial sections S11 to S13 corresponding to three words in the speech are detected, “Kanagawa” as the first candidate for the partial section S11, “Yokohama City” as the first candidate for the partial section S12, and the partial section “Nishi-ku” was obtained as the first candidate for S13 and stored in the recognition result replacement means 8. Also, “Nishi-ku, Yokohama-shi, Kanagawa” is displayed on the recognition result display means 9.
[0053]
In this case, since “Naka Ward” was misrecognized as “Nishi Ward”, when the speaker presses the correction key and newly speaks “Naka Ward”, as shown in FIG. One partial section S21 is detected from the second audio signal S2 output from the voice input means 2, and “Naka Ward” is selected as the first candidate, “Tama Ward” as the second candidate, and “Tama Ward” as the third candidate. “Nishi-ku” was obtained and stored in the recognition result replacement means 8. Further, the spotting means 7 performs spotting processing by continuous DP matching between the first audio signal S1 and the second audio signal S2, and the respective partial sections S11 to S13 and 2 of the first audio signal S1. The acoustic similarity with the partial section S21 of the second audio signal S2 was obtained. Further, as shown in FIG. 6, the recognition result exchanging means 8 detects the partial section S13 of the first audio signal S1 having a high acoustic similarity with the partial section S21 of the second audio signal S2. Then, as shown in FIG. 7, “Nishi-ku”, which is a candidate for the partial section S13 of the first audio signal S1 detected by the recognition result exchanging means 8, is 1 for the partial section S21 of the second audio signal S2. The candidate was replaced with “Naka Ward”, and the new first speech recognition result “Naka Ward, Yokohama City, Kanagawa” was displayed on the recognition result display means 9.
[0054]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result is confirmed and the confirmed first speech recognition is performed. The result was output from the recognition result replacement means 8.
[0055]
As described above, according to the first embodiment, when the first speech is erroneously recognized, the speech of the misrecognized word in the first speech is uttered as the second speech, and the second speech Correct a misrecognized word using a candidate for a partial section of the speech signal. In general, when the first voice is misrecognized, there is a tendency to utter the second voice more carefully. Therefore, the recognition rate of the second voice is higher than the first voice recognition result. Is expensive. Therefore, it is possible to efficiently correct misrecognized words and to obtain an easy-to-use speech recognition device.
[0056]
In this embodiment, the case where continuous DP matching is used as the collation method of the audio signal has been described, but the same effect can be obtained even when another collation method is used.
[0057]
In this embodiment, the case where the first audio signal and the second audio signal are collated using different model matching means has been described, but the same effect can be obtained even when the same model matching means is used repeatedly. It is done.
[0058]
In this embodiment, the case where the output destination of the audio signal output from the audio input unit 2 is changed to the second model matching unit 6 and the spotting unit 7 by pressing the correction key has been described. The same effect can be obtained even when it is automatically changed after the second voice is uttered.
[0059]
Further, in this embodiment, the case where the process of correcting a misrecognized word by pressing the correction key, the confirmation key, and the next candidate key is described. However, for the confirmation by voice from the voice recognition device, The same effect can be obtained even when a process of correcting a misrecognized word only by speech is performed by responding by saying “high” or “yes”.
[0060]
Embodiment 2. FIG.
If a long sentence is divided in the middle while trying to utter continuously, and a misrecognition occurs at that time, humans tend to utter one or more words following the misrecognized word. In the second embodiment, a case will be described in which a misrecognized word can be corrected correctly even in such a case.
[0061]
FIG. 8 is a block diagram showing the configuration of a speech recognition apparatus according to Embodiment 2 of the present invention. In the figure, 21 is a voice recognition device, 22 is a voice signal (second voice) of a misrecognized word and one or more words following it (second voice) input to the voice input means 2. Signal) and a word dictionary stored in the word dictionary storage means 3 to detect a partial section corresponding to each word in the second speech from the second speech signal, Second model matching means for obtaining one or a plurality of candidates for each partial section by ranking, and 23 a partial section storage means for storing the second speech signal to be verified by the second model matching means 22 , 24 perform spotting processing between the first audio signal stored in the audio signal storage means 5 and the second audio signal stored in the partial section storage means 23, and the first audio signal So Spotting means 25 for obtaining the acoustic similarity between each partial section and each partial section of the second speech signal, 25 displays the recognition result of the first speech on the recognition result display means 9, and the first time If the speech recognition result is incorrect, the first speech signal partial section and the second speech signal partial section with high acoustic similarity are detected, and the detected first speech signal partial section is detected. The candidate is replaced with a candidate for the detected second segment of the audio signal, and a candidate for the second segment of the second audio signal that has not been detected is added to the candidate. When the recognition result display means 9 displays the result of the voice recognition and the recognition result of the new first voice is incorrect, the second voice in which the candidate for the partial section of the detected first voice signal is detected. When the correct first speech recognition result is obtained, the first speech recognition result and the second speech recognition result are confirmed, and the confirmed first speech is replaced. Is a recognition result replacing means for outputting the recognition result and the second speech recognition result.
[0062]
The other components are the same as or equivalent to those shown with the same reference numerals in FIG.
[0063]
The voice input means 2 changes the output destination of the voice signal from the first model matching means 4 to the second model matching means 22 when a correction key is input.
[0064]
Next, the operation will be described.
9 and 10 are flowcharts for explaining the operation of the speech recognition apparatus according to the second embodiment of the present invention.
[0065]
The process up to step ST7 is performed in the same manner as in the first embodiment.
When the recognition result of the first speech displayed on the recognition result display means 9 is not correct, the speaker presses the correction key and the speech of the erroneously recognized word and one or more words following it (the second speech) (Speech). When the second sound is input to the sound input means 2 (step ST21), the sound input means 2 outputs a sound signal of the second sound (second sound signal). When the correction key is input, the voice input means 2 changes the output destination of the voice signal from the first model matching means 4 to the second model matching means 22, so that the second time output from the voice input signal 2. Are input to the second model matching means 22.
[0066]
The second model matching means 22 performs model matching processing by continuous DP matching between the second speech signal and the word dictionary stored in the word dictionary storage means 3 (step ST22). , The partial section corresponding to each word in the second speech is detected, one or a plurality of candidates for each partial section are obtained by ranking, and are output to the recognition result replacing means 25. The recognition result replacing unit 25 stores the collation result of the second speech signal obtained by the second model collating unit 22 (step ST23). Further, the partial section storage unit 23 stores the second audio signal output from the second model matching unit 22 and subjected to the matching by the second model matching unit 22 (step ST24).
[0067]
The spotting unit 24 performs spotting processing by continuous DP matching between the first audio signal stored in the audio signal storage unit 5 and the second audio signal stored in the partial section storage unit 23 ( Step ST25) The acoustic similarity between each partial section of the first speech signal and each partial section of the second speech signal is obtained and output to the recognition result replacing means 25.
[0068]
The recognition result replacement unit 25 detects the first segment of the first audio signal and the second segment of the second audio signal with high acoustic similarity (step ST26), and sets M = 1 (step ST27). The detected candidate for the partial section of the first audio signal is replaced with the first candidate for the detected partial section of the second audio signal (step ST28), and the candidate for the second section of the second audio signal not detected is replaced. A candidate is added to it (step ST29), and the new first speech recognition result and the second speech recognition result are displayed on the recognition result display means 9 (step ST30).
[0069]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 9 to determine whether or not it is correct (step ST31). The speech recognition result and the second speech recognition result are determined. The recognition result replacement unit 25 outputs the confirmed first speech recognition result and the second speech recognition result (step ST32).
[0070]
When the recognition result of the new first voice displayed on the recognition result display means 9 is not correct, the speaker presses the next candidate key. The recognition result replacement unit 25 determines whether there is a lower candidate for the detected partial section of the second audio signal (step ST33). If there is a lower candidate, M = 2 is set (step ST34). ) After that, the candidate for the detected first section of the speech signal is replaced with the second candidate for the detected second section of the speech signal (step ST28), and the new first speech recognition result and The second speech recognition result is displayed on the recognition result display means 9 (step ST30).
[0071]
Thereafter, until the correct recognition result of the first speech is displayed on the recognition result display means 9, the candidate for the detected partial section of the first speech signal is detected as a subordinate to the partial section of the second speech signal. When the candidate is replaced and there are no lower candidates, the speaker presses the correction key to cancel the second audio signal and re-utter the second audio.
[0072]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Ishikawacho, Naka-ku, Yokohama-shi, Kanagawa” to “Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” A case where “Nishi-ku Ishikawa-cho” is newly spoken because it was misrecognized as “Nishi-ku” will be described.
[0073]
When the speaker utters up to “Naka Ward, Yokohama, Kanagawa Prefecture”, as shown in FIG. 5, the first model matching unit 4 starts the first speech signal S1 output from the speech input unit 2 as shown in FIG. Three partial sections S11 to S13 corresponding to three words in the speech are detected, “Kanagawa” as the first candidate for the partial section S11, “Yokohama City” as the first candidate for the partial section S12, the partial section “Nishi-ku” was obtained as the first candidate for S13 and stored in the recognition result replacement means 25. Also, “Nishi-ku, Yokohama-shi, Kanagawa” is displayed on the recognition result display means 9.
[0074]
In this case, since “Naka Ward” is misrecognized as “Nishi Ward”, when the speaker presses the correction key and newly says “Naka Ward Ishikawacho”, as shown in FIG. 22, two partial sections S21 and S22 corresponding to two words in the second voice are detected from the second voice signal S2 output from the voice input means 2, and the first candidate for the partial section S21 is detected. “Naka Ward”, “Tama Ward” as the second candidate, “Nishi Ward” as the third candidate, “Ishikawacho” as the first candidate for the partial section S22 were obtained and stored in the recognition result replacement means 25 . The spotting means 24 performs spotting processing by continuous DP matching between the first audio signal S1 and the second audio signal S2, and the respective partial sections S11 to S13 of the first audio signal S1. The acoustic similarity between the partial sections S21 and S22 of the second audio signal S2 was obtained. Also, as shown in FIG. 11, the recognition result switching unit 25 detects the partial section S13 of the first audio signal S1 and the partial section S21 of the second audio signal S2 with high acoustic similarity. Then, as shown in FIG. 11, “Nishi-ku”, which is a candidate for the partial section S13 of the first audio signal S1 detected by the recognition result switching unit 25, is detected as a partial section of the detected second audio signal S2. It is replaced with “Naka Ward”, which is the first candidate for S21, and “Ishikawacho”, which is a candidate for the partial section S22 of the second audio signal S2 that has not been detected, is added to it, and the new first audio The recognition result and the second speech recognition result “Ishikawacho, Naka-ku, Yokohama-shi, Kanagawa” were displayed on the recognition result display means 9.
[0075]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result and the second speech recognition result are confirmed, The confirmed first speech recognition result and the second speech recognition result are output from the recognition result replacing means 25.
[0076]
As described above, according to the second embodiment, when the first speech is misrecognized, the misrecognized word in the first speech and the speech of one or more words following the second recognition speech are Therefore, the misrecognized word can be corrected efficiently, and an easy-to-use speech recognition apparatus can be obtained.
[0077]
If the acoustic similarity between the partial section S13 of the first audio signal S1 and the section of the partial sections S21 and S22 of the second audio signal S2 is high, the portion of the second audio signal S2 Assuming that the sections S21 and S22 are partial sections corresponding to one word, the processing is performed as in the first embodiment. That is, the candidate for the partial section S13 of the first audio signal S1 is replaced with the candidate for the partial sections S21 and S22 of the second audio signal S2. Specifically, “Nishi-ku”, which is a candidate for the partial section S13 of the first audio signal S1, is replaced with “Naka-ku Ishikawa-cho”, which is a candidate for the partial sections S21 and S22 of the second audio signal S2.
[0078]
Embodiment 3 FIG.
In speech recognition, there are words that are easily misrecognized due to voice quality, utterance mode, etc., and therefore, the same misrecognition as that generated in the first speech recognition result may occur in the second speech recognition result. In the third embodiment, a case will be described in which a misrecognized word can be efficiently corrected even in such a case.
[0079]
The configuration of the speech recognition apparatus according to Embodiment 3 is the same as that of the speech recognition apparatus according to Embodiment 2 shown in FIG. However, in the speech recognition apparatus according to the third embodiment, the recognition result replacement unit 25 displays the first speech recognition result on the recognition result display unit 9, and if the first speech recognition result is not correct, A first segment of the first audio signal and a second segment of the second audio signal having a high degree of similarity are detected, and a candidate for the detected first segment of the first audio signal is different from that candidate. Replacing with the candidate for the partial section of the speech signal, adding the candidate for the partial section of the second speech signal that was not detected, to the recognition result of the new first speech recognition result and the second speech recognition result If the recognition result of the new first voice displayed on the display means 9 is incorrect, the candidate for the detected first voice signal partial section is a part of the detected second voice signal different from the candidate. When the correct first speech recognition result is obtained, the first speech recognition result and the second speech recognition result are confirmed, and the first speech recognition result is confirmed. And the second speech recognition result is output.
[0080]
Next, the operation will be described.
FIG. 12 is a flowchart for explaining the operation of the speech recognition apparatus according to the third embodiment of the present invention.
[0081]
The process up to step ST25 is performed in the same manner as in the second embodiment.
The recognition result replacement unit 25 detects the first segment of the first audio signal and the second segment of the second audio signal with high acoustic similarity (step ST41), and sets M = 1 (step ST42). It is determined whether the candidate for the detected partial section of the first audio signal is the same as the first candidate for the detected partial section of the second audio signal (step ST43). The candidate for the partial section of the first speech signal is replaced with the first candidate for the partial section of the detected second speech signal (step ST44), and the candidate for the partial section of the second speech signal that has not been detected is replaced. In addition to this, a new first speech recognition result and a second speech recognition result are displayed on the recognition result display means 9 (step ST46).
[0082]
The recognition result switching unit 25 detects the second time when the candidate for the detected partial section of the first speech signal is the same as the M-th candidate for the detected second section of the speech signal. It is determined whether or not there is a lower candidate for the partial section of the voice signal (step ST47). If there is a lower candidate, M = M + 1 is set (step ST48), and the process returns to step ST43. If there is no lower candidate, the speaker presses the correction key to cancel the second audio signal and re-utter the second audio.
[0083]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 9 to determine whether or not it is correct (step ST49). The speech recognition result and the second speech recognition result are determined. The recognition result replacement unit 25 outputs the confirmed first speech recognition result and the second speech recognition result (step ST50).
[0084]
When the recognition result of the new first voice displayed on the recognition result display means 9 is not correct, the speaker presses the next candidate key. The recognition result replacement unit 25 determines whether there is a lower candidate for the detected partial section of the second audio signal (step ST51). If there is a lower candidate, M = 2 is set (step ST52). Thereafter, it is determined whether or not the candidate for the detected partial section of the first audio signal is the same as the second candidate for the detected partial section of the second audio signal (step ST43).
[0085]
Thereafter, until the correct recognition result of the first speech is displayed on the recognition result display means 9, the candidate for the detected partial section of the first speech signal is detected as a subordinate to the partial section of the second speech signal. When the candidate is replaced and there are no lower candidates, the speaker presses the correction key to cancel the second audio signal and re-utter the second audio.
[0086]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker speaks to “Naka-ku, Yokohama-shi, Kanagawa-ken” and speaks to “Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” A case where “Nishi-ku Ishikawa-cho” is newly spoken because it was misrecognized as “Nishi-ku” will be described.
[0087]
When the speaker utters up to “Naka Ward, Yokohama, Kanagawa Prefecture”, as shown in FIG. 5, the first model matching unit 4 starts the first speech signal S1 output from the speech input unit 2 as shown in FIG. Three partial sections S11 to S13 corresponding to three words in the speech are detected, “Kanagawa” as the first candidate for the partial section S11, “Yokohama City” as the first candidate for the partial section S12, the partial section “Nishi-ku” was obtained as the first candidate for S13 and stored in the recognition result replacement means 25. Also, “Nishi-ku, Yokohama-shi, Kanagawa” is displayed on the recognition result display means 9.
[0088]
In this case, since “Naka Ward” is misrecognized as “Nishi Ward”, when the speaker presses the correction key and newly says “Naka Ward Ishikawacho”, as shown in FIG. 22, two partial sections S21 and S22 corresponding to two words in the second voice are detected from the second voice signal S2 output from the voice input means 2, and the first candidate for the partial section S21 is detected. “Nishi Ward”, “Naka Ward” as the 2nd candidate, “Tama Ward” as the 3rd candidate, “Ishikawacho” as the 1st candidate for the partial section S22, and stored in the recognition result replacing means 25 . Further, the spotting means 24 performs spotting processing by continuous DP matching between the first audio signal S1 and the second audio signal S2, and the respective partial sections S11 to S13 and 2 of the first audio signal S1. The acoustic similarity between the partial sections S21 and S22 of the second audio signal S2 was obtained. Further, as shown in FIG. 13, the recognition result switching unit 25 detects the partial section S13 of the first audio signal S1 and the partial section S21 of the second audio signal S2 with high acoustic similarity. And as shown in FIG. 13, since the candidate for the partial section S13 of the detected first audio signal S1 is the same as the first candidate for the partial section S21 of the detected second audio signal S2, “Nishi Ward”, which is a candidate for the partial section S13 of the first audio signal S1 detected by the recognition result switching means 25, is a second candidate for the partial section S21 of the detected second audio signal S2. “Ishikawacho”, which is a candidate for the partial section S22 of the second speech signal S2 that has not been detected and is replaced with “Naka Ward”, is added to it, and the new first speech recognition result and second speech recognition The result “Ishikawacho, Naka-ku, Yokohama-shi, Kanagawa” was displayed on the recognition result display means 9.
[0089]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result and the second speech recognition result are confirmed, The confirmed first speech recognition result and the second speech recognition result are output from the recognition result replacing means 25.
[0090]
As described above, according to the third embodiment, when the first speech is misrecognized, the misrecognized word speech in the first speech is uttered as the second speech and misrecognized. The candidate for the first segment of the first speech signal corresponding to the word is replaced with a candidate for the second segment of the second speech signal corresponding to the misrecognized word, which is different from the candidate, and the misrecognized word is corrected. Therefore, it is possible to efficiently correct misrecognized words and to obtain an easy-to-use speech recognition device.
[0091]
In this embodiment, the case where the configuration of the speech recognition apparatus is the same as the configuration of the speech recognition apparatus according to the second embodiment has been described. Even if it exists, the same effect is acquired.
[0092]
Embodiment 4 FIG.
The configuration of the speech recognition apparatus according to the fourth embodiment is the same as that of the speech recognition apparatus according to the first embodiment shown in FIG. However, in the speech recognition apparatus according to the fourth embodiment, the word dictionary storage unit 3 stores a word dictionary that includes information about words to be recognized in accordance with a syntax rule that defines a connection relationship.
[0093]
In addition, the recognition result replacement unit 8 displays the first speech recognition result on the recognition result display unit 9, and if the first speech recognition result is not correct, it is acoustically similar to the partial section of the second speech signal. For a partial section of the second speech signal that detects a partial section of the first speech signal having a high degree and can connect a candidate for that partial section with a candidate for the preceding and following partial sections according to the syntax rules in the word dictionary When the new first speech recognition result is displayed on the recognition result display means 9 and the new first speech recognition result is not correct, the candidate for the partial section is selected as a syntax rule in the word dictionary. Is replaced with other candidates for the partial section of the second audio signal that can be connected to the candidates for the previous and subsequent partial sections, and when the correct first speech recognition result is obtained, the first sound The voice recognition result is confirmed, and the confirmed first speech recognition result is output.
[0094]
Next, the operation will be described.
FIG. 14 is a flowchart for explaining the operation of the speech recognition apparatus according to the fourth embodiment of the present invention.
[0095]
The process up to step ST11 is performed in the same manner as in the first embodiment.
The recognition result exchanging means 8 detects the partial section of the first speech signal having a high acoustic similarity with the partial section of the second speech signal (step ST61), and sets M = 1 (step ST62). It is determined whether the first candidate for the partial section of the first speech signal is connectable with the candidates for the partial sections before and after the detected partial section of the first speech signal according to the syntax rules in the word dictionary ( Step ST63) When the connection is possible, the candidate for the detected partial section of the first audio signal is replaced with the first candidate for the partial section of the second audio signal (step ST64), and a new first audio signal is obtained. Is displayed on the recognition result display means 9 (step ST65).
[0096]
It should be noted that the recognition result replacing means 8 is a candidate for the partial sections before and after the first partial section of the first speech signal detected according to the syntax rules in the word dictionary as the Mth candidate for the second partial section of the speech signal. If there is a lower candidate for the second segment of the audio signal (step ST66), and if there is a lower candidate, M = M + 1 (step ST67) Return to step ST63. If there is no lower candidate, the speaker presses the correction key to cancel the second audio signal and re-utter the second audio.
[0097]
The speaker sees the recognition result of the new first voice displayed on the recognition result display means 9 to determine whether or not it is correct (step ST68). Confirm the speech recognition result. The recognition result replacing unit 8 outputs the confirmed first speech recognition result (step ST69).
[0098]
When the recognition result of the new first voice displayed on the recognition result display means 9 is not correct, the speaker presses the next candidate key. The recognition result replacement unit 8 determines whether or not there is a lower candidate for the partial section of the second audio signal (step ST70). If there is a lower candidate, M = 2 is set (step ST71). It is determined whether or not the second candidate for the partial section of the second speech signal can be connected to the candidates for the partial sections before and after the detected partial section of the first speech signal according to the syntax rules in the word dictionary. (Step ST63).
[0099]
Thereafter, until the correct recognition result of the first speech is displayed on the recognition result display means 9, the detected candidate for the partial section of the first speech signal is replaced with a lower candidate for the partial section of the second speech signal. If there are no lower candidates, the speaker presses the correction key to cancel the second sound signal and re-utter the second sound.
[0100]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Ishikawacho, Naka-ku, Yokohama-shi, Kanagawa”, “Naka-ku” is misrecognized as “Nishi-ku”, so A case where “ku” is spoken will be described. In addition, it is assumed that the word dictionary storage means 3 stores a word dictionary in which information about words to be recognized is included according to the syntax rules shown in FIG.
[0101]
When the speaker utters “Naka Ward, Yokohama, Kanagawa Prefecture”, the first model matching unit 4 starts the first speech signal S1 output from the speech input unit 2 as shown in FIG. Three partial sections S11 to S13 corresponding to three words in the speech are detected, “Kanagawa” as the first candidate for the partial section S11, “Yokohama City” as the first candidate for the partial section S12, and the partial section “Nishi-ku” was obtained as the first candidate for S13 and stored in the recognition result replacement means 8. Also, “Nishi-ku, Yokohama-shi, Kanagawa” is displayed on the recognition result display means 9.
[0102]
In this case, since “Naka Ward” was erroneously recognized as “Nishi Ward”, when the speaker presses the correction key and newly speaks “Naka Ward”, as shown in FIG. One partial section S21 is detected from the second audio signal S2 output from the voice input means 2, and “Tama Ward” is selected as the first candidate, “Naka Ward” as the second candidate, and “3rd candidate” as the third candidate. “Nishi-ku” was obtained and stored in the recognition result replacement means 8. Further, the spotting means 7 performs spotting processing by continuous DP matching between the first audio signal S1 and the second audio signal S2, and the respective partial sections S11 to S13 and 2 of the first audio signal S1. The acoustic similarity with the partial section S21 of the second audio signal S2 was obtained. Further, as shown in FIG. 16, the recognition result exchanging means 8 detects the partial section S13 of the first speech signal S1 having a high acoustic similarity with the partial section S21 of the second speech signal S2. Then, as shown in FIG. 15, “Tama Ward”, which is the first candidate for the partial section S21 of the second audio signal S2, is the partial section S12 before the detected partial section S13 of the first audio signal S1. Cannot be connected to “Yokohama City”, which is a candidate for the second segment “Naka Ward”, which is the second candidate for the partial segment S21 of the second audio signal S2, is the partial segment of the detected first audio signal S1 Since it is possible to connect to “Yokohama City”, which is a candidate for the partial section S12 before S13, as shown in FIG. 16, the candidate for the partial section S13 of the first audio signal S1 detected by the recognition result replacing means 8 is shown. “Nishi-ku” is replaced with “Naka-ku”, which is the second-ranked candidate for the partial section S21 of the second audio signal S2, and “Naka-ku, Yokohama-shi, Kanagawa Pref. " It is displayed on the recognition result display unit 9.
[0103]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result is confirmed and the confirmed first speech recognition is performed. The result was output from the recognition result replacement means 8.
[0104]
As described above, according to the fourth embodiment, when the first speech is misrecognized, the misrecognized word speech in the first speech is uttered as the second speech and misrecognized. The candidate for the partial section of the first speech signal corresponding to the word is replaced with the candidate for the second speech signal corresponding to the misrecognized word according to the syntax rules in the word dictionary, and the misrecognized word is corrected. Therefore, it is possible to efficiently correct misrecognized words and to obtain an easy-to-use speech recognition device.
[0105]
In this embodiment, the case where the configuration of the voice recognition device is the same as the configuration of the voice recognition device of the first embodiment has been described. Even if it exists, the same effect is acquired.
[0106]
Embodiment 5 FIG.
In the first embodiment, a partial section of the first speech signal corresponding to a misrecognized word in the first speech is detected from the acoustic similarity obtained by continuous DP matching, and candidates for the partial section are detected. The case where the candidate is replaced with a candidate for the partial section of the second audio signal has been described. In the fifth embodiment, the partial section of the first speech signal corresponding to the misrecognized word in the first speech is detected using the acoustic similarity and the matching score, and two candidates for the partial section are detected. The case where it replaces with the candidate with respect to the partial area of the 2nd audio | voice signal is demonstrated.
[0107]
The configuration of the speech recognition apparatus according to the fifth embodiment is the same as that of the speech recognition apparatus according to the first embodiment shown in FIG. However, in the speech recognition apparatus according to the fifth embodiment, the first model matching unit 4 performs a model matching process between the first speech signal and the word dictionary stored in the word dictionary storage unit 3. A partial section corresponding to each word in the first speech is detected from the first speech signal, and one or a plurality of candidates for each partial section are ranked, and for each partial section of the first speech signal Is used to obtain a matching score.
[0108]
In addition, the recognition result replacing unit 8 displays the recognition result of the first speech on the recognition result display unit 9, and if the recognition result of the first speech is not correct, 2 for each partial section of the first speech signal. The difference score between the acoustic similarity with the partial section of the first speech signal and the matching score is obtained, the partial section of the first speech signal having a high difference score is detected, and the candidate for the partial section is selected as the second speech signal. If the new first speech recognition result is displayed on the recognition result display means 9 and the new first speech recognition result is not correct, the candidate for the second partial segment is displayed as a second candidate. This is replaced with another candidate for the audio signal, and when the correct first speech recognition result is obtained, the first speech recognition result is confirmed, and the confirmed first speech recognition result is output.
[0109]
Next, the operation will be described.
17 and 18 are flowcharts for explaining the operation of the speech recognition apparatus according to the fifth embodiment of the present invention.
[0110]
When a speaker speaks a plurality of recognition target words (first speech) and inputs the first speech to the speech input means 2 (step ST81), the speech input means 2 receives the first speech. An audio signal (first audio signal) is output. The first audio signal output from the audio input unit 2 is input to the first model matching unit 4. The first model matching means 4 performs model matching processing by continuous DP matching between the first speech signal and the word dictionary stored in the word dictionary storage means 3 (step ST82). To detect a partial section corresponding to each word in the first speech, obtain one or more candidates for each partial section, and obtain a matching score for each partial section of the first speech signal. They are obtained and output to the recognition result replacement means 8.
Thereafter, steps ST3 to ST11 are performed in the same manner as in the first embodiment.
[0111]
The recognition result switching means 8 obtains a difference score between the acoustic similarity with the partial section of the second audio signal and the matching score for each partial section of the first audio signal (step ST83), and the difference score is high. After detecting the partial section of the first audio signal (step ST84) and setting M = 1 (step ST85), the candidate for the partial section is replaced with the first candidate for the partial section of the second audio signal (step ST84). (ST86) The new first speech recognition result is displayed on the recognition result display means 9 (step ST87).
Thereafter, steps ST16 to ST19 are performed in the same manner as in the first embodiment.
[0112]
Hereinafter, the operation described above will be described using a specific example.
Here, the recognition target is the address shown in FIG. 22, and when the speaker utters “Honmoku, Minami-ku, Yokohama-shi, Kanagawa”, “Honmoku” is misrecognized as “Nakazato”. A case of speaking will be described. The collation score and the acoustic similarity are represented by numerical values in the range of 0 to 1000, and the larger the numerical value, the higher the degree of collation and the degree of similarity.
[0113]
When the speaker utters “Honmoku, Minami-ku, Yokohama, Kanagawa” as shown in FIG. 19, the first time from the first speech signal S 1 output from the speech input means 2 by the first model matching means 4. The four partial sections S11 to S14 corresponding to the four words in the voice are detected, “Kanagawa” as the first candidate for the partial section S11, “Yokohama City” as the first candidate for the partial section S12, “Minami Ward” was obtained as the first candidate for the section S13 and “Nakazato” was obtained as the first candidate for the partial section S14 and stored in the recognition result replacing means 8. Further, as shown in FIG. 19, the first model matching unit 4 causes the matching scores C2 [i] to be “800”, “750”, “800” and “400” were requested. Since the partial section S14 is a partial section corresponding to the misrecognized word in the first speech, the collation score of the partial section S14 is smaller than the collation scores of the other partial sections. Further, “Nakazato, Minami-ku, Yokohama, Kanagawa” is displayed on the recognition result display means 9.
[0114]
In this case, since “Honmoku” is misrecognized as “Nakazato”, when the speaker presses the correction key and newly utters “Honmoku”, the second model matching means 6 performs the speech as shown in FIG. One partial section S21 is detected from the second audio signal S2 output from the input means 2, and "Honmaki" is selected as the first candidate, "Naka Ward" as the second candidate, "Tama Ward" as the third candidate Is obtained and stored in the recognition result replacing means 8. Further, as shown in FIG. 19, spotting means 7 performs spotting processing by continuous DP matching between the first audio signal S1 and the second audio signal S2, and each of the first audio signal S1. The acoustic similarity C1 [i] between the partial sections S11 to S14 and the partial section S21 of the second audio signal S2 was obtained as “100”, “150”, “800”, and “780”, respectively. . Further, as shown in FIG. 19, the recognition result switching means 8 makes the acoustic similarity and the matching score with the partial section S21 of the second audio signal S2 for each of the partial sections S11 to S14 of the first audio signal S1. Are obtained as “−700”, “−600”, “0”, and “380”, respectively, and a partial section S14 of the first audio signal S1 having a high difference score is detected. . Then, as shown in FIG. 19, “Nakazato” which is a candidate for the partial section S14 of the first audio signal S1 detected by the recognition result switching means 8 is 1 for the partial section S21 of the second audio signal S2. It was replaced with “Honmoku”, which is a candidate for the rank, and “New Honmoku, Minami-ku, Yokohama-shi, Kanagawa”, which was the new first speech recognition result, was displayed on the recognition result display means 9.
[0115]
Since the new first speech recognition result displayed on the recognition result display means 9 is correct, when the speaker presses the confirmation key, the first speech recognition result is confirmed and the confirmed first speech recognition is performed. The result was output from the recognition result replacement means 8.
[0116]
Here, the matching score will be described.
FIG. 20 shows the voice signal obtained when saying “Honmoku, Minami-ku, Yokohama-shi, Kanagawa” and information on the words “Kanagawa-ken”, “Yokohama-city”, “Minami-ku”, “Nakazato” in succession. The result of having performed a model collation process between the word dictionary containing it is shown. The horizontal axis represents an audio signal and is expressed in units of t frames. The vertical axis represents the word dictionary and is expressed in units of u state. The voice signal has T frames as a whole, and the word dictionary has U states as a whole.
[0117]
The length of the audio signal changes depending on the utterance, and it partially expands and contracts. For this reason, when performing the model matching process, the correspondence between the speech signal and the word dictionary is calculated to obtain the optimum correspondence. This correspondence can be efficiently calculated by dynamic programming or an arithmetic method called Viterbi arithmetic. The optimum path in FIG. 20 shows the optimum correspondence between the frame t of the speech signal and the state u of the word dictionary. The optimum correspondence of the frame t with respect to the state u is expressed by equation (1).
[0118]
u = G (t) (1)
[0119]
On the other hand, the acoustic similarity between the audio signal in frame t and the word dictionary in state u is represented by a local distance D (t, u). The smaller the local distance, the higher the acoustic similarity between the speech signal and the word dictionary. The collation score C2 [i] of the word i is an average of local distances on the optimum route belonging to the word i with respect to the frame. As shown in FIG. 20, when the frame of the audio signal corresponding to the state belonging to the word i is from ts (i) to te (i), the matching score C2 [i] for the word i is calculated by the equation (2). The
[0120]
[Expression 1]
Figure 0004270770
[0121]
As described above, according to the fifth embodiment, when the first speech is misrecognized, it corresponds to the misrecognized word in the first speech using the acoustic similarity and the matching score. Since the partial section of the first speech signal is detected and the candidate for the partial section is replaced with the candidate for the partial section of the second speech signal, the partial section corresponding to the word misrecognized due to the fluctuation of the speech signal, etc. Even when the acoustic similarity of the partial sections different from the above becomes high, the erroneously recognized word can be corrected efficiently, and an easy-to-use speech recognition device can be obtained.
[0122]
In this embodiment, a case where a partial section of the first speech signal corresponding to a misrecognized word in the first speech is detected using a difference score between the acoustic similarity and the matching score will be described. However, the same effect can be obtained even when a partial section corresponding to a misrecognized word is detected using a value obtained from another calculation method.
[0123]
In this embodiment, the case where the configuration of the voice recognition device is the same as the configuration of the voice recognition device of the second embodiment has been described. However, the case is the same as the configuration of the voice recognition device of the first embodiment. Even if it exists, the same effect is acquired.
[0124]
The speech recognition apparatus and speech recognition method described in each of the above-described embodiments can also be obtained by incorporating a speech recognition program into a computer.
[0125]
【The invention's effect】
As described above, according to the present invention, the word dictionary storage means for storing the word dictionary including the information of the word to be recognized and the first speech signal and the word dictionary are collated, and the first time The first collation means for detecting a partial section corresponding to each word in the first speech from the first speech signal and obtaining a candidate for each partial section, collation between the second speech signal and the word dictionary A second collating unit that performs processing, detects a partial section corresponding to each word in the second speech from the second speech signal, and obtains a candidate for each partial section; and each of the first speech signal Spotting means for obtaining the acoustic similarity between each partial section of the second speech signal and each partial section of the second speech signal, and erroneous recognition in the first speech using the acoustic similarity obtained by the spotting means Was The first audio signal partial section and the second audio signal partial section corresponding to the word are detected, and candidates for the detected first audio signal partial section are determined as the detected second audio signal part. Since the speech recognition apparatus is configured to include the recognition result replacement means for replacing the candidate for the section, there is an effect that a speech recognition apparatus that can efficiently correct a misrecognized portion can be obtained.
[0126]
According to the present invention, when the second speech consists only of speech of a word that has been misrecognized in the first speech, the recognition result replacing means has an acoustic similarity with the partial section of the second speech signal. A candidate for the detected first segment of the first speech signal is detected as the first segment of the first speech signal corresponding to the erroneously recognized word in the first speech. Is replaced with a candidate for the partial section of the second speech signal, the speech recognition apparatus is configured to efficiently correct the erroneously recognized part. .
[0127]
According to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacement means has a high acoustic similarity. The first segment of the first speech signal and the second segment of the second speech signal are divided into the first segment of the first speech signal and the partial segment of the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the candidate for the partial section of the second audio signal not detected is replaced with Since the speech recognition device is configured to be added to the speech recognition device, even if the misrecognized word and the subsequent speech of one or more words are uttered as the second speech, they are misrecognized. The effect of the speech recognition device is obtained which can be modified partially efficiently.
[0128]
According to the present invention, the recognition result switching means detects the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech, and is detected. It is determined whether the candidate for the partial section of the second audio signal is the same as the candidate for the detected partial section of the first audio signal, and the candidate for the detected partial section of the first audio signal is Since the speech recognition apparatus is configured to replace the candidate for the partial section of the detected second speech signal different from the candidate, a speech recognition apparatus capable of efficiently correcting a misrecognized part is obtained. There is an effect.
[0129]
According to the present invention, the word dictionary storage means stores the word dictionary including the information of the word to be recognized in accordance with the syntax rule that defines the connection relation, and the recognition result replacement means is used as an error in the first speech. A partial section of the first speech signal and a partial section of the second speech signal corresponding to the recognized word are detected, and candidates for the detected second section of the speech signal are determined according to the syntax rules in the word dictionary. , It is determined whether or not it is possible to connect with a candidate for a partial section before and after the detected partial section of the first audio signal, and a candidate for the detected partial section of the first audio signal is determined Since the speech recognition device is configured to replace the candidate for the second section of the detected second speech signal that can be connected to the candidate for the section, the erroneously recognized part is efficiently repaired. The effect of the speech recognition device is obtained which can be.
[0130]
According to this invention, the first matching means performs the matching process between the first speech signal and the word dictionary, and the partial section corresponding to each word in the first speech from the first speech signal. And a candidate for each partial section is obtained, and a matching score is obtained for each partial section of the first speech signal, and the recognition result replacing means is connected to the acoustic similarity obtained by the spotting means and the first The partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech are detected and detected using the collation score obtained by the collation means. In addition, since the speech recognition apparatus is configured to replace the candidate for the partial section of the first speech signal with the candidate for the detected partial section of the second speech signal, Even when the acoustic similarity of a partial section different from the partial section corresponding to the misrecognized part becomes high, there is an effect that a voice recognition device capable of efficiently correcting the misrecognized part can be obtained. .
[0131]
According to the present invention, a collation process is performed between the first speech signal and a word dictionary including information on a word to be recognized, and each word in the first speech is handled from the first speech signal. The first collation process that detects partial sections and obtains candidates for the respective partial sections, and performs collation processing between the second speech signal and the word dictionary, and from the second speech signal to the second speech A second matching step for detecting partial sections corresponding to the respective words and obtaining candidates for the respective partial sections; a respective partial section of the first speech signal; and a respective partial section of the second speech signal; A spotting step for obtaining an acoustic similarity between the first speech signal and a second segment of the first speech signal corresponding to a misrecognized word in the first speech using the acoustic similarity obtained in the spotting step, and 2 Second time Voice recognition so as to comprise a recognition result replacing step of detecting a partial section of the voice signal and replacing a candidate for the detected partial section of the first speech signal with a candidate for the detected partial section of the second speech signal. Since the method is configured, it is possible to obtain a speech recognition method that can efficiently correct a misrecognized portion.
[0132]
According to the present invention, when the second speech is composed only of a misrecognized word speech in the first speech, the recognition result replacement step is performed with an acoustic similarity with the partial section of the second speech signal. A candidate for the detected first segment of the first speech signal is detected as the first segment of the first speech signal corresponding to the erroneously recognized word in the first speech. Is replaced with a candidate for the second segment of the speech signal, the speech recognition method can be efficiently corrected so that the speech recognition method can be obtained. .
[0133]
According to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacement step has a high acoustic similarity. The first segment of the first speech signal and the second segment of the second speech signal are divided into the first segment of the first speech signal and the partial segment of the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the candidate for the partial section of the second audio signal not detected is replaced with Since the speech recognition method is configured so as to be added to it, even if the misrecognized word and the speech of one or more words following it are uttered as the second speech, they are misrecognized. The effect of the speech recognition method capable of correcting the partial efficiently can be obtained.
[0134]
According to this invention, the recognition result replacement step is performed by detecting the first section of the first speech signal and the second section of the second speech signal corresponding to the misrecognized word in the first speech. It is determined whether the candidate for the partial section of the second audio signal is the same as the candidate for the detected partial section of the first audio signal, and the candidate for the detected partial section of the first audio signal is Since the speech recognition method is configured to replace the candidate for the partial section of the detected second speech signal different from the candidate, a speech recognition method capable of correcting the erroneously recognized portion efficiently is obtained. There is an effect.
[0135]
According to this invention, the recognition result replacement step is performed by detecting the first section of the first speech signal and the second section of the second speech signal corresponding to the misrecognized word in the first speech. Candidates for the second segment of the speech signal before and after the first segment of the first speech signal detected according to the syntax rule in the word dictionary including the information of the word to be recognized according to the syntax rule that defines the connection relationship It is determined whether or not it is connectable with a candidate for the partial section of the second, and the candidate for the partial section of the detected first speech signal is connected to the candidate for the previous and subsequent partial sections. Since the speech recognition method is configured so as to be replaced with candidates for the partial sections of the signal, there is an effect that a speech recognition method capable of correcting a misrecognized portion efficiently can be obtained. .
[0136]
According to this invention, the first matching step is performed by performing a matching process between the first speech signal and the word dictionary, and the partial sections corresponding to the respective words in the first speech from the first speech signal. And a candidate for each partial section is obtained, and a matching score is obtained for each partial section of the first speech signal, and the recognition result replacement step is performed using the acoustic similarity obtained in the spotting step and the first And detecting a partial section of the first speech signal and a partial section of the second speech signal corresponding to the misrecognized word in the first speech using the matching score obtained in the matching step Since the speech recognition method is configured so that the candidate for the partial section of the first speech signal is replaced with the candidate for the detected partial section of the second speech signal, the speech recognition method may be used. Even if the acoustic similarity of a partial section different from the partial section corresponding to the misrecognized part increases, there is an effect that a speech recognition method capable of efficiently correcting the misrecognized part can be obtained. .
[0137]
According to this invention, the computer performs collation processing between the first speech signal and the word dictionary including the information of the word to be recognized, and each word in the first speech from the first speech signal. The first matching function for detecting partial sections corresponding to the first section and obtaining candidates for the respective partial sections, and performing a matching process between the second speech signal and the word dictionary, A second collation function that detects partial sections corresponding to respective words in the speech and obtains candidates for the respective partial sections, each partial section of the first speech signal, and each of the second speech signal A spotting function for obtaining the acoustic similarity between the partial sections, and a portion of the first speech signal corresponding to a misrecognized word in the first speech using the acoustic similarity obtained by the spotting function A recognition result replacement function that detects a partial interval of the second and second audio signals, and replaces the candidate for the detected first interval of the audio signal with a candidate for the detected second interval of the audio signal; Since the speech recognition program is configured to be realized, there is an effect that a speech recognition method capable of correcting a misrecognized portion efficiently can be obtained.
[0138]
According to the present invention, when the second speech is composed only of the misrecognized word speech in the first speech, the recognition result replacement function is set so that the acoustic similarity with the partial section of the second speech signal is increased. A candidate for the detected first segment of the first speech signal is detected as the first segment of the first speech signal corresponding to the erroneously recognized word in the first speech. Is replaced with a candidate for the second segment of the speech signal, the speech recognition program is configured, so that it is possible to obtain a speech recognition method that can efficiently correct a misrecognized portion. .
[0139]
According to the present invention, when the second speech is composed of a misrecognized word in the first speech and the speech of one or more words subsequent thereto, the recognition result replacement function has a high acoustic similarity. The first segment of the first speech signal and the second segment of the second speech signal are divided into the first segment of the first speech signal and the partial segment of the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal detected is replaced with the candidate for the partial section of the detected second audio signal, and the candidate for the partial section of the second audio signal not detected is replaced with Since the speech recognition program is configured to be added to it, it is misidentified even when the misrecognized word and the speech of one or more words following it are uttered as the second speech. The effect of the speech recognition program is obtained that can modify the portion efficiently.
[0140]
According to the present invention, the recognition result switching function is detected by detecting the first segment of the first speech signal and the second segment of the second speech signal corresponding to the misrecognized word in the first speech. It is determined whether the candidate for the partial section of the second audio signal is the same as the candidate for the detected partial section of the first audio signal, and the candidate for the detected partial section of the first audio signal is Since the speech recognition program is configured to replace the candidate for the detected partial section of the second speech signal different from the candidate, a speech recognition method capable of correcting the erroneously recognized portion efficiently is obtained. There is an effect.
[0141]
According to the present invention, the recognition result switching function is detected by detecting the first segment of the first speech signal and the second segment of the second speech signal corresponding to the misrecognized word in the first speech. Before and after the first segment of the first speech signal detected by the candidate for the second segment of the speech signal in accordance with the syntax rules in the word dictionary including the information of the word to be recognized in accordance with the syntax rules defining the connection relationship It is determined whether or not it is connectable with a candidate for the partial section of the second, and the candidate for the partial section of the detected first speech signal is connected to the candidate for the previous and subsequent partial sections. Since the speech recognition program is configured to be replaced with candidates for signal partial sections, it is possible to obtain a speech recognition method that can efficiently correct misrecognized portions. There is.
[0142]
According to this invention, the first matching function performs a matching process between the first speech signal and the word dictionary, and the partial section corresponding to each word in the first speech from the first speech signal. And a candidate for each partial section is obtained, and a matching score is obtained for each partial section of the first speech signal, and the recognition result replacement function is the first difference between the acoustic similarity obtained by the spotting function and the first The first speech signal partial section and the second speech signal partial section corresponding to the misrecognized word in the first speech are detected using the collation score obtained by the collation function of Since the speech recognition program is configured so that the candidate for the partial section of the first speech signal is replaced with the candidate for the detected partial section of the second speech signal, the fluctuation of the speech signal Thus, even if the acoustic similarity of a partial section different from the partial section corresponding to the misrecognized part increases, an effect of obtaining a speech recognition program that can efficiently correct the misrecognized part is obtained. is there.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 1 of the present invention.
FIG. 2 is a flowchart for explaining the operation of the speech recognition apparatus according to the first embodiment of the present invention (part 1);
FIG. 3 is a flowchart (part 2) for explaining the operation of the speech recognition apparatus according to the first embodiment of the present invention.
FIG. 4 is a flowchart (part 3) for explaining the operation of the speech recognition apparatus according to the first embodiment of the present invention.
FIG. 5 is a diagram for explaining a specific operation of the voice recognition device according to the first embodiment of the present invention (part 1);
FIG. 6 is a diagram for explaining a specific operation of the voice recognition device according to the first embodiment of the present invention (part 2);
FIG. 7 is a diagram for explaining a specific operation of the speech recognition apparatus according to the first embodiment of the present invention (part 3);
FIG. 8 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 2 of the present invention.
FIG. 9 is a flowchart for explaining an operation of the speech recognition apparatus according to the second embodiment of the present invention (part 1);
FIG. 10 is a flowchart for explaining an operation of the speech recognition apparatus according to the second embodiment of the present invention (part 2);
FIG. 11 is a diagram for explaining a specific operation of the speech recognition apparatus according to the second embodiment of the present invention.
FIG. 12 is a flowchart for explaining the operation of the speech recognition apparatus according to Embodiment 3 of the present invention;
FIG. 13 is a diagram for explaining a specific operation of the speech recognition apparatus according to the third embodiment of the present invention.
FIG. 14 is a flowchart for explaining the operation of the speech recognition apparatus according to Embodiment 4 of the present invention;
FIG. 15 is a state diagram of a word dictionary stored in word dictionary storage means of a speech recognition apparatus according to Embodiment 4 of the present invention.
FIG. 16 is a diagram for explaining a specific operation of the speech recognition apparatus according to the fourth embodiment of the present invention.
FIG. 17 is a flowchart for explaining an operation of the speech recognition apparatus according to the fifth embodiment of the present invention (part 1);
FIG. 18 is a flowchart for explaining an operation of the speech recognition apparatus according to the fifth embodiment of the present invention (part 2);
FIG. 19 is a diagram for explaining a specific operation of the speech recognition apparatus according to the fifth embodiment of the present invention.
FIG. 20 is a diagram for explaining a method of calculating a matching score.
FIG. 21 is a block diagram showing a configuration of a conventional speech recognition apparatus disclosed in Japanese Patent Laid-Open No. 4-181299.
FIG. 22 is a diagram illustrating a specific example of a recognition target of the speech recognition apparatus.
FIG. 23 is a diagram for explaining a specific operation of the conventional speech recognition apparatus (part 1);
FIG. 24 is a diagram for explaining a specific operation of the conventional speech recognition device (part 2);
FIG. 25 is a diagram for explaining a specific operation of the conventional speech recognition device (part 3);
FIG. 26 is a diagram for explaining a specific operation of the conventional voice recognition device (part 4);
[Explanation of symbols]
1, 21 speech recognition device, 2 speech input means, 3 word dictionary storage means, 4 first model collation means, 5 speech signal storage means, 6, 22 2nd model collation means, 7, 24 spotting means, 8, 25 recognition result replacement means, 9 recognition result display means, 23 partial section storage means.

Claims (15)

認識対象となる単語の情報を含む単語辞書を記憶する単語辞書記憶手段と、
複数の認識対象となる単語の音声(以下、1回目の音声という)の音声信号(以下、1回目の音声信号という)と上記単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合手段と、
1回目の音声中の誤認識された単語を含む1または複数の単語の音声(以下、2回目の音声という)の音声信号(以下、2回目の音声信号という)と上記単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合手段と、
1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング手段と、
上記スポッティング手段で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え手段とを備え
上記単語辞書記憶手段は、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書を記憶するものであり、
上記認識結果入れ替え手段は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、上記単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする音声認識装置。
Word dictionary storage means for storing a word dictionary including information of words to be recognized;
A collation process is performed between a speech signal (hereinafter referred to as the first speech signal) of a plurality of recognition target words (hereinafter referred to as the first speech signal) and the word dictionary, and from the first speech signal. First verification means for detecting a partial section corresponding to each word in the first speech and obtaining a candidate for each partial section;
Between a speech signal (hereinafter referred to as a second speech signal) of one or a plurality of words including a misrecognized word in the first speech and the word dictionary A second matching unit that performs a matching process, detects a partial section corresponding to each word in the second voice from the second voice signal, and obtains a candidate for each partial section;
Spotting means for obtaining an acoustic similarity between each partial section of the first audio signal and each partial section of the second audio signal;
Using the acoustic similarity obtained by the spotting means, a first speech signal partial section and a second speech signal partial section corresponding to a misrecognized word in the first speech are detected and detected. A recognition result replacement unit that replaces the candidate for the partial section of the first audio signal that has been detected with the candidate for the partial section of the detected second audio signal ;
The word dictionary storage means stores a word dictionary including information of words to be recognized in accordance with a syntax rule that defines a connection relationship;
The recognition result replacing means detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech, and the detected second speech signal It is determined whether or not the candidate for the partial section can be connected to the candidates for the partial sections before and after the detected partial section of the first speech signal in accordance with the syntax rules in the word dictionary. A speech recognition apparatus characterized in that a candidate for a partial section of a second speech signal is replaced with a candidate for a partial section of a detected second speech signal that can be connected to a candidate for a preceding and subsequent partial section .
2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え手段は、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項1記載の音声認識装置。  When the second voice consists only of the voice of the misrecognized word in the first voice, the recognition result exchanging means is the first voice signal having high acoustic similarity with the partial section of the second voice signal. Is detected as a partial section of the first speech signal corresponding to the misrecognized word in the first speech, and candidates for the detected partial section of the first speech signal are detected as the second speech. The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus is replaced with a candidate for a partial section of a signal. 2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え手段は、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものであることを特徴とする請求項1記載の音声認識装置。  When the second speech is composed of a misrecognized word in the first speech and the speech of one or more words that follow it, the recognition result replacement means is configured to replace the first speech signal having a high acoustic similarity. The partial section and the partial section of the second speech signal are detected and detected as the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal is replaced with the candidate for the partial section of the detected second audio signal, and the candidate for the partial section of the second audio signal not detected is added thereto. The speech recognition apparatus according to claim 1. 認識結果入れ替え手段は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項1記載の音声認識装置。  The recognition result replacing means detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to the misrecognized word in the first speech, and the detected second speech signal It is determined whether the candidate for the partial section is the same as the candidate for the detected partial section of the first audio signal, and the candidate for the detected partial section of the first audio signal is detected differently from the candidate. The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus is replaced with a candidate for a partial section of the second speech signal. 第1の照合手段は、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものであり、
認識結果入れ替え手段は、スポッティング手段で得られた音響的類似度と上記第1の照合手段で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項1記載の音声認識装置。
The first matching means performs a matching process between the first speech signal and the word dictionary, detects a partial section corresponding to each word in the first speech from the first speech signal, A candidate for a partial section is obtained and a matching score is obtained for each partial section of the first audio signal.
The recognition result replacement means uses the acoustic similarity obtained by the spotting means and the collation score obtained by the first collation means for the first time corresponding to the erroneously recognized word in the first speech. A partial section of the audio signal and a partial section of the second audio signal are detected, and the candidate for the detected partial section of the first audio signal is replaced with a candidate for the detected partial section of the second audio signal. The speech recognition apparatus according to claim 1, wherein the voice recognition apparatus is provided.
複数の認識対象となる単語の音声(以下、1回目の音声という)の音声信号(以下、1回目の音声信号という)と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合工程と、
1回目の音声中の誤認識された単語を含む1または複数の単語の音声(以下、2回目の音声という)の音声信号(以下、2回目の音声信号という)と上記単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合工程と、
1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング工程と、
スポッティング工程で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え工程とを備え
上記認識結果入れ替え工程は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする音声認識方法。
A collation process is performed between a speech signal (hereinafter referred to as a first speech signal) of a plurality of recognition target words (hereinafter referred to as a first speech signal) and a word dictionary including information on the recognition target words. Performing a first matching step of detecting a partial section corresponding to each word in the first speech from the first speech signal and obtaining a candidate for each partial section;
Between a speech signal (hereinafter referred to as a second speech signal) of one or a plurality of words including a misrecognized word in the first speech and the word dictionary A second matching step of performing a matching process, detecting a partial section corresponding to each word in the second voice from the second voice signal, and obtaining a candidate for each partial section;
A spotting step for obtaining an acoustic similarity between each partial section of the first audio signal and each partial section of the second audio signal;
Using the acoustic similarity obtained in the spotting process, the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech are detected and detected. A recognition result replacing step of replacing a candidate for the partial section of the first audio signal with a candidate for the detected partial section of the second audio signal ,
The recognition result replacing step detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech, and detects the detected second speech signal. Are candidates for partial sections before and after the partial section of the first speech signal detected in accordance with the syntax rules in the word dictionary including the information of the words to be recognized in accordance with the syntax rules defining the connection relationship. And the candidate for the detected first segment of the first audio signal is set to the candidate for the second segment of the detected second audio signal that can be connected to the candidate for the first and second partial segments. A speech recognition method characterized by being replaced with a candidate .
2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え工程は、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項6記載の音声認識方法。When the second speech consists only of the misrecognized word speech in the first speech, the recognition result replacement step is the first speech signal having a high acoustic similarity with the partial section of the second speech signal. Is detected as a partial section of the first speech signal corresponding to the misrecognized word in the first speech, and candidates for the detected partial section of the first speech signal are detected as the second speech. The speech recognition method according to claim 6 , wherein the speech recognition method is replaced with a candidate for a partial section of a signal. 2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え工程は、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものであることを特徴とする請求項6記載の音声認識方法。When the second speech is composed of a misrecognized word in the first speech and the speech of one or more subsequent words, the recognition result replacement step includes the first speech signal having a high acoustic similarity. The partial section and the partial section of the second speech signal are detected and detected as the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal, and the candidate for the partial section of the second audio signal not detected is added thereto. The speech recognition method according to claim 6 . 認識結果入れ替え工程は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項6記載の音声認識方法。The recognition result replacement step detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech, and detects the detected second speech signal. It is determined whether the candidate for the partial section is the same as the candidate for the detected partial section of the first audio signal, and the candidate for the detected partial section of the first audio signal is detected differently from the candidate. 7. The speech recognition method according to claim 6, wherein the second speech signal is replaced with a candidate for a partial section of the speech signal. 第1の照合工程は、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものであり、
認識結果入れ替え工程は、スポッティング工程で得られた音響的類似度と第1の照合工程で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項6記載の音声認識方法。
The first matching step performs a matching process between the first speech signal and the word dictionary, detects a partial section corresponding to each word in the first speech from the first speech signal, A candidate for a partial section is obtained and a matching score is obtained for each partial section of the first audio signal.
The recognition result replacement step is a first speech corresponding to a misrecognized word in the first speech using the acoustic similarity obtained in the spotting step and the collation score obtained in the first collation step. The partial section of the signal and the partial section of the second audio signal are detected, and the candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal. The speech recognition method according to claim 6 .
コンピュータに、
複数の認識対象となる単語の音声(以下、1回目の音声という)の音声信号(以下、1回目の音声信号という)と認識対象となる単語の情報を含む単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第1の照合機能と、
1回目の音声中の誤認識された単語を含む1または複数の単語の音声(以下、2回目の音声という)の音声信号(以下、2回目の音声信号という)と上記単語辞書との間で照合処理を行い、2回目の音声信号から2回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得る第2の照合機能と、
1回目の音声信号のそれぞれの部分区間と、2回目の音声信号のそれぞれの部分区間との間の音響的類似度を求めるスポッティング機能と、
スポッティング機能で得られた音響的類似度を用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替える認識結果入れ替え機能とを実現させ
上記認識結果入れ替え機能は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、認識対象となる単語の情報を接続関係を規定する構文規則に従って含む単語辞書中の構文規則に従って、検出された1回目の音声信号の部分区間の前後の部分区間に対する候補と接続可能であるか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その前後の部分区間に対する候補と接続可能な検出された2回目の音声信号の部分区間に対する候補に入れ替えるものである音声認識プログラム。
On the computer,
A collation process is performed between a speech signal (hereinafter referred to as a first speech signal) of a plurality of recognition target words (hereinafter referred to as a first speech signal) and a word dictionary including information on the recognition target words. A first matching function for detecting a partial section corresponding to each word in the first speech from the first speech signal and obtaining a candidate for each partial section;
Between a speech signal (hereinafter referred to as a second speech signal) of one or a plurality of words including a misrecognized word in the first speech and the word dictionary A second matching function that performs a matching process, detects a partial section corresponding to each word in the second voice from the second voice signal, and obtains a candidate for each partial section;
A spotting function for obtaining an acoustic similarity between each partial section of the first audio signal and each partial section of the second audio signal;
Using the acoustic similarity obtained by the spotting function, a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech are detected and detected. A recognition result replacement function that replaces the candidate for the partial section of the first speech signal with the candidate for the detected partial section of the second speech signal ,
The recognition result switching function detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech, and the detected second speech signal Are candidates for partial sections before and after the partial section of the first speech signal detected in accordance with the syntax rules in the word dictionary including the information of the words to be recognized in accordance with the syntax rules defining the connection relationship. And the candidate for the detected first segment of the first audio signal is set to the candidate for the second segment of the detected second audio signal that can be connected to the candidate for the first and second partial segments. A speech recognition program that replaces candidates .
2回目の音声が、1回目の音声中の誤認識された単語の音声のみからなる場合、認識結果入れ替え機能は、2回目の音声信号の部分区間と音響的類似度が高い1回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項11記載の音声認識プログラム。When the second voice consists only of the voice of the misrecognized word in the first voice, the recognition result switching function is the first voice signal having high acoustic similarity with the partial section of the second voice signal. Is detected as a partial section of the first speech signal corresponding to the misrecognized word in the first speech, and candidates for the detected partial section of the first speech signal are detected as the second speech. 12. The speech recognition program according to claim 11 , wherein the speech recognition program is replaced with a candidate for a partial section of a signal. 2回目の音声が、1回目の音声中の誤認識された単語及びそれに後続する1又は複数の単語の音声からなる場合、認識結果入れ替え機能は、音響的類似度が高い1回目の音声信号の部分区間及び2回目の音声信号の部分区間を、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間として検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替え、検出されなかった2回目の音声信号の部分区間に対する候補をそれに付加するものであることを特徴とする請求項11記載の音声認識プログラム。When the second speech consists of a misrecognized word in the first speech and the speech of one or more words following it, the recognition result replacement function is used for the first speech signal having a high acoustic similarity. The partial section and the partial section of the second speech signal are detected and detected as the partial section of the first speech signal and the partial section of the second speech signal corresponding to the misrecognized word in the first speech. The candidate for the partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal, and the candidate for the partial section of the second audio signal not detected is added thereto. The speech recognition program according to claim 11 . 認識結果入れ替え機能は、1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された2回目の音声信号の部分区間に対する候補が、検出された1回目の音声信号の部分区間に対する候補と同じか否かを判断し、検出された1回目の音声信号の部分区間に対する候補を、その候補と異なる検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項11記載の音声認識プログラム。The recognition result replacement function detects a partial section of the first speech signal and a partial section of the second speech signal corresponding to a misrecognized word in the first speech, and the detected second speech signal It is determined whether the candidate for the partial section is the same as the candidate for the detected partial section of the first audio signal, and the candidate for the detected partial section of the first audio signal is detected differently from the candidate. 12. The speech recognition program according to claim 11 , wherein the speech recognition program is replaced with a candidate for a partial section of the second speech signal. 第1の照合機能は、1回目の音声信号と単語辞書との間で照合処理を行い、1回目の音声信号から1回目の音声中のそれぞれの単語に対応する部分区間を検出し、それぞれの部分区間に対する候補を得るとともに、1回目の音声信号の部分区間毎に照合スコアを求めるものであり、
認識結果入れ替え機能は、スポッティング機能で得られた音響的類似度と第1の照合機能で得られた照合スコアとを用いて1回目の音声中の誤認識された単語に対応する1回目の音声信号の部分区間及び2回目の音声信号の部分区間を検出し、検出された1回目の音声信号の部分区間に対する候補を、検出された2回目の音声信号の部分区間に対する候補に入れ替えるものであることを特徴とする請求項11記載の音声認識プログラム。
The first matching function performs a matching process between the first speech signal and the word dictionary, detects a partial section corresponding to each word in the first speech from the first speech signal, A candidate for a partial section is obtained and a matching score is obtained for each partial section of the first audio signal.
The recognition result replacement function uses the acoustic similarity obtained by the spotting function and the collation score obtained by the first collation function, and the first speech corresponding to the erroneously recognized word in the first speech. The partial section of the signal and the partial section of the second audio signal are detected, and the candidate for the detected partial section of the first audio signal is replaced with the candidate for the detected partial section of the second audio signal. The speech recognition program according to claim 11 .
JP2001123317A 2001-04-20 2001-04-20 Speech recognition apparatus, speech recognition method, and speech recognition program Expired - Fee Related JP4270770B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001123317A JP4270770B2 (en) 2001-04-20 2001-04-20 Speech recognition apparatus, speech recognition method, and speech recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001123317A JP4270770B2 (en) 2001-04-20 2001-04-20 Speech recognition apparatus, speech recognition method, and speech recognition program

Publications (2)

Publication Number Publication Date
JP2002318596A JP2002318596A (en) 2002-10-31
JP4270770B2 true JP4270770B2 (en) 2009-06-03

Family

ID=18972897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001123317A Expired - Fee Related JP4270770B2 (en) 2001-04-20 2001-04-20 Speech recognition apparatus, speech recognition method, and speech recognition program

Country Status (1)

Country Link
JP (1) JP4270770B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4734155B2 (en) * 2006-03-24 2011-07-27 株式会社東芝 Speech recognition apparatus, speech recognition method, and speech recognition program
JP5893588B2 (en) * 2013-07-09 2016-03-23 京セラ株式会社 Mobile terminal, editing guide program, and editing guide method

Also Published As

Publication number Publication date
JP2002318596A (en) 2002-10-31

Similar Documents

Publication Publication Date Title
EP2308042B1 (en) Method and device for generating vocabulary entries from acoustic data
US7996218B2 (en) User adaptive speech recognition method and apparatus
EP1317750B1 (en) Speech recognition method with a replace command
JP4845118B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US7617106B2 (en) Error detection for speech to text transcription systems
US20030061043A1 (en) Select a recognition error by comparing the phonetic
JP2000122691A (en) Automatic recognizing method for spelling reading type speech speaking
WO2007055233A1 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
JP4340685B2 (en) Speech recognition apparatus and speech recognition method
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JP4270770B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP4639094B2 (en) Speech recognition system, speech recognition apparatus, and speech recognition program
JP4639990B2 (en) Spoken dialogue apparatus and speech understanding result generation method
WO2021024869A1 (en) Speech processing device, speech processing method, and recording medium
JPH1083195A (en) Input language recognition device and input language recognizing method
JP3437492B2 (en) Voice recognition method and apparatus
JP2005234504A (en) Speech recognition apparatus and method for training hmm pronunciation model
JP2002215184A (en) Speech recognition device and program for the same
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
JP2003330488A (en) Voice recognition device
JP2975542B2 (en) Voice recognition device
WO2021246304A1 (en) Signal processing device, signal processing method, and program
WO2021064886A1 (en) Information processing device, program, and information processing method
JPH1097270A (en) Speech recognition device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071107

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071107

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080313

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140306

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees