JP3762327B2 - 音声認識方法および音声認識装置および音声認識プログラム - Google Patents
音声認識方法および音声認識装置および音声認識プログラム Download PDFInfo
- Publication number
- JP3762327B2 JP3762327B2 JP2002122861A JP2002122861A JP3762327B2 JP 3762327 B2 JP3762327 B2 JP 3762327B2 JP 2002122861 A JP2002122861 A JP 2002122861A JP 2002122861 A JP2002122861 A JP 2002122861A JP 3762327 B2 JP3762327 B2 JP 3762327B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- recognition
- speech
- section
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000001514 detection method Methods 0.000 claims description 30
- 230000008859 change Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 26
- 238000012937 correction Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 14
- 230000002123 temporal effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007257 malfunction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000255777 Lepidoptera Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識方法及び装置に関する。
【0002】
【従来の技術】
近年、音声入力を用いたヒューマンインタフェースの実用化が徐々に進んでいる。例えば,ユーザがあらかじめ設定されている特定のコマンドを音声入力し、これをシステムが認識して、認識結果に対応する操作をシステムが自動的に実行することによって、音声でシステムを利用することが出来るようにした音声操作システム、ユーザが任意の文章を発声し、これをシステムが分析して、文字列に変換することによって、音声入力による文章の作成を可能とするシステム、ユーザとシステムが話し言葉でインタラクションすることを可能とするための音声対話システムなどが開発され、その内の一部は既に利用されてはじめている。
【0003】
従来、ユーザから発声された音声信号をマイクロフォンなどによってシステムに取り込み、電気信号に変えた後、A/D(アナログデジタル)変換装置などを用いて、微小な時間単位毎に標本化してたとえば波形振幅の時間系列などのデジタルデータへと変換する。このデジタルデータに対して、例えばFFT(高速フーリエ変換)分析などの手法を適用することによって、例えば周波数の時間変化などを分析することで、発声された音声信号の特徴データを抽出する。続いて行われる認識処理では、あらかじめ辞書として用意されている例えば音素の標準パターンと、単語辞書の音素記号系列との間での単語の類似度を計算する。すなわち、HMM(隠れマルコフモデル)手法、あるいはDP(ダイナミックプログラミング)手法、あるいはNN(ニューラルネットワーク)手法などを用いて、入力音声から抽出した特徴データと標準パターンとを比較照合し、音素認識結果と単語辞書の音素記号系列との間での単語の類似度を計算して入力発声に対する認識候補を生成する。さらに、認識精度をたかめるために、生成された認識候補に対して、例えばn−gramなどに代表される統計的な言語モデルを利用して最も確からしい候補を推定選択することなどによって、入力発声を認識するようにしている。
【0004】
【発明が解決しようとする課題】
ところが、上述した従来方式には以下に示すような問題点がある。
【0005】
まず、音声認識では、100%誤り無く認識を行うことは非常に困難であり、それは限りなく不可能に近いという言う問題がある。
【0006】
この原因としては,以下のような場合を挙げることが出来る。つまり、音声入力が行われる環境に存在する雑音などが理由となって、音声区間の切りだし誤りに失敗したり、あるいは声質や、音量、発声速度、発生様式、方言などといったユーザ間の個人差の為や、発声方法や発声の様式によって、入力音声の波形が変形する為などの理由で認識結果の照合に失敗したり、あるいは、システムに用意されていない未知語をユーザが発声することによって、認識に失敗したり、あるいは、音響的に類似した単語であると誤って認識されたり、あるいは用意されている標準パターンや統計的言語モデルの不完全さのために、誤った単語に誤認識されたり、あるいは照合処理の過程で、計算負荷を軽減する為に候補の絞込みが行われることで本来必要な候補が誤って枝狩りされて誤認識が起こったり、あるいはユーザの言い誤りや、言いなおし、あるいは話し言葉の非文法性などが原因となり、本来入力したい文の入力が正しく認識されなかったりする。
【0007】
また、発声が長い文である場合には,その中に多くの要素が含まれる為、その一部が誤って認識されて、全体としては誤りと成ることがしばしば起こるという問題がある。
【0008】
また、認識誤りが起こった際には、誤動作が誘発され、この誤動作の影響の排除あるいは復元などが必要になり、ユーザに負担がかかるという問題がある。
【0009】
また、認識誤りが発生した際には、ユーザが何度も同じ入力を繰り返す必要があり負担になるという問題がある。
【0010】
また、誤認識され正しく入力できない文を修正する為に、例えばキーボード操作が必要になって、音声入力のハンズフリー性という特性が無効になるという問題がある。
【0011】
また、音声を正しく入力しようとして、ユーザに心理的負担がかかり、手軽さと言う音声入力のメリットが相殺されるという問題がある。
【0012】
このように、音声認識では、誤認識の発生を100%避けることが出来ないため、従来の手段では、ユーザが入力したい文をシステムに入力できない場合があったり、ユーザが何度も同じ発声を繰り返す必要があったり、誤り訂正の為のキーボード操作が必要となったりすることで、ユーザの負担が増加したり、ハンズフリー性や、手軽さといった音声入力の本来の利点が得られないという問題があった。
【0013】
また、訂正発話を検出するものとして「目的地設定タスクにおける訂正発話の特徴分析と検出への応用,日本音響学会講演論文集,2001年10月」が知られているが、この文献に記載の技術は目的地設定という特定のタスクを想定した音声認識システムに過ぎない。
【0014】
そこで本発明は上記問題点に鑑みなされたもので、入力音声に対する誤認識をユーザの負担をかけずに訂正することができる音声認識方法およびそれを用いた音声認識装置および音声認識プログラムを提供することを目的とする。
【0015】
【課題を解決するための手段】
本発明は、デジタルデータに変換された話者の入力音声から音声認識のための特徴情報を抽出し、この特徴情報を基に当該入力音声に対応する複数の音素列あるいは文字列を認識候補として求め、当該認識候補の中から当該入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求めるものであって、入力された2つの入力音声のうち先に入力された第1の入力音声と、この第1の入力音声の認識結果を訂正するために入力された第2の入力音声とのそれぞれから、少なくとも当該2つの入力音声の間で前記特徴情報が所定時間継続して類似する部分を類似部分として検出し、前記第2の入力音声の認識結果を求める際には、当該第2の入力音声の前記類似部分に対応する認識候補の複数の音素列あるいは文字列から、前記第1の入力音声の前記認識結果のうち当該類似部分に対応する音素列あるいは文字列を削除し、その結果としての前記第2の入力音声に対応する認識候補の中から当該第2の入力音声に最も確からしい複数の音素列あるいは文字列を選択して、当該第2の入力音声の認識結果を求めることを特徴とする。
【0016】
本発明によれば、ユーザは最初の入力音声(第1の入力音声)に対する認識結果に誤りがあれば、それを訂正する目的で発声し直すだけで、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。すなわち、最初の入力音声に対する言い直しの入力音声(第2の入力音声)の認識候補から最初の入力音声の認識結果中の誤認識の可能性の高い部分(第2の入力音声との類似部分(類似区間))の音素列あるいは文字列を排除することにより、第2の入力音声に対する認識結果が第1の入力音声に対する認識結果と同じになることが極力避けられ、従って何度言い直しても同じような認識結果になるということがなくなる。従って、入力音声の認識結果を高速にしかも高精度に訂正することができる。
【0017】
本発明は、デジタルデータに変換された話者の入力音声から音声認識のための特徴情報を抽出し、この特徴情報を基に当該入力音声に対応する複数の音素列あるいは文字列を認識候補として求め、当該認識候補の中から当該入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求めるものであって、入力された2つの入力音声のうち先に入力された第1の入力音声の認識結果を訂正するために入力された第2の入力音声に対応する前記デジタルデータを基に当該第2の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の入力音声中の前記話者が強調して発声した部分を強調部分として検出し、前記第1の入力音声の前記認識結果のうち前記第2の入力音声から検出された前記強調部分に対応する部分の音素列あるいは文字列を、前記第2の入力音声の前記強調部分に対応する認識候補の複数の音素列あるいは文字列のうち当該強調部分に最も確からしい音素列あるいは文字列で置き換えて、前記第1の入力音声の認識結果を訂正することを特徴とする。
【0018】
好ましくは、前記第2の入力音声の発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも1つの韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の入力音声中の前記強調部分を検出する。
【0019】
本発明によれば、ユーザは最初の入力音声(第1の入力音声)に対する認識結果に誤りがあれば、それを訂正する目的で発声し直すだけで、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。すなわち、最初の入力音声(第1の入力音声)に対する言い直しの入力音声(第2の入力音声)を入力する際、ユーザは当該第1の入力音声の認識結果中の訂正したい部分を強調して発声すればよく、これにより、当該第2の入力音声中の当該強調部分(強調区間)に最も確からしい音素列あるいは文字列で、第1の入力音声の認識結果のうち訂正すべき音素列あるいは文字列を書き換えて当該第1の入力音声の認識結果中の誤り部分(音素列あるいは文字列)訂正する。従って、従って何度言い直しても同じような認識結果になるということがなくなり、入力音声の認識結果を高速にしかも高精度に訂正することができる。
【0020】
本発明の音声認識装置は、話者の音声を入力してデジタルデータに変換する音声入力手段と、前記デジタルデータから音声認識のための特徴情報を抽出する抽出手段と、前記特徴情報を基に、前記音声入力手段で入力された音声に対応する複数の音素列あるいは文字列を認識候補として求める候補生成手段と、前記認識候補の中から、前記入力された音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求める認識結果生成手段とを具備し、前記認識結果生成手段は、前記音声入力手段で連続して入力された2つの音声のうち先に入力された第1の音声と次に入力された第2の音声とのそれぞれから、少なくとも前記2つの音声の間で前記特徴情報が所定時間継続して類似する部分を類似部分として検出する第1の検出手段と、この第1の検出手段で前記類似部分が検出されたとき、前記第2の音声の当該類似部分に対応する認識候補の複数の音素列あるいは文字列から、前記第1の音声の前記認識結果の当該類似部分に対応する音素列あるいは文字列を削除し、その結果としての前記第1の音声に対応する認識候補の中から当該第1の音声に最も確からしい複数の音素列あるいは文字列を選択して、当該第1の音声の認識結果を生成する第1の生成手段と、前記第1の検出手段で前記類似部分が検出されなかっとき、前記候補生成手段で生成された前記第1の音声に対応する認識候補の中から当該第1の音声に最も確からしい複数の音素列あるいは文字列を選択して、当該第1の音声の認識結果を生成する第2の生成手段とを具備したことを特徴とする。
【0021】
また、上記音声認識装置の前記認識結果生成手段は、さらに、前記第2の音声に対応する前記デジタルデータを基に当該第2の音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の音声中の前記話者が強調して発声した部分を強調部分として検出する第2の検出手段と、前記第1の検出手段で前記類似部分が検出され、しかも、前記第2の検出手段で前記強調部分が検出されたとき、前記第1の音声の前記認識結果のうち前記第2の音声から検出された前記強調部分に対応する音素列あるいは文字列を、前記第2の音声の前記強調部分に対応する認識候補の複数の音素列あるいは文字列のうち当該強調部分に最も確からしい音素列あるいは文字列で置き換えて、前記第1の音声の認識結果を訂正する訂正手段とを具備したことを特徴とする。
【0022】
また、前記訂正手段は、前記第2の音声の前記類似部分以外の部分に占める前記強調部分の割合が予め定められた閾値以上あるいは当該閾値より大きいとき、前記第1の音声の認識結果を訂正することを特徴とする。
【0023】
また、前記第1の検出手段は、前記2つの音声のそれぞれの前記特徴情報と、当該2つの音声のそれぞれの発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも1つの韻律的な特徴を基に、前記類似部分を検出することを特徴とする。
【0024】
また、前記第2の検出手段は、前記第2の音声の発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも1つの韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の音声中の前記強調部分を検出することを特徴とする。
【0025】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して説明する。
【0026】
図1は、本発明の音声認識方法およびそれを用いた音声認識装置を適用した本実施形態に係る音声インタフェース装置の構成例を示したもので、入力部101、分析部102、照合部103、辞書記憶部104、制御部105、履歴記憶部106、対応検出部107、および強調検出部108から構成されている。
【0027】
図1において、入力部101は、制御部105の指示に従って、ユーザからの音声を取りこみ、電気信号に変換した後、A/D(アナログデジタル)変換し、PCM(パルスコードモジュレーション)形式などによるデジタルデータに変換し出力するようになっている。なお、入力部101での上記処理は、従来の音声信号のデジタル化処理と同様の処理によって実現することができる。
【0028】
分析部102は、制御部105の指示に従って、入力部101から出力されたデジタルデータを受取り、FFT(高速フーリエ変換)などの処理による周波数分析などを行って,入力音声の所定区間(例えば、音素単位あるいは単語単位など)毎に、各区間についての音声認識のために必要な特徴情報(例えばスペクトルなど)を時系列に出力するようになっている。なお分析部102での上記処理は、従来の音声分析処理と同様の処理によって実現することができる。
【0029】
照合部103は、制御部105の指示にしたがって、分析部102から出力された特徴情報を受取り、辞書記憶部104に記憶されている辞書を参照して照合を行い,入力音声の所定区間(例えば、音素あるいは音節あるいはアクセント句などの音素列単位、あるいは単語単位などの文字列単位など)毎の認識候補との類似度を計算して、例えば、類似度をスコアとしたとき、当該スコア付きのラティス(lattice)形式で、文字列あるいは音素列の複数の認識候補を出力するようにしている。なお、照合部103での上記処理は、HMM(隠れマルコフモデル)や、DP(ダイナミックプログラミング)、あるいはNN(ニューラルネットワーク)など、従来の音声認識処理と同様の処理によって実現することができる。
【0030】
辞書記憶部104には、音素や単語などの標準パターンなどが、照合部103で実施される上記照合処理の際に参照する辞書として利用できるように記憶されている。
【0031】
以上の入力部101、分析部102、照合部103、辞書記憶部104と制御部105とから、音声インタフェース装置として従来からある基本的な機能が実現するようになっている。すなわち、制御部105の制御の下、図1に示した音声インタフェース装置は、入力部101でユーザ(話者)の音声を取りこんでデジタルデータに変換し、分析部102で当該デジタルデータを分析して特徴情報を抽出し、照合部103では、当該特徴情報と辞書記憶部104に記憶されている辞書との照合を行い、入力部101から入力した音声に対する少なくとも1つの認識候補を、その類似度とともに出力する。照合部103は、制御部105の制御の下、通常は、当該出力された認識候補の中からその類似度などを基に当該入力した音声に最も確からしいものを認識結果として採用(選択)する。
【0032】
認識結果は、フィードバックされて例えば文字や音声の形でユーザに表示したり、音声インタフェースの背後にあるアプリケーションなどへ出力したりする。
【0033】
履歴記憶部106、対応検出部107、強調検出部108は、本実施形態に特徴的な構成部である。
【0034】
履歴記憶部106は、各入力音声について、入力部101で求めた当該入力音声に対応するデジタルデータ、分析部102で当該入力音声から抽出された特徴情報、照合部103で得られる当該入力音声に対する認識候補や認識結果に関する情報などを、当該入力音声についての履歴情報として記録するようになっている。
【0035】
対応検出部107は、履歴記憶部106に記録された、連続して入力された2つの入力音声の履歴情報を基に、両者の間の類似部分(類似区間)、相違部分(不一致区間)を検出するようになっている。なお、ここでの類似区間、不一致区間の判定は,2つの入力音声のそれぞれの履歴情報に含まれる、デジタルデータや、そこから抽出された特徴情報、さらに特徴情報に対するDP(ダイナミックプログラミング)処理などにより求められた各認識候補についての類似度などから判定するようになっている。
【0036】
例えば、対応検出部107では、2つの入力音声の所定区間(例えば、音素、音節、アクセント句などの音素列単位、あるいは単語などの文字列単位など)毎のデジタルデータから抽出された特徴情報と、それらの認識候補などから、類似する音素列や単語などの文字列を発声したと推定される区間が、類似区間として検出される。また、逆に、当該2つの入力音声間で類似区間と判定されなかった区間は、不一致区間となる。
【0037】
例えば、連続して入力した2つの時系列信号としての入力音声の所定区間(例えば、音素列単位あるいは文字列単位)毎のデジタルデータから音声認識のために抽出された特徴情報(例えば、スペクトルなど)が予め定められた時間継続して類似する区間があるとき、当該区間を類似区間として検出する。あるいは、2つの入力音声の所定区間毎に求められた(生成された)認識候補としての複数の音素列あるいは文字列の中に占める両者で共通する音素列あるいは文字列の割合が予め定められた割合以上あるいは当該割合より大きい区間が予め定められた時間連続して存在するとき、当該連続する区間を両者の類似区間として検出する。なお、ここで、「特徴情報が予め定められた時間継続して類似する」とは、当該2つの入力音声は、同じフレーズを発声したものであるかどうかを判定するために十分な時間、特徴情報が類似しているということである。
【0038】
不一致区間は、連続して入力した2つの入力音声のそれぞれから、上記のようにして両者の類似区間が検出されたときには、各入力音声のうち、類似区間以外の区間が不一致区間である。また、上記の2つの入力音声から類似区間が検出されなければ、全て不一致区間となる。
【0039】
また、対応検出部107では、各入力音声のデジタルデータから基本周波数であるF0の時間的変化のパターン(基本周波数パターン)を抽出するなど、韻律的な特徴を抽出するようにしてもよい。
【0040】
ここで、類似区間、不一致区間について、具体的に説明する。
【0041】
ここでは、例えば、1回目の入力音声に対する認識結果の一部に誤認識がある場合に、話者が、再度、認識してもらいたい同じフレーズを発声する場合を仮定して説明する。
【0042】
例えば、ユーザ(話者)が1回目の音声入力の際に、「チケットを買いたいのですか」というフレーズを発声したとする。これを第1の入力音声とする。この第1の入力音声は、入力部101から入力して、照合部103での音声認識の結果として、図4(a)に示したように、「ラケットがカウントなのです」と認識されたとする。そこで、当該ユーザは、図4(b)に示したように、「チケットを買いたいのですか」というフレーズを再度発声したとする。これを第2の入力音声とする。
【0043】
この場合、対応検出部107では、第1の入力音声と第2の入力音声のそれぞれから抽出された音声認識のための特徴情報から、第1の入力音声の「ラケットが」という音素列あるいは文字列が認識結果として採用(選択)された区間と、第2の入力音声中の「チケットを」という区間は、互いに特徴情報が類似する(その結果、同じような認識候補が求められた)ので、類似区間として検出する。また、第1の入力音声の「のです」という音素列あるいは文字列が認識結果として採用(選択)された区間と、第2の入力音声中の「のですか」という区間も、互いに特徴情報が類似する(その結果、同じような認識候補が求められた)ので、類似区間として検出する。一方、第1の入力音声と第2の入力音声のうち、類似区間以外の区間は、不一致区間として検出する。この場合、第1の入力音声の「カウントな」という音素列あるいは文字列が認識結果として採用(選択)された区間と、第2の入力音声中の「かいたい」という区間は、特徴情報が類似せず(類似していると判断するための所定の基準を満たしていないため、また、その結果、認識候補として挙げられた音素列あるいは文字列には、共通するものがほとんどないため)類似区間として検出されなかったため、不一致区間として検出される。
【0044】
なお、ここでは、第1の入力音声と第2の入力音声とは同様な(好ましくは同じ)フレーズであると仮定しているため、上記のようにして2つの入力音声間から類似区間が検出されたならば(すなわち、第2の入力音声は第1の入力音声の部分的な言い直しであるならば)、2つの入力音声の類似区間の対応関係と、不一致区間の対応関係は例えば、図4(a)(b)に示すように明らかとなる。
【0045】
また、対応検出部107は、当該2つの入力音声の所定区間毎のデジタルデータのそれぞれから類似区間を検出する際には、上記のようにして、音声認識のために抽出した特徴情報の他に、さらに、当該2つの入力音声のそれぞれの発声速度、発声強度、周波数変化であるピッチ、無音区間であるポーズの出現頻度、声質などといった韻律的な特徴のうち少なくとも1つを考慮して類似区間を検出するようにしてもよい。例えば、上記特徴情報のみからは、類似区間と判断できるちょうど境界にあるような区間であっても、上記韻律的な特徴のうちの少なくとも1つが類似している場合には、当該区間を類似区間として検出してもよい。このように、スペクトルなどの特徴情報の他に、上記韻律的な特徴を基に類似区間であるか否かを判定することにより、類似区間の検出精度が向上する。
【0046】
各入力音声についての韻律的な特徴は、例えば、各入力音声のデジタルデータから基本周波数F0の時間的変化のパターン(基本周波数パターン)などを抽出することにより求めることができ、この韻律的な特徴を抽出する手法自体は、公知公用技術である。
【0047】
強調分析部108は、履歴記憶部106に記録された履歴情報を基に、例えば,入力音声のデジタルデータから基本周波数F0の時間的変化のパターン(基本周波数パターン)を抽出したり,音声信号の強度であるパワーの時間変化の抽出など、入力音声の韻律的な特徴を分析して、入力音声から話者が強調して発声した区間、すなわち、強調区間を検出するようになっている。
【0048】
一般的に、話者が部分的な言い直しをするために、言い直したい部分は、強調して発声することが予測できる。話者の感情などは、音声の韻律的な特徴として表れるものである。そこで、この韻律的な特徴から、入力音声から強調区間を検出することができるのである。
【0049】
強調区間として検出されるような入力音声の韻律的な特徴とは、上記基本周波数パターンにも表されているが、例えば、入力音声中のある区間の発声速度が当該入力音声の他の区間より遅い、当該ある区間の発声強度が他の区間より強い、当該ある区間の周波数変化であるピッチが他の区間より高い、当該ある区間の無音区間であるポーズの出現頻度が多い、さらには、当該ある区間の声質が甲高い(例えば、基本周波数の平均値が他の区間より高い)などといったものが挙げられる。ここでは、これらのうちの少なくとも1つの韻律的な特徴が、強調区間として判断することのできる所定の基準を満たしているとき、さらに、所定時間継続してそのような特徴が表れているとき、当該区間を強調区間と判定する。
【0050】
なお、上記履歴記憶部106、対応検出部107、強調検出部108は、制御部105の制御の下、動作するようになっている。
【0051】
以下、本実施形態では、文字列を認識候補、認識結果とする例について説明するが、この場合に限らず、例えば、音素列を認識候補、認識結果として求めるようにしてもよい。音素列を認識候補とするこの場合も、内部処理的には、以下に示すように、文字列を認識候補とする場合と全く同様であり、認識結果として求められた音素列は、最終的に音声で出力してもよいし、文字列として出力するようにしてもよい。
【0052】
次に、図1に示した音声インタフェース装置の処理動作について、図2〜図3に示したフローチャートを参照して説明する。
【0053】
制御部105は、上記各部101〜104、106〜108に対し、図2〜図3に示すような処理動作を行うように制御するようになっている。
【0054】
まず、制御部105は、入力音声に対する識別子(ID)に対応するカウンタ値Iを「0」とし、履歴記憶部106に記録されている履歴情報を全て削除(クリア)するなどして、これから入力する音声の認識のための初期化を行う(ステップS1〜ステップS2)。
【0055】
音声の入力があると(ステップS3)、カウンタ値を1つインクリメントし(ステップS4)、当該カウンタ値iを当該入力音声のIDとする。以下、当該入力音声をViと呼ぶ。
【0056】
この入力音声Viの履歴情報をHiとする。以下、簡単に履歴Hiと呼ぶ。入力音声Viは履歴記憶部106に履歴Hiとして記録されるとともに(ステップS5)、入力部101では当該入力音声ViをA/D変換して、当該入力音声Viに対応するデジタルデータWiを得る。このデジタルデータWiは、履歴Hiとして履歴記憶部106に記憶される(ステップS6)。
【0057】
分析部102では、デジタルデータWiを分析して、入力音声Viの特徴情報Fiを得て、当該特徴情報Fiを履歴記憶部106に履歴Hiとして記録する(ステップS7)。
【0058】
照合部103は、辞書記憶部104に記憶されている辞書と、入力音声Viから抽出された特徴情報Fiとの照合処理を行い、当該入力音声Viに対応する例えば単語単位の複数の文字列を認識候補Ciとして求める。この認識候補Ciは、履歴Hiとして履歴記憶部106に記録する(ステップS8)。
【0059】
制御部105は、履歴記憶部106から入力音声Viの直前の入力音声の履歴Hj(j=i−1)を検索する(ステップS9)。当該履歴Hjがあれば、ステップS10へ進み類似区間の検出処理を行い、なければ、ステップS10における類似区間の検出処理をスキップして、ステップS11へ進む。
【0060】
ステップS10では、今回の入力音声の履歴Hi=(Vi、Wi、Fi、Ci、…)と、その直前の入力音声の履歴Hj=(Vj、Wj、Fj、Cj、…)とを基に、対応検出部107では、例えば、今回とその直前の入力音声の所定区間毎のデジタルデータ(Wi、Wj)とそこから抽出された特徴情報(Fi、Fj)、必要に応じて、認識候補(Ci、Cj)や、今回とその直前の入力音声の韻律的な特徴などを基に類似区間を検出する。
【0061】
ここでは、今回の入力音声Viとその直前の入力音声Vjとの間の対応する、類似区間を、Ii、Ijと表し、これらの対応関係をAij=(Ii、Ij)と表現する。なお、ここで検出された連続する2つの入力音声の類似区間Aijに関する情報は、履歴Hiとして、履歴記憶部106に記録する。以下、この類似区間の検出された連続して入力された2つの入力音声のうち、先に入力された前回の入力音声Vjを第1の入力音声、次に入力された今回の入力音声Viを第2の入力音声と呼ぶこともある。
【0062】
ステップS11では、強調検出部108は、前述したように、第2の入力音声ViのデジタルデータFiから韻律的な特徴を抽出して当該第2の入力音声Viから強調区間Piを検出する。例えば、入力音声中のある区間の発声速度が当該入力音声の他の区間よりどれだけ遅ければ、当該ある区間を強調区間とみなすか、当該ある区間の発声強度が他の区間よりどれだけ強ければ、当該ある区間を強調区間とみなすか、当該ある区間の周波数変化であるピッチが他の区間よりどれだけ高ければ、当該ある区間を強調区間とみなすか、当該ある区間の無音区間であるポーズの出現頻度が他の区間よりどれだけ多ければ、当該ある区間を強調区間とみなすか、さらには、当該ある区間の声質が他の区間よりどれだけ甲高ければいか(例えば、基本周波数の平均値が他の区間よりどれだけ高ければ)、当該ある区間を強調区間とみなすか、といった強調区間と判定するための予め定められた基準(あるいは規則)を強調検出部108は記憶しておく。例えば、上記複数の基準のうちの少なくとも1つ、あるいは、上記複数の基準のうちの一部の複数の基準を全て満たすとき、当該ある区間を強調区間と判定する。
【0063】
第2の入力音声Viから上記のようにして強調区間Piが検出されたとき(ステップS12)、当該検出された強調区間Piに関する情報を、履歴Hiとして履歴記憶部106に記録する(ステップS13)。
【0064】
なお、図2に示した処理動作、およびこの時点では、第1の入力音声Viについての認識処理過程における処理動作であり、第1の入力音声Vjについては、すでに認識結果が得られているが、第1の入力音声Viについては、認識結果はまだ得られていない。
【0065】
次に、制御部105は、履歴記憶部106に記憶されている第2の入力音声、すなわち、今回の入力音声Viについての履歴Hiを検索し、当該履歴Hiに類似区間Aijに関する情報が含まれていなければ(図3のステップS21)、当該入力音声は、その直前に入力された音声Vjの言い直しでないと判断し、制御部105と照合部103は、当該入力音声Viに対し、ステップS8で求めた認識候補の中から、当該入力音声Viに最も確からしい文字列を選択して、当該入力音声Viの認識結果を生成して、それを出力する(ステップS22)。さらに、当該入力音声Viの認識結果を、履歴Hiとして履歴記憶部106に記録する。
【0066】
一方、制御部105は、履歴記憶部106に記憶されている第2の入力音声、すなわち、今回の入力音声Viについての履歴Hiを検索し、当該履歴Hiに類似区間Aijに関する情報が含まれているときは(図3のステップS21)、当該入力音声Viは、その直前に入力された音声Vjの言い直しであると判断することができ、この場合は、ステップS23へ進む。
【0067】
ステップS23は、当該履歴Hiに強調区間Piに関する情報が含まれているか否かをチェックし、含まれていないときは、ステップS24へ進み、含まれているときはステップS26へ進む。
【0068】
履歴Hiに強調区間Piに関する情報が含まれていないときは、ステップS24において、第2の入力音声Viに対する認識結果を生成するが、その際、制御部105は、当該第2の入力音声Viから検出された第1の入力音声Vjとの類似区間Iiに対応する認識候補の文字列のうち、第1の入力音声Vjから検出された第1の入力音声Viとの類似区間Ijに対応する認識結果の文字列を削除する(ステップS24)。そして、照合部103は、その結果としての当該第2の入力音声Viに対応する認識候補の中から当該第2の入力音声Viに最も確からしい複数の文字列を選択して、当該第2の入力音声Viの認識結果を生成し、これを第1の入力音声の訂正された認識結果として出力する(ステップS25)。さらに、第1の及び第2の入力音声Vj、Viの認識結果として、ステップS25で生成された認識結果を、履歴Hj、Hiとして履歴記憶部106に記録する。
【0069】
このステップS24〜ステップS25の処理動作について、図4を参照して具体的に説明する。
【0070】
図4において、前述したように、ユーザが入力した第1の入力音声は、「ラケットがカウントなのです」と認識されたので(図4(a)参照)、ユーザは、第2の入力音声として「チケットを買いたいのですか」を入力したとする。
【0071】
このとき、図2のステップS10〜ステップS13において、当該第1および第2の入力音声から図4に示したように、類似区間、不一致区間が検出されたとする。なお、ここでは、第2の入力音声からは強調区間は検出されなかったものとする。
【0072】
第2の入力音声に対し、照合部103で辞書との照合を行った結果(図2のステップS8)、「チケットを」と発声した区間に対しては、例えば、「ラケットが」、「チケットを」、「ラケットが」、「チケットを」…、といった文字列が認識候補として求められ、「かいたい」と発声した区間に対しては、例えば、「かいたい」、「カウント」、…、といった文字列が認識候補として求められ、さらに、「のですか」と発声した区間に対しては、「のですか」、「なのですか」、…、といった文字列が認識候補として求められたとする(図4(b)参照)。
【0073】
すると、図3のステップS24において、第2の入力音声中の「チケットを」と発声した区間(Ii)と、第1の入力音声中で「ラケットが」と認識された区間(Ij)とは、互いに類似区間であるので、当該第2の入力音声中の「チケットを」と発声した区間の認識候補の中から、第1の入力音声中の類似区間Ijの認識結果である文字列「ラケットが」を削除する。なお、認識候補が所定数以上ある場合などには、当該第2の入力音声中の「チケットを」と発声した区間の認識候補の中から、さらに、第1の入力音声中の類似区間Ijの認識結果である文字列「ラケットが」と類似する文字列、例えば、「ラケットを」も削除するようにしてもよい。
【0074】
また、第2の入力音声中の「のですか」と発声した区間(Ii)と、第1の入力音声中で「のです」と認識された区間(Ij)とは、互いに類似区間であるので、当該第2の入力音声中の「のですか」と発声した区間の認識候補の中から、第1の入力音声中の類似区間Ijの認識結果である文字列「のです」を削除する。
【0075】
この結果、第2の入力音声中の「チケットを」と発声した区間に対する認識候補は、例えば、「チケットを」「チケットが」となり、これは、前回の入力音声に対する認識結果を基に絞り込まれたものとなっている。また、第2の入力音声中の「のですか」と発声した区間に対する認識候補は、例えば、「なのですか」「のですか」となり、これもは、前回の入力音声に対する認識結果を基に絞り込まれたものとなっている。
【0076】
ステップS25では、この絞り込まれた認識結果の文字列の中から、第2の入力音声Viに最も確からしい文字列を選択して、認識結果を生成する。すなわち、第2の入力音声中の「チケットを」と発声した区間に対する認識候補の文字列のうち、当該区間の音声に最も確からしい文字列が「チケットを」であり、第2の入力音声中の「かいたい」と発声した区間に対する認識候補の文字列のうち、当該区間の音声に最も確からしい文字列が「買いたい」であり、第2の入力音声中の「のですか」と発声した区間に対する認識候補の文字列のうち、当該区間の音声に最も確からしい文字列が「のですか」であるとき、これら選択された文字列から、「チケットを買いたいのですか」という文字列(フレーズ)が、第1の入力音声の訂正された認識結果として生成されて、出力される。
【0077】
次に、図3のステップS26〜ステップS28の処理動作について説明する。ここでの処理により、第2の入力音声から強調区間が検出された場合に、さらに、当該強調区間が不一致区間とほぼ等しいときときには、第2の入力音声の当該強調区間に対応する認識候補を基に、第1の入力音声の認識結果を訂正するようになっている。
【0078】
なお、図3に示したように、第2の入力音声から強調区間が検出された場合であっても、当該強調区間Piの不一致区間に示す割合が予め定められた値R以下、あるいは、当該値Rより小さいときは(ステップS26)、ステップS24へ進み、前述同様に、第1の入力音声に対する認識結果に基づき第2の入力音声に対し求めた認識候補を絞り込んでから、当該第2の入力音声に対する認識結果を生成する。
【0079】
ステップS26において、第2の入力音声から強調区間が検出されており、さらに、当該強調区間が不一致区間とほぼ等しいとき(当該強調区間Piの不一致区間に示す割合が予め定められた値Rより大きい、あるいは、当該値R以上のとき)には、ステップS27へ進む。
【0080】
ステップS27では、制御部105は、第2の入力音声Viから検出された強調区間Piに対応する第1の入力音声Vjの区間(ほぼ第1の入力音声Vjと第2の入力音声Viとの不一致区間に対応する)の認識結果の文字列を第2の入力音声Viの強調区間の認識候補の文字列のうち、照合部103で選択された当該強調区間の音声に最も確からしい文字列(第1位の認識候補)で置き換えて、当該第1の入力音声Vjの認識結果を訂正する。そして、第1の入力音声の認識結果のうち第2の入力音声から検出された強調区間に対応する区間の認識結果の文字列が、当該第2の入力音声の当該強調区間の第1位の認識候補の文字列で置換えられた第1の入力音声の認識結果を出力する(ステップS28)。さらに、この部分的に訂正された第1の入力音声Vjの認識結果を、履歴Hiとして履歴記憶部106に記録する。
【0081】
このステップS27〜ステップS28の処理動作について、図5を参照して具体的に説明する。
【0082】
例えば、ユーザ(話者)が1回目の音声入力の際に、「チケットを買いたいのですか」というフレーズを発声したとする。これを第1の入力音声とする。この第1の入力音声は、入力部101から入力して、照合部103での音声認識の結果として、図5(a)に示したように、「チケットを/カウントな/のですか」と認識されたとする。そこで、当該ユーザは、図5(b)に示したように、「チケットを買いたいのですか」というフレーズを再度発声したとする。これを第2の入力音声とする。
【0083】
この場合、対応検出部107では、第1の入力音声と第2の入力音声のそれぞれから抽出された音声認識のための特徴情報から、第1の入力音声の「チケットを」という文字列が認識結果として採用(選択)された区間と、第2の入力音声中の「チケットを」という区間を類似区間として検出する。また、第1の入力音声の「のですか」という文字列が認識結果として採用(選択)された区間と、第2の入力音声中の「のですか」という区間も類似区間として検出する。一方、第1の入力音声と第2の入力音声のうち、類似区間以外の区間は、すなわち、第1の入力音声の「カウントな」という文字列が認識結果として採用(選択)された区間と、第2の入力音声中の「かいたい」という区間は、特徴情報が類似せず(類似していると判断するための所定の基準を満たしていないため、また、その結果、認識候補として挙げられた文字列には、共通するものがほとんどないため)類似区間として検出されなかったため、不一致区間として検出される。
【0084】
また、ここでは、図2のステップS11〜ステップS13において、第2の入力音声中の「かいたい」と発声した区間が強調区間として検出されたものとする。
【0085】
第2の入力音声に対し、照合部103で辞書との照合を行った結果(図2のステップS8)、「かいたい」と発声した区間に対しては、例えば、「買いたい」という文字列が第1位の認識候補として求められたとする(図5(b)参照)。
【0086】
この場合、第2の入力音声から検出された強調区間は、第1の入力音声と第2の入力音声との不一致区間と一致する。従って、図3のステップS26〜ステップS27へ進む。
【0087】
ステップS27では、第2の入力音声Viから検出された強調区間Piに対応する第1の入力音声Vjの区間の認識結果の文字列、すなわち、ここでは、「カウントな」を第2の入力音声Viの強調区間の認識候補の文字列のうち、照合部103で選択された当該強調区間の音声に最も確からしい文字列(第1位の認識候補)、すなわち、ここでは、「買いたい」で置き換える。すると、ステップS28では、第1の入力音声の最初の認識結果「チケットを/カウントな/のですか」中の不一致区間に対応する文字列「カウントな」が第2の入力音声中の強調区間の第1位の認識候補である文字列「買いたい」に置き換えられた、図5(c)に示すような、「チケットを/買いたい/のですか」が出力される。
【0088】
このように、本実施形態では、例えば、「チケットを買いたいのですか」という第1の入力音声に対する認識結果(例えば、「チケットをカウントなのですか」)が誤っていた場合、ユーザは、例えば、誤認識された部分(区間)を訂正するために、第2の入力音声として言い直しのフレーズを入力する際には、「チケットを か い た い のですが」というように、訂正したい部分を音節に区切って発声すると、この音節に区切って発声した部分「か い た い 」は、強調区間として検出される。第1の入力音声と第2の入力音声は、同じフレーズを発声したものである場合には、言い直しの第2の入力音声中から検出された強調区間以外の区間は、ほぼ類似区間とみなすことができる。そこで、本実施形態では、第1の入力音声に対する認識結果のうち、第2の入力音声から検出された強調区間に対応する区間に対応する文字列を、第2の入力音声の当該強調区間の認識結果の文字列で置き換えることにより、第1の入力音声の認識結果を訂正するようになっている。
【0089】
なお、図2〜図3に示した処理動作は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピーディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
【0090】
以上説明したように、上記実施形態によれば、入力された2つの入力音声のうち先に入力された第1の入力音声と、この第1の入力音声の認識結果を訂正するために入力された第2の入力音声とのそれぞれから、少なくとも当該2つの入力音声の間で特徴情報が所定時間継続して類似する部分を類似部分(類似区間)として検出し、第2の入力音声の認識結果を生成する際には、当該第2の入力音声の類似部分に対応する認識候補の複数の文字列から、第1の入力音声の当該類似部分に対応する認識結果の文字列を削除し、その結果としての第2の入力音声に対応する認識候補の中から当該第2の入力音声に最も確からしい複数の文字列を選択して、当該第2の入力音声の認識結果を生成することにより、ユーザは最初の入力音声(第1の入力音声)に対する認識結果に誤りがあれば、それを訂正する目的で発声し直すだけで、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。すなわち、最初の入力音声に対する言い直しの入力音声(第2の入力音声)の認識候補から最初の入力音声の認識結果中の誤認識の可能性の高い部分(第2の入力音声との類似部分(類似区間))の文字列を排除することにより、第2の入力音声に対する認識結果が第1の入力音声に対する認識結果と同じになることが極力避けられ、従って何度言い直しても同じような認識結果になるということがなくなる。従って、入力音声の認識結果を高速にしかも高精度に訂正することができる。
【0091】
また、入力された2つの入力音声のうち先に入力された第1の入力音声の認識結果を訂正するために入力された第2の入力音声に対応するデジタルデータを基に当該第2の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の入力音声中の話者が強調して発声した部分を強調部分(強調区間)として検出し、第1の入力音声の認識結果のうち第2の入力音声から検出された強調部分に対応する文字列を、第2の入力音声の強調部分に対応する認識候補の複数の文字列のうち当該強調部分に最も確からしい文字列で置き換えて、第1の入力音声の認識結果を訂正することにより、ユーザは、発声し直すだけで、第1の入力音声の認識結果を高精度に訂正することができ、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。すなわち、最初の入力音声(第1の入力音声)に対する言い直しの入力音声(第2の入力音声)を入力する際、ユーザは当該第1の入力音声の認識結果中の訂正したい部分を強調して発声すればよく、これにより、当該第2の入力音声中の当該強調部分(強調区間)に最も確からしい文字列で、第1の入力音声の認識結果のうち訂正すべき文字列を書き換えて当該第1の入力音声の認識結果中の誤り部分(文字列)訂正する。従って、従って何度言い直しても同じような認識結果になるということがなくなり、入力音声の認識結果を高速にしかも高精度に訂正することができる。
【0092】
なお、上記実施形態では、第1の入力音声の認識結果を部分的に訂正する際には、好ましくは、第2の入力音声を入力する際に、前回発声したフレーズ中の認識結果を訂正したい部分を強調して発声することが望ましいが、その際、どのように強調して発声すればよいか(韻律的な特徴のつけ方)を予めユーザに教示しておいたり、あるいは本装置を利用する過程で、入力音声の認識結果を訂正するための訂正方法として例を示すなどして適宜説明するようにしておいても良い。このように、入力音声を訂正するためのフレーズを予め定めておいたり(例えば、上記実施形態のように、2回目の音声入力の際には、1回目と同じフレーズを発声する)、訂正したい部分をどのように発声すれば、その部分を強調区間として検出できるのかを予め定めておくことにより、強調区間や類似区間の検出精度が向上する。
【0093】
また、訂正のための定型的なフレーズを、例えばワードスポッティング手法などを用いて取り出すことで、部分的な訂正ができるようにしても良い。つまり、例えば、図5に示したように、第1の入力音声が「チケットをカウントなのですか」と誤認識された際に、ユーザが、例えば「カウント ではなく 買いたい」などと、部分的な訂正の為の定型的な表現である「AではなくB」という訂正の為の予め定められたフレーズを第2の入力音声として入力したとする。さらにこの第2の入力音声においては、「A」および「B」に対応する「カウント」および「買いたい」の部分は、ピッチ(基本周波数)を高めた発声がなされたとする。この場合、この韻律的な特徴づけも合わせて分析することによって,上述の訂正の為の定型的な表現の抽出が行われ、結果として第1の入力音声の認識結果の中から「カウント」に類似する部分を探し出し,第2の入力音声中の「B」に対応する部分の認識結果である「買いたい」という文字列に置換するようにしてもよい。この場合においても、第1の入力音声の認識結果である「チケットをカウントなのですが」が訂正され,「チケットを買いたいのですが」と正しく認識することができるのである。
【0094】
また、認識結果は、従来の対話システムと同様の方法でユーザに確認してから、適宜適用するようにしても良い。
【0095】
また、上記実施形態では、連続する2つの入力音声を処理対象とし、直前の入力音声に対して誤認識の訂正を行う場合を示したが、この場合に限らず、上記実施形態は、任意の時点で入力された任意の数の入力音声に対して適用する事も可能である。
【0096】
また、上記実施形態では、入力音声の認識結果を部分的に訂正する例を示したが、例えば先頭から途中まで,あるいは途中から最後まで、あるいは全体に対して、上記同様の手法を適応しても良い。
【0097】
また、上記実施形態によれば、訂正のための音声入力を1回行えば、それ以前の入力音声の認識結果中の複数個所の訂正を行ったり、複数の入力音声のそれぞれに対し同じ訂正を行うこともできる。
【0098】
また、例えば、特定の音声コマンドや、あるいはキー操作など他の方法で,これから入力する音声は、前回入力した音声の認識結果に対する訂正のためのものであることを予め通知するようにしても良い。
【0099】
また、類似区間を検出する際には、例えばあらかじめマージン量を設定することによって,多少のずれを許容するようにしても良い。
【0100】
また、上記実施形態に係る手法は、認識候補の取捨選択に用いるのではなく、その前段階の、例えば認識処理で利用される評価スコア(例えば、類似度)の微調整に用いてもよい。
【0101】
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、上記実施形態には種々の段階の発明は含まれており、開示される複数の構成用件における適宜な組み合わせにより、種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題(の少なくとも1つ)が解決でき、発明の効果の欄で述べられている効果(のなくとも1つ)が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0102】
【発明の効果】
以上説明したように、本発明によれば、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る音声インタフェース装置の構成例を示した図。
【図2】図1の音声インタフェース装置の処理動作を説明するためのフローチャート。
【図3】図1の音声インタフェース装置の処理動作を説明するためのフローチャート。
【図4】誤認識の訂正手順について具体的に説明するための図。
【図5】誤認識の他の訂正手順について具体的に説明するための図。
【符号の説明】
101…入力部
102…分析部
103…照合部
104…辞書記憶部
105…制御部
106…履歴記憶部
107…対応検出部
108…強調検出部
Claims (5)
- デジタルデータに変換された話者の入力音声から音声認識のための特徴情報を抽出し、この特徴情報を基に当該入力音声に対応する複数の音素列あるいは文字列を認識候補として求め、当該認識候補の中から当該入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求める音声認識方法において、
第1の入力音声を入力する第1のステップと、
前記第1の入力音声の第1の認識結果を出力する第2のステップと、
第2の入力音声を入力する第3のステップと、
前記第2の入力音声に対応するデジタルデータを基に当該第2の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の入力音声中の前記話者が強調して発声した部分を強調区間として検出する第4のステップと、
前記第2の入力音声の前記強調区間に対応する認識候補の複数の音素列あるいは文字列の中から前記第2の入力音声に最も確からしい音素列あるいは文字列を選択する第5のステップと、
前記第1の認識結果のうち、前記強調区間以外の区間に対応する音素列あるいは文字列と、前記強調区間に対応する選択された音素列あるいは文字列とからなる第2の認識結果を生成する第6のステップと、
前記第2の認識結果を出力する第7のステップと、
を有する音声認識方法。 - 前記第4のステップは、前記第2の入力音声の発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも1つの韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の入力音声中の前記強調区間を検出することを特徴とする請求項2記載の音声認識方法。
- 話者の音声を入力する入力手段と、
前記入力手段で入力された入力音声から音声認識のための特徴情報を抽出する抽出手段と、
前記特徴情報を基に前記入力音声に対応する複数の音素列あるいは文字列を認識候補として求める手段と、
前記認識候補の中から前記入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を生成する生成手段と、
前記認識結果を出力する出力手段と、
前記入力手段に入力された第1の入力音声に対し前記生成手段で得られた第1の認識結果を前記出力手段で出力した後に前記入力手段で入力された第2の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の入力音声中の前記話者が強調して発声した部分を強調区間として検出する検出手段と、
を具備し、
前記生成手段は、
前記強調区間の検出された前記第2の入力音声の前記強調区間に対応する認識候補の複数の音素列あるいは文字列のなかから、前記第2の入力音声に最も確からしい音素列あるいは文字列を選択し、
前記第1の認識結果のうち、前記強調区間以外の区間に対応する音素列あるいは文字列と、前記強調区間に対応する選択された音素列あるいは文字列とからなる第2の認識結果を生成することを特徴とする音声認識装置。 - 前記検出手段は、前記第2の入力音声の発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも1つの韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の入力音声中の前記強調区間を検出することを特徴とする請求項3記載の音声認識装置。
- デジタルデータに変換された話者の入力音声から音声認識のための特徴情報を抽出し、この特徴情報を基に当該入力音声に対応する複数の音素列あるいは文字列を認識候補として求め、当該認識候補の中から当該入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求める音声認識プログラムであって、
コンピュータに、
第1の入力音声を入力する第1のステップと、
前記第1の入力音声の第1の認識結果を出力する第2のステップと、
第2の入力音声を入力する第3のステップと、
前記第2の入力音声に対応するデジタルデータを基に当該第2の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第2の入力音声中の前記話者が強調して発声した部分を強調区間として検出する第4のステップと、
前記第2の入力音声の前記強調区間に対応する認識候補の複数の音素列あるいは文字列の中から前記第2の入力音声に最も確からしい音素列あるいは文字列を選択する第5のステップと、
前記第1の認識結果のうち、前記強調区間以外の区間に対応する音素列あるいは文字列と、前記強調区間に対応する選択された音素列あるいは文字列とからなる第2の認識結果を生成する第6のステップと、
前記第2の認識結果を出力する第7のステップと、
を実行させる音声認識プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002122861A JP3762327B2 (ja) | 2002-04-24 | 2002-04-24 | 音声認識方法および音声認識装置および音声認識プログラム |
US10/420,851 US20030216912A1 (en) | 2002-04-24 | 2003-04-23 | Speech recognition method and speech recognition apparatus |
CNB03122055XA CN1252675C (zh) | 2002-04-24 | 2003-04-24 | 声音识别方法以及声音识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002122861A JP3762327B2 (ja) | 2002-04-24 | 2002-04-24 | 音声認識方法および音声認識装置および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003316386A JP2003316386A (ja) | 2003-11-07 |
JP3762327B2 true JP3762327B2 (ja) | 2006-04-05 |
Family
ID=29267466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002122861A Expired - Fee Related JP3762327B2 (ja) | 2002-04-24 | 2002-04-24 | 音声認識方法および音声認識装置および音声認識プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20030216912A1 (ja) |
JP (1) | JP3762327B2 (ja) |
CN (1) | CN1252675C (ja) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7310602B2 (en) | 2004-09-27 | 2007-12-18 | Kabushiki Kaisha Equos Research | Navigation apparatus |
JP4050755B2 (ja) * | 2005-03-30 | 2008-02-20 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
JP4064413B2 (ja) * | 2005-06-27 | 2008-03-19 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
US20060293890A1 (en) * | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
JP4559946B2 (ja) * | 2005-09-29 | 2010-10-13 | 株式会社東芝 | 入力装置、入力方法および入力プログラム |
JP2007220045A (ja) * | 2006-02-20 | 2007-08-30 | Toshiba Corp | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
JP4734155B2 (ja) | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
JP4393494B2 (ja) * | 2006-09-22 | 2010-01-06 | 株式会社東芝 | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
JP4481972B2 (ja) | 2006-09-28 | 2010-06-16 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム |
JP5044783B2 (ja) * | 2007-01-23 | 2012-10-10 | 国立大学法人九州工業大学 | 自動回答装置および方法 |
JP2008197229A (ja) * | 2007-02-09 | 2008-08-28 | Konica Minolta Business Technologies Inc | 音声認識辞書構築装置及びプログラム |
JP4791984B2 (ja) * | 2007-02-27 | 2011-10-12 | 株式会社東芝 | 入力された音声を処理する装置、方法およびプログラム |
US8156414B2 (en) * | 2007-11-30 | 2012-04-10 | Seiko Epson Corporation | String reconstruction using multiple strings |
US8380512B2 (en) * | 2008-03-10 | 2013-02-19 | Yahoo! Inc. | Navigation using a search engine and phonetic voice recognition |
GB2471811B (en) * | 2008-05-09 | 2012-05-16 | Fujitsu Ltd | Speech recognition dictionary creating support device,computer readable medium storing processing program, and processing method |
US20090307870A1 (en) * | 2008-06-16 | 2009-12-17 | Steven Randolph Smith | Advertising housing for mass transit |
JP5535238B2 (ja) * | 2009-11-30 | 2014-07-02 | 株式会社東芝 | 情報処理装置 |
US8494852B2 (en) | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US9652999B2 (en) * | 2010-04-29 | 2017-05-16 | Educational Testing Service | Computer-implemented systems and methods for estimating word accuracy for automatic speech recognition |
JP5610197B2 (ja) * | 2010-05-25 | 2014-10-22 | ソニー株式会社 | 検索装置、検索方法、及び、プログラム |
JP5158174B2 (ja) * | 2010-10-25 | 2013-03-06 | 株式会社デンソー | 音声認識装置 |
US9123339B1 (en) | 2010-11-23 | 2015-09-01 | Google Inc. | Speech recognition using repeated utterances |
JP5682578B2 (ja) * | 2012-01-27 | 2015-03-11 | 日本電気株式会社 | 音声認識結果修正支援システム、音声認識結果修正支援方法および音声認識結果修正支援プログラム |
EP2645364B1 (en) * | 2012-03-29 | 2019-05-08 | Honda Research Institute Europe GmbH | Spoken dialog system using prominence |
CN103366737B (zh) | 2012-03-30 | 2016-08-10 | 株式会社东芝 | 在自动语音识别中应用声调特征的装置和方法 |
US9424233B2 (en) | 2012-07-20 | 2016-08-23 | Veveo, Inc. | Method of and system for inferring user intent in search input in a conversational interaction system |
US9465833B2 (en) | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
CN104123930A (zh) * | 2013-04-27 | 2014-10-29 | 华为技术有限公司 | 喉音识别方法及装置 |
DK2994908T3 (da) * | 2013-05-07 | 2019-09-23 | Veveo Inc | Grænseflade til inkrementel taleinput med realtidsfeedback |
US9613619B2 (en) * | 2013-10-30 | 2017-04-04 | Genesys Telecommunications Laboratories, Inc. | Predicting recognition quality of a phrase in automatic speech recognition systems |
CN110675866B (zh) * | 2014-04-22 | 2023-09-29 | 纳宝株式会社 | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 |
JP6359327B2 (ja) * | 2014-04-25 | 2018-07-18 | シャープ株式会社 | 情報処理装置および制御プログラム |
US9666204B2 (en) | 2014-04-30 | 2017-05-30 | Qualcomm Incorporated | Voice profile management and speech signal generation |
DE102014017384B4 (de) | 2014-11-24 | 2018-10-25 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung |
CN105810188B (zh) * | 2014-12-30 | 2020-02-21 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
EP3089159B1 (en) * | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
DE102015213720B4 (de) * | 2015-07-21 | 2020-01-23 | Volkswagen Aktiengesellschaft | Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und Spracherkennungssystem |
DE102015213722B4 (de) * | 2015-07-21 | 2020-01-23 | Volkswagen Aktiengesellschaft | Verfahren zum Betreiben eines Spracherkennungssystems in einem Fahrzeug und Spracherkennungssystem |
CN105957524B (zh) * | 2016-04-25 | 2020-03-31 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
US11217266B2 (en) | 2016-06-21 | 2022-01-04 | Sony Corporation | Information processing device and information processing method |
PT3533022T (pt) | 2016-10-31 | 2024-05-10 | Rovi Guides Inc | Sistemas e métodos para a utilização flexível de temas em tendência como parâmetros para recomendar recursos multimédia que estão relacionados com o recurso multimédia visualizado |
US10332520B2 (en) | 2017-02-13 | 2019-06-25 | Qualcomm Incorporated | Enhanced speech generation |
US10354642B2 (en) * | 2017-03-03 | 2019-07-16 | Microsoft Technology Licensing, Llc | Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition |
JP2018159759A (ja) * | 2017-03-22 | 2018-10-11 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
WO2018174884A1 (en) | 2017-03-23 | 2018-09-27 | Rovi Guides, Inc. | Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset |
US20180315415A1 (en) * | 2017-04-26 | 2018-11-01 | Soundhound, Inc. | Virtual assistant with error identification |
CN110663079A (zh) | 2017-05-24 | 2020-01-07 | 乐威指南公司 | 基于语音纠正使用自动语音识别生成的输入的方法和系统 |
CN107221328B (zh) * | 2017-05-25 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | 修改源的定位方法及装置、计算机设备及可读介质 |
JP7096634B2 (ja) * | 2019-03-11 | 2022-07-06 | 株式会社 日立産業制御ソリューションズ | 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム |
US11263198B2 (en) | 2019-09-05 | 2022-03-01 | Soundhound, Inc. | System and method for detection and correction of a query |
JP7363307B2 (ja) * | 2019-09-30 | 2023-10-18 | 日本電気株式会社 | 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体 |
US11410034B2 (en) * | 2019-10-30 | 2022-08-09 | EMC IP Holding Company LLC | Cognitive device management using artificial intelligence |
US11721322B2 (en) * | 2020-02-28 | 2023-08-08 | Rovi Guides, Inc. | Automated word correction in speech recognition systems |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4087632A (en) * | 1976-11-26 | 1978-05-02 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
JPS59214899A (ja) * | 1983-05-23 | 1984-12-04 | 株式会社日立製作所 | 連続音声認識応答方法 |
JPS60229099A (ja) * | 1984-04-26 | 1985-11-14 | シャープ株式会社 | 音声認識方式 |
JPH03148750A (ja) * | 1989-11-06 | 1991-06-25 | Fujitsu Ltd | 音声ワープロ |
JP3266157B2 (ja) * | 1991-07-22 | 2002-03-18 | 日本電信電話株式会社 | 音声強調装置 |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US5781887A (en) * | 1996-10-09 | 1998-07-14 | Lucent Technologies Inc. | Speech recognition method with error reset commands |
JP3472101B2 (ja) * | 1997-09-17 | 2003-12-02 | 株式会社東芝 | 音声入力解釈装置及び音声入力解釈方法 |
JPH11149294A (ja) * | 1997-11-17 | 1999-06-02 | Toyota Motor Corp | 音声認識装置および音声認識方法 |
JP2991178B2 (ja) * | 1997-12-26 | 1999-12-20 | 日本電気株式会社 | 音声ワープロ |
US6374214B1 (en) * | 1999-06-24 | 2002-04-16 | International Business Machines Corp. | Method and apparatus for excluding text phrases during re-dictation in a speech recognition system |
GB9929284D0 (en) * | 1999-12-11 | 2000-02-02 | Ibm | Voice processing apparatus |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
WO2001084535A2 (en) * | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
-
2002
- 2002-04-24 JP JP2002122861A patent/JP3762327B2/ja not_active Expired - Fee Related
-
2003
- 2003-04-23 US US10/420,851 patent/US20030216912A1/en not_active Abandoned
- 2003-04-24 CN CNB03122055XA patent/CN1252675C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003316386A (ja) | 2003-11-07 |
CN1252675C (zh) | 2006-04-19 |
CN1453766A (zh) | 2003-11-05 |
US20030216912A1 (en) | 2003-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3762327B2 (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
JP4542974B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
Reddy et al. | A model and a system for machine recognition of speech | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7634401B2 (en) | Speech recognition method for determining missing speech | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
JP2001188781A (ja) | 会話処理装置および方法、並びに記録媒体 | |
JP4897040B2 (ja) | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム | |
JP4072718B2 (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
JP2010197644A (ja) | 音声認識システム | |
JP2000029492A (ja) | 音声翻訳装置、音声翻訳方法、音声認識装置 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JP2745562B2 (ja) | ノイズ適応形音声認識装置 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP4048473B2 (ja) | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
JPH1195793A (ja) | 音声入力解釈装置及び音声入力解釈方法 | |
JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
JPH0981182A (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JP3231365B2 (ja) | 音声認識装置 | |
JP3110025B2 (ja) | 発声変形検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100120 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110120 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120120 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130120 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130120 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140120 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |