JP2007041319A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2007041319A
JP2007041319A JP2005225877A JP2005225877A JP2007041319A JP 2007041319 A JP2007041319 A JP 2007041319A JP 2005225877 A JP2005225877 A JP 2005225877A JP 2005225877 A JP2005225877 A JP 2005225877A JP 2007041319 A JP2007041319 A JP 2007041319A
Authority
JP
Japan
Prior art keywords
recognition
stagnation
speech
recognition result
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005225877A
Other languages
English (en)
Other versions
JP2007041319A5 (ja
JP4680714B2 (ja
Inventor
Takeshi Inoue
剛 井上
Sumiyuki Okimoto
純幸 沖本
Hiroshi Kutsumi
洋 九津見
Takashi Tsuzuki
貴史 續木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005225877A priority Critical patent/JP4680714B2/ja
Publication of JP2007041319A publication Critical patent/JP2007041319A/ja
Publication of JP2007041319A5 publication Critical patent/JP2007041319A5/ja
Application granted granted Critical
Publication of JP4680714B2 publication Critical patent/JP4680714B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 ユーザに学習用の特別な発声を要求することなく、ユーザの負担が少なく自然に音声認識の個人適応を行うことができ、かつ誤認識を減らすことできる音声認識装置および音声認識方法を提供する。
【解決手段】 音声認識装置を備える音声対話型情報検索システムは、音声認識辞書102および音声認識パラメータ記憶部103を用いて、ユーザより入力された音声の音声認識を行う音声認識部101と、システムの状態遷移が停滞状態から脱出したか否かを判定する停滞脱出判定部104と、動作仕様に従って対話を制御し、ユーザからの入力に対し次のシステム状態を決定し、停滞脱出判定部104の判定結果に応じて音声認識辞書102および音声認識パラメータ103を変更する対話制御部105と、システム状態に応じた画面や応答音声を出力する応答音声・画面出力部110とを備える。
【選択図】 図1

Description

本発明は、入力された音声を音声認識辞書を用いて認識し、認識結果によりシステム状態を遷移させて対話を行う音声認識装置に関する。
一般的な音声認識の方法の一つとして、予め認識辞書内に登録された語彙を表す種々の音響パターンとユーザから入力された音声信号とを比較することでスコアを計算し、最も類似したパターンを示す認識辞書内語彙を認識結果の候補とする手法がある。
このような一般的な音声認識方法では、多くのユーザに対して高い認識精度を実現するために作成された音響モデルを用いて音声認識を行っているため、ユーザによっては一般的な音響モデルが適応していないために、認識精度が低くなり、誤認識を多く起こしてしまう場合が生じる。
また、従来においては、例えば認識スコアを利用して認識信頼度を計算し、最も類似した認識候補が得られた場合も、認識信頼度に基づいてリジェクトを行い、再入力を促す手法がある。このようなリジェクト機能を設けることで、例えば音声以外の雑音が入力された場合に誤認識が発生してシステムが誤動作するのを防ぐことができる。
このような音声認識方法では、得られた認識信頼度が所定の値より低い場合、リジェクトなどの機能により誤認識・誤システム動作を防ぐことができるが、反面、通常の音声入力に対しても認識信頼度が低い場合にはリジェクトを行うので、ユーザによっては、特定の認識可能な語彙に対して誤ってリジェクトされてしまう場合が生じる。
そこで、このような誤認識・誤リジェクトの対策として、音声認識に利用している一般不特定話者向けの音響モデルを現在のユーザの音響モデルに適応するため、ユーザ自身の発声を用いて再学習させる(話者適応・話者学習)ことで認識精度を向上させる方法や、リジェクトが行われた際にユーザの再発声時の認識精度を向上させる方法が提案されている。
例えば、話者適応・話者学習の方法としては、少数の音声を用いて音響モデルを学習し、さらに誤認識される単語については話者学習を行う方法(例えば、特許文献1参照)が開示されている。一方、再発声時の認識精度を向上させる方法としては、言い直しだと判定した場合には前回と今回の両認識候補を用いて認識結果を定める手法(例えば、特許文献2参照)や、言い直しの発声に対しては前回の認識結果の上位候補を認識対象語彙とする手法(例えば、特許文献3参照)が開示されている。
特開2003−162292号公報 特開平11−149294号公報 特許第3112037号
上記のような従来の方法では、少数の学習用発声でユーザの音響モデルを学習可能とする工夫や、再発声時の認識候補や認識対象語彙を変化させることで認識精度を向上させる工夫がされている。
しかしながら、これらの学習による話者適応では、ユーザに適したモデルを学習させる際に少数とはいえ、操作とは直接関係の無い単語を一定量ユーザに発声させるため、ユーザの負担は少なくない。また、再入力時の認識精度向上方法では、再発声時の認識精度は上がるものの、再び前回リジェクトされた発声と同じ発声をユーザが行ったときはやはりリジェクトされてしまい、その度に再発声を行わなくてならない。
例えば、特許文献1では、初めに少数ではあるが話者適応用の学習発声をユーザに促し、さらに度々誤認識する単語については誤認識を起こす部分の発声を話者に促し、その入力を基に話者学習を行うが、ユーザに余分な発声を促すためユーザの負担を増やしてしまう。また、特許文献2では、言い直しと検出された場合に前回の認識結果を含め出力する認識候補を調整するが、前回リジェクトされた発声と同じ発声が入力されたときにリジェクトされてしまい、その度に再発声を行わなくてならない。また、特許文献3では、リジェクトされた次の認識は前回の上位候補のみを認識対象語彙として認識を行うが、特許文献2と同様、前回リジェクトされた発声と同じ発声が入力されたときに正しく認識できない。
そこで、本発明はこのような従来の課題を解決するためになされたものであって、ユーザに学習用の特別な発声を要求することなく、ユーザの負担が少なく自然に音声認識の個人適応を行うことができ、かつ誤認識を減らすことできる音声認識装置および音声認識方法を提供することを目的とする。
上記目的を達成するため、本発明に係る音声認識装置は、入力された音声を認識し、認識結果により対話を行う音声認識装置であって、入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識手段と、前記音声認識手段の認識結果によりシステム状態を遷移させて応答を行う対話制御手段と、今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも1つであるか否かを判定する停滞脱出判定手段と、前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも1つを変更する変更制御手段とを備えることを特徴とする。
本発明に係る音声認識装置および音声認識方法によれば、ユーザの発声の特徴とシステムの音声認識用パラメータや音声認識辞書の不適合を解消するために、学習用の特別な発声を要求するのではなく、一度の言い直しまたは言い換えにて正しく認識された結果を利用してユーザに適した学習を行うため、ユーザにとって自然で負担の少ない音声認識の個人適応を行うことができる。さらに、音声認識の個人適応を行うので、次からは前回誤認識した発声と同様の発声を行っても正しく認識が可能となるため、誤認識が減ることにより、円滑な音声操作を実現することができる。
本発明の実施の形態に係る音声認識装置は、入力された音声を認識し、認識結果により対話を行う音声認識装置であって、入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識手段と、前記音声認識手段の認識結果によりシステム状態を遷移させて応答を行う対話制御手段と、今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも1つであるか否かを判定する停滞脱出判定手段と、前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも1つを変更する変更制御手段とを備えることを特徴とする。
これによって、通常の音声操作の中で、ユーザ適応を随時行っていくため、ユーザ適応のために特別な発声が必要なく、ユーザにとって自然で負担の少ない音声認識の個人適応を行うことができる。さらに、音声認識の個人適応を行うので、次からは前回誤認識した発声と同様の発声を行っても正しく認識が可能となるため、誤認識が減ることにより、円滑な音声操作を実現することができる。
また、前記システム状態の停滞状態は、前記音声認識結果のリジェクトによる同一システム状態が続く状態であり、前記停滞脱出判定手段は、今回の認識結果が前回の認識結果と同一単語である場合、言い直しであると判定し、今回の認識結果が前回の認識結果と同一単語では無いが、あらかじめ定められた同じシステム動作を実行する認識単語である場合、言い換えであると判定してもよい。
また、前記システム状態の停滞状態は、2つのシステム状態の往復が繰り返し続く状態であり、前記停滞脱出判定手段は、今回の認識結果が前々回の認識結果と同一単語である場合、言い直しであると判定し、今回の認識結果が前々回の認識結果と同一単語では無いが、あらかじめ定められた同じシステム動作を実行する認識単語である場合、言い換えであると判定してもよい。
これによって、誤ってリジェクトされることによる音声操作の停滞および誤って認識されることによる音声操作の停滞が減ることになり、円滑な音声操作が実現できる。
前記変更制御手段は、前記対話制御に関する設定の変更としてリジェクトの閾値の変更を行い、前記音声認識に関する設定の変更として前記音声認識辞書への新規追加または変更を行ってもよい。これによって、リジェクション精度及び認識精度向上が可能となり、ユーザにとって負担が少ない音声認識の個人適応と円滑な各種音声操作を実現することができる。
また、前記変更制御手段は、前記リジェクトの閾値を認識対象単語ごとに設定し変更してもよい。これによって、認識対象単語ごとの個人適応が可能となり、よりユーザにとって負担が少ない音声認識の個人適応と円滑な各種音声操作を実現することができる。
また、前記変更制御手段は、前記リジェクトの閾値、および、前記音声認識辞書への新規追加または変更を、ユーザごとに設定してもよい。これによって、複数のユーザが利用しても適切な適応が可能となり、よりユーザにとって負担が少ない音声認識の個人適応と円滑な各種音声操作を実現することができる。
また、前記音声認識装置は、さらに、前記停滞状態から脱出した際に、今回の認識結果が前回の認識結果と同一単語では無く、かつあらかじめ定められた同じシステム動作を実行する認識単語でない場合、今回の認識結果の省略語を作成する省略語作成手段を備え、前記音声認識手段は、前記省略語を用いて前回の認識結果を再認識し、前記変更制御手段は、前記音声認識手段の再認識結果に応じて前記省略語を前記音声認識辞書へ新規追加してもよい。これによって、省略語をユーザが利用しても適切な適応が可能となり、よりユーザにとって負担が少ない音声認識の個人適応と円滑な各種音声操作を実現することができる。
なお、本発明は、このような音声認識装置として実現することができるだけでなく、このような音声認識装置が備える特徴的な手段をステップとする音声認識方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
以下、本発明の各実施の形態について、それぞれ図面を参照しながら説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。
音声対話型情報検索システムは、音声を入力して対話しながら情報を検索するためのシステムであり、図1に示すように音声認識部101、音声認識辞書102、音声認識パラメータ記憶部103、停滞脱出判定部104、対話制御部105、対話履歴記憶部106、システム仕様記憶部107、データベース検索部108、データベース記憶部109、応答音声・画面出力部110、およびタイマー111を備えている。
音声認識部101は、音声認識辞書102および音声認識パラメータ記憶部103を用いて、ユーザより入力された音声の音声認識を行い、認識結果を出力する。音声認識辞書102は、認識対象語彙が登録されている辞書である。音声認識パラメータ記憶部103は、音声認識用パラメータを記憶している。
対話制御部105は、予めシステムの開発者によって決められた動作仕様に従って対話を制御し、ユーザからの入力に対し次のシステム状態を決定する。具体的には、対話制御部105は、音声認識部101より入力される音声認識結果、停滞脱出判定部104より入力される停滞脱出か否かの判定結果、対話履歴記憶部106より入力される現在および過去の対話履歴を利用してシステム仕様記憶部107から次のシステム状態を決定する。また、対話制御部105は、必要があれば音声認識辞書102や音声認識パラメータ103の変更、およびデータベース検索をデータベース検索部108に要求する。なお、システム状態とはシステムの開発者によって決められたシステムの動作仕様におけるシステムの一状態を示す。
停滞脱出判定部104は、対話制御部105より入力される現在と過去のユーザの認識結果等の情報を用いてシステムの状態遷移が停滞状態から脱出したか否かを判定する。対話履歴記憶部106は、対話制御部105から入力される音声認識結果やシステムの出力(出力画面情報・出力応答情報)結果など各システム状態における様々な情報を保存する。システム仕様記憶部107は、開発者によってあらかじめ決められたシステムの動作仕様を記憶している。
データベース検索部108は、対話制御部105からの情報検索要求に対し、データベース記憶部109にあるデータベースから検索を行う。データベース記憶部109は、データベース検索部108の検索対象データベースを格納している。応答音声・画面出力部110は、対話制御部105より入力されるシステム状態に応じた画面や応答音声を出力する。タイマー111は、対話制御部105の要求により現時刻を対話制御部105に出力する。
次に、上記のように構成された音声対話型情報検索システムにおいて、番組情報を検索する際の具体的な動作について説明する。図2は音声対話型情報検索システムでの対話全体の動作の流れを示すフローチャートである。
対話制御部105は、対話開始のシステム状態を決定し、決定したシステム状態での画面と応答音声を決定し、応答音声・画面出力部110から出力することで、ユーザに対して入力要求を行う(ステップS201)。図3は具体的な出力画面例を示すである。ここでは、例えば図3に示すように番組情報を検索する際のメニュー画面が出力され、エージェントの吹き出しの内容301が応答音声として音声出力される。なお、吹き出し自体も画面表示してもよい。また、この例では図3における認識可能な語彙は四角で囲まれた語彙のみであるとする。例えば、四角「1.番組名検索」302を選択するのに認識可能な語彙としては「1番」「1」「番組名検索」「1.番組名検索」であるとする。
音声認識部101は、システムからの応答音声・画面による入力要求に対しするユーザからの入力音声の認識処理を行う(ステップS202)。より詳細には、まず、対話制御部105は、音声認識部101に現在のシステム状態で認識可能な語彙の通知と音声認識処理実行の要求を行う。より具体的には、図3に示すシステム状態においては、音声認識部101は四角で囲まれた語彙を認識対象語彙として音声認識処理を開始する。次に、音声認識部101は、ユーザの入力音声に対して認識処理を行い、対話制御部105に対し、認識結果を出力する。ここで、出力される認識結果は、ユーザの発声に最も近い認識対象語彙の単語だけではなく、認識に関する後に記述するような詳細な情報も含め出力する。
図4および図5は出力される認識結果の具体的な例を示す図であり、図4は1位の認識結果を中心とした音声認識の全体的な情報を示しており、図5は他の候補も含めた認識結果の情報を示している。ここで、項目401は認識結果が出力された日時であり、項目402は入力された音声の区間、即ち音声認識部101が認識処理を行っていた区間のうち音声であると判断したで区間である。項目403は認識対象語彙の中で最も近いと判断された単語、即ち認識結果の候補が1位の単語であり、項目404は音声認識辞書とは関係なく音響的に近いカナ文字を認識結果とした文字列であり、一般には音声タイプライタの結果と呼ばれるものである。項目405は入力音声区間の中で認識結果の単語がマッチングした区間である。項目406は認識度合を示す認識スコアであり、スコアが高い方がより認識度合が高いことを示している。項目407は認識信頼度を示し、どの程度認識結果が妥当かを示している。認識信頼度は一般的には、認識候補のスコアの差や音声タイプライタと認識候補の差などを用いて計算する場合が多い。項目408はリジェクト用閾値であり、音声認識パラメータ記憶部102に記憶されている変数である。
対話制御部105は、このリジェクト閾値と認識信頼度との比較を行いシステムとして認識結果を受け入れるか否かの判定を行う。具体的にはリジェクト閾値より認識信頼度が低い場合、対話制御部105は認識結果をリジェクト、即ち入力結果として処理せず、再度同じシステム状態での入力を促す。例えば、図4の例では認識信頼度が「4.5」でリジェクト閾値が「3.5」であるので、対話制御部105はこの認識結果「番組名検索」をシステムへの入力として認め対話制御を行う。なお、このリジェクト閾値は、予めシステム開発者が決定しても良いし、評価実験を行うことにより決定してもよい。具体的には何人かの被験者にこの辞書セットの単語を発声させ、その結果を基に決定してもよい。
また、図5において、項目501は認識候補の認識スコアのよってソートされた結果の認識候補順位であり、項目502から項目505は各認識候補の情報であり、その内容は図4で説明した認識結果1位の結果の情報と同じである。
対話制御部105は、ステップS202で音声認識部101から入力された音声認識結果と対話履歴記憶部106に蓄積されている前回の認識結果を停滞脱出判定部104に出力する。
次に、停滞脱出判定部104は、今回の入力が停滞の脱出であるか否かの判定を行い、その結果を対話制御部105に出力する(ステップS203)。対話制御部105は、この結果を対話履歴記憶部106に書き込む。
ここで、停滞脱出判定部104における停滞脱出判定動作について、音声認識の誤リジェクトによる停滞を例に取り、詳細に説明する。図6は、停滞脱出判定部104における停滞脱出判定動作の流れを示すフローチャートである。
まず、停滞脱出判定部104は、今回の音声認識結果および前回の認識結果を取得する(ステップS601)。そして、その音声認識結果に基づいてリジェクトか否かの判定を行う(ステップS602)。この判定の結果、リジェクトと判定した場合(ステップS602でYES)、停滞脱出判定部104は停滞脱出でないという判定結果を出力する。これは、リジェクトとは認識結果の信頼度が低いため認識結果として採用されないということであるので、その場合は次のシステム状態へ進まない状態、即ち停滞からの脱出ではないためである。
一方、リジェクトでないと判定した場合(ステップS602でNO)は、対話履歴から前回の発声がリジェクトであったか否かの判定を行う(ステップS603)。この判定の結果、前回の発声がリジェクトでないと判定した場合(ステップS603でNO)は、前回の発声においては停滞が発生していないため、停滞脱出判定部104は今回の発声は停滞の脱出ではないという判定結果を出力する。
一方、前回の発声をリジェクトと判定した場合(ステップS603でYES)、前回の発声によりシステムは停滞状態であったことを示すため、停滞脱出判定部104は、今回の発声により停滞状態から脱出できたという判定し、言い直しであるか否かの判定を行う(ステップS604)。ここでのいい直しとは、前回の発声と今回の発声が同じであることを意味する。例えば、ユーザが図3のような出力画面において「番組名検索」と発声し、リジェクとされて再度入力を促されたときにもう一度「番組名検索」と発声する場合などである。この言い直し判定は、前回の認識結果と今回の認識結果とを比較することで行い、言い直しであると判定した場合(ステップS604でYES)、停滞脱出判定部104は言い直しによる停滞の脱出であるという判定結果を出力する。
一方、言い直しでないと判定した場合(ステップS604でNO)は、停滞脱出判定部104は、言い換えであるか否かの判定を行う(ステップS604)。ここでの言い換えとは、前回の発声と今回の発声が発声語彙は異なるが、発声内容が同じ、即ち発声によるシステム動作が同じ発声を意味する。例えば、ユーザが図3のような出力画面において「番組名検索」と発声し、リジェクトされて再入力を促されたときに「1番」と発声する場合などである。この言い換えの判定は、言い直しの判定と同様に前回の認識結果と今回の認識結果の比較を行うことで判定を行う。より具体的には、前回の認識結果と今回の認識結果との語彙が異なり、且つシステム仕様として認識結果が同じ動作を実行する語彙であれば言い換えであると判定する。システム仕様として認識結果が同じ動作か否かの判定は、システム仕様記憶部107に定義される各システム仕様により判定する。具体的には、システム仕様記憶部107には図7に示されるように、認識結果として受け付ける語彙とその語彙を受け付けたときどの状態に遷移するかが記憶されており、ここで一つの選択可能項目に対応する単語を言い換え対象語として扱う。
この判定の結果、言い換えであると判定した場合(ステップS605でYES)、停滞脱出判定部104は、言い換えによる停滞脱出であるという判定結果を出力する。一方、言い換えでないと判定した場合(ステップS605でNO)、停滞脱出判定部104は停滞脱出ではないという判定結果を出力する。
以上のように、停滞脱出判定部104は停滞脱出判定の動作を行う。
次に、対話制御部105は、停滞脱出判定処理(ステップS203)までに得られている音声認識結果および停滞脱出判定結果に基づいて、音声認識辞書やリジェクト閾値、音響モデルといった音声認識パラメータの変更を行う(ステップS204)。
次に、対話制御部105は、認識結果に基づいて次のシステム状態と、このシステム状態における応答音声および画面の出力について決定し、応答音声・画面出力部110に出力する(ステップS205)。ここで必要であれば、対話制御部105は、データベース検索部108に対しデータベース記憶部109からのデータの検索を要求した結果を応答音声・画面出力部110に出力する。
そして、対話制御部105は、システム仕様記憶部107に定義されているシステム仕様に従い、対話の終了か否かを判定する。この結果、対話の終了でない場合(ステップS206でNO)には、再び入力音声の認識処理(ステップS202)より上記ステップを繰り返し、対話の終了である場合(ステップS206でYES)には、対話を終了する。
次に、システムの具体動作例をシステムのシステム出力画面と対話履歴記憶部106に保存される対話履歴データの具体例を用いて説明する。
図8は、動作例で対象とする対話履歴データの具体例を示す図である。項目801はシステム状態の変化を一元管理するために振られているステップ番号、項目802はシステム状態の種類を示すシステム状態、項目803はシステムが応答を出力した日時を示す応答出力開始時刻、項目804は音声認識部101から得られる音声認識結果の1位候補の単語、項目805も同様に音声認識結果から得られる認識信頼度、項目806は音声認識部101からの音声認識結果に基づいて対話制御部105が判定したリジェクト判定結果、項目807は対話履歴記憶部106に保存される前回の認識結果と今回音声認識部101が出力した認識結果に基づいて停滞脱出判定部104が判定した言い直しによる停滞脱出の判定結果、項目808は項目807と同様にして停滞脱出判定部104が判定した言い換えによる停滞脱出の判定結果、項目809は音声認識パラメータ記憶部103に保存されており、認識結果からも取得できるリジェクト閾値である。なお、この図には示していないが、各ステップにおける図4で示されるような認識結果の詳細情報や図5に示されるような表示画面についての情報、具体的には表示されている単語やシステムがどのような応答文を出力したかを示す出力応答文など他の情報も対話履歴記憶部106には保存してもよい。
例えば、ユーザが、図3に示すメニュー画面で「番組名検索」と発声したとする。この認識結果の認識信頼度(0.47)がリジェクト閾値(0.35)より高いので、対話制御部105は、次のシステム状態を決定し、画面遷移と応答文の出力を行う(図8のステップ=1)。具体的には、システムからは応答音声・画面出力部110によって図9に示されるような画面と「番組名の頭文字を指定してください」という応答音声が出力される。次に、ユーザは「あ行」と発声し、これも先の発声と同様に、認識確信度(0.36)がリジェクト閾値(0.35)より高いため、正しく受け付けられる(図8のステップ=2)。システムからは応答音声・画面出力部110によって図10のような画面と「どの番組ですか?」という応答が出力される。次に、ユーザはそのリストには見たい番組が無く「次の画面」と発声するが、この発声に対する認識結果では、認識信頼度(0.33)がリジェクト閾値(0.35)より低いためリジェクトであると判定される(図8のステップ=3)。リジェクトと判定された場合、対話制御部105は再度そのシステム状態で(今の場合、対話=状態3)再度入力を促す。なお、この動作はユーザが正しく発声しているのに対し、対話制御部105が誤ってリジェクトしてしまったシステムの誤動作であり、リジェクト閾値がユーザにとって正しく設定されていないため生じる動作である。
再度同じシステム状態で、システムより入力を促されたユーザは再び「次の画面」と発声し、その音声認識の結果における認識信頼度(0.38)はリジェクト閾値(0.35)より高いので、対話制御部105はその結果を受け付ける(図8のステップ=4)。ここで、このステップでは停滞脱出判定部104が「前回の発声はリジェクト」かつ「今回の発声は言い直し」であるので「言い直しによる停滞脱出」と判定し、項目807にその情報が記憶される。更にこのステップでは、対話制御部105は検出した誤動作と正しい動作を用いて、誤動作したはじめの発声を次からは受け付けるよう個人適応を行う。即ち、音声認識パラメータ、今回の例ではリジェクト閾値を変更し、次のステップからこの値を利用して音声認識を行う。具体的には、現在のリジェクト閾値「0.35」を前回の誤ってリジェクトされた発声における信頼度でも正しく認識できるように「0.30」に変更する。この閾値の変更は、システム開発者が予め設定した、決まった割合で変更を行っても良い。また、現在のリジェクト閾値と誤ってリジェクトされたときの認識信頼度を利用した計算により閾値の変更を行ってもよい。より具体的には、現在のリジェクト閾値と誤ってリジェクトされたときの認識信頼度の差分が一定値以内であれば、リジェクト閾値を誤ってリジェクトされたときの認識信頼度に設定し、差分が一定値以上であれば、現在のリジェクト閾値と誤ってリジェクトされたときの認識信頼度の間の重み付き平均値を利用してリジェクト閾値を設定しても良い。また、リジェクトされた単語と正しく認識された単語の認識信頼度を用いて閾値の変更を行ってもよい。具体的には、現在のリジェクト閾値と誤ってリジェクトされたときの認識信頼度を用いた計算方法と同様の方法で決定する。
言い直しの結果を受け付けた対話制御部105は、次のシステム状態を決定し、画面遷移と応答文の出力を行う。具体的には、システムからは応答音声・画面出力部110によって、図11に示されるような画面と「どの番組ですか?」という応答音声が出力される。ユーザはこの画面にも見たい番組が無いので、さらに「次の画面」と発声する。この発声の認識結果における認識信頼度はステップ3の時と同じ「0.33」である。この認識信頼度はステップ3ではリジェクトされた値であるが、対話制御部105はこの認識信頼度「0.33」と前ステップで適応させたリジェクト閾値「0.3」とを比較した結果、本ステップではこの発声をリジェクトせず、次のシステム状態を決定し、画面遷移と応答文の出力を行う。具体的には、システムからは応答音声・画面出力部110によって、図12に示されるような画面と「どの番組ですか?」という応答音声が出力される(図8のステップ=5)。ユーザはこの画面の中では見たい番組を見つけ、「iしたい」と番組を選択する発声を行う(図8のステップ=6)。図13は、以上の一連の動作をまとめた図であり、上から順に図8のステップ=1からステップ=6に対応する。
次に、言い換えを利用したリジェクト閾値の変更動作例について、対話履歴データの具体例を用いて説明する。図14は、動作例で対象とする対話履歴データの具体例を示す図である。なお、対話履歴データの項目は図8と同じであるので、説明は省略する。更に、上記言い直しによるリジェクト閾値の変更動作例との発声の違いはステップ3〜ステップ5のみであるので、図14のステップ3からステップ5の動作例についてのみ説明する。
システムから応答音声・画面出力部110によって図10のような画面と「どの番組ですか?」という応答が出力される。ユーザはそのリストには見たい番組が無いため「次の画面」と発声するが、この発声に対する認識結果では、認識信頼度(0.33)はリジェクト閾値(0.35)より低いためリジェクトであると判定される(図14のステップ=3)。リジェクトと判定された場合、対話制御部105は再度そのシステム状態で(今の場合対話=状態3)再度入力を促す。
再度同じシステム状態で、システムより入力を促されたユーザは「次の画面」と同じシステム動作を行うコマンドである「5番」と発声する。この音声認識の結果における認識信頼度(0.38)はリジェクト閾値(0.35)より高いので、対話制御部105はその結果を受け付ける(図14のステップ=4)。ここで、このステップでは停滞脱出判定部104が「前回の発声はリジェクト」かつ「今回の発声は言い換え」であるので「言い換えによる停滞脱出」と判定し、項目1408にその情報が記憶される。さらに、このステップでは、対話制御部105は検出した誤動作と正しい動作を用いて、誤動作したはじめの発声を次からは受け付けるよう個人適応を行う。即ち、音声認識パラメータ、今回の例ではリジェクト閾値を変更し、次のステップからこの値を利用して音声認識を行う。具体的には現在のリジェクト閾値「0.35」を前回の誤ってリジェクトされた発声における信頼度でも正しく認識できるように「0.3」に変更する。以降の動作は上記言い直しによるリジェクト閾値の変更動作例と同じであるので省略する。
なお、上記具体例の中では「言い直しまたは言い換えによる停滞脱出」を1回検出した段階でリジェクト閾値を変更したが、音声認識パラメータの変更を行う基準としての停滞脱出検出の回数は可変に設定できるようにしてもよい。例えば3回に設定すると、「言い直しまたは言い換えによる停滞脱出」が3回検出されたらリジェクト閾値の変更を行うことになる。この場合、例えば3回分の認識結果における認識信頼度を用いてリジェクト閾値を変更してもよい。より具体的には、3回分の認識結果における信頼度の最低値や平均値、重み付け平均値により決定する。
また、上記具体例ではリジェクト閾値を1つしか持たない例について述べたが、単語ごとにリジェクト閾値を持ち、「言い直しまたは言い換えによる停滞脱出」を単語ごとに検出し、閾値を変更してもよい。具体的には、例えば図15のようなデータを音声認識パラメータ記憶部103に保存する。ここで、項目1501は停滞脱出をしたことによりリジェクト閾値が変更された単語であり、項目1502はその単語のリジェクト閾値である。なお、このリストに無い単語はデフォルト値、例えば上記具体例では「0.35」を利用する。
図16は本実施の形態を利用した場合と利用しない場合の対話シーケンスの例を示す図である。この図16に示す例では、本実施の形態を利用した場合の方がユーザの発声が1回少なくて済む。この例では、ユーザは2ページ目で番組の選択を決定しているが、より多くのページを見ていく場合のように多くのステップを有する対話では本実施の形態の有効性は顕著に現れることになることは容易に理解できる。また、一度検索が終わり、再び同じ番組をはじめから選択する場合も本実施の形態を用いれば前回リジェクトされた発声方法でも初めから認識されることになる。
このように本実施の形態によると、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータを適切に変更することが可能となる。この結果、次に前回誤動作をした発声を行ってもシステムは正しい動作が可能となるため、何度も繰り返し言い直しをする必要が無く、スムーズでユーザに負担の掛からない対話が実現できる。また、本実施の形態による音声認識パラメータの変更は、変更のために特別な発声を促すわけでは無いので、ユーザの負担も少ない。
なお、本実施の形態は、図17に示すように上記構成に加えてEPG(Electronic Program Guide)を受信するEPG受信部201を備え、EPGを対象として音声認識を行って情報を検索する音声対話型情報検索システムにおいても適用することが可能である。この場合、EPG受信部201で受信されたEPGは、データベース記憶部109に記憶される。対話制御部105は、データベース記憶部109に記憶されているEPGを用いて音声認識辞書102を作成する。そして、音声認識部101は、EPGを用いて作成された音声認識辞書102を用いて、ユーザより入力された音声の音声認識を行う。また、データベース検索部108は、データベース記憶部109に記憶されているEPG等を対象として検索を行うことになる。
(実施の形態2)
上記実施の形態1によれば、誤動作と正しい動作を検出することで音声認識パラメータの個人適応が可能となり、ユーザに負担の少ない個人適応が実現できるが、同様の適応を音声認識辞書の追加という形でも行える。本実施の形態では、誤動作と正しい動作の検出しを行い、音声認識辞書の変更または新たに登録を行う方法について述べる。
本実施の形態は、上記実施の形態1とは図1における対話制御部105における停滞脱出判定結果に基づいて個人適応する対象が異なるものであり、他は実施の形態1と同様である。従って、基本的には図1から図12を参照することとする。以下、本実施の形態における対話制御部105の動作と、前実施の形態では述べていない音声認識辞書の変更処理ついて説明する。
本実施の形態における辞書変更・登録による個人適応の動作例について、対話履歴記憶部106に記憶されている対話履歴データの具体例を用いて説明する。
図18は、対話履歴記憶部106に記憶されている対話履歴データの具体例を示す図である。図18に示される対話履歴データの例は実施の形態1での対話シーケンスにおける対話履歴データの例(図8)と同様の履歴であり、図8には示されていなかった項目「認識結果2」が示されている点、および図8に示されていた項目「応答出力開始時刻」が省略されている点を除いては図8と同じものである。なお、既に述べたが認識結果2は音声認識辞書を使わず、音響的に近いかな文字列を音声認識結果として出力されたものであり、認識結果の一例を示した図4における音声認識結果2と同一のものである。
以下、図18の項目「ステップ」を用い、順に具体的動作を説明する。
ステップ3では、ユーザの発声「次の画面」に対し、音声認識部101は認識結果2「スイノダメン」、認識信頼度「0.33」、リジェクト閾値「0.35」を出力する。対話制御部105は、認識信頼度がリジェクト閾値より低いため、リジェクトと判定し、再度そのシステム状態での再度入力を促す。ステップ4では、ユーザの再発声「次の画面」に対し、音声認識部101は認識結果2「ツリノガメン」、認識信頼度「0.38」、リジェクト閾値「0.35」を出力し、停滞脱出判定部104は「言い直しによる停滞脱出」との判定を出力する。対話制御部105は、これらの結果を受けて、誤動作したステップ3における発声が次回からは正しく認識されるように、個人適応を行う。即ち、ステップ3でリジェクトされた発声に対する音声認識結果2の「スリノダメン」をステップ4で正しく認識されたコマンド「次の画面」に対応させて音声認識辞書102に新規に登録を行う。
図19は音声認識辞書の具体例を示す図である。項目1801は単語ごとにユニークに付与される単語番号、項目1802はシステム仕様で同じ意味として扱われる番号を同一番号として付与された意味番号、項目1803は単語の表記、項目1804は単語の読みである。ここで、上記例においては、図19の単語番号130が新規登録されたことになる。
ステップ5では、ユーザが「次の画面」と発声する。音声認識部101からはステップ3の時と同様に音声認識結果2として「スイノダメン」という結果が出力されるが、このときの音声認識時には音声認識辞書102に「スイノダメン」が「次の画面」と対応された状態で登録されているため、高い確信度(今の場合0.45)が結果として出力される。このように、ステップ5における発声は個人適応されたことに伴い、ステップ3と同様の発声であるにもかかわらず正しく認識が行われる。
なお、上記具体例の中では言い直しの「言い直しによる停滞脱出」を1回検出した段階で認識辞書の変更を行ったが、認識辞書変更を行う基準としての停滞脱出検出の回数は可変に設定できるようにしてもよい。例えば3回に設定すると、「言い直しによる停滞脱出」が3回検出されたら認識辞書の変更を行うことになる。ここで、3回分の認識結果における認識結果を全て登録しても良いが、組み合わせて作成した文字列を登録してもよい。具体的には「ツギノガメン」に対して「スイノダメン」「ツイノダメン」「スギノダメン」に対して、全てが共通している「ダ」の部分だけを変更した「ツギノダメン」を登録してもよい。さらに、変更されたかな文字を記憶し、このユーザは「ガ」を「ダ」とよく間違えると判定した場合、他の単語についても「ガ」を「ダ」に変更してもよい。具体的には「前の画面」に対し「マエノダメン」という読みを付与し、音声認識辞書に追加登録しても良い。
また、本実施の形態では言い直しの停滞の判定により音声認識辞書の追加・変更の例についてのみ述べたが、実施の形態1と同様にすれば言い換えの場合も音声認識辞書の追加・変更を行うことができる。
このように本実施の形態によると、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータだけでなく、音声認識辞書についても適切に変更することが可能となる。この結果、次に前回誤動作をした発声を行ってもシステムは正しい動作が可能となるため、何度も繰り返し言い直しをする必要が無く、スムーズでユーザに負担の掛からない対話が実現できる。また、本実施の形態による音声認識辞書の変更は、認識率を上げるために特別な発声を促すわけでは無く自然な対話から認識率を上げるため、ユーザの負担も少ない。
なお、本実施の形態における音声認識辞書への追加・変更と上記実施の形態1における音声認識パラメータの変更とを組み合わせて実施することも可能である。
(実施の形態3)
上記実施の形態1および実施の形態2によれば、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータおよび認識辞書をユーザに適したものに変更しているが、上記実施の形態1および実施の形態2においては、「言い換え」を前回リジェクトされた単語が、今回正しく認識された単語と同一のシステム動作を行う単語であるかをシステム仕様記憶部にある図7のようなデータを用い判定している。しかし、「言い換え」には様々な形があり、事前にシステム仕様に登録できない場合がある。特にEPGを用いた番組検索システムにおいては、日々更新される番組名を認識対象とする必要があり、予め言い換えについてシステム開発者が登録しておくことができない。本実施の形態は、このような場合に対処するものである。
図20は、本発明の実施の形態3に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。
本実施の形態3と上記実施の形態1および実施の形態2との相違点は、省略語作成部301とユーザ発声記憶部304が追加されたことによる停滞脱出判定部302の動作が異なる点であり、他の動作は上記実施の形態1および実施の形態2と同一である。従って、本実施の形態においては、動作が異なる停滞脱出判定部302の言い換え判定の動作についてのみ説明する。
停滞脱出判定部302は、上記実施の形態1および実施の形態2と同様に図6のフローチャートに従って、言い直しおよび言い換えによる停滞脱出の判定を行うが、図6のステップS605における処理、即ち今回の発声が言い換えか否かの判定を行う処理が異なる。図21は本実施の形態における言い換え判定動作の流れを示すフローチャートである。
まず、今回の発声が前回の発声と同一のシステム動作を行う認識単語であるか否かを判定する(ステップS2001)。この判定の結果、前回の発声と同一のシステム動作を行う認識単語である場合(ステップS2001でYES)、これまでの実施の形態同様の動作であり、言い換えによる停滞脱出と判定する(図6のステップS605でYESの判定)。一方、前回の発声と同一のシステム動作を行う認識単語でない場合(ステップS2001でNO)、今回の認識対象語彙から省略語が作成される(ステップS2002)。省略語の作成は、今回の認識対象語彙を用いて省略語作成部301において行われる。
省略語作成部301は、今回の認識対象語彙を受け取り、予め定義されているルールに基づいて省略語を作成する。省略語作成方法としては、形態素解析ツールなどを用いて今回の認識対象語彙を形態素に分解し、その分解結果を基に作成する。例えば、一つの形態素を省略語としても良いし、複数の形態素をつなげて省略語としても良い。より具体的には例えば、「発掘あるある広辞苑」という単語に対して「発掘」「あるある」「広辞苑」「あるある広辞苑」といった省略語を作成したり、「冬のレクイエム」という単語に対して「冬レク」といった省略語を作成したりする。省略語作成部301で作成された省略語は、停滞脱出判定部302を介して対話制御部303に保持される。
次に、音声認識部101は、対話制御部303に保持されている省略語作成部301で作成された省略語を用いて、ユーザ発声記憶部304に記憶されている前回リジェクトされた発声について、再度認識を行う(ステップS2003)。
そして、停滞脱出判定部302は、再認識結果の信頼度とリジェクト閾値とを比較する(ステップS2004)。ここで、再認識結果の信頼度がリジェクト閾値より高い場合(ステップS2004でYES)、対話制御部303は、認識候補1位の省略語を今回認識された単語と同じ動作を行う単語としてシステム仕様記憶部107および音声認識辞書102に登録(ステップS2005)し、言い換えによる停滞脱出と判定する(図6のステップS605でYESの判定)。一方、再認識結果の信頼度がリジェクト閾値より低い場合(ステップS2004でNO)、停滞脱出判定部302は言い換えによる停滞脱出では無いと判定する(図6のステップS605でNOの判定)。
以上の動作より、システム仕様で音声認識辞書102に登録されていない省略語をユーザが発声してリジェクトされても、次の発声で正しい表現での発声を行い認識されれば、前回発声した省略語は新たに登録されるため、次回から認識が可能となる。これにより、省略語を発声してしまうユーザに対して何度もリジェクトすることが無く、スムーズでユーザに負担の掛からない対話が実現できる。さらに、本実施の形態による省略語の作成には特別な発声を促すわけでは無いので、ユーザの負担も少ない。
(実施の形態4)
上記実施の形態1から実施の形態3によれば、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータの変更および認識辞書の変更を行い、個人適応を可能としたが、複数のユーザが利用することを想定していないため、複数のユーザが利用した場合、正しく個人適応できない。本実施の形態は、このような場合に対処するものである。
図22は、本発明の実施の形態4に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。
本実施の形態と上記実施の形態3との相違点は、ユーザ入力部401およびユーザ情報記憶部402が追加されたことによる対話制御部403における個人適応処理が異なる点であり、他は実施の形態1から実施の形態3までと同一である。従って、本実施の形態においては、複数ユーザが利用する際の対話制御部403の動作について説明する。
対話制御部403は、ユーザ入力部401からユーザ名が入力されると、ユーザ情報記憶部402より、入力されたユーザ名に適応された音声認識パラメータや認識対象辞書が登録されていているか否かの確認を行う。もし、入力されたユーザ名に適応された音声認識パラメータや認識対象語彙が無い場合、音声認識パラメータや音声認識辞書は初期値を利用してシステムを動作させる。もし、ユーザ適応されていないユーザが、システムを利用中に停滞脱出判定部302により誤動作と正しい動作のシーケンスが検出され、実施の形態1から実施の形態3で説明したような音声認識パラメータや音声認識対象語彙の変更が必要となると、対話制御部403はユーザ情報記憶部402に新規ユーザのユーザ名と音声認識パラメータや辞書を変更した単語についての各種情報を記憶する。
一方、ユーザ入力部401より入力されたユーザ名に適応された音声認識パラメータや認識対象辞書がユーザ情報記憶部402に登録されている場合、対話制御部403はユーザ情報記憶部402から以前登録されたユーザ名の個人適応後の音声認識パラメータや新規認識辞書登録単語を抽出し、音声認識パラメータ記憶部103や音声認識辞書102にその情報を登録する。
図23はユーザ情報記憶部402に記憶される各種情報の具体例を示す図である。なお、図23の例では単語ごとにリジェクト閾値を持つ場合の具体例を示す。項目2201はユーザ名であり、項目2202は停滞単語、すなわち音声認識パラメータや辞書を変更した単語であり、項目2203は停滞脱出回数、すなわち何度停滞脱出が検出されたかを示し、項目2204は変更した音声認識パラメータであるリジェクト閾値、項目2205は音声認識辞書に追加した新規登録読みである。
図23に示されるデータがユーザ情報記憶部402に記憶されている場合、ユーザ入力部401からユーザ名Aが入力されると、対話制御部403はユーザ名Aの個人適応情報として「次の画面」の単語に対し、リジェクト閾値「3.4」を、新規読み登録として「ツリノダメン」を、「前の画面」に対しリジェクト閾値「3.5」を、新規読み登録として「マエノダメン」をそれぞれ音声認識パラメータ記憶部103および音声認識辞書102に登録する。
以上の動作より、一連の対話シーケンスの中で、誤動作と正しい動作を検出することで音声認識パラメータおよび音声認識辞書の個人適応が可能となるだけではなく、複数のユーザがシステムを利用した際にも正しく個人適応が可能となり、ユーザに負担の少ない個人適応と円滑な対話が実現できる。
なお、本実施の形態ではユーザ入力部の入力を基にユーザの判別を行い、複数のユーザに対応した個人適応を行ったが、話者識別や話者判別の技術は現在一般的に存在するので、それらの技術を用いてユーザの判別を行ってもよい。
(実施の形態5)
上記実施の形態1から実施の形態4ではシステムの停滞状態として、誤ったリジェクトによる停滞状態を対象としたが、誤認識により誤ったシステム状態へ遷移した場合に発生する停滞状態について述べていない。そこで、本実施の形態は、このような停滞状態に対処するものである。
誤認識により誤ったシステム状態へ遷移した場合に発生するシステムの停滞状態の具体例としては、「時間検索」とユーザが発声したのに対し、システムがこれを「ジャンル検索」と認識し、ユーザが思っていたシステム状態と別のシステム状態へ遷移するような場合がある。このとき、ユーザはこの誤認識によるシステムの誤った状態遷移を基に戻すために「戻る」といった元の状態に戻るためのコマンドを発声する。システムの状態が戻るとユーザは再度「時間検索」を発声する。この一連の動作は2つのシステム状態の往復が繰り返し続く状態であり、一つの停滞状態といえる。
本実施の形態では、上記実施の形態4と比べシステム構成としての変更はなく、異なるのは停滞脱出判定部302における停滞判定の動作処理(図6のフローチャート)であり、他は実施の形態4と同様である。
本実施の形態における停滞脱出判定部302の動作処理について説明する。図24は本実施の形態における停滞脱出判定部302の動作の流れを示すフローチャートである。なお、下記の説明における過去の認識結果は対話履歴記憶部106に記憶されているデータを参照して利用し、言い直しや言い換えの判定は上記実施の形態1から実施の形態4に述べた方法と同じ方法で行う。
まず、停滞脱出判定部302は、今回の音声認識結果を取得する(ステップS2301)。次に、この音声認識結果がリジェクトか否かの判定を行う(ステップS2302)。この判定の結果、リジェクトと判定した場合(ステップS2302でYES)、停滞脱出ではないと判定し、処理を終了する。一方、リジェクトではないと判定した場合(ステップS2302でNO)、前回の発声が状態を戻す発声(上記例では「戻る」)であったか否かを判定する(ステップS2303)。この判定の結果、前回の発声が状態を戻す発声でない場合(ステップS2303でNO)、停滞脱出では無いと判定し、処理を終了する。一方、前回の発声が状態を戻す発声である場合(ステップS2303でYES)、今回の発声が前々回の発声の言い直しか否かの判定を行う(ステップS2304)。この判定の結果、言い直しである場合(ステップS2304でYES)、いい直しによる停滞脱出と判定し、処理を終了する。一方、言い直しでない場合(ステップS2304でNO)、今回の発声が前々回の発声の言い換えか否かの判定を行う(ステップS2305)。この判定の結果、言い換えである場合(ステップS2305でYES)、言い換えによる停滞脱出と判定し、処理を終了する。一方、言い換えでない場合(ステップS2305でNO)、停滞脱出ではないと判定し、処理を終了する。なお、このようにして検出された言い直しや言い換えによる停滞脱出は、上記実施の形態1から実施の形態4で述べた、誤ったリジェクトによる停滞からの脱出と区別して対話履歴保存部106に保存する。
このようにして誤認識による停滞脱出の判定を行い、音声認識用パラメータや認識時書の変更を行う。具体的には例えば、上記実施の形態2で述べたような認識辞書の変更を行う。より具体的には、前々回の誤認識された発声に対しての音声認識結果のうち、音声認識辞書を使わず、音響的に近いかな文字列を音声認識結果として出力された結果(例えば図4の認識結果2)を、今回得られた正しく認識された結果の単語に対応付けて音声認識辞書に追加する。
以上の動作より、誤ったリジェクトによるシステム状態の停滞のみでなく、誤認識によるシステム状態の停滞を利用した個人適応を行うので、次に前回誤動作をした発声を行っても誤認識による停滞が発生しなくなるため、スムーズでユーザに負担の掛からない対話が実現できる。また、本実施の形態による音声認識パラメータや音声認識辞書の変更は、専用の特別な発声を促すわけでは無く自然な対話から認識率を上げるため、ユーザの負担も少ない。
なお、上記各実施の形態において、音声認識部は音声認識手段に、停滞脱出判定部は停滞脱出判定手段に、対話制御部は対話制御手段および変更制御手段に、省略語作成部は省略語作成手段に対応する。
本発明に係る音声認識装置および音声認識方法は、音声対話型インタフェースを持つ多くのシステムに対して利用可能であり、例えば家庭内の情報検索システムやカーナビゲーションシステム、携帯端末からの情報検索などにおいて有用であり、その利用可能性は非常に大きい。
本発明の実施の形態1に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。 本発明における対話全体の処理の流れを示すフローチャートである。 本発明における音声対話型情報検索システムの出力画面例を示す図である。 本発明の実施の形態1における音声認識部から出力されて格納される認識結果例を示す図である。 本発明の実施の形態1における音声認識部から出力されて格納される認識結果例を示す図である。 本発明の実施の形態1における停滞脱出判定部における処理の流れを示すフローチャートである。 本発明の実施の形態1におけるシステム仕様記憶部におけるシステム動作仕様例を示す図である。 本発明の実施の形態1における対話履歴記憶部に記憶される対話履歴データ例を示す図である。 本発明における音声対話型情報検索システムの出力画面例を示す図である。 本発明における音声対話型情報検索システムの出力画面例を示す図である。 本発明における音声対話型情報検索システムの出力画面例を示す図である。 本発明における音声対話型情報検索システムの出力画面例を示す図である。 本発明の実施の形態1の対話例におけるシステム動作概略を示す図である。 本発明の実施の形態1における対話履歴記憶部に記憶される対話履歴データ例を示す図である。 本発明の実施の形態1における単語ごとにリジェクト閾値を設定しているデータ例を示す図である。 本発明の実施の形態1における対話シーケンスにおいて、本技術を利用した場合としない場合の比較を示す図である。 本発明の実施の形態1に係る音声対話型情報検索システムの他の構成を示すブロック図である。 本発明の実施の形態2における対話履歴記憶部に記憶される対話履歴データ例を示す図である。 本発明の実施の形態2における音声認識辞書に記憶される認識対象語彙の例を示す図である。 本発明の実施の形態3に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。 本発明の実施3の形態による言い換え判定動作の処理の流れを示すフローチャートである。 本発明の実施4に係る音声認識装置を備えた音声対話型情報検索システムの構成を示すブロック図である。 本発明の実施4の形態おけるユーザ情報記憶部に記憶されるユーザ情報データ例を示す図である。 本発明の実施5の形態おける停滞脱出判定部における処理を示すフローチャートである。
符号の説明
101 音声認識部
102 音声認識辞書部
103 音声認識パラメータ記憶部
104、302 停滞脱出判定部
105、303、403 対話制御部
106 対話履歴記憶部
107 システム仕様記憶部
108 データベース検索部
109 データベース記憶部
110 応答音声・画面出力部
111 タイマー
201 EPG受信部
301 省略語作成部
304 ユーザ発声記憶部
401 ユーザ入力部
402 ユーザ情報記憶部

Claims (10)

  1. 入力された音声を認識し、認識結果により対話を行う音声認識装置であって、
    入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識手段と、
    前記音声認識手段の認識結果によりシステム状態を遷移させて応答を行う対話制御手段と、
    今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも1つであるか否かを判定する停滞脱出判定手段と、
    前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも1つを変更する変更制御手段と
    を備えることを特徴とする音声認識装置。
  2. 前記システム状態の停滞状態は、前記音声認識結果のリジェクトによる同一システム状態が続く状態であり、
    前記停滞脱出判定手段は、今回の認識結果が前回の認識結果と同一単語である場合、言い直しであると判定し、今回の認識結果が前回の認識結果と同一単語では無いが、あらかじめ定められた同じシステム動作を実行する認識単語である場合、言い換えであると判定する
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記システム状態の停滞状態は、2つのシステム状態の往復が繰り返し続く状態であり、
    前記停滞脱出判定手段は、今回の認識結果が前々回の認識結果と同一単語である場合、言い直しであると判定し、今回の認識結果が前々回の認識結果と同一単語では無いが、あらかじめ定められた同じシステム動作を実行する認識単語である場合、言い換えであると判定する
    ことを特徴とする請求項1記載の音声認識装置。
  4. 前記変更制御手段は、前記対話制御に関する設定の変更としてリジェクトの閾値の変更を行い、前記音声認識に関する設定の変更として前記音声認識辞書への新規追加または変更を行う
    ことを特徴とする請求項1記載の音声認識装置。
  5. 前記変更制御手段は、前記リジェクトの閾値を認識対象単語ごとに設定し変更する
    ことを特徴とする請求項4記載の音声認識装置。
  6. 前記変更制御手段は、前記リジェクトの閾値、および、前記音声認識辞書への新規追加または変更を、ユーザごとに設定する
    ことを特徴とする請求項4記載の音声認識装置。
  7. 前記音声認識装置は、さらに、
    前記停滞状態から脱出した際に、今回の認識結果が前回の認識結果と同一単語では無く、かつあらかじめ定められた同じシステム動作を実行する認識単語でない場合、今回の認識対象語彙の省略語を作成する省略語作成手段を備え、
    前記音声認識手段は、前記省略語を用いて前回の認識結果を再認識し、
    前記変更制御手段は、前記音声認識手段の再認識結果に応じて前記省略語を前記音声認識辞書へ新規追加する
    ことを特徴とする請求項1記載の音声認識装置。
  8. 入力された電子番組表に関する音声を認識し、認識結果により対話を行う電子番組表用音声認識装置であって、
    入力された電子番組表に関する音声を電子番組表に対応する音声認識辞書を用いて認識して認識結果を出力する音声認識手段と、
    前記音声認識手段の認識結果によりシステム状態を遷移させて応答を行う対話制御手段と、
    今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも1つであるか否かを判定する停滞脱出判定手段と、
    前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも1つを変更する変更制御手段と
    を備えることを特徴とする電子番組表用音声認識装置。
  9. 入力された音声を認識し、認識結果により対話を行う音声認識方法であって、
    入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識ステップと、
    前記音声認識ステップにおける認識結果によりシステム状態を遷移させて応答を行う対話制御ステップと、
    今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも1つであるか否かを判定する停滞脱出判定ステップと、
    前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも1つを変更する変更制御ステップと
    を含むことを特徴とする音声認識方法。
  10. 入力された音声を認識し、認識結果により対話を行うためのプログラムであって、
    入力された音声を音声認識辞書を用いて認識して認識結果を出力する音声認識ステップと、
    前記音声認識ステップにおける認識結果によりシステム状態を遷移させて応答を行う対話制御ステップと、
    今回の認識結果で前記システム状態が先に進まず停滞している状態である停滞状態から脱出したか否かを判定するとともに、前記停滞状態から脱出したと判定した場合、今回の認識結果が言い直しおよび言い換えの少なくとも1つであるか否かを判定する停滞脱出判定ステップと、
    前記言い直しまたは言い換えであると判定された場合、対話制御に関する設定および音声認識に関する設定の少なくとも1つを変更する変更制御ステップとをコンピュータに実行させる
    ことを特徴とするプログラム。
JP2005225877A 2005-08-03 2005-08-03 音声認識装置および音声認識方法 Expired - Fee Related JP4680714B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005225877A JP4680714B2 (ja) 2005-08-03 2005-08-03 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005225877A JP4680714B2 (ja) 2005-08-03 2005-08-03 音声認識装置および音声認識方法

Publications (3)

Publication Number Publication Date
JP2007041319A true JP2007041319A (ja) 2007-02-15
JP2007041319A5 JP2007041319A5 (ja) 2008-07-10
JP4680714B2 JP4680714B2 (ja) 2011-05-11

Family

ID=37799356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005225877A Expired - Fee Related JP4680714B2 (ja) 2005-08-03 2005-08-03 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP4680714B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009008115A1 (ja) * 2007-07-09 2009-01-15 Mitsubishi Electric Corporation 音声認識装置およびナビゲーションシステム
JP2009251470A (ja) * 2008-04-09 2009-10-29 Toyota Motor Corp 車載情報システム
WO2013102954A1 (ja) * 2012-01-06 2013-07-11 パナソニック株式会社 放送受信装置および音声辞書構築処理方法
CN104282305A (zh) * 2013-07-12 2015-01-14 通用汽车环球科技运作有限责任公司 语音对话系统中用于结果仲裁的系统和方法
CN104584118A (zh) * 2012-06-22 2015-04-29 约翰逊控制技术公司 多遍车辆语音识别系统和方法
JP2016180917A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
WO2017154358A1 (ja) * 2016-03-07 2017-09-14 株式会社デンソー 音声認識装置、音声認識プログラム
JP2017191166A (ja) * 2016-04-12 2017-10-19 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム
JPWO2017163284A1 (ja) * 2016-03-25 2018-03-29 パナソニックIpマネジメント株式会社 翻訳装置
JP2018189904A (ja) * 2017-05-11 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法、情報処理装置及び情報処理プログラム
US10276151B2 (en) 2016-06-29 2019-04-30 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling the electronic apparatus
JP2019184631A (ja) * 2018-04-02 2019-10-24 アルパイン株式会社 音声認識システム及びコンピュータプログラム
WO2023100236A1 (ja) * 2021-11-30 2023-06-08 ファナック株式会社 音声認識装置、およびコンピュータ読み取り可能な記憶媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11182565B2 (en) 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6232500A (ja) * 1985-08-06 1987-02-12 日本電気株式会社 リジエクト機能付き音声認識装置
JPH0997095A (ja) * 1995-09-29 1997-04-08 Matsushita Electric Ind Co Ltd 音声認識装置
JPH1097282A (ja) * 1996-09-19 1998-04-14 Mitsubishi Electric Corp 音声認識装置
JPH1185180A (ja) * 1997-09-09 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JPH11149294A (ja) * 1997-11-17 1999-06-02 Toyota Motor Corp 音声認識装置および音声認識方法
JP2001005489A (ja) * 1999-04-13 2001-01-12 Sony Internatl Europ Gmbh ネットワークの制御方法
JP2001125591A (ja) * 1999-10-27 2001-05-11 Fujitsu Ten Ltd 音声対話システム
JP2003337595A (ja) * 2002-05-22 2003-11-28 Takeaki Kamiyama 音声認識装置及び辞書生成装置及び音声認識システム及び音声認識方法及び辞書生成方法及び音声認識プログラム及び辞書生成プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び辞書生成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004109563A (ja) * 2002-09-19 2004-04-08 Fujitsu Ltd 音声対話システム、音声対話のためのプログラムおよび音声対話方法
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
JP2006018028A (ja) * 2004-07-01 2006-01-19 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体
JP2006154724A (ja) * 2004-10-28 2006-06-15 Fujitsu Ltd 対話システム、対話方法、及びコンピュータプログラム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6232500A (ja) * 1985-08-06 1987-02-12 日本電気株式会社 リジエクト機能付き音声認識装置
JPH0997095A (ja) * 1995-09-29 1997-04-08 Matsushita Electric Ind Co Ltd 音声認識装置
JPH1097282A (ja) * 1996-09-19 1998-04-14 Mitsubishi Electric Corp 音声認識装置
JPH1185180A (ja) * 1997-09-09 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JPH11149294A (ja) * 1997-11-17 1999-06-02 Toyota Motor Corp 音声認識装置および音声認識方法
JP2001005489A (ja) * 1999-04-13 2001-01-12 Sony Internatl Europ Gmbh ネットワークの制御方法
JP2001125591A (ja) * 1999-10-27 2001-05-11 Fujitsu Ten Ltd 音声対話システム
JP2003337595A (ja) * 2002-05-22 2003-11-28 Takeaki Kamiyama 音声認識装置及び辞書生成装置及び音声認識システム及び音声認識方法及び辞書生成方法及び音声認識プログラム及び辞書生成プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び辞書生成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004109563A (ja) * 2002-09-19 2004-04-08 Fujitsu Ltd 音声対話システム、音声対話のためのプログラムおよび音声対話方法
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
JP2006018028A (ja) * 2004-07-01 2006-01-19 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体
JP2006154724A (ja) * 2004-10-28 2006-06-15 Fujitsu Ltd 対話システム、対話方法、及びコンピュータプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009008115A1 (ja) * 2007-07-09 2010-09-02 三菱電機株式会社 音声認識装置およびナビゲーションシステム
WO2009008115A1 (ja) * 2007-07-09 2009-01-15 Mitsubishi Electric Corporation 音声認識装置およびナビゲーションシステム
JP2009251470A (ja) * 2008-04-09 2009-10-29 Toyota Motor Corp 車載情報システム
WO2013102954A1 (ja) * 2012-01-06 2013-07-11 パナソニック株式会社 放送受信装置および音声辞書構築処理方法
US9779723B2 (en) 2012-06-22 2017-10-03 Visteon Global Technologies, Inc. Multi-pass vehicle voice recognition systems and methods
CN104584118A (zh) * 2012-06-22 2015-04-29 约翰逊控制技术公司 多遍车辆语音识别系统和方法
EP2864982B1 (en) * 2012-06-22 2018-10-17 Visteon Global Technologies, Inc. Multi-pass vehicle voice recognition systems and methods
CN104282305A (zh) * 2013-07-12 2015-01-14 通用汽车环球科技运作有限责任公司 语音对话系统中用于结果仲裁的系统和方法
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
JP2016180917A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム
WO2017154358A1 (ja) * 2016-03-07 2017-09-14 株式会社デンソー 音声認識装置、音声認識プログラム
JP2017161581A (ja) * 2016-03-07 2017-09-14 株式会社デンソー 音声認識装置、音声認識プログラム
JPWO2017163284A1 (ja) * 2016-03-25 2018-03-29 パナソニックIpマネジメント株式会社 翻訳装置
JP2017191166A (ja) * 2016-04-12 2017-10-19 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム
US10276151B2 (en) 2016-06-29 2019-04-30 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling the electronic apparatus
JP2018189904A (ja) * 2017-05-11 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法、情報処理装置及び情報処理プログラム
JP2019184631A (ja) * 2018-04-02 2019-10-24 アルパイン株式会社 音声認識システム及びコンピュータプログラム
WO2023100236A1 (ja) * 2021-11-30 2023-06-08 ファナック株式会社 音声認識装置、およびコンピュータ読み取り可能な記憶媒体

Also Published As

Publication number Publication date
JP4680714B2 (ja) 2011-05-11

Similar Documents

Publication Publication Date Title
JP4680714B2 (ja) 音声認識装置および音声認識方法
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
US8380505B2 (en) System for recognizing speech for searching a database
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US6985863B2 (en) Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech
US8355920B2 (en) Natural error handling in speech recognition
US8612212B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US5855000A (en) Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5712957A (en) Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US6195635B1 (en) User-cued speech recognition
US20070124147A1 (en) Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US6876967B2 (en) Speech complementing apparatus, method and recording medium
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
US20150179169A1 (en) Speech Recognition By Post Processing Using Phonetic and Semantic Information
WO2002061728A1 (fr) Dispositif de reconnaissance de phrases, procede de reconnaissance de phrases, programme et support
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
US11295733B2 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP2006189730A (ja) 音声対話方法および音声対話装置
JP4661239B2 (ja) 音声対話装置及び音声対話方法
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
KR20240096898A (ko) 격자 음성 교정

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110203

R150 Certificate of patent or registration of utility model

Ref document number: 4680714

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees