JP2010151941A - 音声応答装置、及びプログラム - Google Patents

音声応答装置、及びプログラム Download PDF

Info

Publication number
JP2010151941A
JP2010151941A JP2008327702A JP2008327702A JP2010151941A JP 2010151941 A JP2010151941 A JP 2010151941A JP 2008327702 A JP2008327702 A JP 2008327702A JP 2008327702 A JP2008327702 A JP 2008327702A JP 2010151941 A JP2010151941 A JP 2010151941A
Authority
JP
Japan
Prior art keywords
response
reliability
voice
candidates
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008327702A
Other languages
English (en)
Other versions
JP5088314B2 (ja
Inventor
Takakatsu Yoshimura
貴克 吉村
Yusuke Nakano
雄介 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Toyota Central R&D Labs Inc
Original Assignee
Toyota Motor Corp
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp, Toyota Central R&D Labs Inc filed Critical Toyota Motor Corp
Priority to JP2008327702A priority Critical patent/JP5088314B2/ja
Publication of JP2010151941A publication Critical patent/JP2010151941A/ja
Application granted granted Critical
Publication of JP5088314B2 publication Critical patent/JP5088314B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】入力された音声を棄却する場合に、より適切な対応を行う。
【解決手段】生成された所定個の発話内容の候補から無音を示す候補、及び生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し(102、106)、生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、入力された発話音声を無視するように、表示装置18及びスピーカ16から応答内容26が応答されないように制御する(104でY、108でY)。
【選択図】図3

Description

本発明は、音声応答装置、及びプログラムに関する。
従来、入力された音声を認識して、認識結果と用例(事例)テキストとの単語の一致数を表すスコアを計算して、スコアが最も高い事例を適切な事例として選択し、この選択された事例に対応する応答内容(応答候補文)を出力する音声情報案内システムが知られている(例えば、非特許文献1参照)。この音声情報案内システムでは、最も高いスコアの事例に対応する応答内容を応答しているが、最も高いスコアの事例が複数存在する場合には、これらの事例の中からランダムに事例が選択され、選択された事例に対応する応答内容が応答される。
西村竜一、西原洋平、鶴身玲典、李晃伸、猿渡洋、鹿野清宏 「実環境研究プラットホームとしての音声情報案内システムの運用」 電子情報通信学会論文誌 D−II Vol.J87−D−II No.3 pp.789−798 2004年3月
しかしながら、非特許文献1に記載の音声情報案内システムでは、計算された全てのスコアが低い場合(すなわち、発話に含まれる単語と全ての事例に含まれる単語とが一致する数が少ない場合)でも計算されたスコアのうち最も高いスコア、すなわち単語がほとんど一致しない場合のスコアの事例が選択されて、選択された事例に対応する応答内容が応答されてしまう。
このような場合に、例えば、スコアがある閾値以下であれば、入力された音声を棄却して最も高いスコアの事例に対応する応答内容が応答手段(例えば表示装置や音声出力装置)から応答されないようにすることも考えられるが、非特許文献1に記載の音声情報案内システムでは、棄却時にどのような対応をするのか(どのような処理を行うのか)については具体的に記載されていない
本発明は上述した問題点を解決するために成されたものであり、入力された音声を棄却する場合に、より適切な対応を行うことができる音声応答装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る音声応答装置は、ユーザの発話音声を入力するための入力手段と、前記入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段と、ユーザの発話内容を表す文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段と、前記音声認識手段によって生成された所定個の発話内容の候補から無音を示す候補、及び前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段と、前記音声認識手段によって生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、応答手段から応答内容が応答されないように制御すると共に、前記無音を示す候補が存在せず、かつ前記所定個の発話内容の候補の全てが自立語を含む場合には、前記音声認識手段によって生成された信頼度が高い候補に相当する前記事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段とを含んで構成されている。
本発明に係る音声応答装置は、音声認識手段によって生成された所定個の発話内容の候補から無音を示す候補、及び音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出する。そして、音声認識手段によって生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、入力された発話音声を無視するように、応答手段から応答内容が応答されないように制御するので、入力された音声を棄却する場合に、無意味な音声入力(例えば、「あー」、「えー」、「んー」等)に対して「無視する」ことにより不必要な応答を減少することができ、より適切な対応を行うことができる。
また、上記目的を達成するために、第2の発明に係る音声応答装置は、ユーザの発話音声を入力するための入力手段と、前記入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段と、ユーザの発話内容の文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段と、前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段と、前記抽出手段によって抽出された同一の自立語毎に、自立語の数を特定する特定手段と、前記音声認識手段によって生成された所定個の発話内容の候補中に、前記特定手段によって特定された数が第1の所定値以上の高信頼度自立語が存在しない場合、前記特定手段によって特定された数が前記第1の所定値より小さい第2の所定値以下の低信頼度自立語が多数存在する場合、及び前記記憶手段に記憶された事例に全ての前記高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が応答手段から応答されるように制御すると共に、前記所定個の発話内容の候補中に、前記高信頼度自立語が存在し、前記低信頼度自立語が多数存在せず、かつ前記記憶手段に記憶された事例に全ての前記高信頼度自立語が存在する場合には、前記音声認識手段によって生成された信頼度が高い候補に相当する前記事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段とを含んで構成されている。
本発明に係る音声応答装置は、音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、抽出された同一の自立語毎に、自立語の数を特定する。そして、音声認識手段によって生成された所定個の発話内容の候補中に、特定された数が第1の所定値以上の高信頼度自立語が存在しない場合、特定された数が第1の所定値より小さい第2の所定値以下の低信頼度自立語が多数存在する場合、及び記憶手段に記憶された事例に全ての高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が応答手段から応答されるように制御する。従って、本発明に係る音声応答装置によれば、入力された音声を棄却する場合に、ユーザに再度の発話を促すことができ、より適切な対応を行うことができる。また、再度の発話を促されたユーザは、次は、より明確に発声するようになったり、言い方を変えてみたりするようになる。
また、上記目的を達成するために、第3の発明に係る音声応答装置は、ユーザの発話音声を入力するための入力手段と、前記入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段と、ユーザの発話内容の文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段と、前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段と、前記抽出手段によって抽出された同一の自立語毎に、自立語の数を特定する特定手段と、前記特定手段によって特定された数が第1の所定値以上の全ての高信頼度自立語が、前記記憶手段に記憶された事例中の何れか1つの事例に含まれていない場合には、入力された発話音声に相当する事例がなく対応する応答ができないことを示す応答内容が応答手段から応答されるように制御すると共に、該全ての高信頼度自立語が、該何れか1つの事例に含まれている場合には、全ての高信頼度自立語が含まれている事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段とを含んで構成されている。
本発明に係る音声応答装置は、音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出し、抽出された同一の自立語毎に、自立語の数を特定する。そして、特定された数が第1の所定値以上の全ての高信頼度自立語が、記憶手段に記憶された事例中の何れか1つの事例に含まれていない場合には、入力された発話音声に相当する事例がなく対応する応答ができないことを示す応答内容が応答手段から応答されるように制御する。従って、本発明に係る音声応答装置によれば、入力された音声を棄却する場合に、入力された発話音声に相当する事例がなく対応する応答ができないことをユーザに応答することができ、より適切な対応を行うことができる。また、入力された発話音声に相当する事例がなく対応する応答ができないことを提示されたユーザは、別な質問を行うようになる。
また、上記目的を達成するために、第4の発明に係るプログラムは、コンピュータを、ユーザの発話音声を入力するための入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段、前記音声認識手段によって生成された所定個の発話内容の候補から無音を示す候補、及び前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段、及び前記音声認識手段によって生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、応答手段から応答内容が応答されないように制御すると共に、前記無音を示す候補が存在せず、かつ前記所定個の発話内容の候補の全てが自立語を含む場合には、ユーザの発話内容を表す文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段に記憶された、前記音声認識手段によって生成された信頼度が高い候補に相当する前記事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段として機能させる。
本発明に係るプログラムによれば、入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段、並びに所定個の発話内容の候補から無音を示す候補、及び音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出する抽出手段としてコンピュータを機能させる。そして、生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、入力された発話音声を無視するように、応答手段から応答内容が応答されないように制御する制御手段として更にコンピュータを機能させるので、入力された音声を棄却する場合に、より適切な対応を行うことができる。また、無意味な音声入力(例えば、「あー」、「えー」、「んー」等)に対して「無視する」ことにより不必要な応答を減少することができる。
また、上記目的を達成するために、第5の発明に係るプログラムは、コンピュータを、ユーザの発話音声を入力するための入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段、前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段、前記抽出手段によって抽出された同一の自立語毎に、自立語の数を特定する特定手段、及び前記音声認識手段によって生成された所定個の発話内容の候補中に、前記特定手段によって特定された数が第1の所定値以上の高信頼度自立語が存在しない場合、前記特定手段によって特定された数が前記第1の所定値より小さい第2の所定値以下の低信頼度自立語が多数存在する場合、及びユーザの発話内容の文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段に記憶された事例に全ての前記高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が応答手段から応答されるように制御すると共に、前記所定個の発話内容の候補中に、前記高信頼度自立語が存在し、前記低信頼度自立語が多数存在せず、かつ前記記憶手段に記憶された事例に全ての前記高信頼度自立語が存在する場合には、前記音声認識手段によって生成された信頼度が高い候補に相当する前記事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段として機能させる。
本発明に係るプログラムによれば、入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段、生成された所定個の発話内容の候補の各々に対して形態素解析が行われて候補の各々から自立語を抽出する抽出手段、及び抽出された同一の自立語毎に自立語の数を特定する特定手段としてコンピュータを機能させる。そして、生成された所定個の発話内容の候補中に、特定された数が第1の所定値以上の高信頼度自立語が存在しない場合、特定された数が第1の所定値より小さい第2の所定値以下の低信頼度自立語が多数存在する場合、及び記憶手段に記憶された事例に全ての高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が応答手段から応答されるように制御する制御手段として更にコンピュータを機能させる。従って、本発明に係るプログラムによれば、入力された音声を棄却する場合に、ユーザに再度の発話を促すことができ、より適切な対応を行うことができる。また、再度の発話を促されたユーザは、次は、より明確に発声するようになったり、言い方を変えてみたりするようになる。
また、上記目的を達成するために第6の発明に係るプログラムは、コンピュータを、ユーザの発話音声を入力するための入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段、前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段、前記抽出手段によって抽出された同一の自立語毎に、自立語の数を特定する特定手段、及び前記特定手段によって特定された数が第1の所定値以上の全ての高信頼度自立語が、ユーザの発話内容の文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段に記憶された事例中の何れか1つの事例に含まれていない場合には、入力された発話音声に相当する事例がなく対応する応答ができないことを示す応答内容が応答手段から応答されるように制御すると共に、該全ての高信頼度自立語が、該何れか1つの事例に含まれている場合には、全ての高信頼度自立語が含まれている事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段として機能させる。
本発明に係るプログラムによれば、ユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段、生成された所定個の発話内容の候補の各々に対して形態素解析が行われて候補の各々から自立語を抽出する抽出手段、及び抽出された同一の自立語毎に自立語の数を特定する特定手段としてコンピュータを機能させる。そして、特定された数が第1の所定値以上の全ての高信頼度自立語が、記憶手段に記憶された事例中の何れか1つの事例に含まれていない場合には、入力された発話音声に相当する事例がなく対応する応答ができないことを示す応答内容が応答手段から応答されるように制御する制御手段として更にコンピュータを機能させる。従って、本発明に係るプログラムによれば、入力された音声を棄却する場合に、入力された発話音声に相当する事例がなく対応する応答ができないことをユーザに応答することができ、より適切な対応を行うことができる。また、入力された発話音声に相当する事例がなく対応する応答ができないことを提示されたユーザは、別な質問を行うようになる。
以上、説明したように、本発明に係る音声応答装置、及びプログラムによれば、入力された音声を棄却する場合に、より適切な対応を行うことができる、という効果が得られる。
以下、図面を参照して、本発明の音声応答装置の各実施の形態を詳細に説明する。
[第1の実施の形態]
まず、第1の実施の形態について説明する。図1に示すように、本実施の形態に係る音声応答装置10は、コンピュータ12、ユーザの発話(発話音声)を入力するためのマイクロフォン14、スピーカ16、及び表示装置18を備えている。
マイクロフォン14は、入力された音を検出し、波形信号を出力する。なお、入力された音としては、ユーザが発声した音声(ユーザの発話音声)や、ノイズの音等がある。
スピーカ16は、入力されたデータに基づいた音を出力する。また、表示装置18は、入力されたデータに基づいた画像を表示するLCD(Liquid Crystal Display)を含んで構成されている。なお、スピーカ16、及び表示装置18は、本発明の応答手段に対応する。
コンピュータ12は、ROM(Read Only Memory)12a、HDD(Hard Disk Drive)12b、CPU(Central Processing Unit)12c、RAM(Random Access Memory)12d、及びI/O(入出力)ポート12eを備えている。これらROM12a、HDD12b、CPU12c、RAM12d、及びI/Oポート12eは互いにバス12fで接続されている。
記憶媒体としてのROM12aには、OS等の基本プログラムが記憶されている。
記憶媒体としてのHDD12bには、詳細を以下で説明する音声応答処理の処理ルーチンを実行するためのプログラムが記憶されている。
また、HDD12bには、図2(A)に示されるような音響モデルデータベース20が記憶されている。この音響モデルデータベース20には、音響モデルとして、例えば、無音を表すモデルが登録されていると共に、音響モデルとして、ユーザによって発話される可能性がある言葉(例えば、「今」、「何時」、「えー」等)を表すモデルが多数登録されている。これらのモデルは音声認識をする際に用いられる。
また、HDD12bには、図2(B)に示されるような事例応答対データベース22が記憶されている。この事例応答対データベース22には、事例24と、事例24に対応する応答内容26との組が複数個登録されている。本実施の形態では、例えば、統計的に、ユーザの発話内容を表す文章の事例を予め想定しておき、この想定したユーザの発話内容を表す文章の事例を事例24として事例応答対データベース22に予め登録しておく。そして、この事例24に対応する応答内容を予め考えておき、この予め考えられた応答内容を応答内容26として事例応答対データベース22に登録しておく。図2(B)の例では、例えば、「今、何時?」の事例24と、この「今、何時?」に対応する「○時○○分です」の応答内容26との組が事例応答対データベース22に記憶されている。なお、この「○時○○分です」の「○」や「○○」には、「○時○○分です」を応答する際に時刻サーバ(図示しない)等から取得した時刻が入力される。
CPU12cは、プログラムをROM12a及びHDD12bから読み出して実行する。
RAM12dには、各種データが一時的に記憶される。
I/Oポート12eには、上述したマイクロフォン14、スピーカ16、及び表示装置18が接続されている。
次に、コンピュータ12のCPU12cが実行する音声応答処理の処理ルーチンについて図3を用いて説明する。なお、本実施の形態において、音声応答処理は、音声応答処理を実行するために、図示しない入力手段(キーボードやマウス)を介して、音声応答処理を実行する指示がユーザによって入力された場合、または他の機器(図示しない)から音声応答処理を実行する指示が入力された場合に実行される。
まず、ステップ100で、マイクロフォン14に入力された音(ユーザの発話音声を含む)に対して、音響モデルデータベース20に登録されている音響モデルを用いる公知技術である音声認識処理を施して、信頼度が高い順に所定個の発話内容の候補(音声認識結果候補)を生成する。より具体的には、マイクロフォン14に入力された音に応じた波形信号に基づいて音声認識処理を施す。なお、所定個を6個とした場合の例について以下説明する。ステップ100では、例えば、図4に示すように、所定個(本実施の形態では6個)の発話内容の候補が生成される。なお、図4では、発話内容の候補として、信頼度が高い順に「1.えー」、「2.えーっと」、「3.絵」、「4.干支」、「5.江戸」、「6.エコ」の6個の候補が生成された場合を示している。ここで、この信頼度は、例えば、音響モデルと入力された音声との類似度を示すものである。また、ステップ100は、本発明の音声認識手段に対応する。
次のステップ102では、上記ステップ100で生成した所定個の発話内容の候補から、無音を示す候補を抽出する。なお、ステップ102は本発明の抽出手段に対応する。
次のステップ104では、上記ステップ102で無音を示す候補を抽出したか否かを判定することにより、上記ステップ100で生成された所定個の発話内容の候補中に、無音を示す候補が存在するか否かを判断する。
ステップ104で、上記ステップ102で無音を示す候補を抽出したと判定された場合には、上記ステップ100で生成された所定個の発話内容の候補中に、無音を示す候補が存在すると判断して、無音を示す候補が存在する場合には瞬間的にユーザが発した音声で意味の無い音声(例えば、「こっ」等の音声)や突発のノイズ等を誤って認識した可能性が高いため、応答手段であるスピーカ16及び表示装置18に対して応答内容を出力せずに音声応答処理を終了する。すなわち、ステップ104で、上記ステップ102で無音を示す候補を抽出したと判定された場合には、応答内容がスピーカ16及び表示装置18から応答されないように制御して、音声応答処理を終了する。なお、これにより、入力された音が棄却される。
例えば、図5に示すように、突発ノイズがマイクロフォン14に入力され、ステップ100において信頼度が高い順に「1.(短い無音)」、「2.えー」、「3.あー」、「4.えーっと」、「5.ええ」、「6.うん」の6個の候補が生成された場合には、ステップ102で無音を示す候補(「1.(短い無音)」)が抽出され、ステップ104でステップ102において無音を示す候補を抽出したと判定されて、表示装置18及びスピーカ16から応答内容が応答されないように制御される。
以上説明したように、ステップ100〜ステップ104での処理によって、無意味な音声入力(例えば、突発ノイズや意味の無い音声等)に対して「無視する」ことにより不必要な応答を減少することができ、より適切な対応を行うことができる。
一方、ステップ104で、上記ステップ102で無音を示す候補を抽出していないと判定された場合には、次のステップ106へ進む。
ステップ106では、上記ステップ100で生成された所定個の候補の各々に対して、形態素解析を行って候補の各々から自立語を検索語として抽出する。なお、ステップ106は、本発明の抽出手段に対応する。
次のステップ108では、上記ステップ100で生成された所定個の候補のうち、上記ステップ106で抽出された検索語(自立語)を含まない候補が存在するか否かを判定する。ここで、検索語を含まない候補を、無意味な音のみから構成される候補とすることができる。
ステップ108で、検索語を含まない候補が存在すると判定された場合、すなわち無意味な音のみから構成される候補が存在する場合には、ユーザが発した音声で意味の無い音声(例えば、「えー」等の音声)を誤って認識した可能性が高いため、応答手段であるスピーカ16及び表示装置18に応答内容を出力せずに音声応答処理を終了する。すなわち、ステップ108で、上記ステップ106で抽出された検索語(自立語)を含まない候補が存在すると判定された場合には、応答内容がスピーカ16及び表示装置18から応答されないように制御して、音声応答処理を終了する。なお、これにより、入力された音が棄却される。
例えば、図6に示すように、ユーザの発話(発話音声)として「えーっと」がマイクロフォン14に入力され、ステップ100において信頼度が高い順に「1.えーっと」、「2.えー」、「3.あー」、「4.いいえ」、「5.ええ」、「6.え」の6個の候補が生成された場合には、ステップ106で所定個の候補の各々に対して形態素解析が行われて候補の各々から自立語が抽出される。なお、この場合には、例えば、「えーっと」、「いいえ」、及び「ええ」の語が自立語として抽出される。そして、ステップ108で、「2.えー」、「3.あー」、及び「6.え」の各候補が自立語を含まない候補であると判断されて、自立語を含まない候補が存在すると判定され、表示装置18及びスピーカ16から応答内容が応答されないように制御される。
以上説明したように、ステップ100〜ステップ108での処理によって、無意味な音声入力(例えば、意味の無い音声等)に対して「無視する」ことにより不必要な応答を減少することができ、より適切な対応を行うことができる。
一方、ステップ108で検索語を含まない候補が存在しないと判定された場合には、次のステップ110へ進む。
ステップ110では、上記ステップ106で抽出された同一の検索語(自立語)毎に、検索語の数を特定する。
次のステップ112では、上記ステップ110で特定された数が第1の所定値A(例えばA=4)以上の検索語を、信頼できる検索語である高信頼度検索語として特定する。なお、適切な音声応答が行えるような認識結果が所定の閾値以上となるような場合における検索語の数を予め実験的に求めておき、求めた数を第1の所定値Aとして設定しておけばよい。また、高信頼度検索語は、本発明の高信頼度自立語に対応する。
次のステップ114では、上記ステップ110で特定された数が、上記第1の所定値Aより小さい第2の所定値B(例えば1)以下の検索語を、信頼できない検索語である低信頼度検索語として特定する。なお、適切な音声応答が行えないような認識結果が所定の閾値より小さくなるような場合における検索語の数を予め実験的に求めておき、求めた数を第2の所定値Bとして設定しておけばよい。また、低信頼度検索語は、本発明の低信頼度自立語に対応する。
次のステップ116では、上記ステップ112で高信頼度検索語が特定されたか否かを判定することにより、上記ステップ100で生成された所定個の候補中に、高信頼度検索語が存在するか否かを判定する。
ステップ116で、上記ステップ112において高信頼度検索語が特定されなかったと判定された場合(すなわち、上記ステップ100で生成された所定個の候補中に、高信頼度検索語が存在しないと判定された場合)には、次のステップ118へ進む。
ステップ118では、ユーザに再度の発話を促すための応答内容が表示されるように表示装置18を制御すると共に、ユーザに再度の発話を促すための応答内容が音声として出力されるようにスピーカ16を制御する。すなわち、ステップ118では、ユーザに再度の発話を促すための応答内容が応答手段から応答されるように制御する。ここで、ユーザに再度の発話を促すための応答内容として、例えば、「もう一度、お話ください」の応答内容がある。そして、音声応答処理を終了する。これにより、入力された音声に相当する事例24に対応する応答内容26が応答手段から応答されない場合、すなわち入力された音声を棄却する場合に、ユーザに再度の発話を促すことができ、より適切な対応を行うことができる。また、再度の発話を促されたユーザは、次は、より明確に発声するようになったり、言い方を変えてみたりするようになる。
例えば、図7に示すように、ユーザの発話(発話音声)として「今何時?」がマイクロフォン14に入力され、ステップ100において信頼度が高い順に「1.なん」、「2.何時」、「3.なんて」、「4.なんの」、「5.なの」、「6.暇 なんで」の6個の候補が生成された場合には、ステップ106で所定個の候補の各々に対して形態素解析が行われて候補の各々から自立語が抽出される。なお、この場合には、例えば、「なん」、「何時」、「なんて」、「なんの」、「暇」、及び「なんで」の語が検索語(自立語)として抽出される。そして、ステップ108で検索語を含まない候補が存在しないと判定され、ステップ110で同一の検索語(自立語)毎に検索語の数が特定される。なお、この場合には、「なん」、「何時」、「なんて」、「なんの」、「暇」、及び「なんで」の検索語の各々の数として”1”が特定される。図7の例では、各検索語の右に位置するかっこ内の数値が特定された数を示している。そして、所定値Aを例えば、”4”とし、所定値Bを例えば”1”とした場合には、ステップ112で高信頼度検索語が特定されず、ステップ114で低信頼度検索語として「なん」、「何時」、「なんて」、「なんの」、「暇」、及び「なんで」の検索語の各々が特定される。そして、ステップ116で高信頼度検索語が特定されなかったと判定され、ステップ118で、ユーザに再度の発話を促すための応答内容(例えば、「もう一度お話ください」)が表示装置18及びスピーカ16から応答されるように制御される。このように、ステップ100〜ステップ118の処理によって、入力された音声を棄却する場合に、ユーザに再度の発話を促すことができ、より適切な対応を行うことができる。また、再度の発話を促されたユーザは、次は、より明確に発声するようになったり、言い方を変えてみたりするようになる。
一方、ステップ116で、上記ステップ112で高信頼度検索語が特定されたと判定された場合(すなわち、上記ステップ100で生成された所定個の候補中に、高信頼度検索語が存在すると判定された場合)には、次のステップ120へ進む。
ステップ120では、上記ステップ114で特定された低信頼度検索語が多数存在するか否かを判定する。ここで、多数とは、例えば、入力された音声に対する応答が適切に行うことができない場合における候補中の低信頼度検索語の数である。ここで、この入力された音声に対する応答が適切に行うことができない場合における候補中の低信頼度検索語の数は、予め実験的に求めておくことが可能である。本実施の形態では、第3の所定値Cを例えば”6”と設定して、上記ステップ114で特定された低信頼度検索語の数が、この第3の所定値C以上である場合には、低信頼度検索語が多数存在すると判定し、一方、上記ステップ114で特定された低信頼度検索語の数が、第3の所定値C未満である場合には、低信頼度検索語が多数存在しないと判定する。
ステップ120で、上記ステップ114で特定された低信頼度検索語が多数存在すると判定された場合には、ステップ118へ進む。
例えば、図8に示すように、ユーザの発話(発話音声)として「今何時?」がマイクロフォン14に入力され、ステップ100において信頼度が高い順に「1.今 なんで」、「2.今 何時」、「3.今 なぜ」、「4.いい のに」、「5.何 なの」、「6.いま なんて」の6個の候補が生成された場合には、ステップ106で所定個の候補の各々に対して形態素解析が行われて候補の各々から自立語が抽出される。なお、この場合には、例えば、「今」、「なんで」、「何時」、「なぜ」、「いい」、「何」、及び「なんて」の語が検索語(自立語)として抽出される。そして、ステップ108で検索語を含まない候補が存在しないと判定され、ステップ110で同一の検索語(自立語)毎に検索語の数が特定される。なお、この場合には、「今」の検索語の数として”4”が特定されると共に、「なんで」、「何時」、「なぜ」、「いい」、「何」、及び「なんて」の検索語の各々の数として”1”が特定される。図8の例では、図7の例と同様に、各検索語の右に位置するかっこ内の数値が特定された数を示している。そして、所定値Aを例えば、”4”とし、所定値Bを例えば”1”とした場合には、ステップ112で高信頼度検索語として「今」の検索語が特定され、ステップ114で低信頼度検索語として「なんで」、「何時」、「なぜ」、「いい」、「何」、及び「なんて」の検索語の各々が特定される。そして、ステップ116で高信頼度検索語が特定されたと判定され、ステップ120で低信頼度検索語が多数存在すると判定され、ステップ118で、ユーザに再度の発話を促すための応答内容(例えば、「もう一度お話ください」)が表示装置18及びスピーカ16から応答されるように制御される。このように、ステップ100〜116、120、118の処理によって、入力された音声を棄却する場合に、ユーザに再度の発話を促すことができ、より適切な対応を行うことができる。また、再度の発話を促されたユーザは、次は、より明確に発声するようになったり、言い方を変えてみたりするようになる。
一方、ステップ120で、上記ステップ114で特定された低信頼度検索語が多数存在しないと判定された場合には、次のステップ122へ進む。
ステップ122では、HDD12bに記憶されている事例応答対データベース22に登録されている事例24中に、上記ステップ112で特定された全ての高信頼度検索語が存在するか否かを判定する。なお、ステップ122では、例えば、事例応答対データベース22に登録されている事例24を上から順に1レコードずつ読み込んで、このレコード単位で読み込んだ事例24に対して、上記ステップ112で特定された全ての高信頼度検索語を順番に1つずつ検索を行うことにより、事例24中に、上記ステップ112で特定された全ての高信頼度検索語が存在するか否かを判定することができる。すなわち、ステップ122では、事例応答対データベース22の事例24に、上記ステップ122で特定された全ての高信頼度検索語が存在するか否かが判定される。
ステップ122で、HDD12bに記憶されている事例応答対データベース22に登録されている事例24中に、上記ステップ112で特定された全ての高信頼度検索語が存在しない(特定された全ての高信頼度検索語のうち、少なくとも1つは事例24中に存在しない)と判定された場合には、ステップ118へ進む。
例えば、図9に示すように、ユーザの発話(発話音声)として「暇なので」がマイクロフォン14に入力され、ステップ100において信頼度が高い順に「1.暇 何時」、「2.暇 何時 で」、「3.今 何時」、「4.暇 なの」、「5.今 何時 で」、「6.暇 何で」の6個の候補が生成された場合には、ステップ106で所定個の候補の各々に対して形態素解析が行われて候補の各々から自立語が抽出される。なお、この場合には、例えば、「暇」、「何時」、「なの」、及び「なんで」の語が検索語(自立語)として抽出される。そして、ステップ108で検索語を含まない候補が存在しないと判定され、ステップ110で同一の検索語(自立語)毎に検索語の数が特定される。なお、この場合には、「暇」及び「何時」の検索語の各々の数として”4”が特定されると共に、「なの」及び「なんで」の検索語の各々の数として”1”が特定される。図9の例では、図7、8の例と同様に、各検索語の右に位置するかっこ内の数値が特定された数を示している。そして、所定値Aを例えば、”4”とし、所定値Bを例えば”1”とした場合には、ステップ112で高信頼度検索語として「暇」及び「何時」の検索語が特定され、ステップ114で低信頼度検索語として「なの」、及び「なんで」の検索語の各々が特定される。そして、ステップ116で高信頼度検索語が特定されたと判定され、ステップ120で低信頼度検索語が多数存在しないと判定される。このような場合に、図9に示すように、高信頼度検索語として特定された「何時」の検索語が事例応答対データベース22の事例24に存在するものの、「暇」の検索語が事例24に存在しないときには、ステップ122に進み、ステップ122で、事例応答対データベース22の事例24中に、全ての高信頼度検索語が存在しないと判定され、そして、ステップ118で、ユーザに再度の発話を促すための応答内容(例えば、「もう一度お話ください」)が表示装置18及びスピーカ16から応答されるように制御される。このように、ステップ100〜116、120〜122、118の処理によって、入力された音声を棄却する場合に、ユーザに再度の発話を促すことができ、より適切な対応を行うことができる。また、再度の発話を促されたユーザは、次は、より明確に発声するようになったり、言い方を変えてみたりするようになる。
一方、ステップ122で、事例応答対データベース22に登録されている事例24中に、上記ステップ112で特定された全ての高信頼度検索語が存在する(特定された全ての高信頼度検索語が事例24中に存在する)と判定された場合には、ステップ124へ進む。
ステップ124では、上記ステップ112で特定された全ての高信頼度検索語が、HDD12bに記憶された事例応答対データベース22に登録された事例24中の何れか1つの事例24に含まれているか否かを判定する。
ステップ124で、全ての高信頼度検索語が、事例応答対データベース22に登録された事例24中の何れか1つの事例24に含まれていると判定された場合には、次のステップ126へ進む。
ステップ126では、全ての高信頼度検索語を含む事例24に対応する応答内容26を応答するように、表示装置18及びスピーカ16を制御する。すなわち、ステップ126では、全ての高信頼度検索語が含まれている事例24に対応する応答内容26が表示装置18及びスピーカ16から応答されるように制御する。これにより、全ての高信頼度検索語が含まれている事例24に対応する応答内容26が表示装置18及びスピーカ16によってユーザに応答される。
例えば、図10に示すように、ユーザの発話(発話音声)として「今、何時?」がマイクロフォン14に入力され、ステップ100において信頼度が高い順に「1.今 何時」、「2.今 何時 に」、「3.何時 に」、「4.今 なんて」、「5.何時 なの」、「6.今 の 何 に」の6個の候補が生成された場合には、ステップ106で所定個の候補の各々に対して形態素解析が行われて候補の各々から自立語が抽出される。なお、この場合には、例えば、「今」、「何時」、「なんて」、「何」、及び「なの」の語が検索語(自立語)として抽出される。そして、ステップ108で検索語を含まない候補が存在しないと判定され、ステップ110で同一の検索語(自立語)毎に検索語の数が特定される。なお、この場合には、「今」及び「何時」の検索語の各々の数として”4”が特定されると共に、「なんて」、「何」、及び「なの」の検索語の各々の数として”1”が特定される。図10の例では、図7、8、9の例と同様に、各検索語の右に位置するかっこ内の数値が特定された数を示している。そして、所定値Aを例えば、”4”とし、所定値Bを例えば”1”とした場合には、ステップ112で高信頼度検索語として「今」及び「何時」の検索語が特定され、ステップ114で低信頼度検索語として「なんて」、「何」、及び「なの」の検索語の各々が特定される。そして、ステップ116で高信頼度検索語が特定されたと判定され、ステップ120で低信頼度検索語が多数存在しないと判定される。このような場合に、図10に示すように、高信頼度検索語として特定された「今」及び「何時」の検索語が事例応答対データベース22の事例24中の何れか1つの事例24に含まれている(図10の例では「今、何時」の1つの事例24に含まれている)ときには、ステップ122で、事例応答対データベース22の事例24中に、全ての高信頼度検索語が存在すると判定され、ステップ124へ進む。そして、ステップ124で、全ての高信頼度検索語が、事例応答対データベース22に登録された事例24中の何れか1つの事例24に含まれていると判定される。そして、ステップ126で、全ての高信頼度検索語を含む事例24に対応する応答内容26を応答するように、表示装置18及びスピーカ16を制御する。なお、図10の例では、「今、何時」の事例24に対応する「○時○○分です」の応答内容26が応答されるように、表示装置18及びスピーカ16を制御する。これにより、全ての高信頼度検索語が含まれている事例24に対応する応答内容26が応答手段によってユーザに応答される。
一方、ステップ124で、全ての高信頼度検索語が、事例応答対データベース22に登録された事例24中の何れか1つの事例24に含まれていないと判定された場合には、次のステップ128へ進む。
ステップ128では、ユーザ発話の内容に相当する事例24がなく対応する応答ができないことを示す応答内容(例えば、「分かりません」)を応答するように、表示装置18及びスピーカ16を制御する。すなわち、ステップ128では、ユーザ発話の内容に相当する事例24がなく対応する応答ができないことを示す応答内容が応答されるように、応答手段を制御する。これにより、入力された音声を棄却する場合に、入力された発話音声に相当する事例24がなく対応する応答ができないことをユーザに応答することができ、より適切な対応を行うことができる。また、入力された発話音声に相当する事例がなく対応する応答ができないことを提示されたユーザは、別な質問を行うようになる。
例えば、図11に示すように、ユーザの発話(発話音声)として「今、天気?」がマイクロフォン14に入力され、ステップ100において信頼度が高い順に「1.今 天気」、「2.今 天気 に」、「3.天気 に」、「4.今 なんて」、「5.天気 なの」、「6.今 の 何 に」の6個の候補が生成された場合には、ステップ106で所定個の候補の各々に対して形態素解析が行われて候補の各々から自立語が抽出される。なお、この場合には、例えば、「今」、「天気」、「なんて」、「何」、及び「なの」の語が検索語(自立語)として抽出される。そして、ステップ108で検索語を含まない候補が存在しないと判定され、ステップ110で同一の検索語(自立語)毎に検索語の数が特定される。なお、この場合には、「今」及び「天気」の検索語の各々の数として”4”が特定されると共に、「なんて」、「何」、及び「なの」の検索語の各々の数として”1”が特定される。図11の例では、図7、8、9、10の例と同様に、各検索語の右に位置するかっこ内の数値が特定された数を示している。そして、所定値Aを例えば、”4”とし、所定値Bを例えば”1”とした場合には、ステップ112で高信頼度検索語として「今」及び「天気」の検索語が特定され、ステップ114で低信頼度検索語として「なんて」、「何」、及び「なの」の検索語の各々が特定される。そして、ステップ116で高信頼度検索語が特定されたと判定され、ステップ120で低信頼度検索語が多数存在しないと判定される。このような場合に、図11に示すように、高信頼度検索語として特定された「今」及び「天気」の検索語が事例応答対データベース22に登録されている事例24中の何れか1つの事例24に含まれていない(図11の例では事例応答対データベース22に登録されている事例24の何れか1つの事例24に含まれていない)ときには、ステップ122で、事例応答対データベース22の事例24中に、全ての高信頼度検索語が存在すると判定され、ステップ124へ進む。そして、ステップ124で、全ての高信頼度検索語が、事例応答対データベース22に登録された事例24中の何れか1つの事例24に含まれていないと判定される。そして、ステップ128で、ユーザ発話の内容に相当する事例24がなく対応する応答ができないことを示す応答内容(例えば、「分かりません」)を応答するように、表示装置18及びスピーカ16を制御する。これにより、入力された音声を棄却する場合に、入力された発話音声に相当する事例24がなく対応する応答ができないことをユーザに応答することができ、より適切な対応を行うことができる。また、入力された発話音声に相当する事例がなく対応する応答ができないことを提示されたユーザは、別な質問を行うようになる。
以上、説明したように、本実施の形態に係る音声応答装置10は、ユーザの発話音声を入力するための入力手段としてのマイクロフォン14と、ユーザの発話内容を表す文章の事例24と事例24に対応する応答内容26との組を複数個記憶した記憶手段としてのHDD12bとを含んで構成されている。本実施の形態に係る音声応答装置10は、マイクロフォン14に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成し、生成された所定個の発話内容の候補から無音を示す候補、及び生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、応答手段としての表示装置18及びスピーカ16から応答内容26が応答されないように制御する。
本実施の形態に係る音声応答装置10は、生成された所定個の発話内容の候補から無音を示す候補、及び生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出する。そして、生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、入力された発話音声を無視するように、表示装置18及びスピーカ16から応答内容26が応答されないように制御するので、入力された音声を棄却する場合に、無意味な音声入力(例えば、「あー」、「えー」、「んー」等)に対して「無視する」ことにより不必要な応答を減少することができ、より適切な対応を行うことができる。
また、本実施の形態に係る音声応答装置10は、マイクロフォン14に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成し、生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、抽出された同一の自立語毎に自立語の数を特定し、生成された所定個の発話内容の候補中に、特定された数が第1の所定値A以上の高信頼度自立語が存在しない場合、特定された数が前記第1の所定値Aより小さい第2の所定値B以下の低信頼度自立語が多数存在する場合、及びHDD12bに記憶された事例24に全ての高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が表示装置18及びスピーカ16から応答されるように制御する。
本実施の形態に係る音声応答装置10は、生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、抽出された同一の自立語毎に自立語の数を特定する。そして、生成された所定個の発話内容の候補中に、特定された数が第1の所定値A以上の高信頼度自立語が存在しない場合、特定された数が第1の所定値Aより小さい第2の所定値B以下の低信頼度自立語が多数存在する場合、及びHDD12bに記憶された事例24に全ての高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が表示装置18及びスピーカ16から応答されるように制御する。従って、本実施の形態に係る音声応答装置10によれば、入力された音声を棄却する場合に、ユーザに再度の発話を促すことができ、より適切な対応を行うことができる。また、再度の発話を促されたユーザは、次は、より明確に発声するようになったり、言い方を変えてみたりするようになる。
また、本実施の形態に係る音声応答装置10は、マイクロフォン14に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成し、生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、抽出された同一の自立語毎に自立語の数を特定し、特定された数が第1の所定値A以上の全ての高信頼度自立語が、前記HDD12bに記憶された事例24中の何れか1つの事例24に含まれていない場合には、入力された発話音声に相当する事例24がなく対応する応答ができないことを示す応答内容が表示装置18及びスピーカ16から応答されるように制御する。
本実施の形態に係る音声応答装置10は、生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、抽出された同一の自立語毎に自立語の数を特定する。そして、特定された数が第1の所定値A以上の全ての高信頼度自立語が、HDD12bに記憶された事例24中の何れか1つの事例24に含まれていない場合には、入力された発話音声に相当する事例24がなく対応する応答ができないことを示す応答内容が表示装置18及びスピーカ16から応答されるように制御する。従って、本実施の形態に係る音声応答装置10によれば、入力された音声を棄却する場合に、入力された発話音声に相当する事例24がなく対応する応答ができないことをユーザに応答することができ、より適切な対応を行うことができる。また、入力された発話音声に相当する事例24がなく対応する応答ができないことを提示されたユーザは、別な質問を行うようになる。
[第2の実施の形態]
次に本発明の第2の実施の形態に係る音声応答装置30について説明する。なお、第1の実施の形態と同様の構成及び同様の処理については、同一符号を付して、説明を省略する。
図12に示すように、音声応答装置30は、マイクロフォン14、音声認識装置32、検索語抽出装置34、事例照合装置36、応答生成装置38、音響モデルデータベース20を記憶したメモリ40、事例応答対データベース22を記憶したメモリ42、スピーカ16、及び表示装置18を備えている。同図に図示されているように、マイクロフォン14及びメモリ40は音声認識装置32に接続されている。音声認識装置32は、検索語抽出装置34に接続されている。検索語抽出装置34及びメモリ42は、事例照合装置36に接続されている。事例照合装置36は、応答生成装置38に接続されている。そして、応答生成装置38は、スピーカ16及び表示装置18に接続されている。本実施の形態において、第1の実施の形態と異なる点は、音声認識装置32が上記ステップ100の処理を実行し、検索語抽出装置34が上記ステップ102、104、106の処理を、処理の流れに沿って第1の実施の形態と同様に適宜実行し、事例照合装置36が上記ステップ108、110、112、114、116、120、122、124の処理を、処理の流れに沿って第1の実施の形態と同様に適宜実行し、応答生成装置38が上記ステップ118、126、128の処理を、処理の流れに沿って第1の実施の形態と同様に適宜実行する点である。
[第3の実施の形態]
次に本発明の第3の実施の形態に係る音声応答装置について説明する。なお、第1の実施の形態と同様の構成及び同様の処理については、同一符号を付して、説明を省略する。
本実施の形態において、第1の実施の形態と異なる点は、本実施の形態に係る音声応答装置は、図13に示す音声応答処理を実行する点である。同図に図示されるように、ステップ104及びステップ108で肯定判定がされた場合には音声応答処理を終了すると共に、ステップ108で否定判定がされた場合には、ステップ200へ進む。
ステップ200では、ステップ100で生成された所定個の候補のうち、最も高い候補に相当する事例24を事例応答対データベース22から検索し、検索した結果得られた事例24に対応する応答内容26が表示装置18及びスピーカ16から応答されるように制御する。そして、音声応答処理を終了する。なお、ステップ200は、制御手段に対応する。
以上、説明したように、本実施の形態に係る音声応答装置は、ユーザの発話音声を入力するための入力手段としてのマイクロフォン14と、ユーザの発話内容を表す文章の事例24と事例24に対応する応答内容26との組を複数個記憶した記憶手段としてのHDD12bとを含んで構成されている。本実施の形態に係る音声応答装置は、マイクロフォン14に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成し、生成された所定個の発話内容の候補から無音を示す候補、及び生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、応答手段としての表示装置18及びスピーカ16から応答内容26が応答されないように制御すると共に、無音を示す候補が存在せず、かつ所定個の発話内容の候補の全てが自立語を含む場合には、生成された信頼度が高い候補に相当する事例24に対応する応答内容26が表示装置18及びスピーカ16から応答されるように制御する。
本実施の形態に係る音声応答装置は、生成された所定個の発話内容の候補から無音を示す候補、及び生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出する。そして、生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、入力された発話音声を無視するように、表示装置18及びスピーカ16から応答内容26が応答されないように制御するので、入力された音声を棄却する場合に、無意味な音声入力(例えば、「あー」、「えー」、「んー」等)に対して「無視する」ことにより不必要な応答を減少することができ、より適切な対応を行うことができる。
[第4の実施の形態]
次に本発明の第4の実施の形態に係る音声応答装置について説明する。なお、第1の実施の形態及び第3の実施の形態と同様の構成及び同様の処理については、同一符号を付して、説明を省略する。
本実施の形態において、第1の実施の形態と異なる点は、本実施の形態に係る音声応答装置は、図14に示す音声応答処理を実行する点である。同図に図示されるように、ステップ102の次にステップ106を実行し、ステップ106の次にステップ110を実行し、ステップ122で肯定判定がされた場合にはステップ200を実行して音声応答処理を終了する。
以上、説明したように、本実施の形態に係る音声応答装置は、ユーザの発話音声を入力するための入力手段としてのマイクロフォン14と、ユーザの発話内容の文章の事例24と事例24に対応する応答内容26との組を複数個記憶した記憶手段としてのHDD12bとを含んで構成されている。本実施の形態に係る音声応答装置は、マイクロフォン14に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成し、生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、抽出された同一の自立語毎に自立語の数を特定し、生成された所定個の発話内容の候補中に、特定された数が第1の所定値A以上の高信頼度自立語が存在しない場合、特定された数が前記第1の所定値Aより小さい第2の所定値B以下の低信頼度自立語が多数存在する場合、及びHDD12bに記憶された事例24に全ての高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が表示装置18及びスピーカ16から応答されるように制御すると共に、所定個の発話内容の候補中に、高信頼度自立語が存在し、低信頼度自立語が多数存在せず、かつHDD12bに記憶された事例24に全ての高信頼度自立語が存在する場合には、生成された信頼度が高い候補に相当する事例24に対応する応答内容26が表示装置18及びスピーカ16から応答されるように制御する。
本実施の形態に係る音声応答装置は、生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、抽出された同一の自立語毎に自立語の数を特定する。そして、生成された所定個の発話内容の候補中に、特定された数が第1の所定値A以上の高信頼度自立語が存在しない場合、特定された数が第1の所定値Aより小さい第2の所定値B以下の低信頼度自立語が多数存在する場合、及びHDD12bに記憶された事例24に全ての高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が表示装置18及びスピーカ16から応答されるように制御する。従って、本実施の形態に係る音声応答装置によれば、入力された音声を棄却する場合に、ユーザに再度の発話を促すことができ、より適切な対応を行うことができる。また、再度の発話を促されたユーザは、次は、より明確に発声するようになったり、言い方を変えてみたりするようになる。
[第5の実施の形態]
次に本発明の第5の実施の形態に係る音声応答装置について説明する。なお、第1の実施の形態、第3の実施の形態、及び第4の実施の形態と同様の構成及び同様の処理については、同一符号を付して、説明を省略する。
本実施の形態において、第1の実施の形態と異なる点は、本実施の形態に係る音声応答装置は、図15に示す音声応答処理を実行する点である。同図に図示されるように、ステップ102の次にステップ106を実行し、ステップ106の次にステップ110を実行し、ステップ114の次にステップ124を実行し、ステップ124で否定判定がされた場合にはステップ128を実行して音声応答処理を終了し、ステップ124で肯定判定がされた場合にはステップ126を実行して音声応答処理を終了する。
以上、説明したように、本実施の形態に係る音声応答装置は、ユーザの発話音声を入力するための入力手段としてのマイクロフォン14と、ユーザの発話内容の文章の事例24と事例24に対応する応答内容26との組を複数個記憶した記憶手段としてのHDD12bとを含んで構成されている。本実施の形態に係る音声応答装置は、マイクロフォン14に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成し、生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、抽出された同一の自立語毎に自立語の数を特定し、特定された数が第1の所定値A以上の全ての高信頼度自立語が、HDD12bに記憶された事例24中の何れか1つの事例24に含まれていない場合には、入力された発話音声に相当する事例24がなく対応する応答ができないことを示す応答内容が表示装置18及びスピーカ16から応答されるように制御すると共に、全ての高信頼度自立語が、何れか1つの事例24に含まれている場合には、全ての高信頼度自立語が含まれている事例24に対応する応答内容26が表示装置18及びスピーカ16から応答されるように制御する。
本実施の形態に係る音声応答装置は、生成された所定個の発話内容の候補の各々に対して形態素解析を行って候補の各々から自立語を抽出し、抽出された同一の自立語毎に自立語の数を特定する。そして、特定された数が第1の所定値A以上の全ての高信頼度自立語が、HDD12bに記憶された事例24中の何れか1つの事例24に含まれていない場合には、入力された発話音声に相当する事例24がなく対応する応答ができないことを示す応答内容が表示装置18及びスピーカ16から応答されるように制御する。従って、本実施の形態に係る音声応答装置によれば、入力された音声を棄却する場合に、入力された発話音声に相当する事例24がなく対応する応答ができないことをユーザに応答することができ、より適切な対応を行うことができる。また、入力された発話音声に相当する事例がなく対応する応答ができないことを提示されたユーザは、別な質問を行うようになる。
第1の実施の形態に係る音声応答装置を示す図である。 第1の実施の形態に係る音響モデルデータベース及び事例応答対データベースの模式図である。 第1の実施の形態に係る音声応答装置が実行する音声応答処理の処理ルーチンのフローチャートを示す図である。 第1の実施の形態に係る音声認識結果候補を示す図である。 第1の実施の形態に係る音声応答処理を説明するための図である。 第1の実施の形態に係る音声応答処理を説明するための図である。 第1の実施の形態に係る音声応答処理を説明するための図である。 第1の実施の形態に係る音声応答処理を説明するための図である。 第1の実施の形態に係る音声応答処理を説明するための図である。 第1の実施の形態に係る音声応答処理を説明するための図である。 第1の実施の形態に係る音声応答処理を説明するための図である。 第2の実施の形態に係る音声応答装置を示す図である。 第3の実施の形態に係る音声応答装置が実行する音声応答処理の処理ルーチンのフローチャートを示す図である。 第4の実施の形態に係る音声応答装置が実行する音声応答処理の処理ルーチンのフローチャートを示す図である。 第5の実施の形態に係る音声応答装置が実行する音声応答処理の処理ルーチンのフローチャートを示す図である。
符号の説明
10 音声応答装置
12 コンピュータ
12b HDD
12c CPU
14 マイクロフォン
16 スピーカ
18 表示装置
22 事例応答対データベース
24 事例
26 応答内容

Claims (6)

  1. ユーザの発話音声を入力するための入力手段と、
    前記入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段と、
    ユーザの発話内容を表す文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段と、
    前記音声認識手段によって生成された所定個の発話内容の候補から無音を示す候補、及び前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段と、
    前記音声認識手段によって生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、応答手段から応答内容が応答されないように制御すると共に、前記無音を示す候補が存在せず、かつ前記所定個の発話内容の候補の全てが自立語を含む場合には、前記音声認識手段によって生成された信頼度が高い候補に相当する前記事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段と、
    を含む音声応答装置。
  2. ユーザの発話音声を入力するための入力手段と、
    前記入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段と、
    ユーザの発話内容の文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段と、
    前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段と、
    前記抽出手段によって抽出された同一の自立語毎に、自立語の数を特定する特定手段と、
    前記音声認識手段によって生成された所定個の発話内容の候補中に、前記特定手段によって特定された数が第1の所定値以上の高信頼度自立語が存在しない場合、前記特定手段によって特定された数が前記第1の所定値より小さい第2の所定値以下の低信頼度自立語が多数存在する場合、及び前記記憶手段に記憶された事例に全ての前記高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が応答手段から応答されるように制御すると共に、前記所定個の発話内容の候補中に、前記高信頼度自立語が存在し、前記低信頼度自立語が多数存在せず、かつ前記記憶手段に記憶された事例に全ての前記高信頼度自立語が存在する場合には、前記音声認識手段によって生成された信頼度が高い候補に相当する前記事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段と、
    を含む音声応答装置。
  3. ユーザの発話音声を入力するための入力手段と、
    前記入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段と、
    ユーザの発話内容の文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段と、
    前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段と、
    前記抽出手段によって抽出された同一の自立語毎に、自立語の数を特定する特定手段と、
    前記特定手段によって特定された数が第1の所定値以上の全ての高信頼度自立語が、前記記憶手段に記憶された事例中の何れか1つの事例に含まれていない場合には、入力された発話音声に相当する事例がなく対応する応答ができないことを示す応答内容が応答手段から応答されるように制御すると共に、該全ての高信頼度自立語が、該何れか1つの事例に含まれている場合には、全ての高信頼度自立語が含まれている事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段と、
    を含む音声応答装置。
  4. コンピュータを、
    ユーザの発話音声を入力するための入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段、
    前記音声認識手段によって生成された所定個の発話内容の候補から無音を示す候補、及び前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段、及び
    前記音声認識手段によって生成された所定個の発話内容の候補中に、無音を示す候補が存在する場合、及び自立語を含まない候補が存在する場合には、応答手段から応答内容が応答されないように制御すると共に、前記無音を示す候補が存在せず、かつ前記所定個の発話内容の候補の全てが自立語を含む場合には、ユーザの発話内容を表す文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段に記憶された、前記音声認識手段によって生成された信頼度が高い候補に相当する前記事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段
    として機能させるためのプログラム。
  5. コンピュータを、
    ユーザの発話音声を入力するための入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段、
    前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段、
    前記抽出手段によって抽出された同一の自立語毎に、自立語の数を特定する特定手段、及び
    前記音声認識手段によって生成された所定個の発話内容の候補中に、前記特定手段によって特定された数が第1の所定値以上の高信頼度自立語が存在しない場合、前記特定手段によって特定された数が前記第1の所定値より小さい第2の所定値以下の低信頼度自立語が多数存在する場合、及びユーザの発話内容の文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段に記憶された事例に全ての前記高信頼度自立語が存在しない場合には、ユーザに再度の発話を促すための応答内容が応答手段から応答されるように制御すると共に、前記所定個の発話内容の候補中に、前記高信頼度自立語が存在し、前記低信頼度自立語が多数存在せず、かつ前記記憶手段に記憶された事例に全ての前記高信頼度自立語が存在する場合には、前記音声認識手段によって生成された信頼度が高い候補に相当する前記事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段
    として機能させるためのプログラム。
  6. コンピュータを、
    ユーザの発話音声を入力するための入力手段に入力されたユーザの発話音声に対して音声認識を行って信頼度が高い順に所定個の発話内容の候補を生成する音声認識手段、
    前記音声認識手段によって生成された所定個の発話内容の候補の各々に対して形態素解析を行って該候補の各々から自立語を抽出する抽出手段、
    前記抽出手段によって抽出された同一の自立語毎に、自立語の数を特定する特定手段、及び
    前記特定手段によって特定された数が第1の所定値以上の全ての高信頼度自立語が、ユーザの発話内容の文章の事例と該事例に対応する応答内容との組を複数個記憶した記憶手段に記憶された事例中の何れか1つの事例に含まれていない場合には、入力された発話音声に相当する事例がなく対応する応答ができないことを示す応答内容が応答手段から応答されるように制御すると共に、該全ての高信頼度自立語が、該何れか1つの事例に含まれている場合には、全ての高信頼度自立語が含まれている事例に対応する応答内容が前記応答手段から応答されるように制御する制御手段
    として機能させるためのプログラム。
JP2008327702A 2008-12-24 2008-12-24 音声応答装置、及びプログラム Expired - Fee Related JP5088314B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008327702A JP5088314B2 (ja) 2008-12-24 2008-12-24 音声応答装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008327702A JP5088314B2 (ja) 2008-12-24 2008-12-24 音声応答装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2010151941A true JP2010151941A (ja) 2010-07-08
JP5088314B2 JP5088314B2 (ja) 2012-12-05

Family

ID=42571134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008327702A Expired - Fee Related JP5088314B2 (ja) 2008-12-24 2008-12-24 音声応答装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5088314B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01293397A (ja) * 1988-05-23 1989-11-27 Hitachi Ltd 音声応答方式
JP2000132184A (ja) * 1998-10-27 2000-05-12 Omron Corp 音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体
JP2003108581A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 対話型情報検索装置および対話型情報検索方法
JP2003330490A (ja) * 2002-05-15 2003-11-19 Fujitsu Ltd 音声対話装置
JP2004037803A (ja) * 2002-07-03 2004-02-05 Nippon Telegr & Teleph Corp <Ntt> 応答制御装置、方法及び応答制御プログラム、記録媒体
JP2008152637A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 応答生成装置及び応答生成プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01293397A (ja) * 1988-05-23 1989-11-27 Hitachi Ltd 音声応答方式
JP2000132184A (ja) * 1998-10-27 2000-05-12 Omron Corp 音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体
JP2003108581A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 対話型情報検索装置および対話型情報検索方法
JP2003330490A (ja) * 2002-05-15 2003-11-19 Fujitsu Ltd 音声対話装置
JP2004037803A (ja) * 2002-07-03 2004-02-05 Nippon Telegr & Teleph Corp <Ntt> 応答制御装置、方法及び応答制御プログラム、記録媒体
JP2008152637A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 応答生成装置及び応答生成プログラム

Also Published As

Publication number Publication date
JP5088314B2 (ja) 2012-12-05

Similar Documents

Publication Publication Date Title
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
JP6857581B2 (ja) 成長型対話装置
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
US7949536B2 (en) Intelligent speech recognition of incomplete phrases
US10629192B1 (en) Intelligent personalized speech recognition
CN109686383B (zh) 一种语音分析方法、装置及存储介质
US9202466B2 (en) Spoken dialog system using prominence
US20140316764A1 (en) Clarifying natural language input using targeted questions
JP5195414B2 (ja) 応答生成装置及びプログラム
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
Bispham et al. Nonsense attacks on google assistant and missense attacks on amazon alexa
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
CN114999463A (zh) 语音识别方法、装置、设备及介质
KR20230156145A (ko) 하이브리드 다국어 텍스트 의존형 및 텍스트 독립형 화자 검증
JP2010197644A (ja) 音声認識システム
JP7098587B2 (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
JP2023156220A (ja) プレゼンテーション評価装置
JP2023155121A (ja) プレゼンテーション評価装置
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP5088314B2 (ja) 音声応答装置、及びプログラム
CN110895938B (zh) 语音校正系统及语音校正方法
JP2003162524A (ja) 言語処理装置
JP2005283646A (ja) 音声認識率推定装置
JP2021139995A (ja) 語学学習支援装置、方法及びプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110913

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120814

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120827

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5088314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees