JP2009217611A - 音声対話装置 - Google Patents
音声対話装置 Download PDFInfo
- Publication number
- JP2009217611A JP2009217611A JP2008061458A JP2008061458A JP2009217611A JP 2009217611 A JP2009217611 A JP 2009217611A JP 2008061458 A JP2008061458 A JP 2008061458A JP 2008061458 A JP2008061458 A JP 2008061458A JP 2009217611 A JP2009217611 A JP 2009217611A
- Authority
- JP
- Japan
- Prior art keywords
- response
- search
- data
- attribute
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000002452 interceptive effect Effects 0.000 title abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 247
- 238000004364 calculation method Methods 0.000 claims description 54
- 238000013500 data storage Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 29
- 230000003993 interaction Effects 0.000 claims description 23
- 230000009467 reduction Effects 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 82
- 230000008569 process Effects 0.000 description 25
- 230000014509 gene expression Effects 0.000 description 17
- 230000007423 decrease Effects 0.000 description 12
- 101000786631 Homo sapiens Protein SYS1 homolog Proteins 0.000 description 4
- 102100025575 Protein SYS1 homolog Human genes 0.000 description 4
- 101100018857 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) IMH1 gene Proteins 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】検索データの個数の減少が最も期待できる応答を選択可能な音声対話装置を提供する。
【解決手段】音声入力に対し音声認識を行って、1つの属性における認識候補を認識対象語彙から得る音声認識部101と;認識候補を用いて検索条件を更新しつつ、当該検索条件に該当するデータをデータ記憶部から検索して検索結果を出力する検索部103と;検索条件及び検索結果に基づいて、未入力の属性値の入力を要求する第1の応答及び入力済みの属性値の真偽を確認する第2の応答に対する音声入力による絞り込み検索後の検索結果に含まれるデータの推定個数により第1の応答及び第2の応答に関するコストを算出する算出部106と;コストの最も小さい応答を選択し、ユーザに提示する選択部107と;を具備する。
【選択図】 図1
【解決手段】音声入力に対し音声認識を行って、1つの属性における認識候補を認識対象語彙から得る音声認識部101と;認識候補を用いて検索条件を更新しつつ、当該検索条件に該当するデータをデータ記憶部から検索して検索結果を出力する検索部103と;検索条件及び検索結果に基づいて、未入力の属性値の入力を要求する第1の応答及び入力済みの属性値の真偽を確認する第2の応答に対する音声入力による絞り込み検索後の検索結果に含まれるデータの推定個数により第1の応答及び第2の応答に関するコストを算出する算出部106と;コストの最も小さい応答を選択し、ユーザに提示する選択部107と;を具備する。
【選択図】 図1
Description
本発明は、対話に沿って、ユーザの所望データをデータベースから絞り込み検索する音声対話装置に関する。
従来、音声対話装置は、ユーザの音声入力についての音声認識結果を利用して、ユーザが所望するデータをデータベースから検索する。具体的には、データベースには、データと当該データの複数の属性に関わる属性値が関連付けて記憶されている。音声対話装置は、ある属性に関わる属性値の入力をユーザに求める応答を提示し、当該応答に対するユーザの音声入力についての音声認識結果を属性値として持つデータをデータベースから検索する。
特許文献1には、音声認識の精度不足を補うために、音声認識結果を1つに絞らず、複数の認識候補を利用して、以下の手順でデータを検索する音声対話装置が記載されている。まず、第1の属性に関わる属性値の入力をユーザに求める応答を提示し、当該応答に対するユーザの音声入力についての第1の音声認識結果を得る。次に、第2の属性に関わる属性値の入力をユーザに求める応答を提示し、当該応答に対するユーザの音声入力についての第2の音声認識結果を得る。尚、第1及び第2の音声認識結果は、前述したようにいずれも複数の認識候補を含んでいる。
次に、上記第1及び第2の音声認識結果を統合して検索条件を生成し、所望データをデータベースから検索する。即ち、第1の属性に関わる属性値が第1の音声認識結果の候補のいずれかであって、第2の属性に関わる属性値が第2の音声認識結果の候補のいずれかであるようなデータを、データベースから検索する。検索結果に含まれるデータ(以下、検索データと称する)の個数が、所定数以下になれば対話を終了し、検索データを所望データとしてユーザに提示する。一方、検索データの個数が所定数を超えていれば、他の属性に関わる属性値の入力をユーザに求める応答を提示し、当該応答に対するユーザの音声入力の音声認識結果の統合及び検索を繰り返す。
特許3420965号公報
特許文献1記載の音声対話装置は、検索データの個数が所定数以下になるまでユーザに属性値の入力を求める応答を提示している。しかしながら、属性値の入力を求める応答が、検索データの個数を効果的に減少させる応答であるとは限らない。例えば、ユーザに入力を求める属性に関わる属性値の分布が均等でない場合、検索データの個数の大幅な減少は期待できない。即ち、上記応答に対するユーザの音声入力についての音声認識結果に含まれる認識候補が、データ数の多い属性値に偏れば、検索データはほとんど減少しない。従って、属性値の入力を求める応答を繰り返すだけでは、所望データを提示するまでの、ユーザの入力回数及び対話ターン数が必要以上に増加するおそれがある。入力回数や対話ターン数が増加すれば、ユーザの満足度は低下してしまう。
一方、既に得られている音声認識結果の認識候補の1つが正しい属性値(即ち、ユーザが実際に音声入力した属性値)か否かの確認をユーザに求める応答が、検索データの個数を効果的に減少させる応答となる場合がある。例えば、データ数の多い属性値がユーザに否定されれば、当該属性値を持つデータは検索データから除外されるため、検索データの個数は効果的に減少する。また、データ数の少ない属性値がユーザに肯定されれば、当該属性値を持たないデータは検索データから除外されるため、検索データの個数は効果的に減少する。
前述したように、従来の音声対話装置がユーザに提示する応答は、検索データの個数の減少が最も期待できる応答であるとは限らない。従って、音声対話装置が所望データを提示するまでの、ユーザの入力回数や対話ターン数が必要以上に増加するおそれがある。
従って、本発明は、検索データの個数の減少が最も期待できる応答を選択可能な音声対話装置を提供することを目的とする。
本発明の一態様に係る音声対話装置は、データと当該データの複数の属性に関わる属性値とが関連付けて記憶されているデータ記憶部から、応答の提示と当該応答に対するユーザの音声入力との繰り返しによって絞り込まれた属性値の集合である検索条件を用いて所望データを検索する音声対話装置において、前記音声入力に対し音声認識を行って、1つの属性における認識候補を認識対象語彙から得る音声認識部と;前記認識候補を用いて前記検索条件を更新しつつ、当該検索条件に該当するデータを前記データ記憶部から検索して検索結果を出力する検索部と;前記検索条件及び前記検索結果に基づいて、未入力の属性値の入力を要求する第1の応答及び入力済みの属性値の真偽を確認する第2の応答に対する音声入力による絞り込み検索後の検索結果に含まれるデータの推定個数により前記第1の応答及び第2の応答に関するコストを算出する算出部と;前記コストの最も小さい応答を選択し、前記ユーザに提示する選択部と;を具備する。
本発明によれば、検索データの個数の減少が最も期待できる応答を選択可能な音声対話装置を提供できる。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように、本発明の第1の実施形態に係る音声対話装置は、音声認識部101、音声認識辞書記憶部102、データ検索部103、データ記憶部104、対話状態管理部105、コスト算出部106、応答選択部107、出力部108及び語彙記憶部110を有する。
(第1の実施形態)
図1に示すように、本発明の第1の実施形態に係る音声対話装置は、音声認識部101、音声認識辞書記憶部102、データ検索部103、データ記憶部104、対話状態管理部105、コスト算出部106、応答選択部107、出力部108及び語彙記憶部110を有する。
音声認識部101は、ユーザからの音声入力が、後述する音声認識辞書記憶部102に記憶されている音声認識辞書に登録された認識対象語彙のいずれかであるかを認識する。具体的には、音声認識部101は認識対象語彙毎に、音声入力としての尤もらしさを示すスコア(信頼度)を算出する。即ち、スコアが高いほど、認識対象語彙は音声入力に近い。音声認識部101は、スコアが一定以上の認識対象語彙を、認識候補として当該スコアと共にデータ検索部103に渡す。尚、スコアが一定以上の認識対象語彙が存在しなければ、上記音声入力は有効でないため、後述する出力部108によって再度、ユーザに対して音声入力を求める応答が提示される。また、音声認識部101は、スコアではなく、当該スコアの降順に認識候補を並べて得られる順位をデータ検索部103に渡してもよい。音声認識部101がスコアに換えて順位をデータ検索部103に渡す場合、データ検索部103は当該順位に基づいて認識候補の信頼度を推定するものとする。
音声認識辞書記憶部102は、認識対象語彙が登録される音声認識辞書を記憶する。音声認識辞書は、後述する応答選択部107によって選択される応答に従って、適宜更新される。例えば、(A)未だ入力されていない属性に関わる属性値の入力を要求する第1の応答が選択されれば、当該属性に関わる属性値を示す語彙を認識対象語彙として音声認識辞書が更新される。また、(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答が選択されれば、肯定または否定を示す語彙を認識対象語彙として音声認識辞書が更新される。
データ検索部103は、後述する対話状態管理部105に保存されている検索条件を、音声認識部101からの認識候補及びスコアを用いて更新する。ここで、検索条件とは、各属性において、応答の提示と当該応答に対するユーザの音声入力との繰り返しによって絞り込まれた属性値の集合である。ある属性において検索条件に含まれる属性値の1つは、当該属性においてユーザの音声入力を示す属性値である可能性が高い。データ検索部103は、更新された検索条件に含まれる属性値を持つデータをデータ記憶部104から検索し、当該データの集合である検索結果を得る。具体的には、データ検索部103は、各属性において検索条件に含まれる属性値のいずれか1つを持つデータを検索する。即ち、複数の属性において検索条件が指定されていれば、データ検索部103は指定されている全ての属性において検索条件に含まれる属性値のいずれか1つを持つデータを検索する。データ検索部103は、上記検索結果を用いて対話状態管理部105に保存されている検索結果を更新すると共に、当該検索結果のデータに関連付けられていない属性値を検索条件から取り除く。検索条件から不要な属性値を取り除くことにより、検索条件を簡単化できる。尚、データ検索部103は、検索結果の更新の際に不要な属性値を取り除く処理を省略してもよい。例えば、ユーザからの音声入力がデータ記憶部104における記憶内容と矛盾する場合に検索結果が空となるので、より早い段階で検索失敗を検出できる。
データ検索部103は、直前に出力部108から提示された応答が、(A)未だ入力されていない属性に関わる属性値の入力を要求する第1の応答であれば、音声認識部101からの認識候補を上記属性に関わる属性値として当該認識候補のスコアと共に、追加することにより、対話状態管理部105に保存されている検索条件を更新する。
データ検索部103は、直前に出力部108から提示された応答が、(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答であれば、音声認識部101からの認識候補をスコアに応じて肯定または否定として扱う。具体的には、データ検索部103は、音声認識部101からの認識候補が肯定を示す場合には、上記属性値を承認済み属性値として維持すると共に、当該承認済み属性値以外の属性値を削除することにより、対話状態管理部105に保存されている検索条件を更新する。一方、データ検索部103は、音声認識部101からの認識候補が否定を示す場合には、上記属性値のみを削除することにより、対話状態管理部105に保存されている検索条件を更新する。
データ記憶部104には、データと複数の属性に関わる属性値とが関連付けて記憶されている。図3に示すように、データ記憶部104には、各データの属性値の名称が参照可能に記憶されてもよい。
対話状態管理部105は、対話の進行状況を管理する。具体的には、対話状態管理部105は、現在の対話の進行状況として検索条件及び検索結果を保存しており、上記検索結果に基づき、対話を続行または終了させる。尚、ユーザと図1の音声対話装置の対話開始時には、検索条件は空であり、検索結果としてデータ記憶部104に記憶される全てのデータが保存されているものとする。尚、後述するように、出力部108における応答文の提示に利用するため、上記検索結果には各属性及び属性値の名称が含まれてもよい。
対話状態管理部105は、データ検索部103によって検索結果が更新された結果、所望データが絞り込まれている、または、検索結果が空であると判断すれば対話を終了すべく、検索結果を出力部108に渡す。一方、対話が続行される場合には、対話状態管理部105は、現在の検索条件及び検索結果をコスト算出部106に渡す。
対話状態管理部105は、現在の検索データの個数が1つになっており、かつ、当該データを特定できる属性に関わる属性値が承認済みであれば所望データが絞り込まれていると判断する。データを特定できる属性とは、例えば当該データの名称などである。また、データ記憶部104において、属性値の種類が最も多い属性を、データを特定できる属性としてもよい。あるいは、対話状態管理部105は、単に現在の検索データの個数が所定数以下になっていれば、所望データが絞り込まれていると判断してもよい。
コスト算出部106は、対話状態管理部105からの検索条件及び検索結果に基づき、次にユーザに提示すべき応答のコストを算出する。尚、コスト算出部106によるコスト算出の詳細については、後述する。ここで、図1の音声対話装置がユーザに提示する応答は、前述した(A)未だ入力されていない属性に関わる属性値の入力を要求する第1の応答または(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答のいずれかであるとする。コスト算出部106は、データ記憶部104に記憶されている各属性について上記第1または第2の応答のコストを算出し、当該コストを応答選択部107に渡す。但し、コスト算出部106は、既に属性値が承認されている属性に関する応答のコストは算出しない。
応答選択部107は、コスト算出部106からのコストが最小となる応答を選択し、選択した応答を出力部108に通知する。尚、コストが最小となる応答が複数の場合には、応答選択部107は、属性値の種類の個数に基づいて応答を選択する。例えば、応答選択部107は、属性値の種類の個数が最大となる属性に関する応答を選択してもよい。あるいは、音声認識部101における音声認識精度を向上させるために、応答選択部107は、属性値の種類の個数が最小となる属性に関する応答を選択してもよい。
また、応答選択部107は、選択した応答に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新する。具体的には、前述したように、応答選択部107は、(A)未だ入力されていない属性に関わる属性値の入力を要求する第1の応答を選択すれば、当該属性に関わる属性値を示す語彙の語彙情報を認識対象語彙として語彙記憶部110から取得する。また、応答選択部107は、(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答を選択すれば、肯定または否定を示す語彙の語彙情報を認識対象語彙として語彙記憶部110から取得する。
尚、応答選択部107が語彙記憶部110から属性値を示す語彙の語彙情報を取得する場合、現在の検索データに関連付けられている属性値のみを対象としているものとする。しかしながら、音声認識部101における音声認識の精度が十分高ければ、データ記憶部104に記憶されている全ての属性値を取得対象としてもよい。全ての属性値を取得対象とすれば、ユーザからの音声入力がデータ記憶部104における記憶内容と矛盾する場合に検索結果が空となるので、より早い段階で検索失敗を検出できる。また、応答選択部107は、検索結果に関連付けられている属性値を取得対象とするか、全ての属性値を取得対象とするかを属性に応じて切り替えてもよい。例えば、属性値の種類が少ない属性であれば音声認識誤りが生じる可能性が低くなるため、全ての属性値を取得対象としても音声認識部101の音声認識精度が問題となりにくい。
出力部108は、例えば、ディスプレイやスピーカなどであって、映像の提示、テキストの提示、音声の出力またはこれらの組み合わせによってユーザに応答または検索結果を提示する。出力部108は応答選択部107によって選択された応答をユーザに提示する。例えば、(A)未だ入力されていない属性に関わる属性値の入力を要求する第1の応答が応答選択部107によって選択されれば、出力部108は「(属性)を入力してください。」等の応答文を提示する。尚、上記応答文中の括弧書きは変数を示しており、実際には“施設名”など属性に対応する名称が代入される。また、(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答が応答部107によって選択されれば、出力部108は「(属性値)ですか?」等の応答文を提示する。尚、上記応答文中の括弧書きは変数を示しており、実際には“アート美術館”など属性値に対応する名称が代入される。
尚、出力部108は、対話状態管理部105を介して各属性及び属性値に対応する名称を取得して、応答文の提示に利用してもよい。例えば、出力部108は、「“施設名”を入力してください。」や「“アート美術館”ですか?」等の応答文をユーザに提示できる。
また、出力部108は、対話状態管理部105から検索結果を受けると、当該検索結果をユーザに提示する。即ち、対話状態管理部105からの検索結果にデータが含まれていれば、出力部108は検索に成功した旨及び所望データとして当該データをユーザに提示する。一方、対話状態管理部105からの検索結果が空であれば、出力部108は検索に失敗した旨をユーザに提示する。
語彙記憶部110には、データ記憶部104に記憶されている属性値やユーザによる肯定及び否定の表現を示す語彙と、当該語彙の音声認識に必要とされる語彙情報(読み等)とが関連付けて記憶されている。尚、語彙記憶部110とデータ記憶部104は、統合されていてもよい。また、語彙記憶部110を設けず、データ記憶部104に記憶される属性値の表記から語彙情報が自動生成されてもよい。その他、属性値の表記またはIDから語彙情報が取得できる構成または処理が設けられてもよい。
次に、コスト算出部106におけるコスト算出について説明する。前述したように、コスト算出部106は、(A)未だ入力されていない属性に関わる属性値の入力を要求する第1の応答のコスト及び(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答のコストを算出する。この2種類のコストは、次のユーザの音声入力による絞り込み検索後の検索データの推定個数を示す。従って、コストが小さいほど、次のユーザの音声入力によってデータ個数の減少が期待できる。
[(A)未だ入力されていない属性ArgXにおける属性値の入力を要求する第1の応答のコスト:CAdd(ArgX)]
コストCAdd(ArgX)として、ユーザの音声入力による絞込み検索後の検索データ数の期待値を算出してもよい。しかしながら、上記期待値を算出するためには、ユーザの音声入力が音声認識部101において音声認識される結果、各属性値ArgX_iが認識候補として現われる確率が必要となる。上記確率は、ユーザの音声入力が不定であるため、予め求めることが困難である。
コストCAdd(ArgX)として、ユーザの音声入力による絞込み検索後の検索データ数の期待値を算出してもよい。しかしながら、上記期待値を算出するためには、ユーザの音声入力が音声認識部101において音声認識される結果、各属性値ArgX_iが認識候補として現われる確率が必要となる。上記確率は、ユーザの音声入力が不定であるため、予め求めることが困難である。
そこで、コスト算出部106は、ユーザの音声入力による絞込み検索後の検索データが持ち得る、属性ArgXにおける属性値ArgX_iの種類の数に基づき、上記絞込み検索後の検検索データの最大個数をコストCAdd(ArgX)として算出する。ここで、コストCAdd(ArgX)として、絞込み検索後の検索データの最大個数が算出されているが、例えば平均個数が算出されてもよい。しかしながら、データ数を減少できないリスクを考慮すれば、絞込み検索後の検索データの最大個数をコストCAdd(ArgX)として算出することが望ましい。
以下、絞込み検索後の検索データの最大個数をコストCAdd(ArgX)として算出する場合における、コスト算出部106の具体的な動作を述べる。ここで、対話状態管理部105からの検索データの属性ArgXにおける属性値ArgX_iの種類の数N(ArgX)は、ユーザの音声入力による絞込み検索によって、ceil(N(ArgX)*β)に減少すると過程する。尚、ceil()は小数点以下を切り上げる丸め関数を示し、βは属性値の種類の減少率(0<β=1)を示す。減少率βの定め方は、特に限定しないが、例えば音声認識部101における音声認識の精度に基づいて定めてよい。対話状態管理部105からの検索結果に含まれる、属性ArgXにおいて属性値ArgX_iを持つデータの個数をC(ArgX_i)とする。また、上記データ数C(ArgX_i)を降順に並べ、第j番目のデータ数をC_sort(ArgX,j)で表す。即ち、データ数C_sort(ArgX,1)は、データ数C(ArgX_i)の最大値を示す。コストCAdd(ArgX)は、第1番目から第ceil(N(ArgX)*β)番目までのデータ数C_sort(ArgX,j)の総和に等しく、次式で表される。
数式(1)において、「Σ(j=a→b)f(j)」は、「jの範囲がaからbまでのf(j)の総和」を表す。以上説明したように、コスト算出部106は、絞込み検索後の検索データが持ち得る、属性ArgXにおける属性値ArgX_iの種類の数ceil(N(ArgX)*β)に基づき、当該絞込み検索後の検索結果に含まれ得るデータの最大個数を算出する。従って、数式(1)によれば、音声認識部101によって得られる認識候補が、データ数の多い属性値に偏った場合(即ち、データ数が最も減少しない場合)の、絞り込み検索後の検索データの推定個数を算出できる。
一方、数式(1)では、対話状態管理部105からの検索データの総数が多い場合に、C_sort(ArgX,j)の算出が困難となる可能性がある。このような場合、コスト算出部106は、各属性値ArgX_iを持つデータの数は一様に分布していると仮定して、数式(1)の代わりに、「CAdd(ArgX) = TOTAL*β」(この式を数式(1)’とする)に従ってコストCAdd(ArgX)を算出してもよい。数式(1)’においてTOTALは、対話状態管理部105からの検索データの総数を示す。尚、このような場合は、例えばデータ総数TOTALの閾値処理などによって検出できる。また、数式(1)’を用いると、属性ArgXと異なる属性ArgYに関するコストCAdd(ArgY)が、コストCAdd(ArgX)と等しくなってしまうが、後述する(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答のコストとの比較は可能である。
[(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答のコスト:CConf(ArgX)]
コストCConf(ArgX)は、既に入力されている属性ArgXにおける最上位の属性値ArgX_topが、ユーザが音声入力した属性値であるか否かを確認するコストとする。ここで、最上位の属性値ArgX_topとは、属性ArgXに関して音声認識部101によって付与されたスコアが最も高い属性値である。即ち、最上位の属性値ArgX_topは、ユーザが音声入力した属性値である可能性が最も高い。コストCConf(ArgX)は、属性値ArgX_topが、ユーザが入力した属性値であるか否かを確認した場合の、絞込み検索後の検索データ数の期待値であり、次式で表される。
コストCConf(ArgX)は、既に入力されている属性ArgXにおける最上位の属性値ArgX_topが、ユーザが音声入力した属性値であるか否かを確認するコストとする。ここで、最上位の属性値ArgX_topとは、属性ArgXに関して音声認識部101によって付与されたスコアが最も高い属性値である。即ち、最上位の属性値ArgX_topは、ユーザが音声入力した属性値である可能性が最も高い。コストCConf(ArgX)は、属性値ArgX_topが、ユーザが入力した属性値であるか否かを確認した場合の、絞込み検索後の検索データ数の期待値であり、次式で表される。
数式(2)において、pは属性値ArgX_topの音声入力としての信頼度である(0≦p≦1)。pは、対話状態管理部105に保存されている属性値ArgX_topのスコアから算出できる。例えば、前述したように、音声認識部101によって付与されるスコアが音声入力としての尤もらしさを表す信頼度であれば、コスト算出部106は当該スコアをそのままpとして利用する。また、コスト算出部106は、ユーザとの対話を始める前に、音声認識部101によって付与されるスコアと実際の正解率のデータを収集して対応関係を求め、当該対応関係に基づいてスコアからpを算出してもよい。
以下、図2に示すフローチャートを用いて、図1の音声対話装置の動作の一例について説明する。
ユーザと、図1の音声対話装置の対話が開始すると、処理はステップS201に進む。ステップS201では、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する。応答選択部107は選択した応答に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答を出力部108に渡す。
ユーザと、図1の音声対話装置の対話が開始すると、処理はステップS201に進む。ステップS201では、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する。応答選択部107は選択した応答に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答を出力部108に渡す。
次に、出力部108は、ステップS201において選択された応答をユーザに提示する(ステップS202)。次に、ステップS202において提示された応答に対するユーザの音声入力が、図示しないマイクロホンなどによって受理される(ステップS203)。受理された音声入力は、音声認識部101によって音声認識される。音声認識部101による音声認識の結果、一定以上のスコアが得られた認識候補が当該スコアと共にデータ検索部103に渡される。
尚、ステップS203において、タイマ処理などによって一定時間ユーザからの音声入力されていないことを検出した場合に、何らかの入力があったものとみなして処理を進めてもよい。例えば、ステップS202で提示された応答が、前述した第2の応答であれば、出力部108が「(ArgX_top)で絞り込みます」等のテキストをユーザに表示し、これに対するユーザの音声入力が無ければ、肯定を示す認識候補がデータ検索部103に渡されるようにしてよい。
次に、データ検索部103は、対話状態管理部105に保存されている検索条件を、ステップS203において得られた認識候補及びスコアを用いて更新し、更新された検索条件を用いて、データ記憶部104から所望データを検索する(ステップS204)。データ検索部103は、得られた検索結果を用いて対話状態管理部105に保存されている検索結果を更新する。
次に、対話状態管理部105は、ステップS204において得られた検索結果に基づき、対話を終了するか、または、続行するかを決定する(ステップS205)。ステップS205において対話を続行すると決定されれば、処理はステップS201に戻る。一方、ステップS205において対話を終了すると決定されれば、検索結果が出力部108からユーザに提示され、処理が終了する。
以下、図7に示す対話例に沿って、図1の音声対話装置の具体的な動作について詳細に説明する。尚、以下の説明では、施設データベースを検索対象としているが、本実施形態に係る音声対話装置が検索対象とするデータベースはこれに限られない。具体的には、データと各属性に関わる属性値とが関連付けて記憶されているデータベースが検索対象となり得る。例えば、データと当該データの属性「商品名」及び「売り場」が関連付けて記憶されているデータベースや、データと当該データの属性「従業員名」及び「部署・電話番号」が関連付けて記憶されているデータベースを検索対象としてもよい。
図7において、「SYS」は出力部108によって提示される応答を表し、「USR」は上記応答に対するユーザの音声入力を表すものとし、ユーザの所望データは、「A県○○市にある美術館「アート美術館」」であるとする。また、以後の説明において音声認識部101が算出するスコアは、各認識候補の音声入力としての尤もらしさを表すpの百分率表記であるとし、前述した減少率β=0.03とする。
データ記憶部104は、図3に示す施設検索用データベースであるものとし、20000件のデータと、施設名(20000種類)、都道府県名(47種類)、市区町村名(4000週類)及びジャンル(80種類)とが当該データの属性として関連付けて記憶されているものとする。尚、図3において、各データはデータIDによって識別されるものとし、属性「施設名」はデータを特定できる属性であるとする。
語彙記憶部110には、図10に示すように、上記データ記憶部104に記憶される各属性に関わる属性値やユーザによる肯定及び否定の表現を示す語彙と、当該語彙の音声認識に必要とされる語彙情報(読み)とが関連付けて記憶されている。
音声対話装置とユーザとの対話を開始すると、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する(ステップS201)。コスト算出部106は、「属性「施設名」における属性値の入力を要求する応答のコストCAdd(施設名)」、「属性「都道府県名」における属性値の入力を要求する応答のコストCAdd(都道府県名)」、「属性「市区町村名」における属性値の入力を要求する応答のコストCAdd(市区町村名)」及び「属性「ジャンル」における属性値の入力を要求する応答のコストCAdd(ジャンル)」を算出する。
しかしながら、初期状態ではデータの数が多すぎる(20000件)ため、コスト算出部106は、前述した数式(1)’に基づいてコストCAdd()を算出する。従って、4つのコストCAdd(施設名)、CAdd(都道府県名)、CAdd(市区町村名)及びCAdd(ジャンル)は等しく(20000*0.03 = 600)なり、応答選択部107は属性値の種類が最も多い属性「施設名」を優先し、「属性「施設名」における属性値の入力を要求する応答」をSYS1として選択する。応答選択部107は選択した応答SYS1に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答SYS1を出力部108に渡す。具体的には、応答選択部107は、語彙記憶部110から属性「施設名」における属性値をキーとして語彙を検索し、当該語彙の語彙情報(読み)を認識対象語彙として取得し、音声認識辞書記憶部102に記憶されている音声認識辞書を更新する。
次に、出力部108は、ステップS201において選択された応答SYS1をユーザに提示する(ステップS202)。次に、図示しないマイクロホンによって、ユーザからの音声入力USR2が受理される(ステップS203)。受理された音声入力USR2は、音声認識部101によって音声認識される。音声認識部101による音声認識の結果、一定以上のスコアが得られた認識候補が当該スコアと共にデータ検索部103に渡される。
次に、データ検索部103は、対話状態管理部105に保存されている検索条件を、ステップS203において得られた認識候補及びスコアを用いて図4Aに示すように更新し、更新された検索条件を用いて、データ記憶部104から所望データを検索する(ステップS204)。データ検索部103は、得られた検索結果を用いて対話状態管理部105に保存されている検索結果を図4B(500個のデータが含まれるものとする)に示すように更新する。尚、以下の説明では、データと当該データの属性値を把握し易いように、「データID(属性名=属性値、・・・)」の形式で検索結果を図示するものとする。
次に、ステップS204において得られた検索データの個数が500個であるため、対話状態管理部105は対話の続行を決定し(ステップS205)、処理はステップS201に戻る。
ステップS201では、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する。既に、属性「施設名」における属性値が入力されている。従って、コスト算出部106は、「属性「施設名」における1つの属性値の真偽を確認する応答のコストCConf(施設名)」、「属性「都道府県名」における属性値の入力を要求する応答のコストCAdd(都道府県名)」、「属性「市区町村名」における属性値の入力を要求する応答のコストCAdd(市区町村名)」及び「属性「ジャンル」における属性値の入力を要求する応答のコストCAdd(ジャンル)」を算出する。
図4Bに示す検索結果から以下のような情報が得られたとする。
C_sort(都道府県名,n1) = 11 (n1 = 1-30),C_sort(都道府県名,n2) = 10 (n2 = 31-47)
C_sort(市区町村名,1) = 3,C_sort(市区町村名,n1) = 1 (n1 = 2-498)
C_sort(ジャンル,n1) = 7 (n1 = 1-20),C_sort(ジャンル,n2) = 6 (n2 = 21-80)
N(都道府県名) = 47,ceil(N(都道府県名)*β(= 0.03)) = 2
N(市区町村名) = 498,ceil(N(市区町村名)*0.03) = 15
N(ジャンル) = 80,ceil(N(ジャンル)*0.03) = 3
C(ハート美術館) = 1 (属性値「ハート美術館」は、図4Aに示すように、属性「施設名」における最上位の属性値である。)
コスト算出部106は以上の情報を用いて、各応答のコストを算出する。
C_sort(都道府県名,n1) = 11 (n1 = 1-30),C_sort(都道府県名,n2) = 10 (n2 = 31-47)
C_sort(市区町村名,1) = 3,C_sort(市区町村名,n1) = 1 (n1 = 2-498)
C_sort(ジャンル,n1) = 7 (n1 = 1-20),C_sort(ジャンル,n2) = 6 (n2 = 21-80)
N(都道府県名) = 47,ceil(N(都道府県名)*β(= 0.03)) = 2
N(市区町村名) = 498,ceil(N(市区町村名)*0.03) = 15
N(ジャンル) = 80,ceil(N(ジャンル)*0.03) = 3
C(ハート美術館) = 1 (属性値「ハート美術館」は、図4Aに示すように、属性「施設名」における最上位の属性値である。)
コスト算出部106は以上の情報を用いて、各応答のコストを算出する。
CConf(施設名) = 0.5*C(ハート美術館)+0.5*(500-C(ハート美術館)) = 0.5*1 + 0.5*499 = 250
CAdd(都道府県名) = Σ(j=1→2)C_sort(都道府県名,j) = 11+11 = 22
CAdd(市区町村名) = Σ(j=1→15)C_sort(市区町村名,j) = 3+1+…+1 = 17
CAdd(ジャンル) = Σ(j=1→3)C_sort(ジャンル,j) = 7+7+7 = 21
応答選択部107は、各応答コストCConf(施設名)、CAdd(都道府県名)、CAdd(市区町村名)及びCAdd(ジャンル)のうち、コストが最小である、「属性「市区町村名」における属性値の入力を要求する応答」をSYS3として選択する。応答選択部107は選択した応答SYS3に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答SYS3を出力部108に渡す。具体的には、応答選択部107は、語彙記憶部110から属性「市区町村名」における属性値をキーとして語彙を検索し、当該語彙の語彙情報(読み)を認識対象語彙として取得し、音声認識辞書記憶部102に記憶されている音声認識辞書を更新する。
CAdd(都道府県名) = Σ(j=1→2)C_sort(都道府県名,j) = 11+11 = 22
CAdd(市区町村名) = Σ(j=1→15)C_sort(市区町村名,j) = 3+1+…+1 = 17
CAdd(ジャンル) = Σ(j=1→3)C_sort(ジャンル,j) = 7+7+7 = 21
応答選択部107は、各応答コストCConf(施設名)、CAdd(都道府県名)、CAdd(市区町村名)及びCAdd(ジャンル)のうち、コストが最小である、「属性「市区町村名」における属性値の入力を要求する応答」をSYS3として選択する。応答選択部107は選択した応答SYS3に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答SYS3を出力部108に渡す。具体的には、応答選択部107は、語彙記憶部110から属性「市区町村名」における属性値をキーとして語彙を検索し、当該語彙の語彙情報(読み)を認識対象語彙として取得し、音声認識辞書記憶部102に記憶されている音声認識辞書を更新する。
次に、出力部108は、ステップS201において選択された応答SYS3をユーザに提示する(ステップS202)。次に、図示しないマイクロホンによって、ユーザからの音声入力USR4が受理される(ステップS203)。受理された音声入力USR4は、音声認識部101によって音声認識される。音声認識部101による音声認識の結果、一定以上のスコアが得られた認識候補が当該スコアと共にデータ検索部103に渡される。
次に、データ検索部103は、対話状態管理部105に保存されている検索条件を、ステップS203において得られた認識候補及びスコアを用いて図5Aに示すように更新し、更新された検索条件を用いて、データ記憶部104から所望データを検索する(ステップS204)。データ検索部103は、得られた検索結果を用いて対話状態管理部105に保存されている検索結果を図5Bに示すように更新すると共に、検索条件から図6に示すように不要な属性値を取り除く。
次に、ステップS204において得られた検索データの個数が5個であるため、対話状態管理部105は対話の続行を決定し(ステップS205)、処理はステップS201に戻る。
ステップS201では、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する。既に、属性「施設名」及び「市区町村名」における属性値が入力されている。従って、コスト算出部106は、「属性「施設名」における1つの属性値の真偽を確認する応答のコストCConf(施設名)」、「属性「都道府県名」における属性値の入力を要求する応答のコストCAdd(都道府県名)」、「属性「市区町村名」における1つの属性値の真偽を確認する応答のコストCConf(市区町村名)」及び「属性「ジャンル」における属性値の入力を要求する応答のコストCAdd(ジャンル)」を算出する。
図6に示す検索結果から以下のような情報が得られたとする。
C_sort(都道府県名,1) = 3 ,C_sort(都道府県名,n1) = 1 (n1 = 2,3)
C_sort(ジャンル,n1) = 2 (n1 = 1,2),C_sort(ジャンル,3) = 1
N(都道府県名) = 3,ceil(N(都道府県名)*β(= 0.03)) = 1
N(ジャンル) = 3,ceil(N(ジャンル)*0.03) = 1
C(ハート美術館) = 1
C(○○市) = 1
コスト算出部106はこれらの情報を用いて各応答のコストを算出する。
CConf(施設名) = 0.5*C(ハート美術館)+0.5*(5-C(ハート美術館)) = 0.5*1+0.5*4 = 2.5
CAdd(都道府県名) = Σ(j=1→1)C_sort(都道府県名,j) = 3
CConf(市区町村名) = 0.85*C(○○市)+0.15*(5-C(○○市)) = 0.85*1+0.15*4 = 1.45
CAdd(ジャンル) =Σ(j=1→1)C_sort(ジャンル,j) = 2
応答選択部107は、各応答コストCConf(施設名)、CAdd(都道府県名)、CConf(市区町村名)及びCAdd(ジャンル)のうち、コストが最小である、「属性「市区町村名」における1つの属性値「○○市」の真偽を確認する応答」をSYS5として選択する。応答選択部107は選択した応答SYS5に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答SYS5を出力部108に渡す。具体的には、応答選択部107は、語彙記憶部110から肯定及び否定の表現を示す語彙(例えば、「はい」及び「いいえ」)を検索し、当該語彙の語彙情報(読み)を認識対象語彙として取得し、音声認識辞書記憶部102に記憶されている音声認識辞書を更新する。
C_sort(都道府県名,1) = 3 ,C_sort(都道府県名,n1) = 1 (n1 = 2,3)
C_sort(ジャンル,n1) = 2 (n1 = 1,2),C_sort(ジャンル,3) = 1
N(都道府県名) = 3,ceil(N(都道府県名)*β(= 0.03)) = 1
N(ジャンル) = 3,ceil(N(ジャンル)*0.03) = 1
C(ハート美術館) = 1
C(○○市) = 1
コスト算出部106はこれらの情報を用いて各応答のコストを算出する。
CConf(施設名) = 0.5*C(ハート美術館)+0.5*(5-C(ハート美術館)) = 0.5*1+0.5*4 = 2.5
CAdd(都道府県名) = Σ(j=1→1)C_sort(都道府県名,j) = 3
CConf(市区町村名) = 0.85*C(○○市)+0.15*(5-C(○○市)) = 0.85*1+0.15*4 = 1.45
CAdd(ジャンル) =Σ(j=1→1)C_sort(ジャンル,j) = 2
応答選択部107は、各応答コストCConf(施設名)、CAdd(都道府県名)、CConf(市区町村名)及びCAdd(ジャンル)のうち、コストが最小である、「属性「市区町村名」における1つの属性値「○○市」の真偽を確認する応答」をSYS5として選択する。応答選択部107は選択した応答SYS5に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答SYS5を出力部108に渡す。具体的には、応答選択部107は、語彙記憶部110から肯定及び否定の表現を示す語彙(例えば、「はい」及び「いいえ」)を検索し、当該語彙の語彙情報(読み)を認識対象語彙として取得し、音声認識辞書記憶部102に記憶されている音声認識辞書を更新する。
次に、出力部108は、ステップS201において選択された応答SYS5をユーザに提示する(ステップS202)。次に、図示しないマイクロホンによって、ユーザからの音声入力USR6が受理される(ステップS203)。受理された音声入力USR6は、音声認識部101によって音声認識される。音声認識部101による音声認識の結果、一定以上のスコアが得られた認識候補が当該スコアと共にデータ検索部103に渡される。ここで、音声入力USR6は、否定の表現のスコアよりも肯定の表現のスコアが高く、データ検索部103において肯定の表現として扱われるものとする。
次に、データ検索部103は、対話状態管理部105に保存されている検索条件を、ステップS203において得られた認識候補を用いて更新し、更新された検索条件を用いて、データ記憶部104から所望データを検索する(ステップS204)。ここで、データ検索部103は、上記音声入力USR6を肯定の表現として扱うため、対話状態管理部105に保存されている検索条件の属性「市区町村名」において、属性値「○○市」のみを承認済み属性値として維持すると共に、当該承認済み属性値以外の属性値「×○市」及び「□○市」を削除する。データ検索部103は、得られた検索結果を用いて対話状態管理部105に保存されている検索結果を図8Aに示すように更新すると共に、検索条件から図8Bに示すように不要な属性値を取り除く。
次に、ステップS204において得られた検索データの個数が1個であるが、データを特定できる属性「施設名」における属性値が承認済みでないので、対話状態管理部105は対話の続行を決定し(ステップS205)、処理はステップS201に戻る。
ステップS201では、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する。既に、属性「施設名」及び「市区町村名」における属性値が入力されている。また、属性「市区町村名」における属性値「○○市」が承認済みである。従って、コスト算出部106は、「属性「施設名」における1つの属性値の真偽を確認する応答のコストCConf(施設名)」、「属性「都道府県名」における属性値の入力を要求する応答のコストCAdd(都道府県名)」及び「属性「ジャンル」における属性値の入力を要求する応答のコストCAdd(ジャンル)」を算出する。
図8Bに示す検索結果から以下のような情報が得られたとする。
C_sort(都道府県名,1) = 1
C_sort(ジャンル,1) = 1
N(都道府県名) = 1,ceil(N(都道府県名)*β(= 0.03)) = 1
N(ジャンル) = 1,ceil(N(ジャンル)*0.03) = 1
C(アート美術館) = 1
コスト算出部106はこれらの情報を用いて各応答のコストを算出する。
CConf(施設名) = 0.4*C(アート美術館)+0.6*(1-C(アート美術館)) = 0.4*1+0.6*0 = 0.4
CAdd(都道府県名) = Σ(j=1→1)C_sort(都道府県名,j) = 1
CAdd(ジャンル) =Σ(j=1→1)C_sort(ジャンル,j) = 1
応答選択部107は、各応答コストCConf(施設名)、CAdd(都道府県名)及びCAdd(ジャンル)のうち、コストが最小である、「属性「施設名」における1つの属性値「アート美術館」の真偽を確認する応答」をSYS7として選択する。応答選択部107は選択した応答SYS7に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答SYS7を出力部108に渡す。具体的には、応答選択部107は、語彙記憶部110から肯定及び否定の表現を示す語彙(例えば、「はい」及び「いいえ」)を検索し、当該語彙の語彙情報(読み)を認識対象語彙として取得し、音声認識辞書記憶部102に記憶されている音声認識辞書を更新する。
C_sort(都道府県名,1) = 1
C_sort(ジャンル,1) = 1
N(都道府県名) = 1,ceil(N(都道府県名)*β(= 0.03)) = 1
N(ジャンル) = 1,ceil(N(ジャンル)*0.03) = 1
C(アート美術館) = 1
コスト算出部106はこれらの情報を用いて各応答のコストを算出する。
CConf(施設名) = 0.4*C(アート美術館)+0.6*(1-C(アート美術館)) = 0.4*1+0.6*0 = 0.4
CAdd(都道府県名) = Σ(j=1→1)C_sort(都道府県名,j) = 1
CAdd(ジャンル) =Σ(j=1→1)C_sort(ジャンル,j) = 1
応答選択部107は、各応答コストCConf(施設名)、CAdd(都道府県名)及びCAdd(ジャンル)のうち、コストが最小である、「属性「施設名」における1つの属性値「アート美術館」の真偽を確認する応答」をSYS7として選択する。応答選択部107は選択した応答SYS7に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答SYS7を出力部108に渡す。具体的には、応答選択部107は、語彙記憶部110から肯定及び否定の表現を示す語彙(例えば、「はい」及び「いいえ」)を検索し、当該語彙の語彙情報(読み)を認識対象語彙として取得し、音声認識辞書記憶部102に記憶されている音声認識辞書を更新する。
次に、出力部108は、ステップS201において選択された応答SYS7をユーザに提示する(ステップS202)。次に、図示しないマイクロホンによって、ユーザからの音声入力USR8が受理される(ステップS203)。受理された音声入力USR8は、音声認識部101によって音声認識される。音声認識部101による音声認識の結果、一定以上のスコアが得られた認識候補が当該スコアと共にデータ検索部103に渡される。ここで、音声入力USR8は、否定の表現のスコアよりも肯定の表現のスコアが高く、データ検索部103において肯定の表現として扱われるものとする。
次に、データ検索部103は、対話状態管理部105に保存されている検索条件を、ステップS203において得られた認識候補を用いて更新し、更新された検索条件を用いて、データ記憶部104から所望データを検索する(ステップS204)。ここで、データ検索部103は、上記音声入力USR8を肯定の表現として扱うため、図9Aに示すように対話状態管理部105に保存されている検索条件の属性「施設名」において、属性値「アート美術館」のみを承認済み属性値として維持する。データ検索部103は、得られた検索結果を用いて対話状態管理部105に保存されている検索結果を図9Bに示すように更新する。
次に、ステップS204において得られた検索データの個数が1個であり、かつ、データを特定できる属性「施設名」における属性値「アート美術館」が承認済みであるので、対話状態管理部105は対話の終了を決定し(ステップS205)、出力部108にユーザの所望データ「A県○○市にある美術館「アート美術館」」を渡す。出力部108は対話状態管理部105からの上記所望データ「A県○○市にある美術館「アート美術館」」をユーザに提示し、処理が終了する。
以上説明したように、本実施形態に係る音声対話装置は、(A)未だ入力されていない属性に関わる属性値の入力を要求する第1の応答のコスト及び(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答のコストを各属性に関して算出し、コストが最小となる応答を選択してユーザに提示している。従って、本実施形態に係る音声対話装置によれば、検索データの個数の減少が最も期待できる応答がユーザに提示されるので、ユーザの満足度の低下を抑えることができる。
(第2の実施形態)
本発明の第2の実施形態に係る音声対話装置は、前述した第1の実施形態に係る音声対話装置において、コスト算出部106の動作が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
本発明の第2の実施形態に係る音声対話装置は、前述した第1の実施形態に係る音声対話装置において、コスト算出部106の動作が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
前述した第1の実施形態では、コスト算出部106が算出するコストCConf(ArgX)は、最上位の属性値ArgX_topの真偽を確認する応答のコストを示していたが、本実施形態ではこれに限られない。即ち、コスト算出部106は、最上位以外の属性値についても真偽を確認する応答のコストを算出する。以下の説明では、第j位の属性値について真偽を確認する応答のコストをCConf(ArgX,j)で表現する。例えば、前述した第1の実施形態におけるCConf(ArgX)は、CConf(ArgX,1)で表現できる。上記コストCConf(ArgX,j)は数式(2)において、C(ArgX_top)を第j位の属性値を持つデータの個数、pを当該属性値の音声入力としての信頼度に夫々置き換えることにより算出できる。
本実施形態において、コスト算出部106が属性ArgXに関するコストCConf(ArgX,j)の算出対象とする属性値の種類が増えれば、検索データの個数の減少が最も期待できる応答が得られやすくなる。しかしながら、算出対象とする属性値の種類を増やすことは、コスト算出部106の計算量の増大をもたらす。従って、コスト算出部106において許容できる計算量に応じて、算出対象とする属性値を定める必要がある。尚、以下に示す方針I及びIIにおいて、検索データの個数の減少が最も期待できる応答が得られやすい属性値の定め方を述べる。
I. 上位の属性値を優先的にコスト算出の対象とする。
上位の属性値は、ユーザの音声入力としての信頼度が高いので、ユーザによる承認が期待できると共に、仮に承認されなかったとしても、上記属性値は実際の音声入力に近いため、ユーザに違和感を与えにくい。即ち、対話の流れが自然になる。一方、信頼度の低い属性値を確認する応答は、ユーザにとって予期しない応答となる可能性が高く、ユーザの満足度の低下を招きやすい。
上位の属性値は、ユーザの音声入力としての信頼度が高いので、ユーザによる承認が期待できると共に、仮に承認されなかったとしても、上記属性値は実際の音声入力に近いため、ユーザに違和感を与えにくい。即ち、対話の流れが自然になる。一方、信頼度の低い属性値を確認する応答は、ユーザにとって予期しない応答となる可能性が高く、ユーザの満足度の低下を招きやすい。
II. 検索データ数が多い属性値を優先的にコスト算出の対象とする。
検索データ数が多い属性値は、当該属性値のユーザの音声入力としての信頼度が低ければ、数式(2)より、コストが小さくなる。
検索データ数が多い属性値は、当該属性値のユーザの音声入力としての信頼度が低ければ、数式(2)より、コストが小さくなる。
以上説明したように、本実施形態に係る音声対話装置は、ある属性における1つの属性値の真偽を確認する応答のコストの算出対象を、当該属性における最上位の属性値に限らず、下位の属性値にまで拡張している。従って、本実施形態に係る音声対話装置によれば、検索データの個数の減少が最も期待できる応答が得られやすくなる。
(第3の実施形態)
本発明の第2の実施形態に係る音声対話装置は、前述した第1の実施形態に係る音声対話装置において、データ検索部103、コスト算出部106及び応答選択部107の動作が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
本発明の第2の実施形態に係る音声対話装置は、前述した第1の実施形態に係る音声対話装置において、データ検索部103、コスト算出部106及び応答選択部107の動作が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
前述した第1の実施形態では、コスト算出部106が算出するコストは、(A)未だ入力されていない属性ArgXにおける属性値の入力を要求する第1の応答のコストCAdd(ArgX)及び(B)既に入力されている属性ArgYにおける1つの属性値の真偽を確認する第2の応答のコストCConf(ArgY)の2種類である。本実施形態では、コスト算出部106は、(C)未だ入力されていない属性ArgXにおける1つの属性値の真偽を確認する第3の応答のコストCConf2(ArgX)を更に算出する。第3の応答は、属性値の真偽を確認するという点において第2の応答と同様であるため、第3の応答のコストCConf2(ArgX)は第2の応答のコストCConf(ArgY)と同様に次式で算出できる。
しかしながら、属性ArgXにおける属性値は、入力されていないため、最上位の属性値ArgX_top及び当該属性値ArgX_topの音声入力としての信頼度pは不定である。従って、コスト算出部106は、上記ArgX_top及びpの代用となるArgX_top'及びp'を、既に入力されている属性ArgYに関する検索条件を利用して導出する。
最上位の属性値ArgX_topの代用となる属性値ArgX_top'は、入力済みの属性ArgYにおける最上位の属性値ArgY_topが関連付けられているデータの、属性ArgXにおける属性値から導出される。
例えば、前述した図4Aに示す検索条件及び図4Bに示す検索結果を対話状態管理部105から受けると、コスト算出部106は、入力済みの属性「施設名」(ArgY)の最上位の属性値「ハート美術館」(ArgY_top)に関連付けられているデータを検索結果から抽出する。抽出されるデータは、ID=3のデータのみであるから、当該データと関連付けられている属性値に基づき、都道府県名「C県」、市区町村名「×○市」及びジャンル「美術館」が属性値ArgX_top'として夫々導出される。
尚、複数の属性に関わる属性値が既に入力されている場合や、ArgY_topに関連付けられているデータが複数の場合には、属性値ArgX_top'の候補が複数種類現れるおそれがある。このような場合には、コスト算出部106は、導出する属性値ArgX_top'を所定数に限ってもよい。
数式(4)において、p_ArgY_topは上記属性ArgYにおける最上位の属性値ArgY_topの音声入力としての信頼度を示し、N(ArgX_top'|ArgY_top)は、ArgY_topから導出されるArgX_top'の種類の数である。即ち、数式(4)は、属性値ArgY_topに対する各属性値ArgX_top'の依存の程度が不明であるから、各属性値ArgX_top’が均等に出現すると仮定している。コストCConf2(ArgX)は、属性値ArgY_topに対する属性値ArgX_top'の依存度が高い場合、即ち、属性値ArgY_topが決まれば、属性値ArgX_top'もほぼ決まるような場合に小さくなりやすい。
データ検索部103は、直前に出力部108から提示された応答が、(C)未だ入力されていない属性における1つの属性値の真偽を確認する第3の応答であれば、音声認識部101からの認識候補をスコアに応じて肯定または否定として扱う。具体的には、データ検索部103は、音声認識部101からの認識候補が肯定を示す場合には、上記属性値を承認済み属性値として追加することにより、対話状態管理部105に保存されている検索条件を更新する。一方、データ検索部103は、音声認識部101からの認識候補が否定を示す場合には、上記属性値を否定することにより対話状態管理部105に保存されている検索条件を更新する。尚、この場合、上記属性はコスト算出部106において未だ入力されていない属性として扱われるものとする。
以下、データ検索部103による検索条件の更新について、直前に出力部108から提示された応答が、(C)未だ入力されていない属性「都道府県名」における1つの属性値「C県」の真偽を確認する第3の応答である場合を例に具体的に説明する。データ検索部103は、音声認識部101からの認識候補が肯定を示す場合には、上記属性値を承認済み属性値として追加することにより、対話状態管理部105に保存されている検索条件を図11Aに示すように更新する。一方、データ検索部103は、音声認識部101からの認識候補が否定を示す場合には、上記属性値を否定することにより対話状態管理部105に保存されている検索条件を図11Bに示すように更新する。
応答選択部107は、(C)未だ入力されていない属性における1つの属性値の真偽を確認する第3の応答を選択する場合、(B)既に入力されている属性における1つの属性値の真偽を確認する第2の応答を選択する場合と同様に、肯定または否定を示す語彙の語彙情報を認識対象語彙として語彙記憶部110から取得する。
以上説明したように、本実施形態に係る音声対話装置は、未だ入力されていない属性における1つの属性値の真偽を確認する応答のコストを更に算出している。従って、本実施形態に係る音声対話装置によれば、検索データの個数の減少が最も期待できる応答が得られやすくなる。
尚、本実施形態において、未入力の属性ArgXの最上位の属性値ArgX_top'を既に入力されている属性ArgYの最上位の属性値ArgY_topに基づいて導出している。しかしながら、上記属性ArgXの最上位以外の属性値ArgX_j'を、上記属性ArgYにおける対応する属性値ArgY_jに基づいて導出してもよい。このような場合にも、前述した数式(3)及び数式(4)を利用できる。
(第4の実施形態)
本発明の第4の実施形態に係る音声対話装置は、前述した第1の実施形態に係る音声対話装置において、データ検索部103及び対話状態管理部105の動作が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
本発明の第4の実施形態に係る音声対話装置は、前述した第1の実施形態に係る音声対話装置において、データ検索部103及び対話状態管理部105の動作が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
本実施形態では、対話状態管理部105は、検索結果が空になっても対話を終了せず、データ検索部103に検索条件を修正させる。データ検索部103は、対話状態管理部105によって検索結果が空になったことを判断すると、承認済み属性値以外の全ての属性に関して検索条件を空にする。承認済み属性値を検索条件として維持することにより、全ての属性に関して検索条件を空にする場合に比べて、各属性において受理対象とする属性値の個数が減少するので、音声認識部101における認識対象語彙数が減少する。従って、ユーザが再度音声入力する際に、音声認識部101における音声認識精度が向上する。
尚、検索条件を一旦修正した後に、所定回数以上検索結果が空になれば、データ検索部103は承認済み属性値を含む全ての属性に関して検索条件を空にしてもよい。また、更に所定数以上検索結果が空になれば、対話状態管理部105は対話を終了すべく、検索結果を出力部108に渡してもよい。
以下、図12に示すフローチャートを用いて、本実施形態に係る音声対話装置の動作の一例について説明する。
ユーザと、本実施形態に係る音声対話装置の対話が開始すると、処理はステップS301に進む。ステップS301では、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する。応答選択部107は選択した応答に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答を出力部108に渡す。
ユーザと、本実施形態に係る音声対話装置の対話が開始すると、処理はステップS301に進む。ステップS301では、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する。応答選択部107は選択した応答に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答を出力部108に渡す。
次に、出力部108は、ステップS301において選択された応答をユーザに提示する(ステップS302)。次に、ステップS302において提示された応答に対するユーザの音声入力が、図示しないマイクロホンなどによって受理される(ステップS303)。受理された音声入力は、音声認識部101によって音声認識される。音声認識部101による音声認識の結果、一定以上のスコアが得られた認識候補が当該スコアと共にデータ検索部103に渡される。
次に、データ検索部103は、対話状態管理部105に保存されている検索条件を、ステップS303において得られた認識候補及びスコアを用いて更新し、更新された検索条件を用いて、データ記憶部104から所望データを検索する(ステップS304)。データ検索部103は、得られた検索結果を用いて対話状態管理部105に保存されている検索結果を更新する。
次に、対話状態管理部105は、ステップS304において得られた検索結果が空であるか否かを判断する(ステップS305)。検索結果が空であれば処理はステップS306に進み、そうでなければ処理はステップS307に進む。
次に、データ検索部103は、承認済み属性値以外の全ての属性に関して対話状態管理部105に保存されている検索条件を空にする(ステップS306)。尚、前述したように検索条件を一旦修正した後に、所定回数以上検索結果が空になれば、データ検索部103は承認済み属性値を含む全ての属性に関して検索条件を空にしてもよい。また、更に所定数以上検索結果が空になれば、対話状態管理部105は対話を終了すべく、検索結果を出力部108に渡してもよい。
ステップS307では、対話状態管理部105は、ステップS304において得られた検索結果に基づき、対話を終了するか、または、続行するかを決定する。ステップS307において対話を続行すると決定されれば処理はステップS301に戻る。一方、ステップS307において対話を終了すると決定されれば、検索結果が出力部108からユーザに提示され、処理が終了する。
以上説明したように、本実施形態に係る音声対話装置は、検索結果が空になった場合に、検索条件を修正している。従って、本実施形態に係る音声対話装置によれば、ユーザの音声入力がデータ記憶部の記憶内容と矛盾した場合にも、対話をやり直すことができる。
(第5の実施形態)
本発明の第5の実施形態に係る音声対話装置は、前述した第1の実施形態に係る音声対話装置において、音声認識部101、データ検索部103及び対話状態管理部105の動作が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
本発明の第5の実施形態に係る音声対話装置は、前述した第1の実施形態に係る音声対話装置において、音声認識部101、データ検索部103及び対話状態管理部105の動作が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
本実施形態では、音声認識部101は、認識候補及び当該認識候補のスコアに加えて、ユーザの音声入力も出力する。尚、音声入力の形式は、後述するように音声認識部101が再評価できる形式であればよく、例えば音声を分析して得られる特徴パラメータなどでもよい。
データ検索部103は、ある属性に関する1つの属性値が承認済みになると、当該承認済み属性値を用いて前述した絞り込み検索処理を行った後、承認されていない各属性に関して上記音声入力を音声認識部101に渡す。音声認識部101は、現在の検索条件に相当する認識対象語彙に基づいて上記音声入力を再評価し、認識候補及びスコアをデータ検索部103に返す。一般的に、認識対象語彙が減少するほど音声認識の精度は向上するので、再評価された認識候補及びスコアは、以前の認識候補及びスコアより信頼性が高い。
データ検索部103は、再評価された認識候補及びスコアを用いて対話状態管理部105に保存されている検索条件を更新し、データ記憶部104から所望データを絞込み検索し、この検索結果を用いて対話状態管理部105に保存されている検索結果及び検索条件を更新する。
対話状態管理部105は、各属性について上記音声入力を保存している。即ち、対話状態管理部105は、図14A,図14B及び図14Cに夫々示すように、検索結果、検索条件及び音声入力を管理する。尚、対話状態管理部105ではなく、別の記憶領域に音声入力が保存されてもよい。データ検索部103が、属性に応じた音声入力にアクセスできれば、音声入力の管理方法は問わない。
以下、図13に示すフローチャートを用いて、図1の音声対話装置の動作の一例について説明する。
ユーザと、本実施形態に係る音声対話装置の対話が開始すると、処理はステップS401に進む。ステップS401では、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する。応答選択部107は選択した応答に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答を出力部108に渡す。
ユーザと、本実施形態に係る音声対話装置の対話が開始すると、処理はステップS401に進む。ステップS401では、コスト算出部106が各応答のコストを算出し、応答選択部107が、コストが最小となる応答を次にユーザに提示する応答として選択する。応答選択部107は選択した応答に従って語彙記憶部110から認識対象語彙を取得し、当該認識対象語彙を用いて音声認識辞書記憶部102に記憶される音声認識辞書を更新すると共に、当該応答を出力部108に渡す。
次に、出力部108は、ステップS401において選択された応答をユーザに提示する(ステップS402)。次に、ステップS402において提示された応答に対するユーザの音声入力が、図示しないマイクロホンなどによって受理される(ステップS403)。受理された音声入力は、音声認識部101によって音声認識される。音声認識部101による音声認識の結果、一定以上のスコアが得られた認識候補が当該スコアと共にデータ検索部103に渡される。ユーザの音声入力は対話状態管理部105に保存され、処理はステップS404に進む。
ステップS404では、データ検索部103は、対話状態管理部105に保存されている検索条件を、音声認識部101からの認識候補及びスコアを用いて更新し、更新された検索条件を用いて、データ記憶部104から所望データを検索する。データ検索部103は、得られた検索結果を用いて対話状態管理部105に保存されている検索結果を更新する。
次に、データ検索部103は、ステップS403において受理された音声入力が、ある属性値の承認であるか否かを判断する(ステップS405)。ステップS403において受理された音声入力が属性値の承認であれば処理はステップS406に進み、属性値の承認でなければ処理はステップS407に進む。
ステップS406では、音声認識部101は、属性値が承認されていない各属性に関して対話状態管理部105に保存されている音声入力を再評価して、新たな認識候補及びスコアをデータ検索部103に渡し、処理はステップS404に進む。尚、ステップS406において、音声認識部101の認識対象語彙は、各属性に関して検索条件に含まれている属性値のみである。
ステップS407では、対話状態管理部105は、ステップS404において得られた検索結果に基づき、対話を終了するか、または、続行するかを決定する(ステップS407)。ステップS407において対話を続行すると決定されれば処理はステップS401に戻る。一方、ステップS407において対話を終了すると決定されれば、検索結果が出力部108からユーザに提示され、処理が終了する。
以上説明したように、本実施形態に係る音声対話装置は、属性値が承認される度に、ユーザのかつての音声入力を再評価している。従って、本実施形態に係る音声対話装置によれば、認識対象語彙数が減少した状態で音声入力を再評価できるため、音声認識の精度を原因とする検索失敗を抑制できる。
(第6の実施形態)
本発明の第6の実施形態に係る音声対話装置は、前述した第5の実施形態に係る音声対話装置において、語彙記憶部110の構成が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
本発明の第6の実施形態に係る音声対話装置は、前述した第5の実施形態に係る音声対話装置において、語彙記憶部110の構成が一部異なる。以下の説明では、本実施形態に係る音声対話装置において、第1の実施形態に係る音声対話装置と異なる部分を中心に述べる。
本実施形態では、語彙記憶部110は図15に示すように、基本語彙記憶部111と、別名・省略語記憶部112とに分割されている。
基本語彙記憶部111には、データ記憶部104に記憶されている属性値やユーザによる肯定及び否定の表現を示す一般的、主要な語彙と、当該語彙の音声認識に必要とされる語彙情報(読み等)とが関連付けて記憶されている。
別名・省略語記憶部112は、データ記憶部104に記憶されている属性値を示す語彙のうち、基本語彙記憶部111には記憶されていない、別名・省略語に相当する語彙と、当該語彙の音声認識に必要とされる語彙情報(読み等)とが関連付けて記憶されている。
本実施形態では、音声認識部101の認識対象語彙は、最初の認識の際には基本語彙記憶部111のみから取得される。以降の再評価において、音声認識部101の認識対象語彙数が所定数以下に減少すると、認識対象語彙は基本語彙記憶部111に加えて別名・省略語記憶部112からも取得される。
以下、語彙記憶部110を基本語彙記憶部111と、別名・省略語記憶部112とに分割して利用する技術的意義について説明する。
例えば、ユーザが、入力したい属性値の正式な名称等を知らないが、別名や省略語を知っている場合がある。このような場合、基本語彙記憶部111に記憶されている語彙だけでは、音声認識部101がユーザの音声入力を正しく認識できないおそれがある。一方、最初から別名・省略語記憶部112に記憶されている語彙を利用すると、音声認識部101に認識対象語彙が増大し、かえって音声認識の精度が低下するおそれがある。
例えば、ユーザが、入力したい属性値の正式な名称等を知らないが、別名や省略語を知っている場合がある。このような場合、基本語彙記憶部111に記憶されている語彙だけでは、音声認識部101がユーザの音声入力を正しく認識できないおそれがある。一方、最初から別名・省略語記憶部112に記憶されている語彙を利用すると、音声認識部101に認識対象語彙が増大し、かえって音声認識の精度が低下するおそれがある。
従って、本実施形態では、認識対象語彙数が多い初期段階では語彙数を抑制するために基本語彙記憶部111のみが利用され、認識対象語彙数が所定数以下に減少してから省略語・別名記憶部112も利用される。即ち、本実施形態に係る音声対話装置は、初期段階では音声認識部101の音声認識精度の低下を抑制し、認識対象語彙数が所定数以下に減少してから省略語・別名に相当する語彙を認識対象語彙に追加して、正しい認識候補が得られる可能性を向上させている。
以上説明したように、本実施形態に係る音声対話装置では、音声認識部における認識対象語彙を取得するために利用する語彙記憶部が基本語彙記憶部と別名・省略語記憶部とに分割されており、音声認識部における認識対象語彙数に応じて使い分けられている。従って、本実施形態に係る音声対話装置によれば、音声認識部の音声認識精度の低下を抑えつつ、ユーザが入力したい属性値の別名や省略語しか知らない場合であっても、ユーザの満足度の低下が抑えられる。
なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
その一例として例えば、前述した各実施形態に係る音声対話装置は、所望データが検索されると、当該所望データをユーザに提示して対話が終了するとしているが、本発明が実行する機能はこれに限られない。例えば、本発明は、検索終了後に検索結果を利用した別の機能を行ってもよい。本発明を情報処理端末に適用する場合であれば、検索結果の詳細情報を提示してよい。また、本発明をカーナビゲーションシステムに適用する場合であれば、検索結果に基づいて目的地を設定してよい。更に、本発明が、所望データの検索以外の別の機能を実行する場合においても、ユーザとの対話を続行してもよい。
その他、本発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
101・・・音声認識部
102・・・音声認識辞書記憶部
103・・・データ検索部
104・・・データ記憶部
105・・・対話状態管理部
106・・・コスト算出部
107・・・応答選択部
108・・・出力部
110・・・語彙記憶部
111・・・基本語彙記憶部
112・・・省略語・別名記憶部
102・・・音声認識辞書記憶部
103・・・データ検索部
104・・・データ記憶部
105・・・対話状態管理部
106・・・コスト算出部
107・・・応答選択部
108・・・出力部
110・・・語彙記憶部
111・・・基本語彙記憶部
112・・・省略語・別名記憶部
Claims (8)
- データと当該データの複数の属性に関わる属性値とが関連付けて記憶されているデータ記憶部から、応答の提示と当該応答に対するユーザの音声入力との繰り返しによって絞り込まれた属性値の集合である検索条件を用いて所望データを検索する音声対話装置において、
前記音声入力に対し音声認識を行って、1つの属性における認識候補を認識対象語彙から得る音声認識部と、
前記認識候補を用いて前記検索条件を更新しつつ、当該検索条件に該当するデータを前記データ記憶部から検索して検索結果を出力する検索部と、
前記検索条件及び前記検索結果に基づいて、未入力の属性値の入力を要求する第1の応答及び入力済みの属性値の真偽を確認する第2の応答に対する音声入力による絞り込み検索後の検索結果に含まれるデータの推定個数により前記第1の応答及び第2の応答に関するコストを算出する算出部と、
前記コストの最も小さい応答を選択し、前記ユーザに提示する選択部と、
を具備することを特徴とする音声対話装置。 - 前記第2の応答は、前記属性値のうち前記音声入力として最も確からしい属性値の真偽を確認することを特徴とする請求項1記載の音声対話装置。
- 前記コスト算出部は、未入力の属性値の真偽を確認する第3の応答に関するコストを更に算出することを特徴とする請求項1記載の音声対話装置。
- 前記検索部は、前記検索結果が空になると、前記第2の応答に対して真であると確認された属性値を除く全ての属性値を前記検索条件から削除することにより、前記検索条件を修正することを特徴とする請求項1記載の音声対話装置。
- 前記音声認識部は、前記第2の応答に対して前記属性値が真であることを示す音声入力が得られると、過去の音声入力に対し再音声認識を行って、前記1つの属性に関わる認識候補を前記認識対象語彙から得ることを特徴とする請求項1記載の音声対話装置。
- 前記認識対象語彙の数が所定数以下であれば、前記属性値の別名及び省略語が前記認識対象語彙に追加されることを特徴とする請求項5記載の音声対話装置。
- データと当該データの複数の属性に関わる属性値とが関連付けて記憶されているデータ記憶部から、応答の提示と当該応答に対するユーザの音声入力との繰り返しによって絞り込まれた属性値の集合である検索条件を用いて所望データを検索する音声対話方法において、
前記音声入力に対し音声認識を行って、1つの属性における認識候補を認識対象語彙から得て、
前記認識候補を用いて前記検索条件を更新しつつ、当該検索条件に該当するデータを前記データ記憶部から検索して検索結果を得て、
前記検索条件及び前記検索結果に基づいて、未入力の属性値の入力を要求する第1の応答及び入力済みの属性値の真偽を確認する第2の応答に対する音声入力による絞り込み検索後の検索結果に含まれるデータの推定個数により前記第1の応答及び第2の応答に関するコストを算出し、
前記コストの最も小さい応答を選択し、前記ユーザに提示する
ことを特徴とする音声対話方法。 - データと当該データの複数の属性に関わる属性値とが関連付けて記憶されているデータ記憶部から、応答の提示と当該応答に対するユーザの音声入力との繰り返しによって絞り込まれた属性値の集合である検索条件を用いて所望データを検索する音声対話プログラムにおいて、
コンピュータを
前記音声入力に対し音声認識を行って、1つの属性における認識候補を認識対象語彙から得る音声認識手段、
前記認識候補を用いて前記検索条件を更新しつつ、当該検索条件に該当するデータを前記データ記憶部から検索して検索結果を出力する検索手段、
前記検索条件及び前記検索結果に基づいて、未入力の属性値の入力を要求する第1の応答及び入力済みの属性値の真偽を確認する第2の応答に対する音声入力による絞り込み検索後の検索結果に含まれるデータの推定個数により前記第1の応答及び第2の応答に関するコストを算出する算出手段、
前記コストの最も小さい応答を選択し、前記ユーザに提示する選択手段、
として機能させることを特徴とする音声対話プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008061458A JP2009217611A (ja) | 2008-03-11 | 2008-03-11 | 音声対話装置 |
US12/401,640 US8364493B2 (en) | 2008-03-11 | 2009-03-11 | Spoken dialogue speech recognition using estimated number of retrieved data as cost |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008061458A JP2009217611A (ja) | 2008-03-11 | 2008-03-11 | 音声対話装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009217611A true JP2009217611A (ja) | 2009-09-24 |
Family
ID=41063997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008061458A Withdrawn JP2009217611A (ja) | 2008-03-11 | 2008-03-11 | 音声対話装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8364493B2 (ja) |
JP (1) | JP2009217611A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011076360A (ja) * | 2009-09-30 | 2011-04-14 | Oki Electric Industry Co Ltd | 情報処理装置及び情報処理方法 |
JP2014170047A (ja) * | 2013-03-01 | 2014-09-18 | Honda Motor Co Ltd | 音声対話システム及び音声対話方法 |
KR20190032641A (ko) * | 2010-01-18 | 2019-03-27 | 애플 인크. | 지능형 자동화 어시스턴트 |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
US9683862B2 (en) * | 2015-08-24 | 2017-06-20 | International Business Machines Corporation | Internationalization during navigation |
KR20220010259A (ko) * | 2020-07-17 | 2022-01-25 | 삼성전자주식회사 | 음성 신호 처리 방법 및 장치 |
JP7467314B2 (ja) * | 2020-11-05 | 2024-04-15 | 株式会社東芝 | 辞書編集装置、辞書編集方法、及びプログラム |
JP7481999B2 (ja) | 2020-11-05 | 2024-05-13 | 株式会社東芝 | 辞書編集装置、辞書編集方法及び辞書編集プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19837102A1 (de) * | 1998-08-17 | 2000-02-24 | Philips Corp Intellectual Pty | Verfahren und Anordnung zum Durchführen einer Datenbankanfrage |
US6643622B2 (en) * | 1999-02-19 | 2003-11-04 | Robert O. Stuart | Data retrieval assistance system and method utilizing a speech recognition system and a live operator |
JP3420965B2 (ja) | 1999-02-25 | 2003-06-30 | 日本電信電話株式会社 | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US6934675B2 (en) * | 2001-06-14 | 2005-08-23 | Stephen C. Glinski | Methods and systems for enabling speech-based internet searches |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US8041568B2 (en) * | 2006-10-13 | 2011-10-18 | Google Inc. | Business listing search |
US7590626B2 (en) * | 2006-10-30 | 2009-09-15 | Microsoft Corporation | Distributional similarity-based models for query correction |
US20090228280A1 (en) * | 2008-03-05 | 2009-09-10 | Microsoft Corporation | Text-based search query facilitated speech recognition |
-
2008
- 2008-03-11 JP JP2008061458A patent/JP2009217611A/ja not_active Withdrawn
-
2009
- 2009-03-11 US US12/401,640 patent/US8364493B2/en not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011076360A (ja) * | 2009-09-30 | 2011-04-14 | Oki Electric Industry Co Ltd | 情報処理装置及び情報処理方法 |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
KR20190032641A (ko) * | 2010-01-18 | 2019-03-27 | 애플 인크. | 지능형 자동화 어시스턴트 |
KR102096222B1 (ko) | 2010-01-18 | 2020-04-01 | 애플 인크. | 지능형 자동화 어시스턴트 |
KR20200035486A (ko) * | 2010-01-18 | 2020-04-03 | 애플 인크. | 지능형 자동화 어시스턴트 |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
KR102147926B1 (ko) | 2010-01-18 | 2020-08-25 | 애플 인크. | 지능형 자동화 어시스턴트 |
KR20200101996A (ko) * | 2010-01-18 | 2020-08-28 | 애플 인크. | 지능형 자동화 어시스턴트 |
KR102297492B1 (ko) | 2010-01-18 | 2021-09-03 | 애플 인크. | 지능형 자동화 어시스턴트 |
KR20220088514A (ko) * | 2010-01-18 | 2022-06-27 | 애플 인크. | 지능형 자동화 어시스턴트 |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
KR102537767B1 (ko) | 2010-01-18 | 2023-05-31 | 애플 인크. | 지능형 자동화 어시스턴트 |
US12087308B2 (en) | 2010-01-18 | 2024-09-10 | Apple Inc. | Intelligent automated assistant |
JP2014170047A (ja) * | 2013-03-01 | 2014-09-18 | Honda Motor Co Ltd | 音声対話システム及び音声対話方法 |
Also Published As
Publication number | Publication date |
---|---|
US8364493B2 (en) | 2013-01-29 |
US20090234650A1 (en) | 2009-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009217611A (ja) | 音声対話装置 | |
US10037758B2 (en) | Device and method for understanding user intent | |
US10089303B2 (en) | Customizable and low-latency interactive computer-aided translation | |
JP4580885B2 (ja) | シーン情報抽出方法、シーン抽出方法および抽出装置 | |
US10078631B2 (en) | Entropy-guided text prediction using combined word and character n-gram language models | |
JP5066483B2 (ja) | 言語理解装置 | |
JP4705023B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP2008203559A (ja) | 対話装置及び方法 | |
JP4852448B2 (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
CN109299245B (zh) | 知识点召回的方法和装置 | |
US20110320464A1 (en) | Retrieval device | |
JP2008097082A (ja) | 音声対話装置 | |
CN1365488A (zh) | 语音识别方法和装置以及记录介质 | |
JPWO2010061507A1 (ja) | 言語モデル作成装置 | |
US10269352B2 (en) | System and method for detecting phonetically similar imposter phrases | |
EP2377053A2 (en) | Assigning an indexing weight to a search term | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
CN110675871A (zh) | 一种语音识别方法及装置 | |
JP6462936B1 (ja) | 音声認識システム、及び音声認識装置 | |
JP2005275601A (ja) | 音声による情報検索システム | |
JP5189413B2 (ja) | 音声データ検索システム | |
EP4325483A1 (en) | Speech interaction method, server, and storage medium | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 | |
JP2009116277A (ja) | 音声認識装置 | |
CN110110294B (zh) | 一种动态反向解码的方法、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20110607 |