JP2004333641A - 音声入力処理方法、音声対話用表示制御方法、音声入力処理装置、音声対話用表示制御装置、音声入力処理プログラム、音声対話用表示制御プログラム - Google Patents

音声入力処理方法、音声対話用表示制御方法、音声入力処理装置、音声対話用表示制御装置、音声入力処理プログラム、音声対話用表示制御プログラム Download PDF

Info

Publication number
JP2004333641A
JP2004333641A JP2003126555A JP2003126555A JP2004333641A JP 2004333641 A JP2004333641 A JP 2004333641A JP 2003126555 A JP2003126555 A JP 2003126555A JP 2003126555 A JP2003126555 A JP 2003126555A JP 2004333641 A JP2004333641 A JP 2004333641A
Authority
JP
Japan
Prior art keywords
input
voice
state
attribute
change information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003126555A
Other languages
English (en)
Other versions
JP3878147B2 (ja
Inventor
Tetsuo Amakasu
哲郎 甘粕
Junichi Hirasawa
純一 平澤
Takefumi Yamazaki
毅文 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003126555A priority Critical patent/JP3878147B2/ja
Publication of JP2004333641A publication Critical patent/JP2004333641A/ja
Application granted granted Critical
Publication of JP3878147B2 publication Critical patent/JP3878147B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

【課題】自由な発話順序でも入力値を間違えなく理解して入力値として取り込むことができ、然も入力された入力値から次に動作すべき発話シナリオを選択する部分のプログラムの記述量を低減することができる音声入力処理方法を提供する。
【解決手段】音声入力される発話内容から属性別にキーワードを抽出するキーワード抽出処理と、抽出されたキーワードと利用者からの音声入力がなされる前の対話理解状態とから新たな対話理解状態を判定し記録する対話理解状態記録処理と、対話理解状態記録処理での記録内容と状態変化参照表を参照して各属性ごとに理解状態の変化情報に変換する変化情報生成処理とを含む。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は各種の予約システム等に応用することができる音声入力方法、音声対話用表示制御方法、音声入力処理装置、音声対話用表示制御装置、音声入力処理プログラム、音声対話用表示制御プログラムに関し、特に自由な発話入力に対しても適確に入力値を理解し、入力を確定することができ、利用者にとっては使い勝手のよい音声入力処理装置及び音声対話用表示制御装置を提供すると共に、これらの装置を製造する側から見ても装置の規模を縮小し、製造が容易な音声入力処理方法、音声対話用表示制御方法、音声入力処理装置、音声対話用表示制御装置、音声入力処理プログラム、音声対話用表示制御プログラムを提供しようとするものである。
【0002】
【従来の技術】
従来より各種の予約システムに音声入力を可能としたものが提供されている。その一つに特許文献1で提案されている対話処理システムがある。特許文献1で提案されている対話処理システムは、入力された音声に含まれるキーワードを抽出し、このキーワードを入力項目ごとに設けた記録部(以下スロットと称す)に記録し、スロットでの記録の有無によって値が入力されたか否かを判定し、値が入力されていないスロットが存在する場合は、その入力項目に関して入力を促す音声を出力し、すべてのスロットに入力が完了すると対話を終了する。
【0003】
このような従来技術のもとで、既に入力してしまった値の変更を行おうとすると、利用者が、入力済のスロットの値を別の値で更新(上書き)したり、入力済のスロットの値を取り消したり、などの操作を行おうにも、そのための処理が存在しないため困難である。
しかし、利用者がシステムと対話する中で、入力したはずの値と異なる値が間違って受理されていた場合や、利用者自身が言い誤って異なる値が入力されてしまった場合には、その場で正しい入力値で訂正することで、直ちに直前までの値を修正できる入力処理方法は、使い易い音声入力方法として必須と考えられる。
【0004】
ここではまず、従来の技術を用いた場合に、音声入力により必要な入力項目に値を埋めていく音声入力処理方法を、対話が円滑に進み、入力値の訂正などが生じない場合について、図24乃至27を用いて簡便に説明する。
図24Aは対話開始の初期状態を示す。この例では航空券の予約システムを例示して説明する。入力項目としては日付、便名、出発地、到着地が設定されている。各入力項目に関して、値が入力されたか否かの状態を、ここでは「スロットの状態(入力項目の記録状態)」と称することにする。図24Aに示す初期状態では各入力項目のスロットの状態は×で表わされ、入力値は空であることを示している。このスロットの状態で対話シナリオ(予め用意された応答文の群)から選択される応答文(システムから利用者への音声出力又は視覚表示)は「ご搭乗予約の航空機を指定してください」とされる。
【0005】
この応答文に対して、利用者から日付と便名が入力されたとすると、図24Bに示すように入力項目の出発地と到着地のスロットの状態は×のままであるが、日付と便名のスロットの状態が○(入力値有りを表わす)に変化する。このスロットの状態を監視することでシステムは最新の理解状態として日付と便名のスロットは埋まっており(○で表現)、出発地と到着地のスロットはまだ入力されていない(×で表現)と判定できるため、システムは対話シナリオから応答文として「出発地と到着地をご指定ください」を選択し、入力項目で欠けている「出発地」と「到着地」を入力することを促す通知を利用者に行なう。
【0006】
また、図24Cに示すように、初期状態から日付と到着地のみに入力が行なわれた場合にはシステムは応答文として「便名と出発地をご指定ください」を選択して利用者に通知する。
このように、各入力項目の最新のスロットの状態に応じて、対話シナリオの中から応答文を選択し、選択した応答文を利用者に音声又は視覚的表示器を通じて通知し、対話形式で必要な入力事項が全てシステム側で取得できるようにガイドする。
【0007】
【特許文献1】
特開2002−23783号公報
【0008】
【発明が解決しようとする課題】
図24を用いて説明した対話例はシステムと利用者との間で円滑に対話が行なわれた例を示しているが、現実には利用者からの音声入力は必ずしもシステム側で予想している状態ばかりではない。つまり、利用者が入力した値が間違ってしまい、異なる値が受理されてしまったり、利用者自身が勘違いや言い誤りで、異なる値が入力されてしまう場面は高い可能性で存在する。このような場面では、利用者による訂正や打消しなどの発話が行われる。そこで、従来の技術でこのような場面に対応するためには、例えば、各入力項目ごとに、現在の入力に含まれていたスロットに保存すべき値を記録しておくだけでなく、前回までにスロットに入力されて記録されていた値も共に記録しておき、さらに、前回までのスロットの値と、現在の入力による値が一致しているか、不一致であるかを比較し判定する判定機構を設けた上で、その判定結果を利用して応答文の選択を行う方法が考えられる。
【0009】
図25はその様子を示す。この例では、現在入力されたスロット値と共に、前回までの入力値の状態も記録しておき、前回と現在のスロット値を比較した判定結果を記録する部分の様子について、便名スロットだけを抜粋して示す(同様の機構を、日付、出発地、到着地の残りの3スロットに関しても設定する必要がある)。直前スロットが「○」、現スロットが「○」であることから、前回までの対話で便名に関する入力が「有り」、現在入力された利用者の発話にも便名が「有り」を表わしている。つまり、前回までの対話の中で既に便名に関する入力が行われたにも関わらず、今回処理すべき入力においても、発話に便名が含まれていたことになる。ここで、値の一致を示す欄は「×」であり、直前スロットに記録されている値と、現スロットに記録される値は「不一致」だったことを表わしている。
【0010】
この状態が与えられた場合のシステムは、「便名を<前回までに入力されていた便名>から<今回入力した便名>に変更なさいますか?」とする応答文を選択し、利用者に通知する。図25に示した記録、判定機能は、便名だけでなく、日付、出発地、到着地などのすべての入力項目ごとに同様に設ける必要がある。
更に図25に示した判定機能を実際に実行するにはプログラム上では図26に示すようなプログラムの記述が必要となる。図26に示すL1は、図24Aに示した初期入力状態で合致して実行されるルーチン、L2は利用者からの訂正により便名が変更された状況で合致して実行されるルーチン、L3は利用者からの現在の入力で便名に関して言及があったものの、前回までに入力が行われた値と同一であり、記録されている便名の値を変更するには及ばない状況で合致して実行されるルーチンを示している。図26には、便名に関する判定機能の記述の一部としてL1〜L3を示しているが、現実には、一つの入力項目に関して、直前スロットが空か有りかを表現するパラメータと、現在入力に該当する入力項目の言及の有無を表現するパラメータと、直前までのスロット値と現在入力に含まれていた値とが一致しているか、不一致であるかを判定して表現しておくパラメータの3種のパラメータが設定されており、これらのパラメータの状態の組合せに応じて、次に実行すべき動作(例えば応答文の選択)を決定するものであるから、値の有無×値の有無×一致不一致の組合せで2個のルーチンを記述することが必要となる。図27に図26に示したプログラムのフローチャートを示す。
【0011】
初期入力用ルーチンL1を除く、他のルーチンL2,L3…では、一つのルーチンを記述するために、少なくとも3つのパラメータに関する条件の記述が必要となるため、入力項目数が増えた場合には、組合せが増大するため、各ルーチンの記述量が多いと、プログラム全体の記述量は膨大になるという不都合が生じる。
更に、ここまでの説明では、入力された値が否定されている場合は想定していなかったが、実際の利用場面では「羽田じゃないです」のような打消しの発話が行われることがあり、スロットでの値の管理は、単に値を記録しておくだけでなく、その値が否定されているかどうかまで含めて管理する必要が生じる。その場合、値の有無だけでなく、記録されている値に関する否定の有無を考慮すると、各ルーチンでのパラメータに関する条件の記述が増えるため、プログラム全体の記述量はさらに増大するという不都合が生じる。
【0012】
この発明の目的は、プログラムの作成に要する手間を低減し、簡素な記述で入力値の状態の変化を認識することができる、音声入力処理方法、及び音声入力処理装置を提案する。
この発明では更に、音声入力処理方法で処理された結果を利用して次に実行すべき動作を一義的に決定する際に、利用者にとって適切に表示することができる音声対話用表示制御方法及び音声入力処理装置を提供しようとするものである。
【0013】
【課題を解決するための手段】
この発明の請求項1では音声入力される発話内容から属性別にキーワードを抽出するキーワード抽出処理と、このキーワード抽出処理で属性別に抽出されたキーワードと、利用者からの音声入力がなされる前の対話理解状態とから、新たな対話理解状態を判定し記録する、対話理解状態記録処理と、対話理解状態記録処理の記録内容と、状態変化参照表とを照合し、理解状態の状態変化を各属性ごとに変化情報に変換する変化情報生成処理とを含む音声入力処理方法を提案する。
この発明では、更に請求項1記載の音声入力処理方法で生成される変化情報で表わされる音声入力の属性別の状態変化に従って、表示装置に表示される各属性別の表示内容を変更制御する音声対話用表示制御方法を提案する。
【0014】
この発明では、更に音声入力される発話内容から属性別にキーワードを抽出するキーワード抽出手段と、このキーワード抽出手段で属性別に抽出されたキーワードと、利用者からの音声入力がなされる前の対話理解状態とから、新たな対話理解状態を判定し記録する、対話理解状態記録手段と、直前までの対話理解状態と、現在入力された入力値との組合せに応じて、理解状態の状態変化を判定し、変化情報に変換するための状態変化参照表と、対話理解状態記録手段の記録内容と、状態変化参照表とを照合し、理解状態の状態変化を各属性ごとに変化情報に変換する変化情報生成手段とによって構成した音声入力処理装置を提案する。
【0015】
この発明では、更に請求項3記載の音声入力処理装置で生成した変化情報で表わされる音声入力の属性別の状態変化に従って表示装置に表示される各属性別の表示内容を変更制御する音声対話用表示制御装置を提案する。
この発明では、更にコンピュータが解読可能な符号列によって記述され、コンピュータに請求項1記載の音声入力処理方法を実行させる音声入力処理プログラムを提案する。
この発明では、更にコンピュータが解読可能な符号列によって記述され、コンピュータに請求項2記載の音声対話用表示制御方法を実行させる音声対話用表示制御プログラムを提案する。
【0016】
作用
この発明の第1の特徴は、利用者から入力される音声入力が音声認識手段により音声認識され、テキスト形式の単語列に変換される。キーワード抽出手段では、単語列の中から、予め登録されているキーワードと合致する単語を抽出する。このキーワードの抽出においては、言語表現を規定した文法規則に従って単語列中の前後の文意を考慮してキーワードを抽出し、属性を付与する点である。この第1の特徴によれば、入力された発話内容(単語列)からキーワードが含まれるか検出することができ、キーワードに属性を与えることができるため、どの入力項目に対応する入力値が入力されたのかを判定することができる。
【0017】
従って、この属性を付与する機能により、入力発話(単語列)での入力項目の配置順序は自由となり、利用者は入力項目を自由な順序で発話しても、システム側で適切に入力項目ごとにキーワードを抽出することができる。更に、入力項目の配置順序の自由は、1入力発話にとどまるものではなく、利用者が入力項目を複数の発話にまたがって発話しても、更に、同じ入力項目に関して複数回にわたって言及してもシステムは各入力項目に適切にキーワードを記録することができる。すなわち、同一の入力項目に関して、複数の発話にまたがって、値の訂正(更新・上書き)や、取り消しなどを入力しても、システムでは適切に入力項目のスロット値を管理することができる。
【0018】
この発明の第2の特徴は、直前までのスロットの状態と現在の入力値を比較し、この比較結果を予め用意してある状態変化参照表と照合することで、スロット値の変化を変化情報に変換し、この変化情報に従って、次に実行すべき動作を決定する点である。
つまり、直前までのスロット値が「有り」で現入力値も「有り」で、かつ、その2つの値が不一致であれば、「A to B」のような変化情報に変換して記録する。また、2つの値が一致していれば「A to A」のような変化情報に変換して記録する。更に、否定語が付されて入力された値には、例えば「Not」を付与した変化情報を記録する。
【0019】
このように、この発明によれば、直前までのスロット値と、現入力値との一致、不一致に応じて参照表に照らして得られる変化情報として記録して対話の進行状況を把握しておくから、この変化情報だけで対話の進行状況が表現されている。
この結果、個別のスロットの値や、直前までの状態と現入力値との比較結果に関する条件をプログラム中に記述せずとも、変化情報に関する条件だけを記述することで、システムが次に実行すべき対話シナリオを選択・決定させることが可能となり、プログラムの総記述量を大幅に少なくすることができる利点が得られる。
【0020】
この発明の第3の特徴は、利用者からの入力に対しての応答を、画面表示を介して行う際に、変化情報を用いて表示内容を決定する点である。例えば、ある項目へ否定を表す入力が入ったことを示す変化情報を見て、この項目への入力が未完了と判断し、表示装置が表示している項目の入力情報を消去することで、その項目への入力が未完了であることを利用者に対して示すことができる。この結果、対話システムの現在の対話理解状態が利用者へ分かりやすく伝わる対話システムを提供することができる。
【0021】
【発明の実施の形態】
図1にこの発明による音声入力処理装置、音声対話用表示制御装置を適用した予約システムの全体の構成を示す。以下に図1に示した予約システムの概要を簡単に説明する。
図1に例示した予約システムは例えばインターネットのような通信網10に接続されたサーバSVと、予約システム用の端末TMとによって構成した場合を示す。この発明による音声入力処理装置と音声対話用表示制御装置は端末TMに装備される。
【0022】
つまり、端末TMは対話制御装置100と、音声対話用表示制御装置200と、表示装置300、音声再生装置400等によって構成される。対話制御装置100にはマイクロホンMが接続され、このマイクロホンMから利用者の発話が電気信号として入力される。
サーバSVには対話制御装置100で用いる対話シナリオ、音声認識用の認識リソース、音声認識結果から各項目に対する入力値を取り出すための理解リソース、音声対話用表示制御装置200で用いる再生用音声ファイル等を装備し、例えば端末TMが立ち上がるとこれらのデータが端末TMに読み込まれ、端末TMが予約システム用の端末として動作可能な状態となる。
【0023】
サーバSVから端末TMに送り込まれた対話シナリオには、音声対話用表示制御装置200により表示装置300に画面表示させる際の画面表示用の出力内容データと、音声対話用表示制御装置200の動作を制御する対話制御規則などが含まれる。
また音声認識用の認識リソースには音響モデル、単語辞書、言語モデル、文法データ等を具備し、更に理解リソースには言語表現を規定した文法規則を含む。
対話シナリオの出力内容データにより表示装置300に例えば搭乗券の予約受付のための初期画面が表示される。初期画面の指示に従って利用者は予約受付のための入力を例えば押釦操作等により行なう。予約受付けのための入力が発生することにより表示装置300は予約受付け画面を表示し、また音声再生装置400は音声で予約の受付を開始する旨の音声を再生する。
【0024】
その後、利用者と端末TMとの間で対話シナリオに従って対話が行われ、対話を通じて、端末TMは利用者の発話から予約に必要なキーワードを抽出し、入力項目に該当するデータを取得する。予約に必要な条件を満たすデータが全て揃うと、入力されたデータに間違いが無いか否かを利用者に確認し、利用者から例えば「ハイ」或いは「OK」のような肯定語が入力されたことをもって予約の受付を終了する。予約の受付が終了すると、表示装置300の表示は初期画面に戻る。
以上は予約システムの概要である。この発明で提案する音声入力処理方法及び音声入力処理装置は上述した予約システムとして動作する端末TM内に設けられている対話制御装置100に適用され、また、音声対話用表示制御方法は音声対話用表示制御装置200に適用される。
【0025】
以下にこの発明による音声入力処理装置と音声対話用表示制御装置の一実施例を方法と共に説明する。図2にこの発明による音声入力処理装置の一実施例を示す。この発明による音声入力処理装置は図1に示した対話制御装置100の内部に装備される。対話制御装置100はこの実施例では音声認識装置110とこの発明による音声入力処理装置120と、外部記録装置等に格納したデータベース130等により構成した場合を示す。
音声認識装置110はマイクロホンMから入力される利用者の発話を音声認識し、テキスト形式の単語列に変換し、このテキスト形式の単語列をこの発明による音声入力処理装置120に入力する。
【0026】
この発明による音声入力処理装置120は音声認識装置110から入力されるテキスト形式の単語列から入力項目の属性別にキーワードを抽出するキーワード抽出手段121と、このキーワード抽出手段で属性別に抽出されたキーワードと、利用者からの音声入力がなされる前の対話理解状態とから、新たな対話理解状態を判定し記録する対話理解状態記録手段122と、状態変化参照表123を参照し照合して、対話理解状態記録手段122に記録されている理解状態の状態変化を各属性ごとに変化情報に変換する変化情報生成手段124とによって構成される。
【0027】
データベース130に図3に示すように上述した対話シナリオ131、認識リソース132、理解リソース133、再生用音声ファイル134が設けられる。キーワード抽出手段121は音声認識装置110から入力される単語列から、予め登録されているキーワードに合致する単語を抽出する。このキーワードの抽出においては、理解リソース133に含まれる文法規則に従って単語列中の前後の文意を考慮してキーワードを抽出し属性を付与する。
このように、抽出するキーワードには適切に属性が付与されるので、一回の発話中で入力項目を自由な順序で話しても、また、複数の発話にまたがって入力項目を分散させて発話しても、システムは入力された発話内容から、各入力項目ごとに該当するキーワードを適切に抽出することができる。
【0028】
例えばシステムから利用者への問い合わせとして、出発地、到着地、発時刻の順に3つの項目を入力するように利用者を誘導したにも係わらず、利用者が例えば「エーと、20時の羽田発の伊丹着です」等と発話しても、出発地=羽田、到着地=伊丹、発時刻=20時と理解し、自由な発話でも目的とする入力項目のデータを取得することができる。
【0029】
対話理解状態記録手段122はキーワード抽出手段121で抽出されたキーワードを、直前までの対話理解状態と比較して、各属性ごとに、最新の対話理解状態として入力項目に値を記録する。図4にその様子を示す。各属性A,B,Cは入力項目を表わし、例えば、この例では「出発地」「到着地」「発時刻」を表わす。対話理解状態記録手段122には、各属性ごとに、直前までの対話理解状態が格納されており、キーワード抽出手段121から入力される現在のキーワード抽出結果も取り込まれると、各属性ごとに入力項目の値を更新し、最新の対話理解状態の入力項目値を得る。図4に示す例では初期入力の状態を示す。つまり、直前までの対話理解状態は各属性とも「null」が記録されており、現在のキーワード抽出結果として、この例では、属性Aは「羽田」、属性Bは「伊丹」、属性Cは「20時」が入力され、その結果、最新の対話理解状態として属性Aは「羽田」、属性Bは「伊丹」、属性Cは「20時」が得られる。
【0030】
ここで例えば「やっぱり伊丹着じゃないです」等と利用者から訂正を求める言い直しが発生した場合には、図5に示すように、到着地を表わす属性Bの現在のキーワード抽出結果として「伊丹(否定)」が入力され、最新の対話理解状態として「伊丹(否定)」が記録される。
変化情報生成手段124は、対話理解状態記録手段122に記録されている入力値の状態から、状態変化参照表123を参照し、入力値の状態変化に該当する変化情報を生成する。
【0031】
状態変化参照表123の一例を図7に示す。図7に示す例では状態記録手段122に記録された入力値の状態変化を12種類の変化情報に変換する構成とした場合を示す。表中「直前状態」は図4及び図5に示した「直前までの対話理解状態」を指す。また「入力値」は図4及び図5に示した「現在のキーワード抽出結果」を指す。また「−」は無入力、「○」は入力値が存在していることを示す。更に「○(否定)」は入力値に否定語が付加されている様子を示す。
【0032】
図5に示した入力値の状態変化を図7に示した状態変化参照表123を参照して変化情報に変換すると、図6に示す変換結果が得られる。つまり、図5に示す属性Aでは直前状態が「羽田」で入力値が「−」であるから、ID・No.12に該当する。従って、変化情報としては「No change」に変換される。また、属性Bは直前状態が「伊丹」で、入力値が「伊丹(否定)」であるから、表のID・No.5に該当する。従って変化情報は「A to Not A」に変換される。更に、属性Cでは直前状態が「20時」、入力値が「−」であるから、ID・No.12に該当する。従って、変化情報としては「No change」に変換される。
【0033】
変化情報生成手段124で生成した変化情報はこの発明で提案した音声対話用表示制御装置200に送り込まれる。音声対話用表示制御装置200は変化情報生成手段124から送り込まれた変化情報を解読し、次に実行すべき動作(主に表示動作)を決定する。
ここで特に、この発明の音声対話用表示制御装置200によれば次に実行すべき動作の決定を変化情報の解読により一義的に決定する点を特徴とするものである。例えば属性B(到着地)の変化情報が「A to Not A」であった場合、入力項目の値がAからNot Aに変化したことがこの変化情報から一義的に解読することができる。この結果、次に実行すべき表示動作としては、応答文として「到着地は<現スロット値>でなければどちらになさいますか?」を選択すればよい。
【0034】
図8にこの応答文の選択を実行する部分のプログラムを例示する。この例ではifに続いて初期入力ルーチンL1として状態変化参照表123(図7)に示したID・NO.1に該当する変化情報の「null to A」を記述し、その条件が一致した場合はThen以下に示す応答文「到着地は<現スロット値>でよろしいですか?」を記述し、この応答文を音声合成して音声として表示し、また視覚表示すればよい。
また、次のルーチンL2でもID・No.2に該当する「null to Not A」に一致すれば応答文は「到着地はから<現スロット値>でなければどちらになさいますか?」を記述すればよく、これが音声及び視覚表示器で表示される。
【0035】
従って、この発明によれば、次に実行させたい動作を決定させるための条件判定のプログラムの記述としては、各ルーチンL1,L2,L3…ごとに示したように、一つの入力項目に関して、1行の条件判定の記述で済ませることができる。図8に示したプログラムの処理過程を図9にフローチャートで示す。各ルーチンL1,L2,L3…ごとに一つの入力項目に関する条件判定ステップは1ステップで済むため、従来のプログラムと比較して、全体としてプログラムの規模を大幅に低減させることができる。
図10乃至図21に図7に示した状態変化参照表で規定した変化情報に該当する対話例と、変化情報を変換する過程を示す。図10乃至図21においてAは対話例、Bは変化情報の変換過程を示す。
【0036】
図10は初期入力の対話例を示す。この場合の変化情報の変換過程は直前の(便名)が「null」で、更に現在入力された(便名)が「null」でなければ、図7に示した状態変化表123の変換規定により、変化情報(便名)は「null to A」に変換される。
図11は初期入力の対話例を示す。この場合の変化情報の変換過程は直前の(便名)が「null」で、入力された(便名)が「null」でなく、否定語が付加されていれば、変化情報(便名)は「null to not A」に変換される。
【0037】
図12は便名に関してのみ継続入力の対話例を示す。この場合の変化情報への変換過程は直前の(便名)が「null」でなく、かつ、直前の(便名)に否定語が付加されてなく、入力された(便名)が「null」でなく、かつ、入力された(便名)に否定語が付加されてなく、かつ、直前の(便名)と入力された(便名)が等しい場合は、変化情報は「A to A」である。
【0038】
図13は便名に関してのみ継続入力の対話例を示す。この場合便名をAからBに変更した場合を示す。変化情報の変換過程は直前の(便名)が「null」でなく、直前の(便名)に否定語が付加されてなく、入力された(便名)が「null」でなく、入力された(便名)に否定語が付加されてなく、直前の(便名)と入力された(便名)が等しくなければ、変化情報は「A to B」である。
【0039】
図14は便名のみ継続入力で同一便名が入力が入力されて、これが否定された場合を示す。この場合の変換情報の変換過程は直前の(便名)が「null」でなく、直前の(便名)に否定語が付加されてなく、入力された(便名)が「null」でなく、入力された(便名)に否定語が付加されており、直前の(便名)と入力された(便名)が等しければ、変化情報は「A to Not A」である。
【0040】
図15は便名が入力されているが、その入力されている便名とは異なる便名を否定する入力を行なった対話例を示す。この場合の変化情報の変換過程は、直前の(便名)が「null」でなく、直前の(便名)に否定語が付加されてなく、入力された(便名)が「null」でなく、入力された(便名)に否定語が付加されており、直前の(便名)と入力された(便名)が等しくない場合、変化情報は「A to Not B」に変換される。
【0041】
図16では既に入力されている便名が否定されている状態で新たな便名を入力した場合の対話例を示す。この場合の変化情報の変換過程は直前の(便名)が「null」でなく、直前の(便名)に否定語が付加されており、入力された(便名)が「null」でなく、入力された(便名)に否定語が付加されてなく、直前の(便名)と入力された(便名)が等しい場合、変化情報は「Not A to A」に変換される。
【0042】
図17は否定された便名に正しい便名を入力した場合の対話例を示す。この場合の変化情報の変換過程は、直前の(便名)が(null)でなく、直前の(便名)に否定語が付加されており、入力された(便名)が「null」でなく、入力された(便名)に否定語が付加されてなく、直前の(便名)と入力された(便名)が等しくない場合、変化情報は「Not A to B」である。
【0043】
図18は否定された入力値に否定された入力値を入力した場合の対話例を示す。この場合の変化情報の変換過程は直前の(便名)が「null」でなく、直前の(便名)に否定語が付加されている。入力された(便名)が「null」でなく、入力された(便名)に否定語が付加されており、直前の(便名)と入力された(便名)が等しければ変化情報は「Not A to Not A」である。
【0044】
図19は否定された入力値が存在し、その上に否定した異なる入力値を入力した場合の対話例を示す。この場合の変化情報の変換過程は、直前の(便名)が「null」でなく、直前の(便名)に否定語が付加されており、入力された(便名)が「null」でなく、入力された(便名)に否定語が付加されており、直前の(便名)と入力された(便名)が等しくない場合、変化情報は「Not Ato Not B」である。
【0045】
図20はキーワードに存在しない内容が発話された場合の対話例を示す。この場合の変化情報の変換過程は、直前の(便名)が「null」であり、直前の便名に否定語が付いているかは不定であり、入力された(便名)が「null」であり、入力された(便名)に否定語が付加されているかは不定であり、直前の(便名)と入力された便名を比較することは不能である場合、変化情報は「No change」に変換される。
【0046】
図21は入力値が存在している状態で次の発話がキーワードに存在しない内容であった場合の対話例を示す。この場合の変化情報の変換過程は、直前の(便名)が「null」でなく、直前の(便名)に否定語が付いているかは不定で、直前の(便名)に否定語が付加されているか、又は直前の(便名)に否定語が付加されていない、及び入力された(便名)が「null」で、入力された(便名)に否定語が付加されているかは不定であり、直前の(便名)と入力された(便名)は比較不能である場合、変化情報は「No change」に変換される。
【0047】
図22と図23にこの発明による音声入力処理装置と音声対話用表示制御装置の対話と動作の一例を示す。図22と図23において縦軸は時間の経過を示す。時点T1は初期状態を表わしている。初期状態では対話理解状態(スロット値)は全てのスロット値は(null)となっている。また表示内容は全ての属性に関して空欄になっている。この初期状態において、システムからSYS1により「ご用件を承ります」と音声及び表示器に表示し、利用者との対話が開始された様子を示す。このシステムからの問い合わせSYS1に対し、時点T2(USR2)で利用者から「エーと、20時の羽田発の伊丹着です」と音声入力されたとすると、音声認識装置110(図2)のキーワード抽出結果は「出発=羽田」、「到着地=伊丹」、「発時間=20時」と抽出した様子を示す。
【0048】
キーワード抽出結果は、対話理解状態記録手段122(図2)で最新の対話理解状態が判定され、図4に示したように格納される。更に変化情報生成手段124により対話理解状態122の記録状態と状態変化参照表123とから、変化情報に変換する。この場合、変化情報はすべての入力項目の属性にわたって一様に「null to A」となる。
変化情報生成手段125は変換した変化情報を音声対話用表示制御装置200に送り込む。音声対話用表示制御装置200では全ての属性にわたって「null to A」を判定条件に照らし、次に表示すべき内容の対話シナリオを実行する。この場合に選択される対話シナリオとしては「20時、羽田発、伊丹着ですね」と確認の問い合せ(SYS3)となる。
【0049】
この確認の問い合わせSYS3に対し、利用者がUSR4で「やっぱり、伊丹着じゃなくて」と伊丹着を否定する発話を行なったとすると、この発話のキーワード抽出結果は到着地に係わる属性のみが「到着地=伊丹(否定)」となる。従って、このキーワード抽出結果が対話理解状態記録手段122に入力され、最新の対話理解状態としては「到着地=伊丹(否定)」が記録される。次に、変化情報生成手段124では出発地と発時間に係わる発話が無であり、前回までの入力により出発地に関しては「羽田」が存在し、発時間に関しては「20時」がスロットに既に存在することから、これらの属性に関しては変化情報として変化がなかったことを表わす「No change」に変換される。これに対し、到着地に関しては「A to Not A」が変化情報として出力される。
【0050】
これらの変化情報が音声対話用表示制御装置200に渡されることにより、次の動作として、時点T5でシステムから「伊丹着じゃないとするとどこですか?」とする問い合わせSYS5が発せられる。この問い合せは出発地と発時間が「No change」であることと、「A to Not A」により前回入力された到着地「伊丹」が否定されたことをシステムが理解して対話シナリオを選択したことを表わしている。このような変化情報がA to Not A,null to Not A,A to Not B,Not A to Not B…などの否定語が付与された入力が発生したことを示す項目は、次以降の利用者の発話により訂正された値が入力されると考えられるために、システム内部では未入力状態であるのと同様に判断される。この場合、表示器には出発地:羽田、発時間:20時、到着地:空欄が表示され、到着地に関してシステムが未入力として扱っていることを利用者に対して通知する。
【0051】
時点T5で発せられたシステムからの問い合わせSYS5に対し、利用者は時点T6(図23)で例えば「関空着で発時間も19時です」と音声入力したとすると、音声認識結果からキーワードを抽出し、対話理解状態としては「出発地=羽田」、「到着地=関空」、「発時間=19時」がスロット値として記録される。このスロット値が対話理解状態記録手段122に記録されることにより変化情報生成手段124は出発地に関しては「No change」、到着地に関しては「到着地=Not A to B」、発時間に関しては「発時間=A to B」に変化情報の変更を行なう。この変化情報を音声対話用表示制御装置200に送り込む。この結果として表示装置300には「出発地:羽田」、「発時間:19時」、「到着地:関空」と表示される。
【0052】
これと共に、システムからは時点T7で「到着地は、伊丹じゃなく関空で、出発も20時から19時に変更ですね」と確認を求める対話シナリオが選択されて音声で表示されると共に表示装置300で視覚的に表示される。
この問い合せSYS7に対して時点T8で例えば「はい」と肯定語を利用者が入力することにより、入力の完了が決定される。入力の完了条件は、各入力項目の値が、否定の付かない状態で存在し、かつ、各属性の変化情報がすべて「Nochange」に収束している状況と言える。
この場合の次の動作としては表示装置300に「出発地:羽田」、「発時間:19時」、「到着地:関空」を表示し、利用者には時点T9に示すように「検索を開始いたしております。そのままお待ちください」と通知する。これと共に、入力値として取得したデータを図1に示したサーバSVに送り予約の処理を完了する。
【0053】
以上説明した音声入力方法及び音声対話用表示制御方法は、コンピュータにコンピュータが解読可能な符号列によって記述された音声入力処理プログラム、音声対話用表示制御プログラムを実行させることにより実現される。この発明による音声入力処理プログラム及び音声対話用表示制御プログラムはコンピュータが書き込み、読み出しが可能な例えば磁気ディスク或はCD−ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールするか、又は通信回線を通じてコンピュータにインストールし、コンピュータに備えられたCPUに解読されて実行される。
尚、上述では変化情報生成手段124において、状態変化をAとBの2値に変換した例を説明したが、AとBに加えて、C,D,…の多値に変換する構成も考えられ、例えば時間の経過に従って変化するパラメータに対してAから順次符号番号を繰り上げて符号を付与することも考えられる。
【0054】
【発明の効果】
以上説明したように、この発明によれば、利用者の発話からキーワードを属性別に抽出する構成としたから、1発話中で自由な順序で項目を入力しても、また、複数の発話にわたって項目を入力しても、各入力項目の属性に従ってキーワードを適切に理解でき、正しく入力値を取得することができる。この結果、利用者には入力の仕方に制限を加えない、使い勝手のよい対話システムを提供することができる。
更に、抽出したキーワードとシステム内部の対話理解状態との比較判定から変化情報を生成して表記する方法を採ったから、その変化情報だけを参照することで入力値の変化などの対話の進行状況を解読することができる。この結果、システムが次に実行すべき動作を規定するプログラムの記述において、条件判定の記述量を大幅に低減することができ、システムの構成を簡素化できる利点が得られる。
また、上記変化情報を付加して表記する対話装置内部の対話理解の状態を、利用者にとっても適切に表示を行うことができる。
【図面の簡単な説明】
【図1】この発明による音声入力処理装置と音声対話用表示制御装置を適用することができる予約システムの全体の構成を説明するためのブロック図。
【図2】この発明の音声入力処理装置及び音声対話用表示制御装置の実施例を説明するためのブロック図。
【図3】図2に示した音声対話制御装置に装備したデータベースの内部を説明するための構成概念図。
【図4】図2に示した音声入力処理装置に用いた対話理解状態記録手段の動作を説明するための構成概念図。
【図5】図4と同様の構成概念図。
【図6】図2に示した変化情報生成手段の動作を説明するための図。
【図7】図2に示した状態変化参照表を説明するための図。
【図8】この発明により簡素化されたプログラムの概要を説明するための図。
【図9】図8に示したプログラムの概要を説明するためのフローチャート。
【図10】この発明を適用した場合の対話例と変化情報変換過程を説明するための図。
【図11】図10と同様の図。
【図12】図10と同様の図。
【図13】図10と同様の図。
【図14】図10と同様の図。
【図15】図10と同様の図。
【図16】図10と同様の図。
【図17】図10と同様の図。
【図18】図10と同様の図。
【図19】図10と同様の図。
【図20】図10と同様の図。
【図21】図10と同様の図。
【図22】この発明による音声入力処理装置及び音声対話用表示制御装置と利用者との対話例と、表示の制御状態を説明するための図。
【図23】図22と同様の図。
【図24】従来の技術を説明するための図。
【図25】図24と同様の図。
【図26】従来の音声入力処理プログラムの記述例を説明するための図。
【図27】図26に示した従来の音声入力処理プログラムの流れを説明するためのフローチャート。
【符号の説明】
10 通信網 122 対話理解状態記録手段
SV サーバ 123 状態変化参照表
TM 端末 124 変化情報生成手段
100 対話制御装置 130 データベース
110 音声認識装置 200 音声対話用表示制御装置
120 音声入力処理装置 300 表示装置
121 キーワード抽出手段

Claims (6)

  1. 音声入力される発話内容から属性別に分類してキーワードを抽出するキーワード抽出処理と、
    上記キーワード抽出処理で属性別に抽出されたキーワードと、利用者からの音声入力がなされる前の対話理解状態とから、新たな対話理解状態を判定し記録する、対話理解状態記録処理と、
    上記対話理解状態記録処理の記録内容と、上記キーワード抽出処理で抽出された入力値とから、各属性ごとに理解状態の変化情報を算出する、変化情報生成処理と、
    を含むことを特徴とする音声入力処理方法。
  2. 請求項1記載の音声入力処理方法で生成される変化情報で表わされる音声入力の属性別の状態変化に従って、表示装置に表示される各属性別の表示内容を変更制御することを特徴とする音声対話用表示制御方法。
  3. 音声入力される発話内容から属性別に分類してキーワードを抽出するキーワード抽出手段と、
    上記キーワード抽出手段で属性別に抽出されたキーワードと、利用者からの音声入力がなされる前の対話理解状態とから、新たな対話理解状態を判定し記録する、対話理解状態記録手段と、
    直前までの対話理解状態と、現在入力された入力値との組合せに応じて、理解状態の状態変化を判定し、変化情報に変換するための状態変化参照表と、
    上記対話理解状態記録手段の記録内容と、上記状態変化参照表とを照合し、理解状態の状態変化を各属性ごとに変化情報に変換する変化情報生成手段、
    とによって構成したことを特徴とする音声入力処理装置。
  4. 請求項3記載の音声入力処理装置で生成した変化情報で表わされる音声入力の属性別の状態変化に従って表示装置に表示される各属性別の表示内容を変更制御することを特徴とする音声対話用表示制御装置。
  5. コンピュータが解読可能な符号列によって記述され、コンピュータに請求項1記載の音声入力処理方法を実行させる音声入力処理プログラム。
  6. コンピュータが解読可能な符号列によって記述され、コンピュータに請求項2記載の音声対話用表示制御方法を実行させる音声対話用表示制御プログラム。
JP2003126555A 2003-05-01 2003-05-01 端末装置 Expired - Lifetime JP3878147B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003126555A JP3878147B2 (ja) 2003-05-01 2003-05-01 端末装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003126555A JP3878147B2 (ja) 2003-05-01 2003-05-01 端末装置

Publications (2)

Publication Number Publication Date
JP2004333641A true JP2004333641A (ja) 2004-11-25
JP3878147B2 JP3878147B2 (ja) 2007-02-07

Family

ID=33503448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003126555A Expired - Lifetime JP3878147B2 (ja) 2003-05-01 2003-05-01 端末装置

Country Status (1)

Country Link
JP (1) JP3878147B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179239A (ja) * 2005-12-27 2007-07-12 Kenwood Corp スケジュール管理装置及びプログラム
US8010359B2 (en) 2005-03-16 2011-08-30 Fujitsu Limited Speech recognition system, speech recognition method and storage medium
US8060365B2 (en) 2007-07-03 2011-11-15 Nuance Communications, Inc. Dialog processing system, dialog processing method and computer program
JP2013134302A (ja) * 2011-12-26 2013-07-08 Denso Corp 音声認識装置
JP2016212135A (ja) * 2015-04-30 2016-12-15 日本電信電話株式会社 音声入力装置、音声入力方法、およびプログラム
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
CN111739531A (zh) * 2020-06-11 2020-10-02 浙江沁园水处理科技有限公司 一种语音控制方法
JP2020187773A (ja) * 2020-07-10 2020-11-19 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
CN112116368A (zh) * 2019-06-19 2020-12-22 百度在线网络技术(北京)有限公司 对向人群推荐内容的设备进行标注的方法和装置及处理器

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010359B2 (en) 2005-03-16 2011-08-30 Fujitsu Limited Speech recognition system, speech recognition method and storage medium
JP2007179239A (ja) * 2005-12-27 2007-07-12 Kenwood Corp スケジュール管理装置及びプログラム
US8060365B2 (en) 2007-07-03 2011-11-15 Nuance Communications, Inc. Dialog processing system, dialog processing method and computer program
JP2013134302A (ja) * 2011-12-26 2013-07-08 Denso Corp 音声認識装置
JP2016212135A (ja) * 2015-04-30 2016-12-15 日本電信電話株式会社 音声入力装置、音声入力方法、およびプログラム
JP2020021040A (ja) * 2018-08-03 2020-02-06 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
CN112116368A (zh) * 2019-06-19 2020-12-22 百度在线网络技术(北京)有限公司 对向人群推荐内容的设备进行标注的方法和装置及处理器
CN111739531A (zh) * 2020-06-11 2020-10-02 浙江沁园水处理科技有限公司 一种语音控制方法
CN111739531B (zh) * 2020-06-11 2022-08-09 浙江沁园水处理科技有限公司 一种语音控制方法
JP2020187773A (ja) * 2020-07-10 2020-11-19 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム
JP7058305B2 (ja) 2020-07-10 2022-04-21 ソフトバンク株式会社 情報処理装置、音声出力方法、音声出力プログラム

Also Published As

Publication number Publication date
JP3878147B2 (ja) 2007-02-07

Similar Documents

Publication Publication Date Title
US10276160B2 (en) Automated assistant for user interaction via speech
US7974835B2 (en) Method, system, and apparatus for natural language mixed-initiative dialogue processing
EP0954848B1 (en) Speech recognition using multiple recognizors
US10037758B2 (en) Device and method for understanding user intent
US8064573B2 (en) Computer generated prompting
EP2282308B1 (en) Multi-slot dialog system and method
US7020607B2 (en) Dialogue processing system and method
JP2008293019A (ja) 言語理解装置
JP3878147B2 (ja) 端末装置
US11869491B2 (en) Abstract generation device, method, program, and recording medium
US20240176957A1 (en) Systems and methods for inserting dialogue into a query response
JPH07261793A (ja) 対話処理装置
JP4475628B2 (ja) 会話制御装置、会話制御方法並びにこれらのプログラム
JP3581044B2 (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP2006018028A (ja) 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体
JP3576116B2 (ja) 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体
WO2019142447A1 (ja) 情報処理装置および情報処理方法
WO2019142419A1 (ja) 情報処理装置および情報処理方法
JP4486413B2 (ja) 音声対話方法、音声対話装置、音声対話プログラム、これを記録した記録媒体
JP4537755B2 (ja) 音声対話システム
WO2021205832A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP4223841B2 (ja) 音声対話システム及び方法
JP2003228393A (ja) 音声対話装置及び方法、音声対話プログラム並びにその記録媒体
JP2003108190A (ja) 音声対話方法および、この方法を実施する装置、プログラム、このプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060414

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061101

R150 Certificate of patent or registration of utility model

Ref document number: 3878147

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101110

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101110

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131110

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term