JP6143883B2

JP6143883B2 - 対話支援システム、方法、及びプログラム

Info

Publication number: JP6143883B2
Application number: JP2015550518A
Authority: JP
Inventors: 祐美子下郡; 憲治岩田; 雅弘伊藤; 尚義永江
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2017-06-07
Anticipated expiration: 2033-11-29
Also published as: WO2015079575A1; JPWO2015079575A1

Description

本発明の実施形態は、対話支援システム、方法、及びプログラムに関する。

音声認識技術を利用するシステムにおいて、音声認識に誤認識があった場合には、誤認識の内容を修正する必要がある。従来の手法では、誤認識の訂正候補を絞り込むことはできるが、最終的にはユーザ（発話者）に確認を取らなくてはならない。単純に誤認識の内容の修正をユーザに要求する場合、繰り返し確認となり、ユーザのストレスとなる。また、このようなシステムでは、未知語に関しては代替語を見つけることができない。さらに、ユーザが単語の読みを勘違いしている場合には、ユーザが何度音声入力を行ったとしても内容を正しく修正することができない。

特開２００４−１６４６７２号公報

音声認識技術を利用するシステムにおいては、音声認識に誤認識が生じた場合に受けるユーザのストレスを軽減できることが求められている。

本発明が解決しようとする課題は、音声認識結果における誤認識の内容を修正することができる対話支援システム、方法、及びプログラムを提供することである。

一実施形態に係る対話支援システムは、音声認識部、意図理解部、確信度評価部、第１の記憶部、第２の記憶部、課題解決策抽出部、及び対話制御部を備える。音声認識部は、ユーザが発した音声に対して音声認識を行い、前記音声に対応するテキスト、並びに、前記テキストに含まれる各単語について前記音声認識の確からしさを示す第１の確信度を得る。意図理解部は、前記テキストに基づいて前記ユーザの意図を理解し、理解の確からしさを示す第２の確信度を得る。確信度評価部は、前記第１の確信度に基づいて、前記音声認識が誤っているか否かを判定し、前記第２の確信度に基づいて、前記理解が誤っているか否かを判定する。第１の記憶部は、目的とアクションとの関係及び目的と対象との関係を示す目的知識を記憶する。第２の記憶部は、アクションと対象との関係を示す課題解決知識を記憶する。課題解決策抽出部は、前記理解が誤っていると判断された場合に、或いは、前記ユーザの意図に対応付けられた対話処理を実行するために使用する単語に対する前記音声認識が誤っていると判定された場合に、前記第１の確信度が高い単語について前記目的知識の前記目的を参照してアクション候補及び対象候補を別々に求め、前記課題解決知識を用いて前記アクション候補と前記対象候補を結びつけることにより、課題解決策を抽出する。対話制御部は、前記課題解決策に対応付けられた対話処理を実行する。

実施形態に係る対話支援システムを示すブロック図。図１に示した音声認識部が出力する情報の一例を示す図。図１に示した意図理解部が出力する情報の一例を示す図。図１に示した音声認識部が音声の一部「アンバサダーホテル」を「あんばさだる」と誤認識した場合に出力する情報の一例を示す図。図１に示したコンテキスト管理部が目的知識及び課題解決知識を絞り込むために参照する単語群とトピックの関係及びアプリケーションとトピックの関係を示す図。図１に示したコンテキスト管理部によって絞り込まれた目的知識の一例を示す図。図１に示したコンテキスト管理部によって絞り込まれた課題解決知識の一例を示す図。図１に示した音声認識部が出力する情報であって、認識結果の一部の確信度が高い場合の情報の一例を示す図。実施形態に係る対話支援処理手順の一例を示すフローチャート。図９に示した目的知識及び課題解決知識の絞り込み処理を示すフローチャート。単語の意味クラスの一例を示す図。図１に示した音声認識部が図４に示した情報を出力した場合に、意図理解部が出力する情報の一例を示す図。意図に関連付けられている対話処理とその対話処理を実行するための引数との関係の一例を示す図。

以下、必要に応じて図面を参照しながら実施形態を説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。

図１は、一実施形態に係る対話支援システム１００を概略的に示している。対話支援システム１００は、ユーザの発話を受けてユーザの意図に沿った対話処理（サービスとも称する。）を実行するものである。対話支援システム１００は、図１に示すように、音声認識部１０１、意図理解部１０２、確信度評価部１０３、課題解決策抽出部１０４、コンテキスト管理部１０５、対話制御部１０６、応答文生成部１０７、意図モデル記憶部１０９、目的知識記憶部１１０、課題解決知識記憶部１１１、アプリケーション状況記憶部１１２、発話履歴記憶部１１３、及びチェックポイント意図記憶部１１４を備える。

音声認識部１０１は、ユーザが発した音声に対して音声認識を行い、この音声に対応するテキスト（文字列）を生成する。さらに、音声認識部１０１は、生成したテキストに含まれる各単語について、音声認識の確からしさを表す確信度を得る。例えば、ユーザが「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」と発話すると、音声認識部１０１は、「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」というテキスト、並びに、このテキスト中の各単語の確信度を出力する。

図２は、「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」というテキストから抽出される単語の一部を、それらの確信度とともに示している。図２では、上記テキストに含まれる単語のうちの３つの単語「予約」、「アンバサダーホテル」、及び「行く」が示され、その他の単語は省略されている。

意図理解部１０２は、音声認識部１０１によって生成されたテキストに基づいてユーザの意図を理解する。具体的には、意図理解部１０２は、音声認識部１０１によって生成されたテキストに対して形態素解析を行うことによりそのテキストを形態素単位の単語に分解する。続いて、意図理解部１０２は、固有表現抽出技術によって、名詞、固有名詞、動詞、未知語の単語それぞれに対して、単語の意味を表す意味クラスを割り当てる。
意図理解部１０２は、形態素や単語の意味クラスや単語の表記などの素性を用いて意図モデル記憶部１０９に記憶されている意図モデルを参照することにより、ユーザの意図を理解し、理解の確からしさを表す確信度及び理解した意図に対応付けられた対話処理を実行するための引数を得る。意図モデルは、多数の発話サンプルから意味クラス及び単語などを素性とした学習により予め生成される。意図モデルには、例えば、複数の意図候補が意味クラスと対応付けて記述されている。意図候補には、例えば、「ホテルの場所の確認」、「ホテルの予約」、「車のレンタル」などが含まれる。意図理解部１０２は、複数の意図候補の中から、テキスト中の単語の意味クラスに応じた意図を選択する。なお、ユーザの意図を理解する方法は、ここで説明した例に限定されない。

音声認識部１０１において例えば「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」というテキストが得られた場合、ユーザの意図が「ホテルの場所の確認」であると理解される。意図理解部１０２は、理解した意図、引数、及び確信度を含む情報を出力する。意図は、機械が解釈できる形態で、例えば意図ＩＤとして出力される。図３に、意図理解部１０２が出力する情報の一例を示す。図３において、意図ＩＤは「show.location.hotel」である。「show.location.hotel」の意図に対応付けられた対話処理を実行するための引数は、意味クラスが「ホテルの場所」である単語であり、この例では、単語「アンバサダーホテル」となる。

以下では、音声認識部１０１で得られる確信度を単語確信度と称し、意図理解部１０２で得られる確信度を意図確信度と称する。

確信度評価部１０３は、音声認識部１０１からの単語確信度及び意図理解部１０２からの意図確信度を評価する。評価方法としては、例えば、閾値との比較に基づいた方法を利用することができる。閾値は、単語確信度及び意図確信度それぞれについて設定されていてもよく、単語確信度及び意図確信度に共通のものであってもよい。閾値は、固定値であってもよく、ユーザのフィードバックにより調整されてもよい。本実施形態では、単語確信度及び意図確信度に共通の閾値が設定されており、単語確信度及び意図確信度の範囲を０から１０とし、閾値を５とする。

図４は、ユーザが「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」と発話したが、音声認識部１０１が「アンバサダーホテル」を「あんばさだる」と誤認識した場合に、音声認識部１０１が出力する情報の例を示す。この例では、単語「あんばさだる」の単語確信度は１である。この例において、ユーザの意図が「ホテルの場所の確認」であると理解されるが、単語「あんばさだる」の意味クラスが未知語と判断され、その結果、引数は取得されない。

意図確信度が閾値以上であり、かつ、引数の単語の単語確信度が閾値以上である場合、「show.location.hotel」の意図に対応付けられた対話処理が実行される。上記の例では、対話制御部１０６は、例えば、アンバサダーホテルの場所が記載された地図をユーザに提示（例えば表示）する。意図確信度が閾値以上であり、かつ、引数の単語がない若しくは引数の単語の単語確信度が閾値未満である場合、確信度評価部１０３は音声認識に誤認識の可能性があると判断し、それにより、後述する課題解決処理が課題解決策抽出部１０４によって実行される。

意図確信度が閾値未満である場合、確信度評価部１０３は意図理解に誤解の可能性があると判断する。誤解は音声認識の誤りに起因すると考えることができる。この場合において、単語確信度が閾値以上である単語が存在すれば、課題解決処理が課題解決策抽出部１０４によって実行される。単語確信度が閾値以上である単語がなければ、ユーザに音声の再入力を要求する対話処理が対話制御部１０６によって実行される。

コンテキスト管理部１０５は、起動している対話アプリケーション及びその操作状況、発話履歴、並びに、対話中のユーザの意図を管理する。コンテキスト管理部１０５は、アプリケーション状況記憶部１１２、発話履歴記憶部１１３、及びチェックポイント意図記憶部１１４にアクセス可能に接続されている。

アプリケーション状況記憶部１１２は、起動中のアプリケーション及びその操作状況に関する情報を記憶する。操作状況には、例えば、ユーザが携帯している端末装置の位置（すなわち、ユーザの位置）を示す位置情報が含まれる。位置情報は、例えば、端末装置に搭載されているＧＰＳ（Global Positioning System）受信機を用いて取得することができる。発話履歴記憶部１１３は、ユーザの発話に関する発話履歴を記憶する。一例では、発話履歴は、図２に示されるような音声認識部１０１が出力する情報及び図３に示されるような意図理解部１０２が出力する情報、すなわち、単語、単語確信度、意図、及び意図確信度を含む。チェックポイント意図記憶部１１４は、意図確信度が閾値以上であり、かつ、引数の単語の単語確信度が閾値未満である場合に、意図理解部１０２によって理解されたユーザの意図をチェックポイント意図（初期意図）として記憶する。

コンテキスト管理部１０５は、アプリケーション状況記憶部１１２に記憶されている情報及び発話履歴記憶部１１３に記憶されている情報の少なくとも一方を用いて、目的知識及び課題解決知識を絞り込む。目的知識は目的知識記憶部（第１の記憶部とも称する）１１０に記憶され、課題解決知識は課題解決知識記憶部（第２の記憶部とも称する）１１１に記憶されている。目的知識及び課題解決知識それぞれは、複数のトピック（ドメインとも称する。）に関連付けられている。例えば、目的知識は、ホテル関係、食事関係、フライト関係、医療関係、不動産関係などに関連付けられたデータを含む。目的知識及び課題解決知識は、公知の目的知識構築技術により構築することができる。目的知識は、目的とアクションの関係及び目的と対象の関係を示す情報である。課題解決知識は、アクションと対象の関係を示す情報である。

具体的には、コンテキスト管理部１０５は、アプリケーション状況記憶部１１２に記憶されている情報及び発話履歴記憶部１１３に記憶されている情報の少なくとも一方に基づいてトピックを決定する。続いて、コンテキスト管理部１０５は、目的知識の範囲を、決定したトピックに関連する目的知識に絞り込み、課題解決知識の範囲を、決定したトピックに関連する課題解決知識に絞り込む。

図５は、単語群とトピックの関係及び対話アプリケーションとトピックの関係の例を示している。図５において、フライト関係、ホテル関係、食事関係、医療関係、及び不動産関係の５つのトピックが示されている。対話アプリケーションとしては、例えば、旅行代理店アプリケーション、医療サービスアプリケーション、賃貸検索アプリケーションがある。図５の例では、旅行代理店アプリケーションにアクセスしている場合、トピックは、ホテル関係、フライト関係、食事関係である。この場合、コンテキスト管理部１０５は、目的知識及び課題解決知識それぞれの範囲をホテル関係、フライト関係、及び食事関係に絞り込む。

さらに、現在位置が到着地（旅行先）のロケーションである場合、フライト関係が除外され、トピックは、ホテル関係及び食事関係になる。この場合、目的知識及び課題解決知識それぞれの範囲はホテル関係及び食事関係にさらに絞り込まれる。発話履歴記憶部１１３に記憶されている情報を利用する例において、音声認識部１０１で得られたテキストに単語「宿泊」が含まれ、その単語確信度が閾値以上である場合には、トピックは、ホテル関係に絞られる。

課題解決策抽出部１０４は、単語確信度の高い単語を用いて、目的知識及び課題解決知識から課題解決策を抽出する。具体的には、課題解決策抽出部１０４は、単語確信度の高い単語を検索キーとして目的知識記憶部１１０の目的を参照してアクション候補及び対象候補を別々に求め、課題解決知識を用いてアクション候補と対象候補を結びつけることにより課題解決策を生成する。コンテキスト管理部１０５によって目的知識及び課題解決知識が絞り込まれている場合には、課題解決策抽出部１０４は、絞り込まれた目的知識及び課題解決知識を参照する。

図６は、単語確信度の高い単語が「予約」及び「行く」である場合に抽出される、ホテル関係に関連する目的知識の一例を示している。目的知識の各データはＩＤで管理されている。ＩＤがPPS_APP1であるデータでは、目的「予約／行く」がアクション「地図を検索」に対応付けられている。ＩＤがPPS_APP2であるデータでは、目的「予約／行く」がアクション「予約情報を確認」に対応付けられている。ＩＤがPPS_SUB3であるデータでは、目的「予約／行く」が対象「ホテル」に対応付けられている。ＩＤがPPS_SUB4であるデータでは、目的「予約／行く」が対象「ユーザ」に対応付けられている。なお、対象は、具体的な単語（図６の例では、ホテル、ユーザ）ではなく、意味クラスであってもよい。

図７は、ホテル関係に関連する課題解決知識の一例を示している。図７に示される課題解決知識は、PPS_APP1がPPS_SUB3に対応付けられていることを示すデータ及びPPS_APP2がPPS_SUB4に対応付けられていることを示すデータを含む。PPS_APP1とPPS_SUB3との対応関係を用いて図６に示される目的知識を参照することにより、アクションが「地図を検索」でありかつ対象が「ホテル」である課題解決策が得られる。さらに、PPS_APP2とPPS_SUB4との対応関係を用いて図６に示される目的知識を参照することにより、アクションが「予約情報を確認」でありかつ対象が「ユーザ」である課題解決策が得られる。

目的知識及び課題解決知識の絞り込みを行うことにより、抽出される課題解決策の数を低減することができる。なお、目的知識のデータ数及び課題解決知識のデータ数が少ない場合などでは、コンテキスト管理部１０５による絞り込みは実行されなくてもよい。

課題解決策の抽出には、単語確信度が十分高い（例えば、単語確信度が閾値以上である）単語を使用することが基本であるが、必要な単語が不足しかつ意図確信度が十分高い場合、その意図に対応付けられた対話処理に基づいて単語の一部を補って目的知識を抽出してもよい。例えば、図８に示すように、音声認識部１０１の音声認識結果が単語「予約」だけが確信度が十分高い場合を想定する。意図確信度が十分高い場合、その意図に対応付けられた対話処理が「地図を検索」であったならば、「地図を検索」の目的となる「予約／行く」と確信度の高い単語「予約」とから「行く」を補完し、単語「予約」及び「行く」に基づいて課題解決策の抽出を行うこともできる。また、「行く」を誤認識して例えば「見る」が得られ、この単語「見る」の単語確信度が閾値未満であったとする。この場合、単語「見る」を上記のようにして補完された単語「行く」に訂正することができる。このように、単語確信度が高い単語及び意図確信度が高い意図を用いて目的知識を参照することで、誤認識の内容を訂正することができる。

対話制御部１０６は、意図確信度及び引数の単語の単語確信度がともに閾値以上である場合、意図理解部１０２によって理解されたユーザの意図に対応付けられた対話処理を実行する。また、対話制御部１０６は、課題解決策抽出部１０４によって課題解決策が抽出された場合には、その課題解決策に対応付けられた対話処理を実行する。課題解決策が複数ある場合、対話制御部１０６は、課題解決策に対応付けられた対話処理の内容をユーザに提示し、実行すべき対話処理の選択をユーザに促す。ユーザによる選択は、音声で実施できるようにしてもよく、ボタン操作により実施できるようにしてもよい。その後のユーザとの対話によって、チェックポイント意図として登録された意図に対応付けられた対話処理の実行に必要な情報を取得できた場合には、対話制御部１０６は、その意図に対応付けられた対話処理を実行する。この場合、対話制御部１０６は、対話処理を実行するか否かをユーザに質問してもよい。

応答文生成部１０７は、対話制御部１０６が実行する対話処理に応じた応答文を生成する。応答文はユーザに提示される。提示方法は、音声合成技術を利用して音声で出力する方法、ディスプレイ装置に表示する方法などを利用することができる。

本実施形態に係る対話支援システム１００は、意図確信度及び単語確信度から誤認識の可能性を判断し、目的知識及び課題解決知識を用いて本来のユーザの意図を実現する課題解決策を決定し、ユーザに誤認識の内容を修正することを要求すること以外の方法で対話を続ける。ユーザに誤認識の内容を修正することを要求すること以外の方法で本来のユーザの意図を満たす課題解決策を提示することができるので、音声認識が対応していない未知語やユーザの勘違いや名称の覚え間違いによる対話のトラブルを回避し、人間との対話のように自然なやりとりで誤認識の内容を修正することができる。

次に、対話支援システム１００の動作について説明する。
図９は、対話支援システム１００が実行する対話支援処理の手順例を概略的に示している。図９のステップＳ９０１では、ユーザから音声が入力される。ステップＳ９０２では、音声認識部１０１は、入力された音声に対して音声認識を行う。例えば、音声認識部１０１は、入力された音声をテキストに変換し、テキスト中の単語ごとに単語確信度を決定する。ステップＳ９０３では、意図理解部１０２は、形態素解析及び固有表現抽出技術を用いて音声認識部１０１で得られたテキストを解析することによりユーザの意図を理解し、理解したユーザの意図、意図確信度、及び引数を含む情報を生成する。

ステップＳ９０４では、確信度評価部１０３は、意図確信度が閾値以上であるか否かを判定する。意図確信度が閾値以上である場合、ステップＳ９０５に進み、意図確信度が閾値未満である場合には、ステップＳ９０６に進む。ステップＳ９０６では、確信度評価部１０３は、単語確信度が閾値以上である単語が存在するか否かを判定する。単語確信度が閾値以上である単語が存在する場合、ステップＳ９０８に進み、単語確信度が閾値以上である単語が存在しない場合、ステップＳ９１０に進む。

ステップＳ９０５では、確信度評価部１０３は、引数に対応する単語の単語確信度が閾値以上であるか否かを判定する。単語確信度が閾値以上である場合、ステップＳ９１０に進み、単語確信度が閾値未満である場合、ステップＳ９０７に進む。なお、引数が不明となっている場合は、ステップＳ９０７に進む。

ステップＳ９０７では、意図理解部１０２で理解されたユーザの意図がチェックポイント意図としてチェックポイント意図記憶部１１４に保存される。

ステップＳ９０８では、コンテキスト管理部１０５は、アプリケーション状況記憶部１１２に記憶されている情報及び発話履歴記憶部１１３に記憶されている情報の少なくとも一方に基づいて、目的知識及び課題解決知識を絞り込む。ステップＳ９０９では、課題解決策抽出部１０４は、単語確信度の高い単語を検索キーとして用いて、絞り込まれた目的知識及び課題解決知識から、課題解決策を抽出する。抽出される課題解決策の数は１又は複数であり得る。

ステップＳ９１０では、対話制御部１０６は、対話制御を行う。ステップＳ９０４及びステップＳ９０５の判定がＹｅｓである場合、対話制御部１０６は、意図理解部１０２によって理解された意図に対応付けられた対話処理を実行する。ステップＳ９０４及びステップＳ９０６の判定がＮｏである場合、対話制御部１０６は、ユーザに音声の再入力を促す。ステップＳ９０９で課題解決策が抽出された場合、対話制御部１０６は、課題解決策に対応付けられた対話処理を実行する。

ステップＳ９１１では、応答文生成部１０７は、対話処理に応じた応答文を生成し、その応答文をユーザに提示する。

図１０は、図９のステップＳ９０８に示される絞り込み処理の一例を示している。図１０のステップＳ１００１では、コンテキスト管理部１０５は、アプリケーション状況記憶部１１２に記憶されている情報、例えば、実行中の対話アプリケーション及びユーザの位置を用いて、目的知識及び課題解決知識の絞り込みを行う。ステップＳ１００２では、コンテキスト管理部１０５は、発話履歴記憶部１１３に記憶されている発話履歴を用いて目的知識及び課題解決知識の絞り込みを行う。

対話支援処理について具体例を挙げて説明する。ここでは、ユーザが旅行先の空港に到着したときに旅行代理店の対話アプリケーションを起動し、ユーザが「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか」と発話した場合を例に挙げる。

まず、ユーザが「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか」と発話する。音声認識部１０１は、ユーザが発した音声に対して音声認識を行う。ここでは、音声認識の結果、テキスト「この前予約したあんばさだるですがどうやって行けばいいでしょうか。」が得られ、図４に示した単語確信度が得られたとする。この場合、単語確信度は、単語「予約」が１０、単語「あんばさだる」が１、単語「行く」が８である。

続いて、意図理解部１０２がテキスト「この前予約したあんばさだるですがどうやって行けばいいでしょうか。」を分析し、単語の意味クラス、ユーザ意図、及び意図確信度を得る。ここでは、図１１に示すように、単語「予約」の意味クラスが「イベント」であり、単語「あんばさだる」の意味クラスが「未知語」であり、単語「行く」の意味クラスが「行動」である。さらに、図１２に示すように、ユーザの意図が「ホテルの場所の確認」（意図ＩＤ＝show.location.hotel）であり、意図確信度が６となっている。なお、図１０に示したように意味クラスが「ホテルの場所」である単語はテキストから抽出されていないので、引数は不明となっている。「ホテルの場所の確認」という意図に関連付けられている対話処理は「地図検索」であり、その対話処理を実行するためには、所定の意味クラスを持つ単語が必要である。図１３は、「ホテルの場所の確認」という意図に関連付けられている対話処理とその対話処理を実行するための引数との関係を示している。図１３の例では、「地図検索」を実行するためには、意味クラスが「ホテルの場所」又は「緯度、経度」である単語が必要である。

この例では、閾値を５とする。意図確信度は６であり、閾値より大きいが、意味クラスが「ホテルの場所」でありかつ単語確信度が閾値以上である単語はない。そのため、対話制御部１０６は、意図「ホテルの場所の確認」に関連付けられている対話処理を実行することができない。「地図検索」がチェックポイント意図としてチェックポイント意図記憶部１１４に保存される。

コンテキスト管理部１０５は、アプリケーション状況記憶部１１２から、現在使用している対話アプリケーションが旅行代理店アプリケーションであること、現在位置が旅行先（すなわち、自宅エリアでない）の空港であることを抽出する。コンテキスト管理部１０５は、旅行代理店アプリケーションを使用していることから、目的知識の範囲を、フライト関係、ホテル関係、及びレストラン関係に絞り込む。同様に、コンテキスト管理部１０５は、課題解決知識の範囲を、フライト関係、ホテル関係、及びレストラン関係に絞り込む。さらに、現在位置が自宅エリアから遠い空港内であることから、コンテキスト管理部１０５は、目的知識の範囲をホテル関係及びレストラン関係に絞り込む。同様に、コンテキスト管理部１０５は、課題解決知識の範囲をホテル関係及びレストラン関係に絞り込む。これにより、図７に示した課題解決知識が抽出される。

課題解決策抽出部１０４は、単語確信度の高い単語（この例では、「予約」及び「行く」）を用いてコンテキスト管理部１０５によって絞り込まれた目的知識を参照する。これにより、図６に示した目的知識が抽出される。図６の目的知識及び図７の課題解決知識からは、アクションが「地図検索」でありかつ対象が「ホテル」である課題解決策と、アクションが「予約情報を確認」でありかつ対象が「ユーザ」である課題解決策が抽出される。

対話制御部１０６は、実行する候補となる抽出された課題解決策に対応する対話処理をユーザに表示する。例えば、「ホテルの場所」の「地図検索」及び「ユーザ」の「予約情報を確認」が候補となる。

ユーザが「ホテルの場所」の「地図検索」を選択した場合、コンテキスト管理部１０５は、チェックポイント意図記憶部１１４に保存されているチャックポイント意図（この例では「地図検索」）に対応付けられた対話処理が実行可能か否かを判断する。この例では、引数となる「ホテルの場所」が不明なため、実行不可能と判断される。これを受けて、対話制御部１０６は、ユーザにホテルの場所（名称）をユーザに訊き返す処理を実行する。

ユーザが「ユーザ」の「予約情報を確認」を選択した場合、ユーザの意図は「予約情報を確認」であるため、「予約情報を確認」が新たなチェックポイント意図としてチェックポイント意図記憶部１１４に保存される。コンテキスト管理部１０５は、チェックポイント意図に対応付けられた対話処理が実行可能か否かを判断する。「予約情報を確認」を実行するためには、「ユーザの氏名」などの意味クラスの単語が必要である。この例では、音声認識部１０１で得られたテキストにそのような単語が含まれていないので、コンテキスト管理部１０５は、チェックポイント意図に対応付けられた対話処理を実行不可能と判断する。これを受けて、対話制御部１０６は、ユーザを識別する会員ＩＤや氏名をユーザに尋ねる処理を実行する。コンテキスト管理部１０５が発話履歴や実行中の対話アプリケーションのユーザプロファイルから会員ＩＤ及び氏名を補完することができる場合、それらを補完して「予約情報を確認」を直接実行することができる。

対話制御部１０６は、「予約情報を確認」を実行した結果、チェックポイント意図として保持していた当初の意図の引数に必要な意味クラス「ホテルの場所」を取得することができた場合、取得した値で引数を補完して当初の意図に対応する対話処理を実行してもよい。例えば、対話制御部１０６は、「予約情報を確認」を実行したときに、意味クラスが「ホテルの場所」である「アンバサダーホテル」が取得できた場合、「アンバサダーホテル」で「地図検索」を実行し、アンバサダーホテルの場所が記載された地図を表示する。

応答文生成部１０７は、対話処理に合わせてユーザに返す応答文を生成する。応答文生成部１０７は、例えば、「ご予約情報の確認をしますか」という応答文、「ホテル名を入力して、地図を表示しますか」という応答文を生成する。この応答文はユーザに提示される。

このように、対話支援システム１００は、音声の一部「アンバサダーホテル」を誤認識したとしても、正しく認識できた残りの部分からユーザに応答をする。「ホテル名」を入力させるアプローチとともに、「予約確認」という別のアプローチを提案することにより、多様な認識誤りの回復方法をユーザに提案することができる。

以上のように、本実施形態に係る対話支援システムでは、単語確信度の高い単語を用いて目的知識及び課題解決知識から課題解決策を抽出し、課題解決策に基づいた対話処理を実施する。ユーザとの対話を通じて得られた情報を実際に実施したい対話処理の情報（すなわち、単語確信度の低い単語の訂正結果）として利用することで、誤認識が起こった際に受けるユーザのストレスを軽減し、自然にユーザの望む結果に誘導することが可能になる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の対話支援システムによる効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ又は組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の対話支援システムと同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。

また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータ又は組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…対話支援システム、１０１…音声認識部、１０２…意図理解部、１０３…確信度評価部、１０４…課題解決策抽出部、１０５…コンテキスト管理部、１０６…対話制御部、１０７…応答文生成部、１０９…意図モデル記憶部、１１０…目的知識記憶部、１１１…課題解決知識記憶部、１１２…アプリケーション状況記憶部、１１３…発話履歴記憶部、１１４…チェックポイント意図記憶部。

Claims

ユーザが発した音声に対して音声認識を行い、前記音声に対応するテキスト、並びに、前記テキストに含まれる各単語について前記音声認識の確からしさを示す第１の確信度を得る音声認識部と、
前記テキストに基づいて前記ユーザの意図を理解し、理解の確からしさを示す第２の確信度を得る意図理解部と、
前記第１の確信度に基づいて、前記音声認識が誤っているか否かを判定し、前記第２の確信度に基づいて、前記理解が誤っているか否かを判定する確信度評価部と、
目的とアクションとの関係及び目的と対象との関係を示す目的知識を記憶する第１の記憶部と、
アクションと対象との関係を示す課題解決知識を記憶する第２の記憶部と、
前記理解が誤っていると判断された場合に、或いは、前記ユーザの意図に対応付けられた対話処理を実行するために使用する単語に対する前記音声認識が誤っていると判定された場合に、前記第１の確信度が高い単語について前記目的知識の前記目的を参照してアクション候補及び対象候補を別々に求め、前記課題解決知識を用いて前記アクション候補と前記対象候補を結びつけることにより、課題解決策を抽出する課題解決策抽出部と、
前記課題解決策に対応付けられた対話処理を実行する対話制御部と、
を具備する対話支援システム。
前記実行された対話処理に応じた応答文を生成する応答文生成部をさらに具備する請求項１に記載の対話支援システム。
前記ユーザが使用しているアプリケーション及び前記ユーザの位置を示す情報を記憶する第３の記憶部と、
前記情報に基づいて前記目的知識及び前記課題解決知識を絞り込むコンテキスト管理部と、
をさらに具備する請求項１に記載の対話支援システム。
前記第１の確信度が第１の閾値以上でありかつ前記第２の確信度が第２の閾値未満である場合に、前記ユーザの意図をチェックポイント意図として記憶する第４の記憶部をさらに具備し、
前記コンテキスト管理部は、前記チェックポイント意図に対応付けられた対話処理を実行可能であるか否かを判定する、請求項３に記載の対話支援システム。
前記ユーザの発話に関する発話履歴を記憶する第５の記憶部と、
前記発話履歴に基づいて前記目的知識及び前記課題解決知識を絞り込むコンテキスト管理部と、
をさらに具備する請求項１に記載の対話支援システム。
前記第１の確信度が第１の閾値以上でありかつ前記第２の確信度が第２の閾値未満である場合に、前記ユーザの意図をチェックポイント意図として記憶する第６の記憶部をさらに具備し、
前記コンテキスト管理部は、前記チェックポイント意図に対応付けられた対話処理を実行可能であるか否かを判定する、請求項５に記載の対話支援システム。
ユーザが発した音声に対して音声認識を行い、前記音声に対応するテキスト、並びに、前記テキストに含まれる各単語について前記音声認識の確からしさを示す第１の確信度を得ることと、
前記テキストに基づいて前記ユーザの意図を理解し、理解の確からしさを示す第２の確信度を得ることと、
前記第１の確信度に基づいて、前記音声認識が誤っているか否かを判定し、前記第２の確信度に基づいて、前記理解が誤っているか否かを判定することと、
目的とアクションとの関係及び目的と対象との関係を示す目的知識を記憶する第１の記憶部を用意することと、
アクションと対象との関係を示す課題解決知識を記憶する第２の記憶部を用意することと、
前記理解が誤っていると判断された場合に、或いは、前記ユーザの意図に対応付けられた対話処理を実行するために使用する単語に対する前記音声認識が誤っていると判定された場合に、前記第１の確信度が高い単語について前記目的知識の前記目的を参照してアクション候補及び対象候補を別々に求め、前記課題解決知識を用いて前記アクション候補と前記対象候補を結びつけることにより、課題解決策を抽出することと、
前記課題解決策に対応付けられた対話処理を実行することと、
を具備する対話支援方法。
コンピュータを、
ユーザが発した音声に対して音声認識を行い、前記音声に対応するテキスト、並びに、前記テキストに含まれる各単語について前記音声認識の確からしさを示す第１の確信度を得る音声認識手段と、
前記テキストに基づいて前記ユーザの意図を理解し、理解の確からしさを示す第２の確信度を得る意図理解手段と、
前記第１の確信度に基づいて、前記音声認識が誤っているか否かを判定し、前記第２の確信度に基づいて、前記理解が誤っているか否かを判定する確信度評価手段と、
前記理解が誤っていると判断された場合に、或いは、前記ユーザの意図に対応付けられた対話処理を実行するために使用する単語に対する前記音声認識が誤っていると判定された場合に、前記第１の確信度が高い単語について、目的とアクションとの関係及び目的と対象との関係を示す目的知識の前記目的を参照して、アクション候補及び対象候補を別々に求め、アクションと対象との関係を示す課題解決知識を用いて前記アクション候補と前記対象候補を結びつけることにより、課題解決策を抽出する課題解決策抽出手段と、
前記課題解決策に対応付けられた対話処理を実行する対話制御手段として機能させるための対話支援プログラム。