JP6143883B2 - 対話支援システム、方法、及びプログラム - Google Patents

対話支援システム、方法、及びプログラム Download PDF

Info

Publication number
JP6143883B2
JP6143883B2 JP2015550518A JP2015550518A JP6143883B2 JP 6143883 B2 JP6143883 B2 JP 6143883B2 JP 2015550518 A JP2015550518 A JP 2015550518A JP 2015550518 A JP2015550518 A JP 2015550518A JP 6143883 B2 JP6143883 B2 JP 6143883B2
Authority
JP
Japan
Prior art keywords
intention
user
dialogue
knowledge
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015550518A
Other languages
English (en)
Other versions
JPWO2015079575A1 (ja
Inventor
祐美子 下郡
祐美子 下郡
憲治 岩田
憲治 岩田
雅弘 伊藤
雅弘 伊藤
尚義 永江
尚義 永江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2015079575A1 publication Critical patent/JPWO2015079575A1/ja
Application granted granted Critical
Publication of JP6143883B2 publication Critical patent/JP6143883B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、対話支援システム、方法、及びプログラムに関する。
音声認識技術を利用するシステムにおいて、音声認識に誤認識があった場合には、誤認識の内容を修正する必要がある。従来の手法では、誤認識の訂正候補を絞り込むことはできるが、最終的にはユーザ(発話者)に確認を取らなくてはならない。単純に誤認識の内容の修正をユーザに要求する場合、繰り返し確認となり、ユーザのストレスとなる。また、このようなシステムでは、未知語に関しては代替語を見つけることができない。さらに、ユーザが単語の読みを勘違いしている場合には、ユーザが何度音声入力を行ったとしても内容を正しく修正することができない。
特開2004−164672号公報
音声認識技術を利用するシステムにおいては、音声認識に誤認識が生じた場合に受けるユーザのストレスを軽減できることが求められている。
本発明が解決しようとする課題は、音声認識結果における誤認識の内容を修正することができる対話支援システム、方法、及びプログラムを提供することである。
一実施形態に係る対話支援システムは、音声認識部、意図理解部、確信度評価部、第1の記憶部、第2の記憶部、課題解決策抽出部、及び対話制御部を備える。音声認識部は、ユーザが発した音声に対して音声認識を行い、前記音声に対応するテキスト、並びに、前記テキストに含まれる各単語について前記音声認識の確からしさを示す第1の確信度を得る。意図理解部は、前記テキストに基づいて前記ユーザの意図を理解し、理解の確からしさを示す第2の確信度を得る。確信度評価部は、前記第1の確信度に基づいて、前記音声認識が誤っているか否かを判定し、前記第2の確信度に基づいて、前記理解が誤っているか否かを判定する。第1の記憶部は、目的とアクションとの関係及び目的と対象との関係を示す目的知識を記憶する。第2の記憶部は、アクションと対象との関係を示す課題解決知識を記憶する。課題解決策抽出部は、前記理解が誤っていると判断された場合に、或いは、前記ユーザの意図に対応付けられた対話処理を実行するために使用する単語に対する前記音声認識が誤っていると判定された場合に、前記第1の確信度が高い単語について前記目的知識の前記目的を参照してアクション候補及び対象候補を別々に求め、前記課題解決知識を用いて前記アクション候補と前記対象候補を結びつけることにより、課題解決策を抽出する。対話制御部は、前記課題解決策に対応付けられた対話処理を実行する。
実施形態に係る対話支援システムを示すブロック図。 図1に示した音声認識部が出力する情報の一例を示す図。 図1に示した意図理解部が出力する情報の一例を示す図。 図1に示した音声認識部が音声の一部「アンバサダーホテル」を「あんばさだる」と誤認識した場合に出力する情報の一例を示す図。 図1に示したコンテキスト管理部が目的知識及び課題解決知識を絞り込むために参照する単語群とトピックの関係及びアプリケーションとトピックの関係を示す図。 図1に示したコンテキスト管理部によって絞り込まれた目的知識の一例を示す図。 図1に示したコンテキスト管理部によって絞り込まれた課題解決知識の一例を示す図。 図1に示した音声認識部が出力する情報であって、認識結果の一部の確信度が高い場合の情報の一例を示す図。 実施形態に係る対話支援処理手順の一例を示すフローチャート。 図9に示した目的知識及び課題解決知識の絞り込み処理を示すフローチャート。 単語の意味クラスの一例を示す図。 図1に示した音声認識部が図4に示した情報を出力した場合に、意図理解部が出力する情報の一例を示す図。 意図に関連付けられている対話処理とその対話処理を実行するための引数との関係の一例を示す図。
以下、必要に応じて図面を参照しながら実施形態を説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
図1は、一実施形態に係る対話支援システム100を概略的に示している。対話支援システム100は、ユーザの発話を受けてユーザの意図に沿った対話処理(サービスとも称する。)を実行するものである。対話支援システム100は、図1に示すように、音声認識部101、意図理解部102、確信度評価部103、課題解決策抽出部104、コンテキスト管理部105、対話制御部106、応答文生成部107、意図モデル記憶部109、目的知識記憶部110、課題解決知識記憶部111、アプリケーション状況記憶部112、発話履歴記憶部113、及びチェックポイント意図記憶部114を備える。
音声認識部101は、ユーザが発した音声に対して音声認識を行い、この音声に対応するテキスト(文字列)を生成する。さらに、音声認識部101は、生成したテキストに含まれる各単語について、音声認識の確からしさを表す確信度を得る。例えば、ユーザが「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」と発話すると、音声認識部101は、「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」というテキスト、並びに、このテキスト中の各単語の確信度を出力する。
図2は、「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」というテキストから抽出される単語の一部を、それらの確信度とともに示している。図2では、上記テキストに含まれる単語のうちの3つの単語「予約」、「アンバサダーホテル」、及び「行く」が示され、その他の単語は省略されている。
意図理解部102は、音声認識部101によって生成されたテキストに基づいてユーザの意図を理解する。具体的には、意図理解部102は、音声認識部101によって生成されたテキストに対して形態素解析を行うことによりそのテキストを形態素単位の単語に分解する。続いて、意図理解部102は、固有表現抽出技術によって、名詞、固有名詞、動詞、未知語の単語それぞれに対して、単語の意味を表す意味クラスを割り当てる。
意図理解部102は、形態素や単語の意味クラスや単語の表記などの素性を用いて意図モデル記憶部109に記憶されている意図モデルを参照することにより、ユーザの意図を理解し、理解の確からしさを表す確信度及び理解した意図に対応付けられた対話処理を実行するための引数を得る。意図モデルは、多数の発話サンプルから意味クラス及び単語などを素性とした学習により予め生成される。意図モデルには、例えば、複数の意図候補が意味クラスと対応付けて記述されている。意図候補には、例えば、「ホテルの場所の確認」、「ホテルの予約」、「車のレンタル」などが含まれる。意図理解部102は、複数の意図候補の中から、テキスト中の単語の意味クラスに応じた意図を選択する。なお、ユーザの意図を理解する方法は、ここで説明した例に限定されない。
音声認識部101において例えば「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」というテキストが得られた場合、ユーザの意図が「ホテルの場所の確認」であると理解される。意図理解部102は、理解した意図、引数、及び確信度を含む情報を出力する。意図は、機械が解釈できる形態で、例えば意図IDとして出力される。図3に、意図理解部102が出力する情報の一例を示す。図3において、意図IDは「show.location.hotel」である。「show.location.hotel」の意図に対応付けられた対話処理を実行するための引数は、意味クラスが「ホテルの場所」である単語であり、この例では、単語「アンバサダーホテル」となる。
以下では、音声認識部101で得られる確信度を単語確信度と称し、意図理解部102で得られる確信度を意図確信度と称する。
確信度評価部103は、音声認識部101からの単語確信度及び意図理解部102からの意図確信度を評価する。評価方法としては、例えば、閾値との比較に基づいた方法を利用することができる。閾値は、単語確信度及び意図確信度それぞれについて設定されていてもよく、単語確信度及び意図確信度に共通のものであってもよい。閾値は、固定値であってもよく、ユーザのフィードバックにより調整されてもよい。本実施形態では、単語確信度及び意図確信度に共通の閾値が設定されており、単語確信度及び意図確信度の範囲を0から10とし、閾値を5とする。
図4は、ユーザが「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか。」と発話したが、音声認識部101が「アンバサダーホテル」を「あんばさだる」と誤認識した場合に、音声認識部101が出力する情報の例を示す。この例では、単語「あんばさだる」の単語確信度は1である。この例において、ユーザの意図が「ホテルの場所の確認」であると理解されるが、単語「あんばさだる」の意味クラスが未知語と判断され、その結果、引数は取得されない。
意図確信度が閾値以上であり、かつ、引数の単語の単語確信度が閾値以上である場合、「show.location.hotel」の意図に対応付けられた対話処理が実行される。上記の例では、対話制御部106は、例えば、アンバサダーホテルの場所が記載された地図をユーザに提示(例えば表示)する。意図確信度が閾値以上であり、かつ、引数の単語がない若しくは引数の単語の単語確信度が閾値未満である場合、確信度評価部103は音声認識に誤認識の可能性があると判断し、それにより、後述する課題解決処理が課題解決策抽出部104によって実行される。
意図確信度が閾値未満である場合、確信度評価部103は意図理解に誤解の可能性があると判断する。誤解は音声認識の誤りに起因すると考えることができる。この場合において、単語確信度が閾値以上である単語が存在すれば、課題解決処理が課題解決策抽出部104によって実行される。単語確信度が閾値以上である単語がなければ、ユーザに音声の再入力を要求する対話処理が対話制御部106によって実行される。
コンテキスト管理部105は、起動している対話アプリケーション及びその操作状況、発話履歴、並びに、対話中のユーザの意図を管理する。コンテキスト管理部105は、アプリケーション状況記憶部112、発話履歴記憶部113、及びチェックポイント意図記憶部114にアクセス可能に接続されている。
アプリケーション状況記憶部112は、起動中のアプリケーション及びその操作状況に関する情報を記憶する。操作状況には、例えば、ユーザが携帯している端末装置の位置(すなわち、ユーザの位置)を示す位置情報が含まれる。位置情報は、例えば、端末装置に搭載されているGPS(Global Positioning System)受信機を用いて取得することができる。発話履歴記憶部113は、ユーザの発話に関する発話履歴を記憶する。一例では、発話履歴は、図2に示されるような音声認識部101が出力する情報及び図3に示されるような意図理解部102が出力する情報、すなわち、単語、単語確信度、意図、及び意図確信度を含む。チェックポイント意図記憶部114は、意図確信度が閾値以上であり、かつ、引数の単語の単語確信度が閾値未満である場合に、意図理解部102によって理解されたユーザの意図をチェックポイント意図(初期意図)として記憶する。
コンテキスト管理部105は、アプリケーション状況記憶部112に記憶されている情報及び発話履歴記憶部113に記憶されている情報の少なくとも一方を用いて、目的知識及び課題解決知識を絞り込む。目的知識は目的知識記憶部(第1の記憶部とも称する)110に記憶され、課題解決知識は課題解決知識記憶部(第2の記憶部とも称する)111に記憶されている。目的知識及び課題解決知識それぞれは、複数のトピック(ドメインとも称する。)に関連付けられている。例えば、目的知識は、ホテル関係、食事関係、フライト関係、医療関係、不動産関係などに関連付けられたデータを含む。目的知識及び課題解決知識は、公知の目的知識構築技術により構築することができる。目的知識は、目的とアクションの関係及び目的と対象の関係を示す情報である。課題解決知識は、アクションと対象の関係を示す情報である。
具体的には、コンテキスト管理部105は、アプリケーション状況記憶部112に記憶されている情報及び発話履歴記憶部113に記憶されている情報の少なくとも一方に基づいてトピックを決定する。続いて、コンテキスト管理部105は、目的知識の範囲を、決定したトピックに関連する目的知識に絞り込み、課題解決知識の範囲を、決定したトピックに関連する課題解決知識に絞り込む。
図5は、単語群とトピックの関係及び対話アプリケーションとトピックの関係の例を示している。図5において、フライト関係、ホテル関係、食事関係、医療関係、及び不動産関係の5つのトピックが示されている。対話アプリケーションとしては、例えば、旅行代理店アプリケーション、医療サービスアプリケーション、賃貸検索アプリケーションがある。図5の例では、旅行代理店アプリケーションにアクセスしている場合、トピックは、ホテル関係、フライト関係、食事関係である。この場合、コンテキスト管理部105は、目的知識及び課題解決知識それぞれの範囲をホテル関係、フライト関係、及び食事関係に絞り込む。
さらに、現在位置が到着地(旅行先)のロケーションである場合、フライト関係が除外され、トピックは、ホテル関係及び食事関係になる。この場合、目的知識及び課題解決知識それぞれの範囲はホテル関係及び食事関係にさらに絞り込まれる。発話履歴記憶部113に記憶されている情報を利用する例において、音声認識部101で得られたテキストに単語「宿泊」が含まれ、その単語確信度が閾値以上である場合には、トピックは、ホテル関係に絞られる。
課題解決策抽出部104は、単語確信度の高い単語を用いて、目的知識及び課題解決知識から課題解決策を抽出する。具体的には、課題解決策抽出部104は、単語確信度の高い単語を検索キーとして目的知識記憶部110の目的を参照してアクション候補及び対象候補を別々に求め、課題解決知識を用いてアクション候補と対象候補を結びつけることにより課題解決策を生成する。コンテキスト管理部105によって目的知識及び課題解決知識が絞り込まれている場合には、課題解決策抽出部104は、絞り込まれた目的知識及び課題解決知識を参照する。
図6は、単語確信度の高い単語が「予約」及び「行く」である場合に抽出される、ホテル関係に関連する目的知識の一例を示している。目的知識の各データはIDで管理されている。IDがPPS_APP1であるデータでは、目的「予約/行く」がアクション「地図を検索」に対応付けられている。IDがPPS_APP2であるデータでは、目的「予約/行く」がアクション「予約情報を確認」に対応付けられている。IDがPPS_SUB3であるデータでは、目的「予約/行く」が対象「ホテル」に対応付けられている。IDがPPS_SUB4であるデータでは、目的「予約/行く」が対象「ユーザ」に対応付けられている。なお、対象は、具体的な単語(図6の例では、ホテル、ユーザ)ではなく、意味クラスであってもよい。
図7は、ホテル関係に関連する課題解決知識の一例を示している。図7に示される課題解決知識は、PPS_APP1がPPS_SUB3に対応付けられていることを示すデータ及びPPS_APP2がPPS_SUB4に対応付けられていることを示すデータを含む。PPS_APP1とPPS_SUB3との対応関係を用いて図6に示される目的知識を参照することにより、アクションが「地図を検索」でありかつ対象が「ホテル」である課題解決策が得られる。さらに、PPS_APP2とPPS_SUB4との対応関係を用いて図6に示される目的知識を参照することにより、アクションが「予約情報を確認」でありかつ対象が「ユーザ」である課題解決策が得られる。
目的知識及び課題解決知識の絞り込みを行うことにより、抽出される課題解決策の数を低減することができる。なお、目的知識のデータ数及び課題解決知識のデータ数が少ない場合などでは、コンテキスト管理部105による絞り込みは実行されなくてもよい。
課題解決策の抽出には、単語確信度が十分高い(例えば、単語確信度が閾値以上である)単語を使用することが基本であるが、必要な単語が不足しかつ意図確信度が十分高い場合、その意図に対応付けられた対話処理に基づいて単語の一部を補って目的知識を抽出してもよい。例えば、図8に示すように、音声認識部101の音声認識結果が単語「予約」だけが確信度が十分高い場合を想定する。意図確信度が十分高い場合、その意図に対応付けられた対話処理が「地図を検索」であったならば、「地図を検索」の目的となる「予約/行く」と確信度の高い単語「予約」とから「行く」を補完し、単語「予約」及び「行く」に基づいて課題解決策の抽出を行うこともできる。また、「行く」を誤認識して例えば「見る」が得られ、この単語「見る」の単語確信度が閾値未満であったとする。この場合、単語「見る」を上記のようにして補完された単語「行く」に訂正することができる。このように、単語確信度が高い単語及び意図確信度が高い意図を用いて目的知識を参照することで、誤認識の内容を訂正することができる。
対話制御部106は、意図確信度及び引数の単語の単語確信度がともに閾値以上である場合、意図理解部102によって理解されたユーザの意図に対応付けられた対話処理を実行する。また、対話制御部106は、課題解決策抽出部104によって課題解決策が抽出された場合には、その課題解決策に対応付けられた対話処理を実行する。課題解決策が複数ある場合、対話制御部106は、課題解決策に対応付けられた対話処理の内容をユーザに提示し、実行すべき対話処理の選択をユーザに促す。ユーザによる選択は、音声で実施できるようにしてもよく、ボタン操作により実施できるようにしてもよい。その後のユーザとの対話によって、チェックポイント意図として登録された意図に対応付けられた対話処理の実行に必要な情報を取得できた場合には、対話制御部106は、その意図に対応付けられた対話処理を実行する。この場合、対話制御部106は、対話処理を実行するか否かをユーザに質問してもよい。
応答文生成部107は、対話制御部106が実行する対話処理に応じた応答文を生成する。応答文はユーザに提示される。提示方法は、音声合成技術を利用して音声で出力する方法、ディスプレイ装置に表示する方法などを利用することができる。
本実施形態に係る対話支援システム100は、意図確信度及び単語確信度から誤認識の可能性を判断し、目的知識及び課題解決知識を用いて本来のユーザの意図を実現する課題解決策を決定し、ユーザに誤認識の内容を修正することを要求すること以外の方法で対話を続ける。ユーザに誤認識の内容を修正することを要求すること以外の方法で本来のユーザの意図を満たす課題解決策を提示することができるので、音声認識が対応していない未知語やユーザの勘違いや名称の覚え間違いによる対話のトラブルを回避し、人間との対話のように自然なやりとりで誤認識の内容を修正することができる。
次に、対話支援システム100の動作について説明する。
図9は、対話支援システム100が実行する対話支援処理の手順例を概略的に示している。図9のステップS901では、ユーザから音声が入力される。ステップS902では、音声認識部101は、入力された音声に対して音声認識を行う。例えば、音声認識部101は、入力された音声をテキストに変換し、テキスト中の単語ごとに単語確信度を決定する。ステップS903では、意図理解部102は、形態素解析及び固有表現抽出技術を用いて音声認識部101で得られたテキストを解析することによりユーザの意図を理解し、理解したユーザの意図、意図確信度、及び引数を含む情報を生成する。
ステップS904では、確信度評価部103は、意図確信度が閾値以上であるか否かを判定する。意図確信度が閾値以上である場合、ステップS905に進み、意図確信度が閾値未満である場合には、ステップS906に進む。ステップS906では、確信度評価部103は、単語確信度が閾値以上である単語が存在するか否かを判定する。単語確信度が閾値以上である単語が存在する場合、ステップS908に進み、単語確信度が閾値以上である単語が存在しない場合、ステップS910に進む。
ステップS905では、確信度評価部103は、引数に対応する単語の単語確信度が閾値以上であるか否かを判定する。単語確信度が閾値以上である場合、ステップS910に進み、単語確信度が閾値未満である場合、ステップS907に進む。なお、引数が不明となっている場合は、ステップS907に進む。
ステップS907では、意図理解部102で理解されたユーザの意図がチェックポイント意図としてチェックポイント意図記憶部114に保存される。
ステップS908では、コンテキスト管理部105は、アプリケーション状況記憶部112に記憶されている情報及び発話履歴記憶部113に記憶されている情報の少なくとも一方に基づいて、目的知識及び課題解決知識を絞り込む。ステップS909では、課題解決策抽出部104は、単語確信度の高い単語を検索キーとして用いて、絞り込まれた目的知識及び課題解決知識から、課題解決策を抽出する。抽出される課題解決策の数は1又は複数であり得る。
ステップS910では、対話制御部106は、対話制御を行う。ステップS904及びステップS905の判定がYesである場合、対話制御部106は、意図理解部102によって理解された意図に対応付けられた対話処理を実行する。ステップS904及びステップS906の判定がNoである場合、対話制御部106は、ユーザに音声の再入力を促す。ステップS909で課題解決策が抽出された場合、対話制御部106は、課題解決策に対応付けられた対話処理を実行する。
ステップS911では、応答文生成部107は、対話処理に応じた応答文を生成し、その応答文をユーザに提示する。
図10は、図9のステップS908に示される絞り込み処理の一例を示している。図10のステップS1001では、コンテキスト管理部105は、アプリケーション状況記憶部112に記憶されている情報、例えば、実行中の対話アプリケーション及びユーザの位置を用いて、目的知識及び課題解決知識の絞り込みを行う。ステップS1002では、コンテキスト管理部105は、発話履歴記憶部113に記憶されている発話履歴を用いて目的知識及び課題解決知識の絞り込みを行う。
対話支援処理について具体例を挙げて説明する。ここでは、ユーザが旅行先の空港に到着したときに旅行代理店の対話アプリケーションを起動し、ユーザが「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか」と発話した場合を例に挙げる。
まず、ユーザが「この前予約したアンバサダーホテルですがどうやって行けばいいでしょうか」と発話する。音声認識部101は、ユーザが発した音声に対して音声認識を行う。ここでは、音声認識の結果、テキスト「この前予約したあんばさだるですがどうやって行けばいいでしょうか。」が得られ、図4に示した単語確信度が得られたとする。この場合、単語確信度は、単語「予約」が10、単語「あんばさだる」が1、単語「行く」が8である。
続いて、意図理解部102がテキスト「この前予約したあんばさだるですがどうやって行けばいいでしょうか。」を分析し、単語の意味クラス、ユーザ意図、及び意図確信度を得る。ここでは、図11に示すように、単語「予約」の意味クラスが「イベント」であり、単語「あんばさだる」の意味クラスが「未知語」であり、単語「行く」の意味クラスが「行動」である。さらに、図12に示すように、ユーザの意図が「ホテルの場所の確認」(意図ID=show.location.hotel)であり、意図確信度が6となっている。なお、図10に示したように意味クラスが「ホテルの場所」である単語はテキストから抽出されていないので、引数は不明となっている。「ホテルの場所の確認」という意図に関連付けられている対話処理は「地図検索」であり、その対話処理を実行するためには、所定の意味クラスを持つ単語が必要である。図13は、「ホテルの場所の確認」という意図に関連付けられている対話処理とその対話処理を実行するための引数との関係を示している。図13の例では、「地図検索」を実行するためには、意味クラスが「ホテルの場所」又は「緯度、経度」である単語が必要である。
この例では、閾値を5とする。意図確信度は6であり、閾値より大きいが、意味クラスが「ホテルの場所」でありかつ単語確信度が閾値以上である単語はない。そのため、対話制御部106は、意図「ホテルの場所の確認」に関連付けられている対話処理を実行することができない。「地図検索」がチェックポイント意図としてチェックポイント意図記憶部114に保存される。
コンテキスト管理部105は、アプリケーション状況記憶部112から、現在使用している対話アプリケーションが旅行代理店アプリケーションであること、現在位置が旅行先(すなわち、自宅エリアでない)の空港であることを抽出する。コンテキスト管理部105は、旅行代理店アプリケーションを使用していることから、目的知識の範囲を、フライト関係、ホテル関係、及びレストラン関係に絞り込む。同様に、コンテキスト管理部105は、課題解決知識の範囲を、フライト関係、ホテル関係、及びレストラン関係に絞り込む。さらに、現在位置が自宅エリアから遠い空港内であることから、コンテキスト管理部105は、目的知識の範囲をホテル関係及びレストラン関係に絞り込む。同様に、コンテキスト管理部105は、課題解決知識の範囲をホテル関係及びレストラン関係に絞り込む。これにより、図7に示した課題解決知識が抽出される。
課題解決策抽出部104は、単語確信度の高い単語(この例では、「予約」及び「行く」)を用いてコンテキスト管理部105によって絞り込まれた目的知識を参照する。これにより、図6に示した目的知識が抽出される。図6の目的知識及び図7の課題解決知識からは、アクションが「地図検索」でありかつ対象が「ホテル」である課題解決策と、アクションが「予約情報を確認」でありかつ対象が「ユーザ」である課題解決策が抽出される。
対話制御部106は、実行する候補となる抽出された課題解決策に対応する対話処理をユーザに表示する。例えば、「ホテルの場所」の「地図検索」及び「ユーザ」の「予約情報を確認」が候補となる。
ユーザが「ホテルの場所」の「地図検索」を選択した場合、コンテキスト管理部105は、チェックポイント意図記憶部114に保存されているチャックポイント意図(この例では「地図検索」)に対応付けられた対話処理が実行可能か否かを判断する。この例では、引数となる「ホテルの場所」が不明なため、実行不可能と判断される。これを受けて、対話制御部106は、ユーザにホテルの場所(名称)をユーザに訊き返す処理を実行する。
ユーザが「ユーザ」の「予約情報を確認」を選択した場合、ユーザの意図は「予約情報を確認」であるため、「予約情報を確認」が新たなチェックポイント意図としてチェックポイント意図記憶部114に保存される。コンテキスト管理部105は、チェックポイント意図に対応付けられた対話処理が実行可能か否かを判断する。「予約情報を確認」を実行するためには、「ユーザの氏名」などの意味クラスの単語が必要である。この例では、音声認識部101で得られたテキストにそのような単語が含まれていないので、コンテキスト管理部105は、チェックポイント意図に対応付けられた対話処理を実行不可能と判断する。これを受けて、対話制御部106は、ユーザを識別する会員IDや氏名をユーザに尋ねる処理を実行する。コンテキスト管理部105が発話履歴や実行中の対話アプリケーションのユーザプロファイルから会員ID及び氏名を補完することができる場合、それらを補完して「予約情報を確認」を直接実行することができる。
対話制御部106は、「予約情報を確認」を実行した結果、チェックポイント意図として保持していた当初の意図の引数に必要な意味クラス「ホテルの場所」を取得することができた場合、取得した値で引数を補完して当初の意図に対応する対話処理を実行してもよい。例えば、対話制御部106は、「予約情報を確認」を実行したときに、意味クラスが「ホテルの場所」である「アンバサダーホテル」が取得できた場合、「アンバサダーホテル」で「地図検索」を実行し、アンバサダーホテルの場所が記載された地図を表示する。
応答文生成部107は、対話処理に合わせてユーザに返す応答文を生成する。応答文生成部107は、例えば、「ご予約情報の確認をしますか」という応答文、「ホテル名を入力して、地図を表示しますか」という応答文を生成する。この応答文はユーザに提示される。
このように、対話支援システム100は、音声の一部「アンバサダーホテル」を誤認識したとしても、正しく認識できた残りの部分からユーザに応答をする。「ホテル名」を入力させるアプローチとともに、「予約確認」という別のアプローチを提案することにより、多様な認識誤りの回復方法をユーザに提案することができる。
以上のように、本実施形態に係る対話支援システムでは、単語確信度の高い単語を用いて目的知識及び課題解決知識から課題解決策を抽出し、課題解決策に基づいた対話処理を実施する。ユーザとの対話を通じて得られた情報を実際に実施したい対話処理の情報(すなわち、単語確信度の低い単語の訂正結果)として利用することで、誤認識が起こった際に受けるユーザのストレスを軽減し、自然にユーザの望む結果に誘導することが可能になる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の対話支援システムによる効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ又は組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の対話支援システムと同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータ又は組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100…対話支援システム、101…音声認識部、102…意図理解部、103…確信度評価部、104…課題解決策抽出部、105…コンテキスト管理部、106…対話制御部、107…応答文生成部、109…意図モデル記憶部、110…目的知識記憶部、111…課題解決知識記憶部、112…アプリケーション状況記憶部、113…発話履歴記憶部、114…チェックポイント意図記憶部。

Claims (8)

  1. ユーザが発した音声に対して音声認識を行い、前記音声に対応するテキスト、並びに、前記テキストに含まれる各単語について前記音声認識の確からしさを示す第1の確信度を得る音声認識部と、
    前記テキストに基づいて前記ユーザの意図を理解し、理解の確からしさを示す第2の確信度を得る意図理解部と、
    前記第1の確信度に基づいて、前記音声認識が誤っているか否かを判定し、前記第2の確信度に基づいて、前記理解が誤っているか否かを判定する確信度評価部と、
    目的とアクションとの関係及び目的と対象との関係を示す目的知識を記憶する第1の記憶部と、
    アクションと対象との関係を示す課題解決知識を記憶する第2の記憶部と、
    前記理解が誤っていると判断された場合に、或いは、前記ユーザの意図に対応付けられた対話処理を実行するために使用する単語に対する前記音声認識が誤っていると判定された場合に、前記第1の確信度が高い単語について前記目的知識の前記目的を参照してアクション候補及び対象候補を別々に求め、前記課題解決知識を用いて前記アクション候補と前記対象候補を結びつけることにより、課題解決策を抽出する課題解決策抽出部と、
    前記課題解決策に対応付けられた対話処理を実行する対話制御部と、
    を具備する対話支援システム。
  2. 前記実行された対話処理に応じた応答文を生成する応答文生成部をさらに具備する請求項1に記載の対話支援システム。
  3. 前記ユーザが使用しているアプリケーション及び前記ユーザの位置を示す情報を記憶する第3の記憶部と、
    前記情報に基づいて前記目的知識及び前記課題解決知識を絞り込むコンテキスト管理部と、
    をさらに具備する請求項1に記載の対話支援システム。
  4. 前記第1の確信度が第1の閾値以上でありかつ前記第2の確信度が第2の閾値未満である場合に、前記ユーザの意図をチェックポイント意図として記憶する第4の記憶部をさらに具備し、
    前記コンテキスト管理部は、前記チェックポイント意図に対応付けられた対話処理を実行可能であるか否かを判定する、請求項3に記載の対話支援システム。
  5. 前記ユーザの発話に関する発話履歴を記憶する第5の記憶部と、
    前記発話履歴に基づいて前記目的知識及び前記課題解決知識を絞り込むコンテキスト管理部と、
    をさらに具備する請求項1に記載の対話支援システム。
  6. 前記第1の確信度が第1の閾値以上でありかつ前記第2の確信度が第2の閾値未満である場合に、前記ユーザの意図をチェックポイント意図として記憶する第6の記憶部をさらに具備し、
    前記コンテキスト管理部は、前記チェックポイント意図に対応付けられた対話処理を実行可能であるか否かを判定する、請求項5に記載の対話支援システム。
  7. ユーザが発した音声に対して音声認識を行い、前記音声に対応するテキスト、並びに、前記テキストに含まれる各単語について前記音声認識の確からしさを示す第1の確信度を得ることと、
    前記テキストに基づいて前記ユーザの意図を理解し、理解の確からしさを示す第2の確信度を得ることと、
    前記第1の確信度に基づいて、前記音声認識が誤っているか否かを判定し、前記第2の確信度に基づいて、前記理解が誤っているか否かを判定することと、
    目的とアクションとの関係及び目的と対象との関係を示す目的知識を記憶する第1の記憶部を用意することと、
    アクションと対象との関係を示す課題解決知識を記憶する第2の記憶部を用意することと、
    前記理解が誤っていると判断された場合に、或いは、前記ユーザの意図に対応付けられた対話処理を実行するために使用する単語に対する前記音声認識が誤っていると判定された場合に、前記第1の確信度が高い単語について前記目的知識の前記目的を参照してアクション候補及び対象候補を別々に求め、前記課題解決知識を用いて前記アクション候補と前記対象候補を結びつけることにより、課題解決策を抽出することと、
    前記課題解決策に対応付けられた対話処理を実行することと、
    を具備する対話支援方法。
  8. コンピュータを、
    ユーザが発した音声に対して音声認識を行い、前記音声に対応するテキスト、並びに、前記テキストに含まれる各単語について前記音声認識の確からしさを示す第1の確信度を得る音声認識手段と、
    前記テキストに基づいて前記ユーザの意図を理解し、理解の確からしさを示す第2の確信度を得る意図理解手段と、
    前記第1の確信度に基づいて、前記音声認識が誤っているか否かを判定し、前記第2の確信度に基づいて、前記理解が誤っているか否かを判定する確信度評価手段と、
    前記理解が誤っていると判断された場合に、或いは、前記ユーザの意図に対応付けられた対話処理を実行するために使用する単語に対する前記音声認識が誤っていると判定された場合に、前記第1の確信度が高い単語について、目的とアクションとの関係及び目的と対象との関係を示す目的知識の前記目的を参照して、アクション候補及び対象候補を別々に求め、アクションと対象との関係を示す課題解決知識を用いて前記アクション候補と前記対象候補を結びつけることにより、課題解決策を抽出する課題解決策抽出手段と、
    前記課題解決策に対応付けられた対話処理を実行する対話制御手段として機能させるための対話支援プログラム。
JP2015550518A 2013-11-29 2013-11-29 対話支援システム、方法、及びプログラム Expired - Fee Related JP6143883B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/082253 WO2015079575A1 (ja) 2013-11-29 2013-11-29 対話支援システム、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2015079575A1 JPWO2015079575A1 (ja) 2017-03-16
JP6143883B2 true JP6143883B2 (ja) 2017-06-07

Family

ID=53198560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015550518A Expired - Fee Related JP6143883B2 (ja) 2013-11-29 2013-11-29 対話支援システム、方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP6143883B2 (ja)
WO (1) WO2015079575A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109524009A (zh) * 2018-12-13 2019-03-26 中国平安财产保险股份有限公司 基于语音识别的保单录入方法和相关装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6730226B2 (ja) * 2016-09-16 2020-07-29 株式会社東芝 情報管理システム
US10713233B2 (en) 2016-09-16 2020-07-14 Kabushiki Kaisha Toshiba Information management system
JP6787269B2 (ja) * 2017-07-21 2020-11-18 トヨタ自動車株式会社 音声認識システム及び音声認識方法
JP6857581B2 (ja) * 2017-09-13 2021-04-14 株式会社日立製作所 成長型対話装置
KR102204740B1 (ko) 2019-02-28 2021-01-19 네이버 주식회사 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템
CN110263180B (zh) * 2019-06-13 2021-06-04 北京百度网讯科技有限公司 意图知识图谱生成方法、意图识别方法及装置
US11487945B2 (en) * 2019-07-02 2022-11-01 Servicenow, Inc. Predictive similarity scoring subsystem in a natural language understanding (NLU) framework
JP7471921B2 (ja) * 2020-06-02 2024-04-22 株式会社日立製作所 音声対話装置、音声対話方法、および音声対話プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306195A (ja) * 1998-04-24 1999-11-05 Mitsubishi Electric Corp 情報検索システムおよび情報検索方法
JP2002108614A (ja) * 2000-09-26 2002-04-12 Toshiba Corp 入力解釈装置、方法及び対話システム
JP2002269146A (ja) * 2001-03-08 2002-09-20 Fujitsu Ltd ワードスポッティング情報検索装置とワードスポッティング情報検索装置を実現するための方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109524009A (zh) * 2018-12-13 2019-03-26 中国平安财产保险股份有限公司 基于语音识别的保单录入方法和相关装置
CN109524009B (zh) * 2018-12-13 2024-04-09 中国平安财产保险股份有限公司 基于语音识别的保单录入方法和相关装置

Also Published As

Publication number Publication date
WO2015079575A1 (ja) 2015-06-04
JPWO2015079575A1 (ja) 2017-03-16

Similar Documents

Publication Publication Date Title
JP6143883B2 (ja) 対話支援システム、方法、及びプログラム
JP6942841B2 (ja) ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成
KR102313473B1 (ko) 자동 어시스턴트를 위한 명령 번들 제안 제공
US9275633B2 (en) Crowd-sourcing pronunciation corrections in text-to-speech engines
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
JP6535349B2 (ja) 以前の対話行為を使用する自然言語処理における文脈解釈
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
US20110153322A1 (en) Dialog management system and method for processing information-seeking dialogue
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
US9594744B2 (en) Speech transcription including written text
CN113851120A (zh) 开发者语音动作系统
US11790891B2 (en) Wake word selection assistance architectures and methods
JPWO2016151700A1 (ja) 意図理解装置、方法およびプログラム
US20200219487A1 (en) Information processing apparatus and information processing method
JP7400112B2 (ja) 自動音声認識のための英数字列のバイアス付加
US20150095024A1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
KR20210060897A (ko) 음성 처리 방법 및 장치
Pan et al. Automatically generating and improving voice command interface from operation sequences on smartphones
JP6275569B2 (ja) 対話装置、方法およびプログラム
EP3005152B1 (en) Systems and methods for adaptive proper name entity recognition and understanding
Bermuth et al. Jaco: An offline running privacy-aware voice assistant
US20240202469A1 (en) Auto-translation of customized assistant
JP2019191646A (ja) 登録語管理装置、音声対話システム、登録語管理方法およびプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170509

R151 Written notification of patent or utility model registration

Ref document number: 6143883

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees