JP7416665B2

JP7416665B2 - 対話システム、及び対話システムの制御方法

Info

Publication number: JP7416665B2
Application number: JP2020102121A
Authority: JP
Inventors: 利昇三好; 健三黒土; 力光井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2024-01-17
Anticipated expiration: 2040-06-12
Also published as: JP2021196798A

Description

本発明は、対話システム、及び対話システムの制御方法に関する。

特許文献１には、ユーザとの間の効率的な対話を可能とすることを目的として構成された対話システムについて記載されている。対話システムは、自然言語理解部により所定フォーマットに変換されたユーザ発話を取得し、所定フォーマットのユーザ発話に基づいて、現在の対話状態を更新し、第１ポリシモデルを使用し、更新した対話状態に基づき現在のサブドメインを決定し、現在のサブドメインに関連づけられた第２ポリシモデルを使用して、対話状態に基づき行動を決定する。また、対話システムは、データベースからサンプリングされた対話において、対話状態の複雑性を低減する。

特開２０１９－１９１５１７号公報

近年、問い合わせや相談の自動対応、対話型検索、対話型の機器操作等、ユーザからの音声やテキスト等の入力に対して自動で応答する情報処理システム（以下、「対話システム」と称する。）の開発が進んでいる。対話システムによれば、ユーザに対し、例えば、常時かつ即時の問い合わせ対応、簡便な情報検索、機器操作案内等のサービスを提供することができる。

対話システムには、例えば、ユーザの多様な入力表現に対して、表現の同義性を吸収しつつ区別を要する表現については区別して精度よく適切な応答を返すことが求められる。特許文献１に記載の対話システムは、複合対話ドメインにおいて対話システムとユーザとの間の効率的な対話の実現を図るものであるが、上記のような観点から対話システムの品質を向上する仕組みについては開示されていない。

本発明は、こうした背景に鑑みてなされたものであり、ユーザの多様な入力表現に対して精度よく適切な応答を返すことが可能な、対話システム、及び対話システムの制御方法を提供することを目的としている。

上記目的を達成するための本発明の一つは、情報処理装置を用いて構成される対話システムであって、入力文に対して応答文を出力する対話処理部と、前記入力文を想定した文である想定入力文と前記応答文とを対応付けた質問応答データ、同義語辞書、対話のトピックに応じて互いに区別されるべき用語である区別用語のリストである区別用語リスト、及び入力文と想定入力文との類似度を求める類似度算出モデルを記憶する記憶部と、前記類似度算出モデルを生成する類似度算出モデル生成部と、を備え、前記類似度算出モデル生成部は、前記同義語辞書に記録されている同義語同士は類似度が高く、前記区別用語リストの区別用語同士は類似度が低くなるように類似度を算出する類似度算出モデルを生成し、前記対話処理部は、前記入力文と前記想定入力文との類似度を、前記類似度算出モデルを用いて求め、求めた前記類似度に基づき前記想定入力文を選択し、選択した当該想定入力文に対応する応答文を出力する。

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

本発明によれば、ユーザの多様な入力表現に対して精度よく適切な応答を返すことができる。

対話システムの概略的な構成を示す図である。対話システムを構成する情報処理装置のハードウェア構成例を示す図である。対話システムの基本動作の概略を示す図である。質問応答データの起源となるＦＡＱのＷｅｂページを示す図である。ＦＡＱに基づき生成される質問応答データの概略を示す図である。質問応答データの起源となるマニュアルを示す図である。マニュアルに基づき生成される質問応答データの概略を示す図である。質問応答データの起源となる仕様書を示す図である。仕様書に基づき生成されるシナリオ表形式の質問応答データの概略を示す図である。シナリオ表形式の質問応答データに基づく対話手順を説明する図である。同義語辞書の一例である。区別用語リストの一例である。主要用語リストの一例である。ユーザ端末に表示される画面の一例である。ユーザ端末に表示される画面の一例である。ユーザ端末に表示される画面の一例である。ユーザ端末に表示される画面の一例である。

以下、図面を参照しつつ本発明の実施形態について説明する。尚、以下の記載及び図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。

以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。また、同一あるいは同様な機能を有する要素が複数ある場合に同一の符号に異なる添字を付して説明することがある。但し、複数の要素を区別する必要がない場合は添字を省略して説明することがある。

以下の説明において、「データ」という表現にて各種のデータを説明することがあるが、各種のデータは、テーブルやリスト等の他のデータ構造で表現されていてもよい。また、識別情報について説明する際に、「識別子」、「ＩＤ」等の表現を用いるが、これらについてはお互いに置換することが可能である。また、以下の説明において、符号の前に付した「ｓ」の文字は処理ステップの意味である。

図１に、一実施形態として例示する情報処理システムである対話システム１の概略的な構成を示している。同図に示すように、対話システム１は、対話装置１０と、対話装置１０と通信ネットワーク３０を介して通信可能に接続するユーザ端末４０とを含む。

対話装置１０は、ユーザからの問い合わせ文等のユーザから受け付けたテキスト形式の文（以下、「入力文」と称する。）に対する応答文を生成してユーザ端末４０に送信する。対話装置１０とユーザとの間の対話は、例えば、Ｗｅｂページを介したチャット形式で行われる。

図２は、対話装置１０の主な機能を説明するシステムフロー図である。同図に示すように、対話装置１０は、対話コンテンツ管理部５、類似度算出モデル生成部６、及び対話処理部７の各機能を備える。対話コンテンツ管理部５は、質問応答生成部５１、区別用語リスト生成部５２、及び主要用語リスト生成部５３の各機能を含む。対話処理部７は、質問応答生成部７１、及び入力補助部７２の各機能を含む。対話装置１０は、図示しない記憶部を備える。記憶部は、テキストデータ２１、対話コンテンツ２２（質問応答データ２２１、同義語辞書２２２、区別用語リスト２２３）、類似度算出モデル２３、及び主要用語リスト２４を記憶する。

対話コンテンツ管理部５の質問応答生成部５１は、テキストデータ２１に基づき質問応答データ２２１を生成する。テキストデータ２１は、例えば、業務マニュアル、業務報告書、仕様書、Ｗｅｂページ等から取得される、テキスト形式のデータである。尚、質問応答データ２２１は、ユーザが手動で作成（入力）してもよい。

質問応答データ２２１は、質問文と応答文との対応や対話の流れ等に関する情報を含む。具体的には、質問応答データ２２１は、ユーザからの質問と当該質問に対する応答との組合せ、対話装置１０側からユーザヘの質問に対してユーザが何らかの応答文を返したときに、その応答文と次にユーザに送出する質問文との組合せ等を集約したデータである。

対話処理部７は、ユーザ端末４０を介してテキストデータを送受信することによりユーザと対話処理を行う。対話処理部７の質問応答生成部７１は、ユーザ端末４０から入力文を受信すると、受信した入力文に対応する応答文を質問応答データ２２１から検索する。検索に際し、質問応答生成部７１は、同義語辞書２２２、区別用語リスト２２３、及び類似度算出モデル２３を用いる。

同義語辞書２２２は、同義語を対応付けた情報を含む。同義語辞書２２２は、既存の同義語辞書でもよいし、例えば、対話装置１０がユーザとの間で行った対話に際して取得した情報（質問文、応答文等）を分析することにより自動生成したものでもよい。

区別用語リスト２２３は、話題（以下、「トピック」と称する。)毎に区別を要する用
語の組合せ（以下、「区別用語」と称する。）のリストを含む。区別用語リスト２２３は、例えば、対話コンテンツ管理部５の区別用語リスト生成部５２が、質問応答データ２２１、同義語辞書２２２、テキストデータ２１等を用いて生成する。また、区別用語リスト２２３は、ユーザが手動で作成（入力）してもよい。

尚、対話処理部７による上記の検索において区別用語リスト２２３を用いるのは、ユーザの多様な入力表現に対して精度よく適切な応答を返すためである。表記が類似する単語同士であっても、対話のトピックによっては表現を区別しなければならないことがあるが、同義語辞書２２２は、同義表現を統一して扱うためのものであり、同義語辞書２２２のみに基づき質問応答生成部７１が検索を行うと、対話のトピックに応じた区別を要する表現を扱えなくなることがある。本実施形態の対話装置１０は、区別用語リスト２２３を併用することで、ユーザの多様な入力表現に対して表現の同義性を吸収しつつ区別を要する表現については区別して精度よく適切な応答を返す。

類似度算出モデル２３は、入力文と、質問応答データ２２１における想定入力文との類
似度を求める関数や機械学習モデルである。類似度算出モデル２３は、類似度算出モデル生成部６によって生成される。対話処理部７は、ユーザとの対話に際し、類似度算出モデル２３を用いることで、入力文に一致する入力文（以下、「想定入力文」と称する。）が質問応答データ２２１に定義されていない場合でも、入力文が質問応答データ２２１におけるいずれの入力文に対応するのかを特定する。

対話コンテンツ管理部５の主要用語リスト生成部５３は、対話装置１０の対話処理部７が、ユーザが適切な入力文を入力できるように補助する機能である入力補助部７２によって参照される主要用語リスト２４を生成する。尚、主要用語リスト２４は、例えば、ユーザが手動で作成（入力）してもよい。

図３に、対話装置１０やユーザ端末４０を構成する情報処理装置１００のハードウェア構成の一例を示す。同図に示すように、情報処理装置１００は、プロセッサ１０１、主記憶装置１０２、通信装置１０３、入力装置１０４、出力装置１０５、及び補助記憶装置１０６を備える。

プロセッサ１０１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＡＩ（Artificial Intelligence）チップ、ＦＰＧＡ（Field Programmable Gate Array）、ＳｏＣ（System on Chip）、ＡＳＩＣ（Application Specific Integrated Circuit）等を用いて構成される。

主記憶装置１０２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。

通信装置１０３は、通信ネットワークや通信ケーブル等を介してユーザ端末等の他の情報処理装置との間で通信を行う装置であり、無線又は有線の通信モジュール（無線通信モジュール、通信ネットワークアダプタ、ＵＳＢモジュール等）である。

入力装置１０４と出力装置１０５は、対話装置１０のユーザインタフェースを構成する。入力装置１０４は、外部からのユーザ入力やデータ入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置(例えば、マイクロフォン)等である。出力装置１０５は、各種情報をユーザに向けて出力するユーザインタフェースであり、各種情報を表示する表示装置（液晶ディスプレイ、有機ＥＬパネル等）、各種情報を音声によって出力する音声出力装置（例えば、スピーカ）、紙媒体に印刷するプリンタ等である。

補助記憶装置１０６は、プログラムやデータを格納する装置であり、例えば、ＳＳＤ（Solid State Drive）、ハードディスクドライブ、光学式記憶媒体（ＣＤ（Compact Disc
）、ＤＶＤ（Digital Versatile Disc）等）、ＩＣカード、ＳＤカード等である。補助記憶装置１０６には、対話装置１０の機能を実現するためのプログラム及びデータが格納されている。補助記憶装置１０６は、記録媒体の読取装置や通信装置１０３を介してプログラムやデータの書き込み／読み出しが可能である。補助記憶装置１０６に格納（記憶）されているプログラムやデータは、主記憶装置１０２に随時読み出される。プロセッサ１０１が、主記憶装置１０２に格納されているプログラムを読み出して実行することにより、対話装置１０が備える各機能が実現される。

対話装置１０の機能の全部又は一部を、他の演算装置（例えば、ＦＰＧＡ（Field Programable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit）等のハ
ードウェアによって実現してもよい。

情報処理装置１００は、例えば、パーソナルコンピュータ（デスクトップ型又はノートブック型）、スマートフォン、タブレット、汎用機等である。情報処理装置１００の全部又は一部は、例えば、クラウドシステムにより提供されるクラウドサーバのように仮想的な情報処理資源を用いて実現されるものであってもよい。

続いて、対話コンテンツ管理部５の質問応答生成部５１が質問応答データ２２１を生成する機能について具体的に説明する。

図４Ａ、図４Ｂは、質問応答生成部５１が、ＦＡＱ（Frequently Asked Question）が
掲載されたＷｅｂページから取得されるテキストデータに基づき質問応答データ２２１を生成する場合を例示している。

図４Ａは、質問応答データ２２１の生成元となるテキストデータ２１の一例であり、ＦＡＱが掲載されたＷｅｂページの例である。同図に示すように、例示するＷｅｂページには、ＦＡＱにおける個々の質問文３０１と応答文３０２とが、「サービスＡの申込方法」、「住所の変更方法」等のタイトルで分類されて記載されている。

図４Ｂは、図４Ａに示すテキストデータ２１に基づき生成される質問応答データ２２１の例である。同図に示すように、例示する質問応答データ２２１は、質問文と応答文とのペアからなるテキスト（以下、「ＱＡ対データ」と称する。）である。対話コンテンツ管理部５は、Ｗｅｂページから質問文と当該質問文に対応する応答文との組合せを抽出し、抽出した組合せに基づきＱＡ対データを生成する。本例の場合、ＦＡＱの質問が想定入力文となる。

図５Ａ、図５Ｂは、質問応答生成部５１が、一定の構造に従って記載されている業務マニュアル等のマニュアルからなるテキストデータ２１から質問応答データ２２１を生成する場合を例示している。対話コンテンツ管理部５は、マニュアルからなるテキストデータ２１における章節や文体の構造の特徴に基づき、ＱＡ対データと、そのＱＡ対データを集約した質問応答データ２２１を生成する。

図５Ａは、質問応答データ２２１の生成元となるテキストデータ２１の一例であり、マニュアルの一部から抽出されたデータである。例示するマニュアルには、第５章の表題として「サービスＡについて」が記載され、第５章の第１節（５．１節）に「サービスＡの申込方法」について記載されている。本例の場合、対話コンテンツ管理部５は、第５章の表題「サービスＡ」と、５．１節の表題「申込方法」とを「の」で結合した「サービスＡの申込方法は？」という質問を生成するとともに、５．１節に記載されている内容をその質問に対する応答として抽出する。また、例示するマニュアルには「６．基本情報の変更」という章があり、基本情報の種類ごとに「６．１住所」等の項目がある。対話コンテンツ管理部５は、「６．基本情報の変更」における「基本情報」の記載箇所を節の表題（例えば、「住所」）に変更することにより「住所の変更方法は？」との質問を生成するとともに、６．１節に記載されている内容を、その質問に対する応答として抽出する。

図５Ｂは、図５Ａに示すテキストデータ２１から生成される質問応答データ２２１の例である。同図に示すように、対話コンテンツ管理部５は、「サービスＡの申込方法は？」を質問文とし、「店舗またはＷｅｂサイトからお手続き頂けます。」を応答文としたＱＡ対データを生成する。また、対話コンテンツ管理部は、「住所の変更方法は？」という質問文と、「Ｗｅｂサイトからお手続き頂けます。」という応答文とをペアにしたＱＡ対データを生成する。

図６Ａ、図６Ｂは、対話装置１０が、ユーザとの対話を通じてユーザの希望に叶う商品を特定する情報（型番、製品名等）を提示するサービスを提供す場合における、テキストデータ２１と質問応答データ２２１の例である。対話装置１０は、例えば、ユーザがある商品を購入しようとする際、ユーザの希望に沿った商品をユーザとの対話を通じて提示する。図６Ａ及び図６Ｂには、ユーザがある商品としてＢＴＯ（Build To Order）方式のパーソナルコンピュータ（以下、「ＰＣ」と称する。）を購入しようとする場合を例示している。質問応答生成部５１は、商品であるＰＣの構成部品の仕様が記載された仕様表のテキストデータ２１に基づき質問応答データ２２１を生成する。

図６Ａは、テキストデータ２１の一例であり、商品であるＰＣの構成部品の仕様が記載された仕様表である。同図に示すように、仕様表には、各商品について、商品名、価格、記憶装置、ポート等を対応付けた情報を含む。

図６Ｂは、図６Ａに示した仕様表のテキストデータ２１に基づき質問応答生成部５１が生成する質問応答データ２２１の例である。同図に示すように、例示する質問応答データ２２１は、エントリ（レコード）の識別子（ＩＤ）に、ユーザに対して行う質問と、当該質問に対して想定されるユーザの応答部（想定入力文）と、ユーザに対して次に行う質問とを対応付けた情報を含む。

図６Ｂに示した質問応答データ２２１は、対話装置１０の対話処理部７が行った質問に対するユーザからの応答文（想定入力文）に応じて次の質問を決定するための情報を含む。即ち質問応答データ２２１は、対話処理部７がユーザとの間で対話処理を進めていくためのシナリオを表形式でまとめた情報(以下、「シナリオ表」と称する。)である。

図６Ｃは、対話処理部７がユーザとの間で行う対話（チャット）の手順を説明する図である。対話処理部７は、まずユーザ端末４０に、図６Ｂに示したシナリオ表の最初の質問Ｑ１（例えば、「記憶装置はどれにしますか？」）を送出する。ユーザが質問Ｑ１に対して応答文（例えば、「ＨＤＤ」、「ハードディスク装置」等。ここでは一例として想定入力文Ａ１や当該Ａ１に近い応答文であるものとする。）を返送すると、対話処理部７は、シナリオ表を検索し、質問Ｑ１と想定入力文Ａ１とに対応付けされている次の質問Ｑ２を取得する。質問Ｑ２が、例えば、「ＵＳＢ」の属性について「ＵＳＢポートの規格は何にしますか？」との質問であれば、対話処理部７は、質問Ｑ２をユーザ端末４０に向けて送出し、質問Ｑ２に対するユーザの応答に応じて次の質問をシナリオ表から取得し、取得した質問をユーザ端末４０に送出する。以上のようにして対話処理部７は最終的に一つの商品を特定し、その商品名をユーザ端末４０に送出する。

図７に同義語辞書２２２の一例を示す。同図に示すように、同義語辞書２２２は、同義語や類義語等、意味が近い表現を関連付けた情報を含む。

図８に、区別用語リスト２２３の一例を示す。例示する区別用語リスト２２３は、トピック「保険業」についての区別用語リスト２２３の一例である。区別用語リスト２２３は、表記が類似していても対話のトピックに応じて区別すべき用語を互いに独立した区別用語とし、その区別用語を一覧にしたものである。例えば、「保険料」と「保険金」は表記が類似し関連語であるが、「保険業」においては両者は明確に区別する必要がある。例示する区別用語リスト２２３では、「保険料」と「保険金」が個別の区別用語として（異なるエントリ（レコード）のデータとして）登録されている。例示する区別用語リスト２２３では、区別用語に同義語が存在する場合、そのうちの一の同義語を代表語とし、他の同義語は代表語に対応付けて（同じエントリ（レコード）のデータとして）登録される。

区別用語リスト２２３は様々な態様を取り得る。例えば、トピックが「商品やサービス
に関する問い合わせ」等である場合、例えば、「プランＡ」と「プランＢ」のように商品名やサービス名の表現が類似していることがあり、この場合、区別用語リスト２２３に「プランＡ」と「プランＢ」が夫々区別用語として登録される。また、例えば、トピックが図５Ａに示した仕様表の内容に関するものである場合、例えば、「ＵＳＢ２．０」と「ＵＳＢ３．０」が区別用語として登録される。

区別用語リスト２２３は、例えば、対話コンテンツ管理部５の区別用語リスト生成部５２が、質問応答データ２２１やテキストデータ２１から区別用語を抽出し、抽出した区別用語を集約することにより生成される。

図２とともに区別用語リスト生成部５２が区別用語リスト２２３を生成する処理について説明する。

区別用語リスト生成部５２は、例えば、質問応答データ２２１が、図４Ｂや図５Ｂに例示した質問文と応答文の対の形式である場合、区別用語リスト生成部５２は、例えば、質問文に含まれているある名詞、複合名詞を抽出する。区別を要する用語は、例えば、保険の申し込みに関する問い合わせであれば「プランＡ」と「プランＢ」、「保険料」と「保険金」のように、名詞または複合名詞であることが多く、区別して理解する必要がある。尚、区別用語は、名詞や複合名詞に限らず、他の品詞であってもよい。区別用語語の品詞は、例えば、対話のトピック等に応じて設定することができる。

また、区別用語リスト生成部５２は、例えば、形態素解析や構文解析等を行うことによりテキストデータ２１から区別用語を抽出する。区別用語リスト生成部５２は、例えば、抽出した区別用語を代表語とし、各代表語に同義語辞書２２２に基づく同義語を対応付けする。例えば、区別用語として抽出した「保険金」、「保険料」、「パスポート」のうち、「保険料」には「掛け金」、「パスポート」には「旅券」が夫々同義表現として同義語辞書２２２に登録されている場合、区別用語リスト生成部５２は、「保険金」と「保険料」とを個別の区別用語として区別用語リスト２２３の別の欄に登録し、「保険料」については「掛け金」と同義語であるとして、」、また「パスポート」については「旅券」と同義語であるとして、夫々、区別用語リスト２２３の同じ欄に登録する。

尚、仕様表のようなテキストデータ２１から区別用語を抽出する場合、仕様表の表内の属性値の用語同士は区別される必要があるため、区別用語リスト生成部５２は、これらの用語を区別用語として抽出する。また、シナリオ表のような形式の質問応答データ２２１から区別用語を抽出する場合、区別用語リスト生成部５２は、質問文、応答文（想定入力文）、次の質問の中から、名詞や複合名詞等を区別用語として抽出する。

尚、区別用語リスト生成部５２が、ユーザから区別用語リスト２２３の内容の編集を受け付けるようにしてもよい。また、区別用語リスト２２３は、人が質問応答データ２２１やテキストデータ２１を参照しつつ作成してもよい。

ところで、質問応答データ２２１のみから区別用語を抽出した場合、用語の数が多くなり、区別する必要のない用語（ノイズ）が抽出されてしまう可能性がある。そこで例えば、質問応答データ２２１から抽出された区別用語のうち、テキストデータ２１の所定の箇所に記載されていない用語をフィルタリング（除外）し、所定の箇所に記載されているもののみを区別用語として抽出するようにしてもよい。例えば、図４Ａのテキストデータ２１における所定の箇所は「サービスＡの申込方法」、「住所の変更方法」のようにカテゴリの表題が記載されている箇所である。また例えば、図５Ａのテキストデータ２１における所定の箇所は「サービスＡ」、「申込方法」、「解約方法」のような章節の見出しが記載されている箇所である。尚、カテゴリや章節の見出しは、区別する必要がある商品や問
い合わせ内容ごとに分類されたものであるので、例えば、カテゴリや章節の見出しに現れる用語を区別用語の代表語として抽出してもよい。

類似度算出モデル２３は、類似度算出モデル生成部６が、同義語辞書２２２と、区別用語リスト２２３とに基づき生成する。類似度算出モデル２３は、例えば、入力文をＸとし、想定入力文をＹとして関数ｆ（Ｘ，Ｙ）と表わすことができる。類似度としては、例えば、ＸとＹの編集距離や、Ｘを翻訳文、Ｙを正解文（参照文）とみなしたときのＸとＹのＢＬＥＵ値等を採用することができる。また類似度として、例えば、編集距離やＢＬＵＥ値以外の類似度を用いてもよい。

尚、類似度算出モデル２３は、同義語辞書２２２に基づき、表記（表層表現）が異なる語でも同一の語として扱う。そのため、同義語は同義語辞書２２２や区別用語リスト２２３を用いて予め一つの用語に統一しておくことが好ましい（「値段」、「料金」、「代金」等の用語を全て「価格」という用語に統一する等）。

図２を参照しつつ、類似度算出モデル生成部６が類似度算出モデル２３を生成する処理について説明する。類似度算出モデル生成部６は、同義語辞書２２２において同じ欄に登録されている用語同士の類似度が大きくなり、また、区別用語リスト２２３に登録されている区別用語同士の類似度が小さくなるような類似度算出モデル２３を生成する。以下では、類似度算出モデル２３の例（第１モデルｆ１（Ｘ，Ｙ）と、第２モデルｆ２（Ｘ，Ｙ））について説明する。

第１モデルｆ１（Ｘ，Ｙ）による算出方法では、まず入力文Ｘと想定入力文Ｙを形態素解析や構文解析により、単語やフレーズ等の用語ごとに分解し、分解した用語の集合を夫々、Ｓ１＝｛ｘ１、ｘ２、…、ｘｎ｝、Ｓ２＝｛ｙ１、ｙ２、…、ｙｍ｝とし、Ｓ１とＳ２の類似度を算出する。尚、助詞等の特定の品詞や特定の用語をストップワードとして定義しておき、それらを集合Ｓ１、Ｓ２から除外しておくようにしてもよい。

Ｓ１とＳ２の類似度は、例えば、Ｊａｃｃａｒｄ係数や、Ｄｉｃｅ係数等の方法によって集合間の類似度として算出することができる。また、単語ｘｉ、ｙｊの間の類似度ｓ（ｘｉ、ｙｊ）をｘｉとｙｊの表記の近さ（編集距離の負数等）で定義し、ＷＭＤ（Word Mover‘s Distance）等で集合Ｓ１と集合Ｓ２の類似度を算出することもできる。また、集合Ｓ１と集合Ｓ２の単語重複度等に基づく方法を用いることもできる。ＸとＹのレーベンシュタイン距離等の編集距離を用いる方法もある。Ｓ１とＳ２の類似度は、更に他の算出方法により算出してもよい。このように、第１モデルｆ１（Ｘ，Ｙ）では、ＸとＹの表記に基づき類似度を算出する。尚、距離については、負数をとる等して類似度に変換する。

第１モデルｆ１（Ｘ，Ｙ）に基づく算出方法では、表記に基づき類似度を算出することから、類似度算出の過程が明確であり説明性が高い。そのため、対話装置１０による応答精度を改善するために、対話装置１０が、例えば、何故そのような返答をするのか、対話装置１０の管理者やユーザが知りたい場合に、類似度の算出過程を追跡することができる。また、第１モデルｆ１（Ｘ，Ｙ）に基づく類似度の算出方法は、表記に基づくものであるため、表記が類似している場合は正しく想定入力文を推定できるという利点がある。

尚、第１モデルｆ１（Ｘ，Ｙ）に基づく算出方法は、単語の意味ではなく、表記で近さを算出するため、類似した表現であっても異なる単語として扱われる場合がある。例えば、「利用する」と「使う」は、共通する文字がないため、類似度が小さくなる。

そこで、第２モデルｆ２（Ｘ，Ｙ）による類似度の算出方法では、単語ｗ１とｗ２の単語間類似度ｓ（ｗ１、ｗ２）を用いる。単語間類似度ｓ（ｗ１、ｗ２）は、個々の単語同
士の類似度であり、その算出方法としては、例えば、ｗ１とｗ２の分散表現のコサイン類似度を用いる方法がある。また、ｗ１とｗ２の単語概念間距離を用いる方法もある。

単語間類似度ｓ（ｗ１、ｗ２）を用いる算出方法では、例えば、ＷｏｒｄＮｅｔ上の２つの単語間のパスの長さ等を用いることができる。これらの単語間類似度を用いて、単語集合Ｓ１、Ｓ２の間の距離を例えば、ＷＭＤを使って算出する。第２モデルｆ２（Ｘ，Ｙ）は、表記ではなく、単語の分散表現の類似度や概念距離を用いるため、表記が異なっていても、意味が類似した単語同士の類似度は高くなる。しかし単語間類似度ｓ（ｗ１、ｗ２）が表記に基づく算出方法ではないため、説明性が低くなる場合がある。

尚、第２モデルｆ２（Ｘ，Ｙ）による類似度の算出方法では、単語間類似度ｓ（ｗ１、ｗ２）を、表記ではなく、分散表現の類似度や概念距離を用いて算出していたが、同義語辞書２２２と区別用語リスト２２３とを用いて、類似度の値を補正することとしてもよい。以下に、類似度が０～１の間の実数をとるように正規化されている場合に類似度の値を補正する方法の一例を示す。

まず同義語辞書２２２に同義表現として記載されている用語ｗ１、ｗ２は、予め定めた０以上１以下の大きい値をｃ１として、ｓ（ｗ１、ｗ２）＝ｃ１とおく。尚、ｗ１とｗ２は同じ用語とみなして、ｃ１＝１としてもよい。また、区別用語リスト２２３に記載されている二つの区別用語（ｗ１、ｗ２）は予め定めた０以上１以下の小さい値をｃ２として、ｓ（ｗ１、ｗ２）＝ｃ２とおく。例えば、ｃ２＝０としてもよい。このように補正することで、区別用語リスト２２３に記載されている用語同士の類似度は小さくなる。

尚、特にＷｏｒｄＮｅｔの概念間類似度を用いる場合には、複数の想定質問文Ｙに対して、第２モデルｆ２（Ｘ，Ｙ）による類似度が同じ値になる場合がある。このような場合、ｆ１とｆ２とを合成した類似度算出モデルｆ（Ｘ，Ｙ）を、
ｆ（Ｘ，Ｙ）＝Ｃ×ｆ１（Ｘ，Ｙ）＋ｆ２（Ｘ，Ｙ）
としてもよい。合成係数Ｃは、例えば、Ｃ＝０．１とする。また、ｆ１（Ｘ，Ｙ）が十分大きいときには、表記がかなり類似しており、ｆ１（Ｘ，Ｙ）の値が信頼できる。そのため、予め閾値Ｈを定めて置き、以下の式のように、ｆ１がＨより大きい場合には、ｆ１の値を類似度として採用してもよい。
ｆ（Ｘ，Ｙ）＝ｆ１（Ｘ，Ｙ）ｆ１（Ｘ、Ｙ）＞Ｈの場合
・・・式１
ｆ（Ｘ，Ｙ）＝Ｃ×ｆ１（Ｘ，Ｙ）＋ｆ２（Ｘ，Ｙ）ｆ１（Ｘ，Ｙ）≦Ｈの場合
・・・式２

このような算出方法により、表記が類似しているときにはｆ１が採用され、結果に対する説明性が高くなるとともに、ｆ１の値が低く、表記が類似していない場合であっても、単語間の意味が類似している場合には、ｆ２を主として、ｆ２とｆ１の合成類似度を用いることで、高い類似度を得ることができる。

対話処理部７は、以上のようにして生成された類似度算出モデル２３を用いて入力文と想定入力文との類似度を算出し、最も近い想定入力文を取得する。例えば、図６Ｂに示したシナリオ表に基づくユーザとの対話において、対話装置１０が「記憶装置はどれにしますか？」という質問をしたときに、入力文が「Hard Disk Drive」であった場合、「記憶
装置」の属性における値（ＨＤＤ、ＳＳＤ）の中で、どの値に最も近いかを算出する。

以上により、表記が類似している場合には説明性が高い類似度を、また、表記が異なる場合でも意味が類似している場合には高い類似度を得ることができる。また、区別する必要がある用語については類似度を低く算出することができる。これにより応答精度を向上
させることができる。対話装置１０は、以上のような類似度算出モデル２３を用いることで、入力文と最も類似度が高い想定入力文を特定し、適切な応答文を返すおことができる。

ところで、入力文の表現は多様であるため、入力文に対話装置１０が適切な応答文を返送するための情報が欠落している場合や、区別用語として区別して入力すべき語と他の語が混在していることがあり、これらは対話装置１０の応答精度を低下させる要因となる。図２に示した対話処理部７の入力補助部７２は、適切な入力文を入力できるようにユーザを補助して対話装置１０の応答精度の向上を図る。

入力補助部７２は、ユーザが入力文を入力する過程で、想定入力文で使用されている用語を表示する。対話装置１０は、想定入力文に含まれる用語を主要用語リスト２４として管理する。

図２に示すように、対話装置１０の主要用語リスト生成部５３は、質問応答データ２２１に基づき主要用語リスト２４を生成する。対話処理部７は、ユーザ端末４０を介して行われるユーザとの対話処理に際し、質問応答生成部７１が想定入力文を推定するとともに、入力補助部７２が、主要用語リスト２４から、推定した想定入力文に対応する主要語をユーザ端末４０に提示する。

図９に主要用語リスト２４の一例を示す。主要用語リスト２４は、例えば、主要用語リスト生成部５３が、形態素解析によって質問応答データ２２１の各想定入力文に含まれる特定の品詞（名詞、動詞等）を主要用語として抽出することにより生成する。例示する主要用語リスト２４は、図４Ａ及び図５Ａに示した質問応答データ２２１に基づき生成されたものである。

図１０Ａ～図１０Ｄに、ユーザが入力文を入力する過程で入力補助部７２が表示する画面の例を示す。

例えば、図１０Ａに示すように、ユーザ端末４０に表示されたユーザ入力欄４１にユーザが「申込はどこでできますか？」と入力した場合、対話処理部７は、入力文Ｘに対し、各想定質問文Ｙに対する類似度ｆ（Ｘ，Ｙ）を算出し、類似度が高い上位ｐ件（ｐは予め定めておく。例えばｐ＝１０とする。）を選定する。

ここでは、もっとも高い類似度の値をＭ（Ｍ＝ｍａｘｆ（Ｘ、Ｙ））としたとき、二つの想定入力文「サービスＡ」と「サービスＢ」を含む想定質問文Ｙが選定されたものとする。このとき、主要用語リスト２４において、選定された想定入力文Ｙに含まれる主要用語ｗ（この場合には、「サービスＡ」、「サービスＢ」、「申込」のいずれか）を入力文Ｘに加えてＸ’としたときに、Ｍ’＝ｍａｘｆ（Ｘ’、Ｙ）の値がＭよりも予め定めた一定の値Ｋ以上大きい場合、即ち、Ｍ’－Ｍ＞Ｋとなる場合、ｗを不足情報補完候補４２として選定する。つまり入力文Ｘと想定入力文Ｙとの類似度が高くなるように、入力文Ｘに不足情報補完候補４２として選定した主要用語ｗを加える。

図１０Ａは、「サービスＡ」と「サービスＢ」が不足情報補完候補４２として選定された場合である。対話処理部７は、選定した不足情報補完候補４２である「サービスＡ」と「サービスＢ」を、ユーザ端末４０にて選択可能に表示する。図１０Ａにおいて、ユーザが、例えば、「サービスＡ」を選択すると、図１０Ｂに示すように、入力補助部７２は、選択された「サービスＡ」の語によって補完された「サービスＡの申込みはどこでできますか？」という入力文Ｘ’を表示する。

尚、例えば、ユーザ自身が用語を知らない、用語を混同している、等の理由で誤った用語を入力する場合がある。例えば、図１０Ｃに示すように、入力文Ｘが「サービスＡの申込みはどこでできますか？」という文である場合、ユーザが「サービスＡ」を「サービスＢ」や「サービスＣ」と混同している場合がある。この場合、対話処理部７は、入力文Ｘにおける「サービスＡ」の表示位置に別の候補４３として「サービスＢ」、「サービスＣ」を、ユーザ端末４０に選択可能に表示する。これによりユーザに用語を混同している可能性があることを認知させることができ、入力文Ｘの誤入力を低減させることができる。この仕組みは、例えば、ユーザが「サービスＡ」の申込がどこでできるか質問しており、更に「サービスＡ」が主要用語リスト２４にあることから、「サービスＡ」をｗ１とし、主要用語リスト２４にある用語をｗ２として、単語間類似度ｓ（ｗ１、ｗ２）を算出し、ｗ１と類似している用語ｗ２を提示すべき用語として選定することにより実現できる。尚、用語ｗ２は、用語ｗ１との類似度が高い順に所定件数選定してもよいし、予め定めた一定の閾値以上の類似度をもつ用語ｗ２を選定してもよい。ユーザは、必要であれば、提示された用語ｗ２から一つを選択し、用語ｗ１を用語ｗ２に置き換えることによって、入力を修正することができる。

ユーザが入力文を入力する際、対話装置１０の類似度算出に有効な用語と、そうでない用語とをユーザが知ることができれば、ユーザは効率よく入力文を入力することができる。例えば、入力文の単語集合をＳ１とし、次に、参照単語集合をＳ３とする。参照単語集合Ｓ３は、全ての想定入力文に掲載されている単語の集合でもよいし、区別用語リスト２２３に掲載されている用語の集合でもよい。対話装置１０は、Ｓ１の要素の単語ｗ１について、ｇ＝ｍａｘ｛ｓ（ｗ１、ｗ２）｝を算出する。尚、当該式における「ｍａｘ」は、Ｓ３中の全ての単語ｗ２に対してとる。このとき、図１０Ｄに示すように、入力文Ｘの入力欄（以下、ユーザ入力欄４１と称する）において、ｇの値が予め定めた閾値以上となる用語ｗ１と他の用語とを識別可能に表示させてもよい。同図の例では、用語ｗ１が強調表示（ハイライト表示）されている（図中、矩形点線枠４４）。また、閾値以上となる用語ｗ１については、ｇの値に応じ、濃度を変えたグラデーション表示で示してもよい。このように、用語ｗ１と他の用語とを識別可能にすることで、対話装置１０が応答をする上で重視している用語がユーザにも分かり、対話装置１０が精度よく応答するための入力をユーザに促すことができる。

尚、上記の単語間類似度ｓ（ｗ１、ｗ２）は、上述した各種単語間類似度（分散表現のコサイン類似度、単語概念間距離等）の一つ、または複数を合成したものを用いればよい。また、単語間類似度ｓ（ｗ１、ｗ２）は、例えば、類似度算出モデルｆ（Ｘ，Ｙ）の合成計数Ｃに対応する重み付けに用いてもよい。単語同士の類似度ｓ（ｗ１、ｗ２）の代わりに類似度ｆ（Ｘ，Ｙ）を用いてもよい。

以上、本発明の実施形態につき説明したが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。また例えば、上記した実施形態は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、
ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

また、前述した各種のデータを格納するデータベースの構成（スキーマ（Schema）等）は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。

１対話システム、５対話コンテンツ管理部、５１質問応答生成部、５２区別用語リスト生成部、５３主要用語リスト生成部、６類似度算出モデル生成部、７対話処理部、２１テキストデータ、２２対話コンテンツ、２２１質問応答データ、２２２
同義語辞書、２２３区別用語リスト、２３類似度算出モデル、２４主要用語リスト、３０通信ネットワーク、４０ユーザ端末、４１ユーザ入力欄

Claims

情報処理装置を用いて構成される対話システムであって、
入力文に対して応答文を出力する対話処理部と、
前記入力文を想定した文である想定入力文と前記応答文とを対応付けた質問応答データ、同義語辞書、対話のトピックに応じて互いに区別されるべき用語である区別用語のリストである区別用語リスト、及び入力文と想定入力文との類似度を求める類似度算出モデルを記憶する記憶部と、
前記類似度算出モデルを生成する類似度算出モデル生成部と、
を備え、
前記類似度算出モデル生成部は、前記同義語辞書に記録されている同義語同士は類似度が高く、前記区別用語リストの区別用語同士は類似度が低くなるように類似度を算出する類似度算出モデルを生成し、
前記対話処理部は、前記入力文と前記想定入力文との類似度を、前記類似度算出モデルを用いて求め、求めた前記類似度に基づき前記想定入力文を選択し、選択した当該想定入力文に対応する応答文を出力する、
対話システム。
請求項１に記載の対話システムであって、
前記質問応答データを、章節構造を有する文書からなるテキストデータに基づき生成するとともに、前記区別用語を、当該テキストデータにおける章節の見出し、または章節の分類を示す表記から抽出する対話コンテンツ管理部を更に備える、
対話システム。
請求項１に記載の対話システムであって、
前記類似度算出モデル生成部は、前記入力文と前記想定入力文の夫々に含まれる用語の集合同士の類似度に基づく第１の類似度算出モデルと、前記入力文と前記想定入力文の夫々に含まれる単語同士の類似度に基づく第２の類似度算出モデルとを生成し、前記第１の類似度算出モデルと前記第２の類似度算出モデルとを合成した関数を前記類似度算出モデルとして生成する、
対話システム。
請求項３に記載の対話システムであって、
前記対話処理部は、前記第１の類似度算出モデルで算出した前記入力文と前記想定入力文との類似度が所定の閾値以上である場合に、当該第１の類似度算出モデルを前記類似度算出モデルとして採用する、
対話システム。
請求項１に記載の対話システムであって、
前記対話処理部は、前記入力文に含まれる用語を、前記同義語辞書または前記区別用語リストを用いて前記想定入力文に含まれる用語に統一した上で前記類似度を算出する、
対話システム。
請求項１に記載の対話システムであって、
前記記憶部は、前記想定入力文の夫々に含まれる用語を主要用語として抽出した主要用語リストを記憶し、
前記対話処理部は、入力した前記入力文に類似する前記想定入力文についての前記主要用語を、ユーザが選択可能な状態で出力するとともに、前記入力文を当該ユーザによって選択された前記主要用語で補完する、
対話システム。
請求項１に記載の対話システムであって、
前記記憶部は、前記想定入力文の夫々に含まれる用語を主要用語として抽出した主要用語リストを記憶し、
前記対話処理部は、入力した前記入力文に類似する前記想定入力文についての前記主要用語を、当該入力文に含まれる一部の用語と置換可能な状態で出力するとともに、前記一部の用語を置換する旨のユーザの指示を受け付けると前記入力文の一部を指示された前記主要用語に置換する、
対話システム。
請求項１に記載の対話システムであって、
前記記憶部は、前記想定入力文の夫々に含まれる用語を主要用語として抽出した主要用語リストを記憶し、
前記対話処理部は、前記入力文に含まれる単語において、前記想定入力文に含まれる単語との類似度が所定の閾値以上である単語を前記入力文で識別可能に表示する、
対話システム。
情報処理装置を用いて構成される対話システムの制御方法であって、
対話システムが、
入力文に対して応答文を出力するステップ、
前記入力文を想定した文である想定入力文と前記応答文とを対応付けた質問応答データ、同義語辞書、対話のトピックに応じて互いに区別されるべき用語である区別用語のリストである区別用語リスト、及び入力文と想定入力文との類似度を求める類似度算出モデルを記憶するステップ、
前記類似度算出モデルを生成するステップ、
前記同義語辞書に記録されている同義語同士は類似度が高く、前記区別用語リストの区別用語同士は類似度が低くなるように類似度を算出する類似度算出モデルを生成するステップ、及び、
前記入力文と前記想定入力文との類似度を、前記類似度算出モデルを用いて求め、求めた前記類似度に基づき前記想定入力文を選択し、選択した当該想定入力文に対応する応答文を出力するステップ、
を実行する、対話システムの制御方法。
請求項９に記載の対話システムの制御方法であって、
前記対話システムが、前記質問応答データを、章節構造を有する文書からなるテキストデータに基づき生成するとともに、前記区別用語を、当該テキストデータにおける章節の見出し、または章節の分類を示す表記から抽出するステップ、
を更に実行する、対話システムの制御方法。
請求項９に記載の対話システムの制御方法であって、
前記対話システムが、前記入力文と前記想定入力文の夫々に含まれる用語の集合同士の類似度に基づく第１の類似度算出モデルと、前記入力文と前記想定入力文の夫々に含まれる単語同士の類似度に基づく第２の類似度算出モデルとを生成し、前記第１の類似度算出モデルと前記第２の類似度算出モデルとを合成した関数を前記類似度算出モデルとして生成するステップ、
を更に実行する、対話システムの制御方法。
請求項１１に記載の対話システムの制御方法であって、
前記対話システムが、前記第１の類似度算出モデルで算出した前記入力文と前記想定入
力文との類似度が所定の閾値以上である場合に、当該第１の類似度算出モデルを前記類似度算出モデルとして採用するステップ、
を更に実行する、対話システムの制御方法。
請求項９に記載の対話システムの制御方法であって、
前記対話システムが、前記入力文に含まれる用語を、前記同義語辞書または前記区別用語リストを用いて前記想定入力文に含まれる用語に統一した上で前記類似度を算出するステップ、
を更に実行する、対話システムの制御方法。
請求項９に記載の対話システムの制御方法であって、
前記対話システムが、
前記想定入力文の夫々に含まれる用語を主要用語として抽出した主要用語リストを記憶するステップ、及び、
入力した前記入力文に類似する前記想定入力文についての前記主要用語を、ユーザが選択可能な状態で出力するとともに、前記入力文を当該ユーザによって選択された前記主要用語で補完するステップ、
を更に実行する、対話システムの制御方法。
請求項９に記載の対話システムの制御方法であって、
前記対話システムが、
前記想定入力文の夫々に含まれる用語を主要用語として抽出した主要用語リストを記憶するステップ、及び、
入力した前記入力文に類似する前記想定入力文についての前記主要用語を、当該入力文に含まれる一部の用語と置換可能な状態で出力するとともに、前記一部の用語を置換する旨のユーザの指示を受け付けると前記入力文の一部を指示された前記主要用語に置換するステップ、
を更に実行する、対話システムの制御方法。
請求項９に記載の対話システムの制御方法であって、
前記対話システムが、前記想定入力文の夫々に含まれる用語を主要用語として抽出した主要用語リストを記憶するステップ、及び、
前記入力文に含まれる単語において、前記想定入力文に含まれる単語との類似度が所定の閾値以上である単語を前記入力文で識別可能に表示するステップ、
を更に実行する、対話システムの制御方法。