JP6803309B2

JP6803309B2 - 対話データを自動的に追加可能なプログラム、対話サーバ及び方法

Info

Publication number: JP6803309B2
Application number: JP2017157643A
Authority: JP
Inventors: 一則松本; 啓一郎帆足; 池田　和史; 和史池田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2020-12-23
Anticipated expiration: 2037-08-17
Also published as: JP2019036172A

Description

本発明は、ユーザとの間で対話シナリオを進行させる対話データベースの技術に関する。

近年、ロボットやスマートフォンアプリケーションにも、人と対話する対話システムが搭載されてきている。
古くはELIZAやSHRDLUのように、ユーザ発話に対して一問一答形式で返答する技術がある（例えば非特許文献１参照）。この技術によれば、事前に蓄積された質問例の集合の中から、パターンマッチによってユーザ発話に近い質問例を検出する。
また、ＤＡＲＰＡ(Defense Advanced Research Projects Agency、アメリカ国防高等研究計画局）が主導した、フライト用のタスク指向対話システムとしてのＡＴＩＳ(Advanced Traffic Information Service)プロジェクトの技術もある（例えば非特許文献２参照）。
更に、日本語用のタスク指向対話システムとして、京都市バスのサービスとして、2003年〜2004年に実運用されたＩＶＲ(Interactive Voice Response、自動音声応答装置)の技術もある。
更に、機械学習エンジンを組み込んだ対話システムが実用化され、例えばiPhone（登録商標）の音声アシストシステムSiri（登録商標）にも搭載されている。

既存の対話システムは、「タスク指向対話」と「雑談対話」との組み合わせに基づく。音声対話システムの基本構造は、ユーザの発話音声に対して、対話コーパスを用いた音声認識（ＡＳＲ）と、知識ベースモデルを用いた言語理解（ＳＬＵ）及び対話制御（ＤＭ）とによって、応答文を生成し、その応答文は音声合成によって応答音声として出力される（例えば非特許文献３参照）。

また、言語理解と対話履歴とから次の行動を決定する対話制御について、強化学習を用いて最適化する技術もある（例えば非特許文献４参照）。強化学習によれば、一連の入力（環境に対する状態観測）に対して、どのような戦略で行動すればよいかという方策を学習する。
統計的対話制御によれば、ユーザ状態sからのユーザ発話に対して、システム応答としての行動aが、ユーザの状態をs’にするというマルコフ性を仮定する。そして、特定のs、aの組み合わせに報酬を仮定し、できるだけ短い時間で報酬が一定値を上回るように制御する。

奥村学、他、「対話システム」、コロナ社、2017年、ISBN：978-4-339-02757-0 Price, P.J.: Evaluation of spoken language systems: the ATIS Domain. In Proc. DARPA Speech & Natural Language Workshop (1990) 奈良先端科学技術大学院大学、吉野幸一郎、「音声対話システム」、[online]、［平成２９年７月２９日検索］、インターネット＜URL:http://pomdp.net/docs/speechprocessing_dialogue_pub.pdf＞江頭勇佑、他、「雑談対話システムにおける強化学習を用いた応答生成モジュールの選択」、言語処理学会第18回年次大会発表（2012）

前述した対話制御システムによれば、膨大な対話データを登録した対話データベースが必要となる。特に、マルコフ性を用いた統計的対話制御の場合、状態ｓから行動ａにおける状態ｓ'への移行を登録しておく必要があり、対話データベースの増大化へつながる。また、対話データベースの対話データは、自動的に追加することが難しく、多大なコストをかけて人手によって更新する必要がある。

そこで、本発明は、対話データベースの増大化を抑制すると共に、対話データを自動的に追加可能なプログラム、対話サーバ及び方法を提供することを目的とする。

本発明によれば、
入力文に対する１つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
入力文に対する１つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造（述語、格、目的語）を対応付けて記憶した対話データ述語項構造記憶手段と、
先行文に対する１つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶手段と、
入力文の述語項構造と同一の先行文の述語項構造を、コーパスデータ述語項構造記憶手段から検出する先行文述語項構造検出手段と、
検出された当該先行文の述語項構造に対応する１つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する１つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する後行文述語項構造検出手段と、
検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する対話データ追加手段と
してコンピュータを機能させることを特徴とする。

本発明のプログラムにおける他の実施形態によれば、
述語項構造解析によって、入力文及び行動文に基づく述語項構造を生成し、対話データ述語項構造記憶手段へ出力する対話データ述語項構造生成手段と、
先行文に対する１つ以上の後行文の時系列関係をコーパスデータとして記憶したコーパスデータベースと、
述語項構造解析によって、先行文及び後行文に基づく述語項構造を生成し、コーパスデータ述語項構造記憶手段へ出力するコーパスデータ述語項構造生成手段と
してコンピュータを更に機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
コーパスデータベースは、不特定多数の第三者から投稿された投稿文をコーパスデータとして記憶する
ようにコンピュータを更に機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
後行文述語項構造検出手段は、以下のように、先行文P1に対する後行文P2の評価値V(P1,P2)を算出し、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値Vが大きいものから順に所定数となる、後行文P2を検出対象とする
p11：先行文P1から後行文P2へ遷移した数
p12：先行文P1から後行文P2以外の後行文へ遷移した数
p21：先行文P1以外の先行文から後行文P2へ遷移した数
p22：先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
p11＋p12＋p21＋p22＝全ての先行文から全ての後行文へ遷移した数
先行文P1から後行文P2へ遷移する評価値：P11＝p11／(p11＋p12)
先行文P1以外の先行文から後行文P2へ遷移する評価値：P21＝p21／(p21＋p22)
先行文P1に対する後行文P2の評価値：V(P1,P2)＝P11−P21
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
後行文述語項構造検出手段は、以下のように、赤池情報量規準(ＡＩＣ：Akaike's Information Criterion)を用いて、先行文P1に対する後行文P2の評価値V(P1,P2)を算出し、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値V(P1,P2)が大きいものから順に所定数となる、後行文P2を検出対象とする
p11：先行文P1から後行文P2へ遷移した数
p12：先行文P1から後行文P2以外の後行文へ遷移した数
p21：先行文P1以外の先行文から後行文P2へ遷移した数
p22：先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
p11＋p12＋p21＋p22＝全ての先行文から全ての後行文へ遷移した数
MLL_IM(P1,P2)＝(p11+p12) log(p11+p12)
＋(p11+p21) log(p11+p21)
＋(p21+p22) log(p21+p22)
＋(p12+p22) log(p12+p22)−2N log N
MLL_DM(P1,P2)＝p11 log p11＋p12 log p12＋p21 log p21＋p22 log p22−N log N
但し、N＝p11＋p12＋p21＋p22
AIC_IM(P1,P2)＝-2 × MLL_IM(P1,P2) ＋ 2×2
AIC_IM(P1,P2)：先行文P1と後行文P2との組の従属AIC
AIC_DM(P1,P2)＝-2 × MLL_DM(P1,P2) ＋ 2×3
AIC_DM(P1,P2)：先行文P1と後行文P2との組の独立AIC
V(P1,P2)＝AIC_IM(P1,P2) − AIC_DM(P1,P2)
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
入力文によって状態ｓへ移行し、当該状態ｓにおける行動ａの行動文を出力した際に得られる報酬期待値ｒ(ｓ,ａ)を蓄積し、報酬期待値ｒ(ｓ,ａ)を用いて、部分観測マルコフ決定ＰＯＭＤＰ(Partially-Observed Markov Decision Process)に基づく報酬Ｖtが最大となる当該行動文を出力する対話進行手段を更に有する
ようにコンピュータを機能させることも好ましい。

本発明によれば、対話サーバにおいて、
入力文に対する１つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
入力文に対する１つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造（述語、格、目的語）を対応付けて記憶した対話データ述語項構造記憶手段と、
先行文に対する１つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶手段と、
入力文の述語項構造と同一の先行文の述語項構造を、コーパスデータ述語項構造記憶手段から検出する先行文述語項構造検出手段と、
検出された当該先行文の述語項構造に対応する１つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する１つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する後行文述語項構造検出手段と、
検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する対話データ追加手段と
を有することを特徴とする。

本発明によれば、追加対話データ検出方法であって、
装置は、
入力文に対する１つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
入力文に対する１つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造（述語、格、目的語）を対応付けて記憶した対話データ述語項構造記憶部と、
先行文に対する１つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶部と、
を有し、
装置は、
入力文の述語項構造と同一の先行文の述語項構造を、コーパスデータ述語項構造記憶手段から検出する第１のステップと、
検出された当該先行文の述語項構造に対応する１つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する１つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する第２のステップと、
検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する第３のステップと
を実行することを特徴とする。

本発明のプログラム、対話サーバ及び方法によれば、対話データベースの増大化を抑制すると共に、対話データを自動的に追加可能となる。

本発明におけるシステム構成図である。本発明における対話サーバの機能構成図である。本発明における対話データ述語項構造記憶部及びコーパスデータ述語項構造記憶部のデータ構造図である。本発明における先行文述語項構造検出部、後行文述語項構造検出部及び対話データ追加部の処理の説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明におけるシステム構成図である。

図１によれば、本発明における対話サーバ１が、インターネットに接続されている。
ユーザが操作する端末２は、アクセスネットワーク及びインターネットを介して、対話サーバ１へアクセスする。そして、端末２は、ユーザの発話文（又は発話音声）を対話サーバ１へ送信し、これに対し、対話サーバ１は、応答文（又は応答音声）を端末２へ返信する。
対話サーバ１は、端末２を操作するユーザとの間で、発話音声に基づく音声対話であってもよいし、チャットボットのようなテキスト対話であってもよい。そして、対話サーバ１は、ユーザとの間で所定目的に向けて、対話シナリオを進行させる。

また、図１によれば、不特定多数の第三者から投稿された投稿文を公開する投稿サイトサーバ３が、インターネットに更に接続されている。投稿サイトサーバ３は、ブログ(Web log)サイトや、ミニブログサイト（例えばtwitter（登録商標）、ＳＮＳ(Social Networking Service)サイト（例えばfacebook（登録商標）やLINE（登録商標））、掲示板サイトのようなものであってもよい。

本発明における対話サーバ１は、投稿サイトサーバ３から大量の投稿文を収集することができる。そして、対話サーバ１は、それら投稿文をコーパスデータとして、自らの対話データに自動的に追加することができる。

図２は、本発明における対話サーバの機能構成図である。
図３は、本発明における対話データ述語項構造記憶部及びコーパスデータ述語項構造記憶部のデータ構造図である。

図２によれば、対話サーバ１は、対話進行部１０と、対話データベース１１と、対話データ述語項構造生成部１１１と、対話データ述語項構造記憶部１１２と、コーパスデータベース１２と、コーパスデータ述語項構造生成部１２１と、コーパスデータ述語項構造記憶部１２２と、先行文述語項構造検出部１２３と、後行文述語項構造検出部１２４と、対話データ追加部１２５とを有する。これら機能構成部は、対話サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、追加対話データ検出方法としても理解できる。

［対話進行部１０］
対話進行部１０は、対話データベース１１に記憶された対話データを参照しながら、端末２を操作するユーザとの間で、対話シナリオを進行させる。
対話進行部１０は、入力文によって状態ｓへ移行し、当該状態ｓにおける行動ａの行動文を出力した際に得られる報酬期待値ｒ(ｓ,ａ)を蓄積する。入力文と行動文とは、対話データベース１１を参照する。
そして、対話進行部１０は、報酬期待値ｒ(ｓ,ａ)を用いて、部分観測マルコフ決定ＰＯＭＤＰ(Partially-Observed Markov Decision Process)に基づく報酬Ｖtが最大となる当該行動文を出力する。これは、強化学習に基づく対話制御である。

［対話データベース１１］
対話データベース１１は、ユーザ発話としての「入力文」に対する、返答としての１つ以上の「行動文」の対話関係を、対話データとして記憶したものである。
図３によれば、入力文と１つ以上の行動文との対話シナリオが、以下のように構成されているとする。
（入力文）「雨が降ってきた」
->（行動文）「傘、持ってる？」
->（入力文）「傘、買わなくちゃ」
・・・・・・
->（行動文）「すぐ晴れるよ」
->（入力文）「よかった」
・・・・・・

［対話データ述語項構造生成部１１１］
対話データ述語項構造生成部１１１は、述語項構造解析によって、入力文に基づく述語項構造と、１つ以上の行動文に基づく述語項構造とを生成し、対話データ述語項構造記憶部１１２へ出力する。

最初に、入力文及び行動文を形態素解析によって形態素に区分する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。形態素解析によって、文に含まれる「述語」「格」「目的語」を判別することができる。

「述語項構造(Predicate Augment Structure：ＰＡＳ)」とは、文中の述語に対して「項」となる名詞句等を当てたものである。具体的には、述語項構造は、「述語」「格」「目的語」とからなる。述語項構造を用いることによって、文の意味の骨格を把握することができる。述語項構造解析として、例えばフリーソフトであるSyncha等の述語項構造解析器を用いることができる。

図３によれば、例えば以下のように述語項構造が抽出されている。
（文）（述語項構造）
「雨が降ってきた」 ->述語「降る」、目的語［ガ格］「雨」
「傘、持ってる？」 ->述語「持つ（否定）」、目的語［ヲ格］「傘」
「傘、買わなくちゃ」->述語「買う」、目的語［ヲ格］「傘」
「すぐ晴れるよ」 ->述語「晴れる」、目的語［−］「−」
「よかった」 ->述語「うれしい」、目的語［−］「−」

［対話データ述語項構造記憶部１１２］
対話データ述語項構造記憶部１１２は、入力文に対する１つ以上の行動文の対話関係の対話データから生成された、入力文に基づく述語項構造（述語、格、目的語）と、１つ以上の行動文に基づく述語項構造とを対応付けて記憶する。

図３によれば、対話データ述語項構造記憶部１１２には、以下のような述語項構造を記憶する。
述語「降る」・目的語［ガ格］「雨」
->述語「持つ（否定）」・目的語［ヲ格］「傘」
->述語「買う」・目的語［ヲ格］「傘」
・・・・・・
->述語「晴れる」・目的語［−］「−」
->述語「うれしい」・目的語［−］「−」
・・・・・・

［コーパスデータベース１２］
コーパスデータベース１２は、「先行文」に対する１つ以上の「後行文」の時系列関係をコーパスデータとして記憶したものである。
コーパスデータベースは、不特定多数の第三者から投稿された投稿文をコーパスデータとして記憶したものであってもよい。

図３によれば、先行文と１つ以上の後行文とが、以下のように時系列に構成されているとする。
「雨、降りそう」
->「傘は持ってる？」
->「傘、買うか」
・・・・・・
->「タクシーに乗るか」
・・・・・・
->「晴れそう」
->「いいね」
・・・・・・

コーパスデータベース１２から得られた先行文及び後行文の種類数ｎ個は、対話データベース１１から得られた入力文及び行動文の種類数ｍ個よりも、十分に多いことは理解できる。
入力文ｉ->行動文１
->行動文２
・・・・・・・
->行動文ｍ
先行文ｊ->後行文１
->後行文２
・・・・・・・
->後行文ｎ
ｍ＜＜ｎ

［コーパスデータ述語項構造生成部１２１］
コーパスデータ述語項構造生成部１２１は、述語項構造解析によって、先行文に基づく述語項構造と、１つ以上の後行文に基づく述語項構造とを生成し、コーパスデータ述語項構造記憶部１２２へ出力する。

［コーパスデータ述語項構造記憶部１２２］
コーパスデータ述語項構造記憶部１２２は、先行文に対する１つ以上の後行文の時系列関係のコーパスデータから生成された、先行文に基づく述語項構造と、１つ以上の後行文に基づく述語項構造とを対応付けて記憶する。

図３によれば、コーパスデータ述語項構造記憶部１２１には、以下のような述語項構造を記憶する。
述語「降る」・目的語［ガ格］「雨」
->述語「持つ（否定）」・目的語［ヲ格］「傘」
->述語「買う」・目的語［ヲ格］「傘」
・・・・・・
->述語「乗る」・目的語［ニ格］「タクシー」
・・・・・・
->述語「晴れる」・目的語［−］「−」
->述語「うれしい」・目的語［−］「−」
・・・・・・

図４は、本発明における先行文述語項構造検出部、後行文述語項構造検出部及び対話データ追加部の処理の説明図である。

［先行文述語項構造検出部１２３］
先行文述語項構造検出部１２３は、入力文の述語項構造と同一の先行文の述語項構造を、コーパスデータ述語項構造記憶部１２２から検出する。
図４によれば、対話データ述語項構造記憶部１１２とコーパスデータ述語項構造記憶部１２２とを比較して、同一の述語構造として、以下のように検出される。
->述語「持つ（否定）」・目的語［ヲ格］「傘」

［後行文述語項構造検出部１２４］
後行文述語項構造検出部１２４は、検出された当該先行文の述語項構造に対応する１つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する１つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する。
コーパスデータベース１２は、一般的な文の集合であるために、対話データベース１１にもそのような文で対話するケースも存在する。

図４によれば、同一の述語項構造に接続する述語構造の中で、対話データ述語項構造記憶部１１２に記憶されていない述語項構造を、コーパスデータ述語項構造記憶部１２２から検出する。そうすると、以下の述語項構造が検出される。
->述語「乗る」・目的語［ニ格］「タクシー」

ここで、対話データ述語項構造記憶部１１２に記憶されていない述語項構造を、コーパスデータ述語項構造記憶部１２２から検出する際に、「情報量規準の評価値」が、所定条件以上となる述語項構造のみを検出するのが好ましい。
情報量規準の要素として、後行文述語項構造検出部１２４は、以下の数を計数する。
p11：先行文P1から後行文P2へ遷移した数
p12：先行文P1から後行文P2以外の後行文へ遷移した数
p21：先行文P1以外の先行文から後行文P2へ遷移した数
p22：先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
p11＋p12＋p21＋p22＝全ての先行文から全ての後行文へ遷移した数

その上で、以下のような２つの実施形態について説明する。コーパスデータベース１２から生成された述語項構造であっても、対話データベース１１に登録するべく有効なものを選択することができる。

＜基本的な情報量規準に基づく後行文P2の検出＞
後行文述語項構造検出部１２４は、以下のように、先行文P1に対する後行文P2の評価値V(P1,P2)を算出する。
先行文P1から後行文P2へ遷移する評価値：P11＝p11／(p11＋p12)
先行文P1以外の先行文から後行文P2へ遷移する評価値：P21＝p21／(p21＋p22)
先行文P1に対する後行文P2の評価値：V(P1,P2)＝P11−P21
そして、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値Vが大きいものから順に所定数となる、後行文P2を検出対象とする。

＜赤池情報量規準に基づく後行文P2の検出＞
後行文述語項構造検出部１２４は、以下のように、赤池情報量規準(ＡＩＣ：Akaike's Information Criterion)を用いて、先行文P1に対する後行文P2の評価値V(P1,P2)を算出する。
MLL_IM(P1,P2)＝(p11+p12) log(p11+p12)
＋(p11+p21) log(p11+p21)
＋(p21+p22) log(p21+p22)
＋(p12+p22) log(p12+p22)−2N log N
MLL_DM(P1,P2)＝p11 log p11＋p12 log p12＋p21 log p21＋p22 log p22−N log N
但し、N＝p11＋p12＋p21＋p22
AIC_IM(P1,P2)＝-2 × MLL_IM(P1,P2) ＋ 2×2
AIC_IM(P1,P2)：先行文P1と後行文P2との組の従属AIC
AIC_DM(P1,P2)＝-2 × MLL_DM(P1,P2) ＋ 2×3
AIC_DM(P1,P2)：先行文P1と後行文P2との組の独立AIC
V(P1,P2)＝AIC_IM(P1,P2) − AIC_DM(P1,P2)
そして、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値V(P1,P2)が大きいものから順に所定数となる、後行文P2を検出対象とする。

［対話データ追加部１２５］
対話データ追加部１２５は、先行文に対して、後行文述語項構造検出部１２４によって検出された後行文を、対話データベース１１に当該入力文に対応する行動文として追加する。このとき、述語項構造から応答文を作成して、対話データベース１１に追加することも好ましい。
図４によれば、例えば以下のような対話データが追加される。
述語「乗る」・目的語［ニ格］「タクシー」
->「タクシーに乗れば」
これによって、対話進行部１０は、対話データベース１１を用いて、例えば以下のような対話を進行させることができる。
「雨が降ってきた」
->「傘、持ってないなら、タクシーに乗れば？」

以上、詳細に説明したように、本発明のプログラム、対話サーバ及び方法によれば、対話データベースの増大化を抑制すると共に、対話データを自動的に追加可能となる。
第１に、対話データを述語項構造として記憶することによって、対話データベースの増大化を抑えることができる。
第２に、それら述語項構造を、一般のコーパスデータから自動的に検出することができれば、対話データベースを構築するコストを低減することができる。
特に、コーパスデータとして、不特定多数の第三者が投稿する投稿文を用いることができれば、対話データベースを時代流行に応じて自動的に更新することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１対話サーバ
１０対話進行部
１１対話データベース
１１１対話データ述語項構造生成部
１１２対話データ述語項構造記憶部
１２コーパスデータベース
１２１コーパスデータ述語項構造生成部
１２２コーパスデータ述語項構造記憶部
１２３先行文述語項構造検出部
１２４後行文述語項構造検出部
１２５対話データ追加部
２端末
３投稿サイトサーバ
４投稿者用端末

Claims

入力文に対する１つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
入力文に対する１つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造（述語、格、目的語）を対応付けて記憶した対話データ述語項構造記憶手段と、
先行文に対する１つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶手段と、
前記入力文の述語項構造と同一の先行文の述語項構造を、前記コーパスデータ述語項構造記憶手段から検出する先行文述語項構造検出手段と、
検出された当該先行文の述語項構造に対応する１つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する１つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する後行文述語項構造検出手段と、
検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する対話データ追加手段と
してコンピュータを機能させることを特徴とするプログラム。
述語項構造解析によって、前記入力文及び前記行動文に基づく述語項構造を生成し、前記対話データ述語項構造記憶手段へ出力する対話データ述語項構造生成手段と、
先行文に対する１つ以上の後行文の時系列関係をコーパスデータとして記憶したコーパスデータベースと、
述語項構造解析によって、前記先行文及び前記後行文に基づく述語項構造を生成し、前記コーパスデータ述語項構造記憶手段へ出力するコーパスデータ述語項構造生成手段と
してコンピュータを更に機能させることを特徴とする請求項１に記載のプログラム。
前記コーパスデータベースは、不特定多数の第三者から投稿された投稿文をコーパスデータとして記憶する
ようにコンピュータを更に機能させることを特徴とする請求項２に記載のプログラム。
前記後行文述語項構造検出手段は、以下のように、先行文P1に対する後行文P2の評価値V(P1,P2)を算出し、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値Vが大きいものから順に所定数となる、後行文P2を検出対象とする
p11：先行文P1から後行文P2へ遷移した数
p12：先行文P1から後行文P2以外の後行文へ遷移した数
p21：先行文P1以外の先行文から後行文P2へ遷移した数
p22：先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
p11＋p12＋p21＋p22＝全ての先行文から全ての後行文へ遷移した数
先行文P1から後行文P2へ遷移する評価値：P11＝p11／(p11＋p12)
先行文P1以外の先行文から後行文P2へ遷移する評価値：P21＝p21／(p21＋p22)
先行文P1に対する後行文P2の評価値：V(P1,P2)＝P11−P21
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。
前記後行文述語項構造検出手段は、以下のように、赤池情報量規準(ＡＩＣ：Akaike's Information Criterion)を用いて、先行文P1に対する後行文P2の評価値V(P1,P2)を算出し、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値V(P1,P2)が大きいものから順に所定数となる、後行文P2を検出対象とする
p11：先行文P1から後行文P2へ遷移した数
p12：先行文P1から後行文P2以外の後行文へ遷移した数
p21：先行文P1以外の先行文から後行文P2へ遷移した数
p22：先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
p11＋p12＋p21＋p22＝全ての先行文から全ての後行文へ遷移した数
MLL_IM(P1,P2)＝(p11+p12) log(p11+p12)
＋(p11+p21) log(p11+p21)
＋(p21+p22) log(p21+p22)
＋(p12+p22) log(p12+p22)−2N log N
MLL_DM(P1,P2)＝p11 log p11＋p12 log p12＋p21 log p21＋p22 log p22−N log N
但し、N＝p11＋p12＋p21＋p22
AIC_IM(P1,P2)＝-2 × MLL_IM(P1,P2) ＋ 2×2
AIC_IM(P1,P2)：先行文P1と後行文P2との組の従属AIC
AIC_DM(P1,P2)＝-2 × MLL_DM(P1,P2) ＋ 2×3
AIC_DM(P1,P2)：先行文P1と後行文P2との組の独立AIC
V(P1,P2)＝AIC_IM(P1,P2) − AIC_DM(P1,P2)
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。
入力文によって状態ｓへ移行し、当該状態ｓにおける行動ａの行動文を出力した際に得られる報酬期待値ｒ(ｓ,ａ)を蓄積し、前記報酬期待値ｒ(ｓ,ａ)を用いて、部分観測マルコフ決定ＰＯＭＤＰ(Partially-Observed Markov Decision Process)に基づく報酬Ｖtが最大となる当該行動文を出力する対話進行手段を更に有する
ようにコンピュータを機能させることを特徴とする請求項１から５のいずれか１項に記載のプログラム。
入力文に対する１つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
入力文に対する１つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造（述語、格、目的語）を対応付けて記憶した対話データ述語項構造記憶手段と、
先行文に対する１つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶手段と、
前記入力文の述語項構造と同一の先行文の述語項構造を、前記コーパスデータ述語項構造記憶手段から検出する先行文述語項構造検出手段と、
検出された当該先行文の述語項構造に対応する１つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する１つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する後行文述語項構造検出手段と、
検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する対話データ追加手段と
を有することを特徴とする対話サーバ。
装置は、
入力文に対する１つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
入力文に対する１つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造（述語、格、目的語）を対応付けて記憶した対話データ述語項構造記憶部と、
先行文に対する１つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶部と、
を有し、
前記装置は、
前記入力文の述語項構造と同一の先行文の述語項構造を、前記コーパスデータ述語項構造記憶手段から検出する第１のステップと、
検出された当該先行文の述語項構造に対応する１つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する１つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する第２のステップと、
検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する第３のステップと
を実行することを特徴とする装置の追加対話データ検出方法。