JP6803309B2 - 対話データを自動的に追加可能なプログラム、対話サーバ及び方法 - Google Patents

対話データを自動的に追加可能なプログラム、対話サーバ及び方法 Download PDF

Info

Publication number
JP6803309B2
JP6803309B2 JP2017157643A JP2017157643A JP6803309B2 JP 6803309 B2 JP6803309 B2 JP 6803309B2 JP 2017157643 A JP2017157643 A JP 2017157643A JP 2017157643 A JP2017157643 A JP 2017157643A JP 6803309 B2 JP6803309 B2 JP 6803309B2
Authority
JP
Japan
Prior art keywords
sentence
predicate argument
argument structure
dialogue
predicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017157643A
Other languages
English (en)
Other versions
JP2019036172A (ja
Inventor
一則 松本
一則 松本
啓一郎 帆足
啓一郎 帆足
池田 和史
和史 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017157643A priority Critical patent/JP6803309B2/ja
Publication of JP2019036172A publication Critical patent/JP2019036172A/ja
Application granted granted Critical
Publication of JP6803309B2 publication Critical patent/JP6803309B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、ユーザとの間で対話シナリオを進行させる対話データベースの技術に関する。
近年、ロボットやスマートフォンアプリケーションにも、人と対話する対話システムが搭載されてきている。
古くはELIZAやSHRDLUのように、ユーザ発話に対して一問一答形式で返答する技術がある(例えば非特許文献1参照)。この技術によれば、事前に蓄積された質問例の集合の中から、パターンマッチによってユーザ発話に近い質問例を検出する。
また、DARPA(Defense Advanced Research Projects Agency、アメリカ国防高等研究計画局)が主導した、フライト用のタスク指向対話システムとしてのATIS(Advanced Traffic Information Service)プロジェクトの技術もある(例えば非特許文献2参照)。
更に、日本語用のタスク指向対話システムとして、京都市バスのサービスとして、2003年〜2004年に実運用されたIVR(Interactive Voice Response、自動音声応答装置)の技術もある。
更に、機械学習エンジンを組み込んだ対話システムが実用化され、例えばiPhone(登録商標)の音声アシストシステムSiri(登録商標)にも搭載されている。
既存の対話システムは、「タスク指向対話」と「雑談対話」との組み合わせに基づく。音声対話システムの基本構造は、ユーザの発話音声に対して、対話コーパスを用いた音声認識(ASR)と、知識ベースモデルを用いた言語理解(SLU)及び対話制御(DM)とによって、応答文を生成し、その応答文は音声合成によって応答音声として出力される(例えば非特許文献3参照)。
また、言語理解と対話履歴とから次の行動を決定する対話制御について、強化学習を用いて最適化する技術もある(例えば非特許文献4参照)。強化学習によれば、一連の入力(環境に対する状態観測)に対して、どのような戦略で行動すればよいかという方策を学習する。
統計的対話制御によれば、ユーザ状態sからのユーザ発話に対して、システム応答としての行動aが、ユーザの状態をs’にするというマルコフ性を仮定する。そして、特定のs、aの組み合わせに報酬を仮定し、できるだけ短い時間で報酬が一定値を上回るように制御する。
奥村学、他、「対話システム」、コロナ社、2017年、ISBN:978-4-339-02757-0 Price, P.J.: Evaluation of spoken language systems: the ATIS Domain. In Proc. DARPA Speech & Natural Language Workshop (1990) 奈良先端科学技術大学院大学、吉野幸一郎、「音声対話システム」、[online]、[平成29年7月29日検索]、インターネット<URL:http://pomdp.net/docs/speechprocessing_dialogue_pub.pdf> 江頭勇佑、他、「雑談対話システムにおける強化学習を用いた応答生成モジュールの選択」、言語処理学会 第18回年次大会発表(2012)
前述した対話制御システムによれば、膨大な対話データを登録した対話データベースが必要となる。特に、マルコフ性を用いた統計的対話制御の場合、状態sから行動aにおける状態s'への移行を登録しておく必要があり、対話データベースの増大化へつながる。また、対話データベースの対話データは、自動的に追加することが難しく、多大なコストをかけて人手によって更新する必要がある。
そこで、本発明は、対話データベースの増大化を抑制すると共に、対話データを自動的に追加可能なプログラム、対話サーバ及び方法を提供することを目的とする。
本発明によれば、
入力文に対する1つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
入力文に対する1つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造(述語、格、目的語)を対応付けて記憶した対話データ述語項構造記憶手段と、
先行文に対する1つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶手段と、
入力文の述語項構造と同一の先行文の述語項構造を、コーパスデータ述語項構造記憶手段から検出する先行文述語項構造検出手段と、
検出された当該先行文の述語項構造に対応する1つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する1つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する後行文述語項構造検出手段と
検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する対話データ追加手段と
してコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
語項構造解析によって、入力文及び行動文に基づく述語項構造を生成し、対話データ述語項構造記憶手段へ出力する対話データ述語項構造生成手段と、
先行文に対する1つ以上の後行文の時系列関係をコーパスデータとして記憶したコーパスデータベースと、
述語項構造解析によって、先行文及び後行文に基づく述語項構造を生成し、コーパスデータ述語項構造記憶手段へ出力するコーパスデータ述語項構造生成手段と
してコンピュータを更に機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
コーパスデータベースは、不特定多数の第三者から投稿された投稿文をコーパスデータとして記憶する
ようにコンピュータを更に機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
後行文述語項構造検出手段は、以下のように、先行文P1に対する後行文P2の評価値V(P1,P2)を算出し、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値Vが大きいものから順に所定数となる、後行文P2を検出対象とする
p11:先行文P1から後行文P2へ遷移した数
p12:先行文P1から後行文P2以外の後行文へ遷移した数
p21:先行文P1以外の先行文から後行文P2へ遷移した数
p22:先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
p11+p12+p21+p22=全ての先行文から全ての後行文へ遷移した数
先行文P1から後行文P2へ遷移する評価値 :P11=p11/(p11+p12)
先行文P1以外の先行文から後行文P2へ遷移する評価値:P21=p21/(p21+p22)
先行文P1に対する後行文P2の評価値 :V(P1,P2)=P11−P21
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
後行文述語項構造検出手段は、以下のように、赤池情報量規準(AIC:Akaike's Information Criterion)を用いて、先行文P1に対する後行文P2の評価値V(P1,P2)を算出し、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値V(P1,P2)が大きいものから順に所定数となる、後行文P2を検出対象とする
p11:先行文P1から後行文P2へ遷移した数
p12:先行文P1から後行文P2以外の後行文へ遷移した数
p21:先行文P1以外の先行文から後行文P2へ遷移した数
p22:先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
p11+p12+p21+p22=全ての先行文から全ての後行文へ遷移した数
MLL_IM(P1,P2)=(p11+p12) log(p11+p12)
+(p11+p21) log(p11+p21)
+(p21+p22) log(p21+p22)
+(p12+p22) log(p12+p22)−2N log N
MLL_DM(P1,P2)=p11 log p11+p12 log p12+p21 log p21+p22 log p22−N log N
但し、N=p11+p12+p21+p22
AIC_IM(P1,P2)=-2 × MLL_IM(P1,P2) + 2×2
AIC_IM(P1,P2):先行文P1と後行文P2との組の従属AIC
AIC_DM(P1,P2)=-2 × MLL_DM(P1,P2) + 2×3
AIC_DM(P1,P2):先行文P1と後行文P2との組の独立AIC
V(P1,P2)=AIC_IM(P1,P2) − AIC_DM(P1,P2)
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
入力文によって状態sへ移行し、当該状態sにおける行動aの行動文を出力した際に得られる報酬期待値r(s,a)を蓄積し、報酬期待値r(s,a)を用いて、部分観測マルコフ決定POMDP(Partially-Observed Markov Decision Process)に基づく報酬Vtが最大となる当該行動文を出力する対話進行手段を更に有する
ようにコンピュータを機能させることも好ましい。
本発明によれば、対話サーバにおいて、
入力文に対する1つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
入力文に対する1つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造(述語、格、目的語)を対応付けて記憶した対話データ述語項構造記憶手段と、
先行文に対する1つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶手段と、
入力文の述語項構造と同一の先行文の述語項構造を、コーパスデータ述語項構造記憶手段から検出する先行文述語項構造検出手段と、
検出された当該先行文の述語項構造に対応する1つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する1つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する後行文述語項構造検出手段と
検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する対話データ追加手段と
を有することを特徴とする。
本発明によれば、追加対話データ検出方法であって、
装置は、
入力文に対する1つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
入力文に対する1つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造(述語、格、目的語)を対応付けて記憶した対話データ述語項構造記憶部と、
先行文に対する1つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶部と、
を有し、
装置は、
入力文の述語項構造と同一の先行文の述語項構造を、コーパスデータ述語項構造記憶手段から検出する第1のステップと、
検出された当該先行文の述語項構造に対応する1つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する1つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する第2のステップと
検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する第3のステップと
を実行することを特徴とする。
本発明のプログラム、対話サーバ及び方法によれば、対話データベースの増大化を抑制すると共に、対話データを自動的に追加可能となる。
本発明におけるシステム構成図である。 本発明における対話サーバの機能構成図である。 本発明における対話データ述語項構造記憶部及びコーパスデータ述語項構造記憶部のデータ構造図である。 本発明における先行文述語項構造検出部、後行文述語項構造検出部及び対話データ追加部の処理の説明図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるシステム構成図である。
図1によれば、本発明における対話サーバ1が、インターネットに接続されている。
ユーザが操作する端末2は、アクセスネットワーク及びインターネットを介して、対話サーバ1へアクセスする。そして、端末2は、ユーザの発話文(又は発話音声)を対話サーバ1へ送信し、これに対し、対話サーバ1は、応答文(又は応答音声)を端末2へ返信する。
対話サーバ1は、端末2を操作するユーザとの間で、発話音声に基づく音声対話であってもよいし、チャットボットのようなテキスト対話であってもよい。そして、対話サーバ1は、ユーザとの間で所定目的に向けて、対話シナリオを進行させる。
また、図1によれば、不特定多数の第三者から投稿された投稿文を公開する投稿サイトサーバ3が、インターネットに更に接続されている。投稿サイトサーバ3は、ブログ(Web log)サイトや、ミニブログサイト(例えばtwitter(登録商標)、SNS(Social Networking Service)サイト(例えばfacebook(登録商標)やLINE(登録商標))、掲示板サイトのようなものであってもよい。
本発明における対話サーバ1は、投稿サイトサーバ3から大量の投稿文を収集することができる。そして、対話サーバ1は、それら投稿文をコーパスデータとして、自らの対話データに自動的に追加することができる。
図2は、本発明における対話サーバの機能構成図である。
図3は、本発明における対話データ述語項構造記憶部及びコーパスデータ述語項構造記憶部のデータ構造図である。
図2によれば、対話サーバ1は、対話進行部10と、対話データベース11と、対話データ述語項構造生成部111と、対話データ述語項構造記憶部112と、コーパスデータベース12と、コーパスデータ述語項構造生成部121と、コーパスデータ述語項構造記憶部122と、先行文述語項構造検出部123と、後行文述語項構造検出部124と、対話データ追加部125とを有する。これら機能構成部は、対話サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、追加対話データ検出方法としても理解できる。
[対話進行部10]
対話進行部10は、対話データベース11に記憶された対話データを参照しながら、端末2を操作するユーザとの間で、対話シナリオを進行させる。
対話進行部10は、入力文によって状態sへ移行し、当該状態sにおける行動aの行動文を出力した際に得られる報酬期待値r(s,a)を蓄積する。入力文と行動文とは、対話データベース11を参照する。
そして、対話進行部10は、報酬期待値r(s,a)を用いて、部分観測マルコフ決定POMDP(Partially-Observed Markov Decision Process)に基づく報酬Vtが最大となる当該行動文を出力する。これは、強化学習に基づく対話制御である。
[対話データベース11]
対話データベース11は、ユーザ発話としての「入力文」に対する、返答としての1つ以上の「行動文」の対話関係を、対話データとして記憶したものである。
図3によれば、入力文と1つ以上の行動文との対話シナリオが、以下のように構成されているとする。
(入力文)「雨が降ってきた」
->(行動文)「傘、持ってる?」
->(入力文)「傘、買わなくちゃ」
・・・・・・
->(行動文)「すぐ晴れるよ」
->(入力文)「よかった」
・・・・・・
[対話データ述語項構造生成部111]
対話データ述語項構造生成部111は、述語項構造解析によって、入力文に基づく述語項構造と、1つ以上の行動文に基づく述語項構造とを生成し、対話データ述語項構造記憶部112へ出力する。
最初に、入力文及び行動文を形態素解析によって形態素に区分する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。形態素解析によって、文に含まれる「述語」「格」「目的語」を判別することができる。
「述語項構造(Predicate Augment Structure:PAS)」とは、文中の述語に対して「項」となる名詞句等を当てたものである。具体的には、述語項構造は、「述語」「格」「目的語」とからなる。述語項構造を用いることによって、文の意味の骨格を把握することができる。述語項構造解析として、例えばフリーソフトであるSyncha等の述語項構造解析器を用いることができる。
図3によれば、例えば以下のように述語項構造が抽出されている。
(文) (述語項構造)
「雨が降ってきた」 ->述語「降る」、目的語[ガ格]「雨」
「傘、持ってる?」 ->述語「持つ(否定)」、目的語[ヲ格]「傘」
「傘、買わなくちゃ」->述語「買う」、目的語[ヲ格]「傘」
「すぐ晴れるよ」 ->述語「晴れる」、目的語[−]「−」
「よかった」 ->述語「うれしい」、目的語[−]「−」
[対話データ述語項構造記憶部112]
対話データ述語項構造記憶部112は、入力文に対する1つ以上の行動文の対話関係の対話データから生成された、入力文に基づく述語項構造(述語、格、目的語)と、1つ以上の行動文に基づく述語項構造とを対応付けて記憶する。
図3によれば、対話データ述語項構造記憶部112には、以下のような述語項構造を記憶する。
述語「降る」・目的語[ガ格]「雨」
->述語「持つ(否定)」・目的語[ヲ格]「傘」
->述語「買う」・目的語[ヲ格]「傘」
・・・・・・
->述語「晴れる」・目的語[−]「−」
->述語「うれしい」・目的語[−]「−」
・・・・・・
[コーパスデータベース12]
コーパスデータベース12は、「先行文」に対する1つ以上の「後行文」の時系列関係をコーパスデータとして記憶したものである。
コーパスデータベースは、不特定多数の第三者から投稿された投稿文をコーパスデータとして記憶したものであってもよい。
図3によれば、先行文と1つ以上の後行文とが、以下のように時系列に構成されているとする。
「雨、降りそう」
->「傘は持ってる?」
->「傘、買うか」
・・・・・・
->「タクシーに乗るか」
・・・・・・
->「晴れそう」
->「いいね」
・・・・・・
コーパスデータベース12から得られた先行文及び後行文の種類数n個は、対話データベース11から得られた入力文及び行動文の種類数m個よりも、十分に多いことは理解できる。
入力文i->行動文1
->行動文2
・・・・・・・
->行動文m
先行文j->後行文1
->後行文2
・・・・・・・
->後行文n
m<<n
[コーパスデータ述語項構造生成部121]
コーパスデータ述語項構造生成部121は、述語項構造解析によって、先行文に基づく述語項構造と、1つ以上の後行文に基づく述語項構造とを生成し、コーパスデータ述語項構造記憶部122へ出力する。
[コーパスデータ述語項構造記憶部122]
コーパスデータ述語項構造記憶部122は、先行文に対する1つ以上の後行文の時系列関係のコーパスデータから生成された、先行文に基づく述語項構造と、1つ以上の後行文に基づく述語項構造とを対応付けて記憶する。
図3によれば、コーパスデータ述語項構造記憶部121には、以下のような述語項構造を記憶する。
述語「降る」・目的語[ガ格]「雨」
->述語「持つ(否定)」・目的語[ヲ格]「傘」
->述語「買う」・目的語[ヲ格]「傘」
・・・・・・
->述語「乗る」・目的語[ニ格]「タクシー」
・・・・・・
->述語「晴れる」・目的語[−]「−」
->述語「うれしい」・目的語[−]「−」
・・・・・・
図4は、本発明における先行文述語項構造検出部、後行文述語項構造検出部及び対話データ追加部の処理の説明図である。
[先行文述語項構造検出部123]
先行文述語項構造検出部123は、入力文の述語項構造と同一の先行文の述語項構造を、コーパスデータ述語項構造記憶部122から検出する。
図4によれば、対話データ述語項構造記憶部112とコーパスデータ述語項構造記憶部122とを比較して、同一の述語構造として、以下のように検出される。
->述語「持つ(否定)」・目的語[ヲ格]「傘」
[後行文述語項構造検出部124]
後行文述語項構造検出部124は、検出された当該先行文の述語項構造に対応する1つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する1つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する。
コーパスデータベース12は、一般的な文の集合であるために、対話データベース11にもそのような文で対話するケースも存在する。
図4によれば、同一の述語項構造に接続する述語構造の中で、対話データ述語項構造記憶部112に記憶されていない述語項構造を、コーパスデータ述語項構造記憶部122から検出する。そうすると、以下の述語項構造が検出される。
->述語「乗る」・目的語[ニ格]「タクシー」
ここで、対話データ述語項構造記憶部112に記憶されていない述語項構造を、コーパスデータ述語項構造記憶部122から検出する際に、「情報量規準の評価値」が、所定条件以上となる述語項構造のみを検出するのが好ましい。
情報量規準の要素として、後行文述語項構造検出部124は、以下の数を計数する。
p11:先行文P1から後行文P2へ遷移した数
p12:先行文P1から後行文P2以外の後行文へ遷移した数
p21:先行文P1以外の先行文から後行文P2へ遷移した数
p22:先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
p11+p12+p21+p22=全ての先行文から全ての後行文へ遷移した数
Figure 0006803309
その上で、以下のような2つの実施形態について説明する。コーパスデータベース12から生成された述語項構造であっても、対話データベース11に登録するべく有効なものを選択することができる。
<基本的な情報量規準に基づく後行文P2の検出>
後行文述語項構造検出部124は、以下のように、先行文P1に対する後行文P2の評価値V(P1,P2)を算出する。
先行文P1から後行文P2へ遷移する評価値 :P11=p11/(p11+p12)
先行文P1以外の先行文から後行文P2へ遷移する評価値:P21=p21/(p21+p22)
先行文P1に対する後行文P2の評価値 :V(P1,P2)=P11−P21
そして、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値Vが大きいものから順に所定数となる、後行文P2を検出対象とする。
<赤池情報量規準に基づく後行文P2の検出>
後行文述語項構造検出部124は、以下のように、赤池情報量規準(AIC:Akaike's Information Criterion)を用いて、先行文P1に対する後行文P2の評価値V(P1,P2)を算出する。
MLL_IM(P1,P2)=(p11+p12) log(p11+p12)
+(p11+p21) log(p11+p21)
+(p21+p22) log(p21+p22)
+(p12+p22) log(p12+p22)−2N log N
MLL_DM(P1,P2)=p11 log p11+p12 log p12+p21 log p21+p22 log p22−N log N
但し、N=p11+p12+p21+p22
AIC_IM(P1,P2)=-2 × MLL_IM(P1,P2) + 2×2
AIC_IM(P1,P2):先行文P1と後行文P2との組の従属AIC
AIC_DM(P1,P2)=-2 × MLL_DM(P1,P2) + 2×3
AIC_DM(P1,P2):先行文P1と後行文P2との組の独立AIC
V(P1,P2)=AIC_IM(P1,P2) − AIC_DM(P1,P2)
そして、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値V(P1,P2)が大きいものから順に所定数となる、後行文P2を検出対象とする。
[対話データ追加部125]
対話データ追加部125は、先行文に対して、後行文述語項構造検出部124によって検出された後行文を、対話データベース11に当該入力文に対応する行動文として追加する。このとき、述語項構造から応答文を作成して、対話データベース11に追加することも好ましい。
図4によれば、例えば以下のような対話データが追加される。
述語「乗る」・目的語[ニ格]「タクシー」
->「タクシーに乗れば」
これによって、対話進行部10は、対話データベース11を用いて、例えば以下のような対話を進行させることができる。
「雨が降ってきた」
->「傘、持ってないなら、タクシーに乗れば?」
以上、詳細に説明したように、本発明のプログラム、対話サーバ及び方法によれば、対話データベースの増大化を抑制すると共に、対話データを自動的に追加可能となる。
第1に、対話データを述語項構造として記憶することによって、対話データベースの増大化を抑えることができる。
第2に、それら述語項構造を、一般のコーパスデータから自動的に検出することができれば、対話データベースを構築するコストを低減することができる。
特に、コーパスデータとして、不特定多数の第三者が投稿する投稿文を用いることができれば、対話データベースを時代流行に応じて自動的に更新することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 対話サーバ
10 対話進行部
11 対話データベース
111 対話データ述語項構造生成部
112 対話データ述語項構造記憶部
12 コーパスデータベース
121 コーパスデータ述語項構造生成部
122 コーパスデータ述語項構造記憶部
123 先行文述語項構造検出部
124 後行文述語項構造検出部
125 対話データ追加部
2 端末
3 投稿サイトサーバ
4 投稿者用端末

Claims (8)

  1. 入力文に対する1つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
    入力文に対する1つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造(述語、格、目的語)を対応付けて記憶した対話データ述語項構造記憶手段と、
    先行文に対する1つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶手段と、
    前記入力文の述語項構造と同一の先行文の述語項構造を、前記コーパスデータ述語項構造記憶手段から検出する先行文述語項構造検出手段と、
    検出された当該先行文の述語項構造に対応する1つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する1つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する後行文述語項構造検出手段と
    検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する対話データ追加手段と
    してコンピュータを機能させることを特徴とするプログラム。
  2. 語項構造解析によって、前記入力文及び前記行動文に基づく述語項構造を生成し、前記対話データ述語項構造記憶手段へ出力する対話データ述語項構造生成手段と、
    先行文に対する1つ以上の後行文の時系列関係をコーパスデータとして記憶したコーパスデータベースと、
    述語項構造解析によって、前記先行文及び前記後行文に基づく述語項構造を生成し、前記コーパスデータ述語項構造記憶手段へ出力するコーパスデータ述語項構造生成手段と
    してコンピュータを更に機能させることを特徴とする請求項1に記載のプログラム。
  3. 前記コーパスデータベースは、不特定多数の第三者から投稿された投稿文をコーパスデータとして記憶する
    ようにコンピュータを更に機能させることを特徴とする請求項に記載のプログラム。
  4. 前記後行文述語項構造検出手段は、以下のように、先行文P1に対する後行文P2の評価値V(P1,P2)を算出し、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値Vが大きいものから順に所定数となる、後行文P2を検出対象とする
    p11:先行文P1から後行文P2へ遷移した数
    p12:先行文P1から後行文P2以外の後行文へ遷移した数
    p21:先行文P1以外の先行文から後行文P2へ遷移した数
    p22:先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
    p11+p12+p21+p22=全ての先行文から全ての後行文へ遷移した数
    先行文P1から後行文P2へ遷移する評価値 :P11=p11/(p11+p12)
    先行文P1以外の先行文から後行文P2へ遷移する評価値:P21=p21/(p21+p22)
    先行文P1に対する後行文P2の評価値 :V(P1,P2)=P11−P21
    ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のプログラム。
  5. 前記後行文述語項構造検出手段は、以下のように、赤池情報量規準(AIC:Akaike's Information Criterion)を用いて、先行文P1に対する後行文P2の評価値V(P1,P2)を算出し、当該評価値V(P1,P2)が所定閾値以上となる、又は、当該評価値V(P1,P2)が大きいものから順に所定数となる、後行文P2を検出対象とする
    p11:先行文P1から後行文P2へ遷移した数
    p12:先行文P1から後行文P2以外の後行文へ遷移した数
    p21:先行文P1以外の先行文から後行文P2へ遷移した数
    p22:先行文P1以外の先行文から後行文P2以外の後行文へ遷移した数
    p11+p12+p21+p22=全ての先行文から全ての後行文へ遷移した数
    MLL_IM(P1,P2)=(p11+p12) log(p11+p12)
    +(p11+p21) log(p11+p21)
    +(p21+p22) log(p21+p22)
    +(p12+p22) log(p12+p22)−2N log N
    MLL_DM(P1,P2)=p11 log p11+p12 log p12+p21 log p21+p22 log p22−N log N
    但し、N=p11+p12+p21+p22
    AIC_IM(P1,P2)=-2 × MLL_IM(P1,P2) + 2×2
    AIC_IM(P1,P2):先行文P1と後行文P2との組の従属AIC
    AIC_DM(P1,P2)=-2 × MLL_DM(P1,P2) + 2×3
    AIC_DM(P1,P2):先行文P1と後行文P2との組の独立AIC
    V(P1,P2)=AIC_IM(P1,P2) − AIC_DM(P1,P2)
    ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のプログラム。
  6. 入力文によって状態sへ移行し、当該状態sにおける行動aの行動文を出力した際に得られる報酬期待値r(s,a)を蓄積し、前記報酬期待値r(s,a)を用いて、部分観測マルコフ決定POMDP(Partially-Observed Markov Decision Process)に基づく報酬Vtが最大となる当該行動文を出力する対話進行手段を更に有する
    ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のプログラム。
  7. 入力文に対する1つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
    入力文に対する1つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造(述語、格、目的語)を対応付けて記憶した対話データ述語項構造記憶手段と、
    先行文に対する1つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶手段と、
    前記入力文の述語項構造と同一の先行文の述語項構造を、前記コーパスデータ述語項構造記憶手段から検出する先行文述語項構造検出手段と、
    検出された当該先行文の述語項構造に対応する1つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する1つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する後行文述語項構造検出手段と
    検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する対話データ追加手段と
    を有することを特徴とする対話サーバ。
  8. 装置は、
    入力文に対する1つ以上の行動文の対話関係を対話データとして記憶した対話データベースと、
    入力文に対する1つ以上の行動文の対話関係の対話データから生成された、入力文及び行動文の述語項構造(述語、格、目的語)を対応付けて記憶した対話データ述語項構造記憶部と、
    先行文に対する1つ以上の後行文の時系列関係のコーパスデータから生成された、先行文及び後行文の述語項構造を対応付けて記憶したコーパスデータ述語項構造記憶部と、
    を有し、
    前記装置は、
    前記入力文の述語項構造と同一の先行文の述語項構造を、前記コーパスデータ述語項構造記憶手段から検出する第1のステップと、
    検出された当該先行文の述語項構造に対応する1つ以上の後行文の述語項構造の中で、当該入力文の述語項構造に対応する1つ以上の行動文の述語項構造以外となる後行文の述語項構造を検出する第2のステップと
    検出された前記後行文の述語項構造に基づいて作成した文を、前記対話データベースに、当該入力文に対応する行動文として追加する第3のステップと
    を実行することを特徴とする装置の追加対話データ検出方法。
JP2017157643A 2017-08-17 2017-08-17 対話データを自動的に追加可能なプログラム、対話サーバ及び方法 Active JP6803309B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017157643A JP6803309B2 (ja) 2017-08-17 2017-08-17 対話データを自動的に追加可能なプログラム、対話サーバ及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017157643A JP6803309B2 (ja) 2017-08-17 2017-08-17 対話データを自動的に追加可能なプログラム、対話サーバ及び方法

Publications (2)

Publication Number Publication Date
JP2019036172A JP2019036172A (ja) 2019-03-07
JP6803309B2 true JP6803309B2 (ja) 2020-12-23

Family

ID=65637668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017157643A Active JP6803309B2 (ja) 2017-08-17 2017-08-17 対話データを自動的に追加可能なプログラム、対話サーバ及び方法

Country Status (1)

Country Link
JP (1) JP6803309B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025602A (ja) * 2003-07-04 2005-01-27 Matsushita Electric Ind Co Ltd 文章・言語生成装置およびその選択方法
JP2008299754A (ja) * 2007-06-01 2008-12-11 C2Cube Inc 対話コーパス生成装置、対話コーパスの生産方法、バーチャルチャット装置、およびプログラム
JP6235360B2 (ja) * 2014-02-05 2017-11-22 株式会社東芝 発話文収集装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2019036172A (ja) 2019-03-07

Similar Documents

Publication Publication Date Title
Vosoughi et al. Tweet acts: A speech act classifier for twitter
Alhumoud et al. Survey on arabic sentiment analysis in twitter
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
JP2021182430A (ja) 意味解析モデルのトレーニング方法及び装置、電子機器並びに記憶媒体
US9710829B1 (en) Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
US9645988B1 (en) System and method for identifying passages in electronic documents
Khan et al. Sentiment classification using sentence-level lexical based
JP6526470B2 (ja) テキスト分析及び応答システムのための語彙意味パターンの事前構築方法
US11270082B2 (en) Hybrid natural language understanding
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN113657100A (zh) 实体识别方法、装置、电子设备及存储介质
Bajaj et al. MUCE: a multilingual use case model extractor using GPT-3
Horsuwan et al. A comparative study of pretrained language models on thai social text categorization
Morales-Ramirez et al. Discovering Speech Acts in Online Discussions: A Tool-supported method.
JP6803309B2 (ja) 対話データを自動的に追加可能なプログラム、対話サーバ及び方法
Mercan et al. Abstractive text summarization for resumes with cutting edge NLP transformers and LSTM
Jayan et al. Parts Of Speech Tagger and Chunker for Malayalam–Statistical Approach
Ye et al. A natural language-based flight searching system
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Maalaoui et al. Deriving Service-Oriented Dynamic Product Lines Knowledge from Informal User-Requirements: AI Based Approach
Ma et al. ASR hypothesis reranking using prior-informed restricted boltzmann machine
Kumar et al. Identification and Prioritization of urban issues from Smart City data
Nikolova et al. Application of traditional and deep learning algorithms in sentiment analysis of global warming tweets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201130

R150 Certificate of patent or registration of utility model

Ref document number: 6803309

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150