JP2017027233A - 質問文生成装置、方法、及びプログラム - Google Patents

質問文生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP2017027233A
JP2017027233A JP2015143325A JP2015143325A JP2017027233A JP 2017027233 A JP2017027233 A JP 2017027233A JP 2015143325 A JP2015143325 A JP 2015143325A JP 2015143325 A JP2015143325 A JP 2015143325A JP 2017027233 A JP2017027233 A JP 2017027233A
Authority
JP
Japan
Prior art keywords
question sentence
word
question
blank
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015143325A
Other languages
English (en)
Inventor
竜一郎 東中
Ryuichiro Higashinaka
竜一郎 東中
俊朗 牧野
Toshiaki Makino
俊朗 牧野
義博 松尾
Yoshihiro Matsuo
義博 松尾
太一 浅見
Taichi Asami
太一 浅見
亮 増村
Akira Masumura
亮 増村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015143325A priority Critical patent/JP2017027233A/ja
Publication of JP2017027233A publication Critical patent/JP2017027233A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】低コストで、適切な質問文を生成することができるようにする。
【解決手段】質問文候補生成部29が、質問文から作成された、質問文に含まれる単語を空欄とし、空欄に単語の品詞及び意味属性を付与したテンプレートに対し、少なくとも1つのラベルを入力として、空欄に付与された品詞及び意味属性と対応する、入力されたラベルに特徴的な単語によって空欄を置き換えることにより、質問文候補を生成する。質問文評価部30は、質問文候補の各々について、入力されたラベルに対応する言語モデルを用いて、尤もらしさを表すスコアを計算し、尤もらしさが高い質問文候補を、質問文として出力する。
【選択図】図1

Description

本発明は、質問文生成装置、方法、及びプログラムに係り、特に、質問文を生成する質問文生成装置、方法、及びプログラムに関する。
対話システムは大きく分けて二種類あり、タスク指向型対話システムと非タスク指向型対話システム(雑談対話システム)に分けられる。近年は、そのエンターテイメント性やロボットとの日常会話が注目されていることもあり、雑談対話システムの研究が盛んに行われている。
雑談において会話を進めるために質問をすることは有効である。たとえば、音楽の話題であれば、「何を聞くんですか」やペットの話題であれば「何か飼ってますか」などの質問をすることによって、会話を円滑に進めることができる。しかし、雑談のような様々な話題が話される場面において、システムが適切な質問文を作ることは容易ではない。
雑談対話システムの質問文はテンプレートや作り込みのルールによって作られることが多い。たとえば、非特許文献1では、手作業で作られた質問を含むルールセットが使用されている。近年では、非特許文献2のように、ツイッターから発話を検索するだけでなく、大規模テキストから述語項構造(述語とその項からなる構造)のデータベースを作成しておき、対話における現在の話題について、関連する述語項構造を検索し、検索された述語項構造から発話文を生成する手法も研究されている。「行く二各:レストラン」という述語項構造を質問に変換し、「レストランに行きますか?」という質問文が生成できる。
Richard S. Wallace, "The Anatomy of A.L.I.C.E.," A.L.I.C.E. Artificial Intelligence Foundation, Inc, 2004. Ryuichiro Higashinaka, Kenji Imamura, Toyomi Meguro, Chiaki Miyazaki, Nozomi Kobayashi, Hiroaki Sugiyama, Toru Hirano, Toshiro Makino, Yoshihiro Matsuo, Towards an open domain conversational system fully based on natural language processing, In Proc. COLING, pp.928-939, 2014.
しかしながら、雑談におけるさまざまな話題について、手作業で質問を作ることはコストが高い。また、述語項構造から質問を生成する場合、述語項構造のデータベースが必要となる。多くの話題をカバーする述語項構造のデータベースを構築することはコストが高い。
本発明は、上記の事情を鑑みてなされたもので、低コストで、適切な質問文を生成することができる質問文生成装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る質問文生成装置は、質問の内容を表す複数のラベルの各々に対し、前記ラベルに対応する質問文から抽出された、前記ラベルに特徴的な単語を、前記単語の品詞及び意味属性と対応付けて記憶した特徴単語記憶部と、質問文から作成された、前記質問文に含まれる単語を空欄とし、前記空欄に前記単語の品詞及び意味属性を付与したテンプレートに対し、少なくとも1つの前記ラベルを入力として、前記空欄に付与された品詞及び意味属性と対応する、前記入力されたラベルに特徴的な単語によって前記空欄を置き換えることにより、質問文候補を生成する質問文候補生成部と、を含んで構成されている。
本発明に係る質問文生成方法は、質問の内容を表す複数のラベルの各々に対し、前記ラベルに対応する質問文から抽出された、前記ラベルに特徴的な単語を、前記単語の品詞及び意味属性と対応付けて記憶した特徴単語記憶部と、質問文候補生成部とを含む質問文生成装置における質問文生成方法であって、前記質問文候補生成部が、質問文から作成された、前記質問文に含まれる単語を空欄とし、前記空欄に前記単語の品詞及び意味属性を付与したテンプレートに対し、少なくとも1つの前記ラベルを入力として、前記空欄に付与された品詞及び意味属性と対応する、前記入力されたラベルに特徴的な単語によって前記空欄を置き換えることにより、質問文候補を生成する。
本発明に係るプログラムは、コンピュータを、上記の質問文生成装置の各部として機能させるためのプログラムである。
以上説明したように、本発明の質問文生成装置、方法、及びプログラムによれば、質問文から作成されたテンプレートに対し、少なくとも1つのラベルを入力として、空欄に付与された品詞及び意味属性と対応する、入力されたラベルに特徴的な単語によって空欄を置き換えることにより、低コストで、適切な質問文を生成することができる、という効果が得られる。
本発明の実施の形態に係る質問文生成装置の構成を示す概略図である。 質問タイプの一例を示す図である。 対話行為の一例を示す図である。 形態素解析結果の一例を示す図である。 テンプレートの一例を示す図である。 クロス表の一例を示す図である。 質問タイプ「数量:時刻」のラベルに対する特徴的な単語の一例を示す図である。 拡張固有表現タイプ「Sports_Organization_Other」のラベルに対する特徴的な単語の一例を示す図である。 質問タイプ「質問_経験」のラベルが付与された質問文の一例を示す図である。 分かち書きした質問文の一例を示す図である。 言語モデルの一例を示す図である。 質問文候補の一例を示す図である。 scoreが上位10件の質問文候補の一例を示す図である。 scoreが下位10件の質問文候補の一例を示す図である。 本発明の実施の形態に係る質問文生成装置におけるテンプレート作成処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る質問文生成装置における特徴単語抽出処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る質問文生成装置における言語モデル構築処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る質問文生成装置における質問文生成処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
質問の内容を表す、複数のラベルからなる抽象表現を入力とし、これらのラベルを表す質問文を自動生成する。具体的には、各ラベルとそのラベルに対応した質問文のデータから、各ラベルに特徴的な単語を品詞、意味属性とともに抽出する。そして、質問文集合中の質問文の単語を品詞、意味属性によって空欄化したテンプレートを作成し、テンプレートの空欄部分を入力ラベルに対応付いた単語によって置き換えることで質問文候補集合を生成する。最後に、各ラベルに対応した質問文の集合から構築された言語モデルによって質問文候補のスコアリングを行い、尤度の高いものを質問文として出力する。
<システム構成>
図1に示すように、本発明の実施の形態に係る質問文生成装置100は、質問の内容を表す、少なくとも1つのラベルからなるラベル集合が入力され、質問文を生成する。この質問文生成装置100は、CPUと、RAMと、後述するテンプレート作成処理ルーチン、特徴単語抽出処理ルーチン、言語モデル構築処理ルーチン、及び質問文生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、質問文生成装置100は、入力部10と、演算部20と、出力部90とを備えている。
入力部10は、質問を生成するもととなる抽象表現として、一つ以上のラベルからなるラベル集合を受け付ける。本実施の形態では、ラベル集合として、質問タイプ、対話行為、カテゴリ、拡張固有表現タイプの4つのラベルを受け付けるとする。
質問タイプは質問の大まかな分類を表すラベルである。たとえば、真偽を聞いている質問(すなわちYes/No 質問)であるかや、人の名前を聞いているのか、理由を聞いているのかなどを表す。質問タイプのラベルは全部で図2に示す24種類ある。
これらのラベルは以下の非特許文献3の分類に「その他:選択」を加えたものである。
[非特許文献3]:永田昌明,齋藤邦子,松尾義博,日本語自然文検索システムWeb Answers, 言語処理学会第12 回全国大会, 2006.
対話行為とは、質問の発話意図を表すラベルである。本実施の形態では、図3に示す10種類を用いる。
これらのラベルの詳細は以下の非特許文献4に記述されている。
[非特許文献4]:目黒豊美, 東中竜一郎, 堂坂浩二, 南泰浩:聞き役対話の分析及び分析に基づいた対話制御部の構築,情報処理学会論文誌, Vol.52, No.12, pp.2787-2801 (2012).
たとえば、「質問_評価」は好き嫌いを尋ねる発話意図を表す。また、「質問経験」は経験を尋ねる発話意図を表す。
カテゴリは、質問文が関係するおおまかなジャンルを表すラベルである。カテゴリは122種類ある。カテゴリ数は多いので、ここではすべてを列挙しないが、たとえば、「アニメ・キャラクター」、「人生観・生き方・ポリシー」、「防災・災害」、「メンタルヘルス」、「宗教/信仰/寺・神社」、「デンタルケア」、「友達・仲間関係」などがある。
拡張固有表現タイプは、質問文がどのような固有表現(固有名詞や数量表現)を回答として求めているかを表すラベルである。固有表現として一般的なIREX の固有表現の体系を用いてもよいが、本実施の形態ではより細かな固有表現の分類である、関根らによる拡張固有表現の体系を用いる。拡張固有表現は全部で200種類あり、以下の非特許文献5に詳述されている。
[非特許文献5]:S. Sekine,K. Sudo, and C. Nobata: \Extended named entity hierarchy,", In Proc. LREC,2002.
入力部10は、たとえば、名称:固有物名、質問_評価、音楽、Musicの四つ組みのラベルからなるラベル集合を受け取る。これらのラベルの意味は、固有物の名称を聞いており、好き嫌いを聞いており、音楽についてであり、具体的な音楽名を聞いているという意味である。このような抽象表現から、「どんな曲が好きですか」といった質問文を自動的に生成することが本発明の目的である。
演算部20は、質問文データベース21、テンプレート作成部22、テンプレート記憶部23、ラベル付き質問文データベース24、特徴単語抽出部25、特徴単語記憶部26、言語モデル構築部27、言語モデル記憶部28、質問文候補生成部29、及び質問文評価部30を備えている。
質問文データベース21は、予め用意された質問文の集合を記憶している。
テンプレート作成部22は、質問文データベース21に記憶されている質問文の集合に基づいて、質問文を生成するためのテンプレートを作成し、テンプレート記憶部23に格納する。
具体的には、まず、質問文データベース21から質問文を一つずつ取り出し形態素解析を行う。たとえば、「世界で一番高い山は?」という質問文であれば、図4に示すような形態素解析結果が得られる。
上記図4の各行は単語の情報に対応しており、最初のカラムが単語表記である。以降、品詞、標準表記、基本形、読み、意味属性と続く。EOSは文末を表す。意味属性は3つのフィールドからなっており、名詞に関する意味属性、固有名詞に関する意味属性、用言に関する意味属性である。「世界」は名詞に関する意味属性として462と384を持つことが分かる。意味属性およびその階層構造については以下の非特許文献6に詳述されている。
[非特許文献6]:池原悟, 宮崎正弘, 白井諭, 横尾昭男, 中岩浩巳, 小倉健太郎, 大山芳史, 林良彦(1997) 日本語語彙大系. 岩波書店.
テンプレートを作成するには、まずテンプレートリストを空集合で初期化し、各質問文の形態素解析結果のそれぞれについて以下の(1)〜(3)の処理を行う。
(1)リストを初期化する。削除フラグを0にする。空欄の数を0にする。
(2)形態素解析結果の各行について以下の(a)〜(c)の処理をループする。
(a) 当該単語の品詞が連体詞、連用詞、名詞、動詞語幹、及び形容詞語幹のいずれかであり、接尾辞でなく、単語表記が「こと」でなく、基本形が「する」、「ある」、「いる」でない場合、当該単語に紐付いた意味属性があれば、その先頭の意味属性と品詞とをセットにしてリストに追加する。意味属性の一般性を高めるために、日本語語彙大系に示された意味属性の階層構造を用いて、階層的に上位ノードの意味属性を用いることが好ましい。本実施の形態では、最上位ノードから数えて6階層よりも下に位置する意味属性については、上位ノードをたどり、最上位ノードから数えて6階層目にあたる意味属性を用いる。当該単語に紐付いた意味属性がない場合は、品詞をリストに追加する。このとき、空欄の数を1増やす。
(b) 当該単語の品詞がそれ以外の品詞の場合は、当該単語の単語表記をリストに追加する。
(c) 当該単語の品詞が固有名詞、もしくは、数値、未知語であれば、削除フラグを1にする。
(3)削除フラグが0、かつ、空欄の数が2以上の場合、テンプレートリストに、リストの内容を文字列化したものを追加する。ここでは、「|」でリストの要素を連結する。空欄の数を2以上としたのはテンプレートに幅を持たせるためであり、1以上としてもよい。
最後にテンプレートリストに含まれているテンプレートを集計し、頻度が大きい上位N件のテンプレートを最終的なテンプレートリストとして出力する。たとえば、Nは500である。
図5は、実際に質問文の集合から作成したテンプレートの頻度上位10件である。
最初のカラムは頻度による順位であり、二つ目のカラムが頻度である。最後のカラムがテンプレートである。テンプレートの空欄の部分は[]で囲まれている。そして、空欄には品詞もしくは品詞と意味属性の組み合わせが付与されている。これは、これらの品詞もしくは品詞と意味属性の組み合わせに該当する単語によってこの空欄が埋められることを示している。
N838は意味属性の838を表す。Nは接頭辞である。838は食料を表す意味属性であり、1253は感情を表す意味属性である。このテンプレートのもととなった質問文は、たとえば「ラーメンは好きですか?」である。
ラベル付き質問文データベース24は、上記のラベルが付与された質問文の集合が記憶されている。各質問文には、上記で説明したラベルが一つ以上付与されていればよい。本実施の形態では、各質問文には4種類のラベルのいずれか一つだけが付与されているとする。
特徴単語抽出部25は、各ラベルに対し、ラベル付き質問文データベース24に記憶されている、当該ラベルが付与された質問文の集合から、当該ラベルに特徴的な単語を抽出して、特徴単語記憶部26に格納する。
特徴単語の抽出には共起に基づく手法を用いる。具体的には、対数尤度比検定を用いる。まず準備として、質問文をすべて形態素解析し、形態素解析結果の各行に対して、以下の(1)〜(2)の手続きを行う事で、質問文に含まれる単語リストを作成する。
(1)単語リストを空集合で初期化する。
(2)形態素解析結果の各行について以下の(a)〜(b)の処理をループする。
(a) 当該単語の品詞が連体詞、連用詞、名詞、動詞語幹、及び形容詞語幹のいずれかであり、接尾辞でなく、単語表記が「こと」でなく、基本形が「する」、「ある」、「いる」でない場合、当該単語に紐付いた意味属性があれば、その先頭の意味属性と品詞と単語表記をセットにして単語リストに追加する。意味属性の一般性を高めるために、意味属性については、日本語語彙大系の階層構造に基づき上位ノードをたどり、最上位ノードから数えて6階層目にあたる意味属性を用いる。
(b) 当該単語に紐付いた意味属性がない場合は、品詞と単語表記をセットにして単語リストに追加する。
上記の処理により、<質問文,ラベル,単語リスト>のタプルのデータ集合が作成されるが、ここから、ラベルと単語の組み合わせの各々について、図6に示すクロス表を作成し、当該組み合わせのラベルLと単語Wの共起度合いを計算する。
ここで、Mはすべての質問文の数である。c12は単語Wを含み、かつ、ラベルがLである質問文の数である。c1はラベルがLである質問文の数である。c2は単語Wを含む質問文の数である。
ここから、c12がどれほど偏った値かを対数尤度比を用いて計算する。対数尤度比は以下の式により算出する。
ここで、Oiは上記テーブル中の各セルの値で、すなわち{c12, c1-c12, c2-c12, N-c2-c1+c12}のことである。EiはOiの期待値である。たとえば、c12の期待値はc1*(c2/N) のように求めればよい。このようにして求めた対数尤度比を関連度として用いる。対数尤度比以外にも共起を表す尺度であれば何でもよく、カイ二乗値やTスコア、相互情報量などを用いてもよい。
こうすることで、各ラベルについて、共起する単語を列挙することができる。本実施の形態では、各ラベルについて対数尤度比の上位5単語を特に共起が高い特徴的な単語として抽出する。ここではノイズを減らすために特に共起が高そうな上位5単語としているが、より多くの単語を獲得してもよい。
たとえば、質問タイプの「数量:時刻」のラベルに共起する単語は、図7に示す通りである。
上記図7において二つ目のカラムが品詞と意味属性であり、三つ目のカラムが単語表記であり、四つ目のカラムが対数尤度比である。拡張固有表現タイプの「Sports_Organization_Other」のラベルの場合は、図8に示す通りであった。
このようにして得られた各ラベルに対する特徴的な単語リストの情報は、特徴単語記憶部26に格納される。
言語モデル構築部27は、各ラベルに対し、ラベル付き質問文データベース24に記憶されている、当該ラベルが付与された質問文の集合から、当該ラベルに対応した言語モデルを構築し、言語モデル記憶部28に格納する。具体的には、各ラベルに対し、当該ラベルに対応した質問文の集合を入力として、単語のN-gram 言語モデルを構築する。
言語モデルの構築には既存の言語モデル構築ツールを用いる。本実施の形態では、SRILM(The SRI Language Modeling Toolkit)を用いる。SRILM は分かち書きされたテキストデータからN-gram言語モデルを構築できる。そこで、各ラベルに対し、当該ラベルに対応付いた質問文をまずJTAG によって形態素解析し、単語表記の部分のみを取得し、空白区切りで連結することによって、分かち書きされた当該ラベルの質問文集合を作成する。そして、当該ラベルの質問文集合をSRILM の入力にすることにより当該ラベルの言語モデルを構築する。今回、5-gram の言語モデルを構築することとし,スムージングにはKneser-Ney スムージングを用いた。
図9は、「質問_経験」のラベルが付与された質問文の例である。
これらを分かち書きすると図10のようになる。
このような分かち書きファイルからSLILM を用いて言語モデルを構築すると、図11のような内容を持つファイルが作成される。これは言語モデルで一般的なARPA 形式である。
</s>とはSLILM によって付与される文末を表す記号である。最初のカラムが二つ目のカラムで示される単語列が生起する確率(対数)である。
すべてのラベルについて、上記の言語モデルを作成する。
質問文候補生成部29は、入力部10が受け付けたラベル集合について、以下の(1)〜(3)の手続きにより質問文候補リストを生成する。
(1)質問文候補リストを空集合で初期化する。
(2)ラベル集合の各ラベルに対応する特徴単語を、特徴単語記憶部26から読み込む。
(3)テンプレート記憶部23からランダムにテンプレートを一つ取り出し、以下の(a)〜(c)の処理を行う。この処理は所定の回数(例えば,100 回)繰り返される。
(a) 空欄の部分のそれぞれについて、入りうる単語を列挙する。具体的には、空欄の部分に付与された品詞と意味属性情報と特徴単語の品詞と意味属性情報が同一であれば、その特徴単語が空欄の部分に入りうる単語として列挙される。
(b) 一つ以上の特徴単語が列挙されたら、ランダムに一つの特徴単語を選びその単語を空欄に入れる。これをすべての空欄について繰り返す。
(c) すべての空欄が特徴単語によって埋められたら、その空欄が埋められたテンプレートを質問文候補として候補文リストに追加する。空欄に入る単語が列挙できない場合は、候補文リストには何も追加しない。
たとえば、「名称:固有物名」「質問_評価」「音楽」「Music」が入力されるラベル集合とすると、図12に示す質問文候補が生成される。
質問文評価部30は、質問文候補生成部29が生成した質問文候補リストのそれぞれについて、言語モデル記憶部28に記憶されているラベル集合の各ラベルに対する言語モデルに基づいて評価を行う。具体的には、入力部10が受け付けたラベル集合のそれぞれに対応した言語モデルを用いて、質問文候補のそれぞれのN-gram 確率を計算することで評価する。具体的には以下の式で評価する。
ただし、cand は質問文候補である。score は質問文候補のスコアを返す関数である。labels は入力されたラベル集合であり、model はラベルに対して対応する言語モデルを返す関数である。len は質問文候補に含まれる単語の数を返す関数である。logprob は質問文に対して、言語モデルを適用した時の対数尤度を求める関数である。最初の引数が質問文、第二引数が言語モデルである。言語モデルを質問候補文に適用して対数尤度を求めるには、質問候補文を単語に分かち書きし、対数尤度を求めるには、SRILM ツールキットのngram コマンドを用いればよい。
ラベル集合「名称:固有物名」「質問_評価」「音楽」「Music」で得られた質問文候補について、尤もらしさを表すscore を求め、スコアの大きなものから(尤度の高い物から)並び替えた上位10件は、図13に示す通りである。
ラベル集合に対して適切な質問文候補が生成されていることが分かる。なお、下位10 件は図14に示す通りである。名称を聞いていないものなどが含まれており、不適切なものが多く含まれている。このことから、適切に質問文候補が評価されていることが分かる。
質問文候補集合とこれらのscoreの値が出力部90に送られる。
質問文候補はscoreの値の降順によってソートされ、上位のものについて必要に応じた数の質問文が出力部90により出力される。たとえば、最上位の質問を出力したり、上位N 件を出力したり、上位N件からランダムに出力する。対話システムにおいて、ユーザ発話に対する次の質問が取得できればよい場合は、最上位のものを用いればよい。対話システムの出力にバリエーションを持たせたい場合は、上位N件から一つをランダムに選んで用いればよい。
<質問文生成装置の作用>
次に、本実施の形態に係る質問文生成装置100の作用について説明する。まず、質問文生成装置100によって、図15に示すテンプレート作成処理ルーチンが実行される。
まず、ステップS100において、質問文データベース21から、質問文を取り出し、ステップS102において、上記ステップS100で取り出した質問文に対して、形態素解析を行う。
次のステップS104では、上記ステップS102で得られた形態素解析結果に基づいて、テンプレートを作成し、テンプレートリストに格納する。
ステップS106では、質問文データベース21に記憶されている全ての質問文について、上記ステップS100〜S104の処理を実行したか否かを判定し、上記ステップS100〜S104の処理を実行していない質問文が存在する場合には、上記ステップS100へ戻り、当該質問文を取り出す。一方、質問文データベース21に記憶されている全ての質問文について、上記ステップS100〜S104の処理を実行した場合には、ステップS108へ移行し、テンプレートリストに含まれているテンプレートを集計する。
ステップS110では、上記ステップS108の集計結果に基づいて、頻度の高い上位N件のテンプレートを、テンプレート記憶部23に格納し、テンプレート作成処理ルーチンを終了する。
また、質問文生成装置100によって、図16に示す特徴単語抽出処理ルーチンが実行される。
ステップS120において、ラベル付き質問文データベース24に記憶されている全ての質問文に対して、形態素解析を行う。ステップS122では、上記ステップS120の形態素解析結果に基づいて、<質問文,ラベル,単語リスト>のタプルのデータ集合を作成する。
そして、ステップS124において、上記ステップS122で作成されたタプルのデータ集合に基づいて、ラベルと単語の組み合わせの各々について、上記図6に示したクロス表を作成する。次のステップS126では、ラベルと単語の組み合わせの各々について、上記ステップS124で作成されたクロス表に基づいて、対数尤度比を計算する。
そして、ステップS128において、各ラベルに対し、上記ステップS126で計算された対数尤度比に基づいて、当該ラベルに対する特徴的な単語を抽出し、特徴単語記憶部26に格納し、特徴単語抽出処理ルーチンを終了する。
また、質問文生成装置100によって、図17に示す言語モデル構築処理ルーチンが実行される。
ステップS130において、ラベル付き質問文データベース24に記憶されている全ての質問文に対して、形態素解析を行う。
そして、ステップS132では、上記ステップS120の形態素解析結果に基づいて、各ラベルに対し、上記ステップS130で得られた当該ラベルが付与された各質問文の形態素解析結果に基づいて、当該ラベルに対する言語モデルを構築し、言語モデル記憶部28に格納し、言語モデル構築処理ルーチンを終了する。
また、入力部10により、ラベル集合を受け付けると、質問文生成装置100によって、図18に示す質問文生成処理ルーチンが実行される。
まず、ステップS140において、入力されたラベル集合の各ラベルに対する特徴単語を、特徴単語記憶部26から読み込む。
そして、ステップS142において、テンプレート記憶部23に記憶されているテンプレートからランダムに1つ取り出す。ステップS144では、上記ステップS140で読み込んだ特徴単語から、上記ステップS142で取り出したテンプレートの空欄部分の各々について、入りうる特徴単語を列挙する。
そして、ステップS146において、テンプレートの空欄部分の各々について、上記ステップS144で列挙した特徴単語からランダムに単語を選び、空欄部分に入れて、質問文候補を作成する。
次のステップS148では、予め定めた繰り返し回数まで、上記ステップS142〜S146の処理を繰り返したか否かを判定する。予め定めた繰り返し回数に到達していない場合には、上記ステップS142へ戻る。一方、予め定めた繰り返し回数に到達した場合には、ステップS150へ移行する。
ステップS150では、上記ステップS146で作成された質問候補文の各々について、言語モデル記憶部28に記憶されている、入力されたラベル集合の各ラベルに対する言語モデルに基づいて、当該質問文候補の尤もらしさを表すscoreを計算する。
そして、ステップS152において、上記ステップS150で計算したscoreに基づいて、上記ステップS146で作成された質問候補文から、上位の質問文を選択して、出力部90により出力して、質問文生成処理ルーチンを終了する。
以上説明したように、本実施の形態に係る質問文生成装置によれば、質問文から作成されたテンプレートに対し、少なくとも1つのラベルを入力として、空欄に付与された品詞及び意味属性と対応する、入力されたラベルに特徴的な単語によって空欄を置き換えることにより、低コストで、適切な質問文を生成することができる。
また、低コストで質問文が生成でき、対話システムが雑談において様々な質問が実現できるようになる。会話が進み、システムとユーザとの対話が円滑になり、人間とコンピュータとの共同的作業が促進される。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、質問評価部30で評価せずに、質問文候補生成部29で生成した全ての質問候補文を出力してもよい。
また、テンプレート作成部22によるテンプレート作成、特徴単語抽出部25による特徴単語の抽出、言語モデル構築部27による言語モデルの構築を、質問文生成装置100とは別の装置で行っても良い。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
21 質問文データベース
22 テンプレート作成部
23 テンプレート記憶部
24 質問文データベース
25 特徴単語抽出部
26 特徴単語記憶部
27 言語モデル構築部
28 言語モデル記憶部
29 質問文候補生成部
30 質問文評価部
90 出力部
100 質問文生成装置

Claims (7)

  1. 質問の内容を表す複数のラベルの各々に対し、前記ラベルに対応する質問文から抽出された、前記ラベルに特徴的な単語を、前記単語の品詞及び意味属性と対応付けて記憶した特徴単語記憶部と、
    質問文から作成された、前記質問文に含まれる単語を空欄とし、前記空欄に前記単語の品詞及び意味属性を付与したテンプレートに対し、少なくとも1つの前記ラベルを入力として、前記空欄に付与された品詞及び意味属性と対応する、前記入力されたラベルに特徴的な単語によって前記空欄を置き換えることにより、質問文候補を生成する質問文候補生成部と、
    を含む質問文生成装置。
  2. 質問文評価部を更に含み、
    前記質問文候補生成部は、前記質問文候補を複数生成し、
    前記質問文評価部は、前記質問文候補生成部によって生成された複数の質問文候補の各々について、前記入力されたラベルに対応する質問文の集合から予め構築された言語モデルを用いて、尤もらしさを表すスコアを計算し、尤もらしさが高い質問文候補を、質問文として出力する請求項1記載の質問文生成装置。
  3. 前記テンプレートを、前記質問文に含まれる単語を空欄とし、前記空欄に、前記単語の品詞、及び前記単語の意味属性であって、かつ、意味属性の階層構造における上位ノードの意味属性を付与したテンプレートとした請求項1又は2記載の質問文生成装置。
  4. 質問の内容を表す複数のラベルの各々に対し、前記ラベルに対応する質問文から抽出された、前記ラベルに特徴的な単語を、前記単語の品詞及び意味属性と対応付けて記憶した特徴単語記憶部と、質問文候補生成部とを含む質問文生成装置における質問文生成方法であって、
    前記質問文候補生成部が、質問文から作成された、前記質問文に含まれる単語を空欄とし、前記空欄に前記単語の品詞及び意味属性を付与したテンプレートに対し、少なくとも1つの前記ラベルを入力として、前記空欄に付与された品詞及び意味属性と対応する、前記入力されたラベルに特徴的な単語によって前記空欄を置き換えることにより、質問文候補を生成する
    質問文生成方法。
  5. 前記質問文候補生成部が前記質問文候補を生成することでは、前記質問文候補を複数生成し、
    質問文評価部が、前記質問文候補生成部によって生成された複数の質問文候補の各々について、前記入力されたラベルに対応する質問文の集合から予め構築された言語モデルを用いて、尤もらしさを表すスコアを計算し、尤もらしさが高い質問文候補を、質問文として出力することを更に含む請求項4記載の質問文生成方法。
  6. 前記テンプレートを、前記質問文に含まれる単語を空欄とし、前記空欄に、前記単語の品詞、及び前記単語の意味属性であって、かつ、意味属性の階層構造における上位ノードの意味属性を付与したテンプレートとした請求項4又は5記載の質問文生成方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の質問文生成装置を構成する各部として機能させるためのプログラム。
JP2015143325A 2015-07-17 2015-07-17 質問文生成装置、方法、及びプログラム Pending JP2017027233A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015143325A JP2017027233A (ja) 2015-07-17 2015-07-17 質問文生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015143325A JP2017027233A (ja) 2015-07-17 2015-07-17 質問文生成装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2017027233A true JP2017027233A (ja) 2017-02-02

Family

ID=57949989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015143325A Pending JP2017027233A (ja) 2015-07-17 2015-07-17 質問文生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2017027233A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019016140A (ja) * 2017-07-06 2019-01-31 株式会社朝日新聞社 校正支援装置、校正支援方法及び校正支援プログラム
JP2021095133A (ja) * 2017-02-16 2021-06-24 株式会社デンソー 自動運転制御装置
JPWO2021130964A1 (ja) * 2019-12-26 2021-07-01
US11526674B2 (en) 2019-03-01 2022-12-13 Rakuten Group, Inc. Sentence extraction system, sentence extraction method, and information storage medium
JP7467057B2 (ja) 2019-09-26 2024-04-15 キヤノンメディカルシステムズ株式会社 診療支援装置及び診療支援プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021095133A (ja) * 2017-02-16 2021-06-24 株式会社デンソー 自動運転制御装置
JP2019016140A (ja) * 2017-07-06 2019-01-31 株式会社朝日新聞社 校正支援装置、校正支援方法及び校正支援プログラム
US11526674B2 (en) 2019-03-01 2022-12-13 Rakuten Group, Inc. Sentence extraction system, sentence extraction method, and information storage medium
JP7467057B2 (ja) 2019-09-26 2024-04-15 キヤノンメディカルシステムズ株式会社 診療支援装置及び診療支援プログラム
JPWO2021130964A1 (ja) * 2019-12-26 2021-07-01
WO2021130964A1 (ja) * 2019-12-26 2021-07-01 日本電気株式会社 情報提供方法
JP7131720B2 (ja) 2019-12-26 2022-09-06 日本電気株式会社 情報提供方法

Similar Documents

Publication Publication Date Title
Nandwani et al. A review on sentiment analysis and emotion detection from text
Malandrakis et al. Distributional semantic models for affective text analysis
Millstein Natural language processing with python: natural language processing using NLTK
US20200183983A1 (en) Dialogue System and Computer Program Therefor
JP6676110B2 (ja) 発話文生成装置とその方法とプログラム
US12001465B2 (en) Response selecting apparatus, response selecting method, and response selecting program
JP2017027233A (ja) 質問文生成装置、方法、及びプログラム
Tran et al. A hybrid approach for building a Vietnamese sentiment dictionary
Lauridsen et al. SENTIDA: A new tool for sentiment analysis in Danish
Dehghani et al. Handbook of language analysis in psychology
JP2017027234A (ja) フレーム作成装置、方法、及びプログラム
Koltsova et al. PolSentiLex: sentiment detection in socio-political discussions on Russian social media
Malandrakis et al. Sail: Sentiment analysis using semantic similarity and contrast features
JP6232358B2 (ja) 次発話候補ランキング装置、方法、及びプログラム
JP6735711B2 (ja) 学習装置、映像検索装置、方法、及びプログラム
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
Song et al. A new context-aware method based on hybrid ranking for community-oriented lexical simplification
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
JP6574469B2 (ja) 次発話候補ランキング装置、方法、及びプログラム
Tretyakov et al. Sentiment analysis of social networks messages
Mohammad et al. Sentiment analysis of social media texts
JP5744150B2 (ja) 発話生成装置、方法、及びプログラム
Patil et al. Developing a hybrid model with shades of sentiment for understanding teenagers’ academic distraction problems
Gajendrasinh et al. Sentiment analysis for Feature extraction using dependency tree and named entities
Salini et al. Sarcasm Detection: A Systematic Review of Methods and Approaches