JP2014134871A - 質問応答用検索キーワード生成方法、装置、及びプログラム - Google Patents

質問応答用検索キーワード生成方法、装置、及びプログラム Download PDF

Info

Publication number
JP2014134871A
JP2014134871A JP2013001146A JP2013001146A JP2014134871A JP 2014134871 A JP2014134871 A JP 2014134871A JP 2013001146 A JP2013001146 A JP 2013001146A JP 2013001146 A JP2013001146 A JP 2013001146A JP 2014134871 A JP2014134871 A JP 2014134871A
Authority
JP
Japan
Prior art keywords
word
function
predicate
question
question sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013001146A
Other languages
English (en)
Other versions
JP5882241B2 (ja
Inventor
Kenji Imamura
賢治 今村
Tomoko Izumi
朋子 泉
Ryuichiro Higashinaka
竜一郎 東中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013001146A priority Critical patent/JP5882241B2/ja
Publication of JP2014134871A publication Critical patent/JP2014134871A/ja
Application granted granted Critical
Publication of JP5882241B2 publication Critical patent/JP5882241B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】質問文に対する回答を精度よく検索するための検索キーワードを得ることができるようにする。
【解決手段】述部機能表現正規化部202によって、入力された質問文の形態素解析結果に基づいて、質問文に含まれる、内容語と、内容語に後続する文字列であって少なくとも1つの機能語を含む文字列である機能表現との組み合わせで構成される述部について、述部の意味に影響を与えないように機能表現を単純な形に変換することにより、述部を正規化する。そして、内容語抽出部203によって、質問文の形態素解析結果に基づいて、質問文の述部以外の部分から、内容語を抽出する。そして、検索キーワード生成部204によって、正規化された述部と、抽出された内容語との組み合わせを、質問文に対する回答を検索するための検索キーワードとして生成する。
【選択図】図1

Description

本発明は、質問応答用検索キーワード生成方法、装置、及びプログラムに関し、特に、質問文に対する回答を検索するための検索キーワードを生成する質問応答用検索キーワード生成方法、装置、及びプログラムに関する。
コンピュータによる質問応答システムにおいては、ユーザの質問が自然言語で入力される。たとえば、単純な事実や出来事に関して尋ねるファクトイド型質問では、「日本にメガネを伝えたのは誰?」のような形で入力される。それに対して質問応答システムは、「フランシスコ・ザビエル」という回答を返すことが望まれる。
また、理由や原因、意見、方法などを尋ねるノンファクトイド型質問では、「犬にかまれちゃいました。どうしたらいいでしょう?」のような形で入力され、質問応答システムは関連するホームページを表示したり、ホームページ上の方法部分を切り取って表示する。以下、ユーザ質問「日本にメガネを伝えたのは誰?」に対して、質問応答システムが「フランシスコ・ザビエル」と返す例を例1、ユーザ質問「犬にかまれちゃいました。どうしたらいいでしょう?」に対して、質問応答システムが「犬にかまれたときは、傷口をよく洗い流し、すぐに病院に行って治療を受けましょう」を返す例を例2として説明する。
図8に、質問応答システムの構成例を示す。この質問応答システムでは、入力されたユーザ質問に対して、以下のように動作する。はじめに質問解析において、ユーザ質問を解析し、回答タイプの同定、および情報検索用の検索キーワードへの変換を行う。次に、情報検索によって、質問解析から渡された検索キーワードを元にインターネット検索を行い、検索キーワードを含む文書またはその概要文(スニペット)のうち、検索キーワードを多く含む上位n個のスニペットを取得する。
そして、回答候補抽出において、情報検索で取得されたn個のスニペットと、質問解析で得られた回答タイプとを元に、回答の候補を作成する。もし、回答タイプがファクトイド型質問のタイプであった場合、情報検索で得られたスニペットから固有表現の抽出を行う。ノンファクトイド型質問における回答候補抽出法には、非特許文献1などがある。そして、回答候補評価によって、回答候補抽出で得られた複数の回答候補のうち、最も回答にふさわしいものを選択して出力する。
また、入力された文について、出来事の事実性を保持したまま簡潔に言い換える方法として、文の述部を、その意味をできるだけ変えずに最も単純な形に変換する方法が知られている(例えば、特許文献1を参照)。
特開2011−145844号公報
Murata M、 Tsukawaki S、 Kanamaru T、 Ma Q、and Isahara H、「A System for Answering Non-Factoid Japanese Questions by Using Passage Retrieval Weighted Based on Type of Answer.」、In Proceedings of NTCIR-6 Workshop Meeting、Tokyo、Japan、2007、pp.477-482
上記一連の処理の中で重要な要素の一つは、適切な検索キーワードを設定して、真の回答が多く含まれるスニペット(文書)を情報検索によって得る必要があるという点である。もし、不適切な検索キーワードを設定してしまうと、真の回答が含まれない文書が多数検索されてしまい、正しい回答を出力することができなくなる。
たとえば、上記の例1のユーザ質問に対して、質問解析が「日本 メガネ 伝える」という内容語だけの検索キーワードを生成した場合、図9に示す文書1−1、文書1−2のようなスニペットが得られる(情報検索で得るスニペット数n=2の場合)。しかし、検索キーワード「日本 メガネ 伝える」によって得られた文書1−1にも文書1−2にも、正解となるべき「フランシスコ・ザビエル」が含まれないため、正しい回答を出力することはできない。
また、上記の例2のユーザ質問に対して、質問解析が「犬 かむ」という内容語だけの検索キーワードを生成した場合、図10に示す文書1−1、文書1−2のようなスニペットが得られるが(インターネット検索では、文書の形態素解析を行った上で検索キーワードとマッチしており、検索キーワード「かむ」に対して、文書の出現形「かま(かむの未然形)」「かみ(同連用形)」などにマッチする)、文書1−1は犬のしつけに関する文書で、文書1−2は犬用のガムの広告であるので、犬にかまれたときの対処法を出力することはできない。
このように、ユーザ質問の内容語だけを検索キーワードとした場合、否定の「ない」、態を表す「れる(られる)」、時制、モダリティ情報がわからないため、ユーザ質問の意図とは異なる文書が多数検索される。
もう一つの従来法として、ユーザ質問を文節に分解し、動詞、形容詞を含む文節に関しては、内容語だけでなく機能語も検索キーワードとする方法が考えられる。この方法では、上記例1のユーザ質問からは、検索キーワードとして、「日本 メガネ 伝えた」が得られ、図9の文書2−1、文書2−2に示すスニペットが得られるようになる。上記スニペットには、例1の正解である「フランシスコ・ザビエル」が含まれるため、質問応答システムも正しい回答を出力することが可能になる。
しかし、上記例2に関しては、検索キーワード「犬 かまれちゃいました」が得られ、図10の文書3−1、文書3−2のように、「ちゃいました」がマッチする文書が優先して検索されてしまい、犬にかまれたときの対処法は得られない。
日本語では、「犬にかまれちゃいましたときは」とは言わないように、連体修飾を用いる場合、丁寧表現「ます」が欠落したり、完了を意味する「ちゃう」と「た」が同時に現れにくい。したがって、不必要な機能表現が検索キーワードに含まれていると、情報検索で得られた文書に、ユーザ質問の回答を含まれないものが多くなるという問題がある。
本発明は、上記問題を解決するためになされたもので、質問文に対する回答を精度よく検索するための検索キーワードを得ることができる質問応答用検索キーワード生成方法、装置、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る質問応答用検索キーワード生成方法は、述部機能表現正規化手段、内容語抽出手段、及び検索キーワード生成手段を含む質問応答用検索キーワード生成装置における質問応答用検索キーワード生成方法であって、前記述部機能表現正規化手段によって、入力された質問文の形態素解析結果に基づいて、前記質問文に含まれる、内容語と、前記内容語に後続する文字列であって少なくとも1つの機能語を含む文字列である機能表現との組み合わせで構成される述部について、前記述部の意味に影響を与えないように前記機能表現を単純な形に変換することにより、前記述部を正規化するステップと、前記内容語抽出手段によって、前記質問文の形態素解析結果に基づいて、前記質問文の述部以外の部分から、内容語を抽出するステップと、前記検索キーワード生成手段によって、前記述部機能表現正規化手段によって正規化された述部と、前記内容語抽出手段によって抽出された内容語との組み合わせを、前記質問文に対する回答を検索するための検索キーワードとして生成するステップと、を含む。
本発明に係る質問応答用検索キーワード生成装置は、入力された質問文の形態素解析結果に基づいて、前記質問文に含まれる、内容語と、前記内容語に後続する文字列であって少なくとも1つの機能語を含む文字列である機能表現との組み合わせで構成される述部について、前記述部の意味に影響を与えないように前記機能表現を単純な形に変換することにより、前記述部を正規化する述部機能表現正規化手段と、前記質問文の形態素解析結果に基づいて、前記質問文の述部以外の部分から、内容語を抽出する内容語抽出手段と、前記述部機能表現正規化手段によって正規化された述部と、前記内容語抽出手段によって抽出された内容語との組み合わせを、前記質問文に対する回答を検索するための検索キーワードとして生成する検索キーワード生成手段とを含んで構成されている。
本発明に係る質問応答用検索キーワード生成方法及び質問応答用検索キーワード生成装置によれば、述部機能表現正規化手段によって、入力された質問文の形態素解析結果に基づいて、質問文に含まれる、内容語と、内容語に後続する文字列であって少なくとも1つの機能語を含む文字列である機能表現との組み合わせで構成される述部について、述部の意味に影響を与えないように機能表現を単純な形に変換することにより、述部を正規化する。
そして、内容語抽出手段によって、質問文の形態素解析結果に基づいて、質問文の述部以外の部分から、内容語を抽出する。
そして、検索キーワード生成手段によって、述部機能表現正規化手段によって正規化された述部と、内容語抽出手段によって抽出された内容語との組み合わせを、質問文に対する回答を検索するための検索キーワードとして生成する。
このように、質問文の述部の意味に影響を与えないように、機能表現を単純な形に変換して述部を正規化し、正規化された述部と、質問文に含まれる内容語との組み合わせを、質問文に対する回答を検索するための検索キーワードとして生成することにより、質問文に対する回答を精度よく検索するための検索キーワードを得ることができる。
また、前記述部機能表現正規化手段は、前記入力された質問文の形態素解析結果に基づいて、前記質問文に含まれる、内容語と、前記機能表現との組み合わせで構成される述部について、前記述部の意味に影響を与えない機能語及び冗長な機能語を削除して前記機能表現を単純な形に変換することにより、前記述部を正規化するようにすることができる。
また、前記述部機能表現正規化手段は、予め定められた、否定を表す機能語、態を表す機能語、時制を表す機能語、及びモダリティを表す機能語以外の機能語を、前記述部の意味に影響を与えない機能語として削除するようにすることができる。
また、本発明に係るプログラムは、上記の質問応答用検索キーワード生成方法の各ステップをコンピュータに実行させるためのプログラムである。
以上説明したように、本発明の質問応答用検索キーワード生成方法、装置、及びプログラムによれば、質問文の述部の意味に影響を与えないように、機能表現を単純な形に変換して述部を正規化し、正規化された述部と、質問文に含まれる内容語との組み合わせを、質問文に対する回答を検索するための検索キーワードとして生成することにより、質問文に対する回答を精度よく検索するための検索キーワードを得ることができる、という効果が得られる。
本発明の実施の形態に係る質問応答装置の一構成例を示すブロック図である。 質問文「パソコンが壊れちゃったよ。」についての形態素解析結果の例を示す図である。 質問文「パソコンが壊れちゃったよ。」についての述部抽出結果の例を示す図である。 質問文「パソコンが壊れちゃったよ。」についての意味ラベル付与結果の例を示す図である。 質問文「パソコンが壊れちゃったよ。」についてのNULL削除結果の例を示す図である。 質問文「パソコンが壊れちゃったよ。」についての冗長ラベル削除結果の例を示す図である。 本発明の実施の形態に係る質問応答装置おける質問応答処理ルーチンの内容を示すフローチャートである。 従来技術を説明するための説明図である。 質問文「日本にメガネを伝えたのは誰?」に対する検索キーワードと、情報検索によって得られた文書の例を示す図である。 質問文「犬にかまれちゃいました。どうしたらいいでしょう?」に対する検索キーワードと情報検索によって得られた文書の例を示す図である。
<概要>
まず、本発明の実施の形態の概要について説明する。
本実施の形態は、ユーザによって作成された質問文を、出来事の事実性を保持しつつ簡潔に言い換えてから検索キーワードを生成することで、情報検索において、システムが回答すべき正解を含んだ文書またはその概要文(以下、スニペットと称する。)を多く取得し、得られたスニペットから質問に対する回答を抽出することを目的とする。
質問文を、出来事の事実性を保持したまま簡潔に言い換える方法としては、質問文の述部を、その意味をできるだけ変えずに最も単純な形に変換する方法を用いる(上記特許文献1を参照)。述部については、変換された述部全体を検索キーワードとし、その他の部分に関しては、内容語を検索キーワードとする。
以下、質問文「日本にメガネを伝えたのは誰?」に対して、質問応答装置が「フランシスコ・ザビエル」と応答する例を例1、質問文「犬にかまれちゃいました。どうしたらいいでしょう?」に対して、質問応答装置が「犬にかまれたときは、傷口をよく洗い流し、すぐに病院に行って治療を受けましょう」と応答する例を例2として説明する。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<質問応答装置のシステム構成>
図1は、本発明の実施の形態に係る質問応答装置100を示すブロック図である。この質問応答装置100は、CPUと、RAMと、後述する質問応答処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係る質問応答装置100は、図1に示すように、入力部1と、演算部2と、出力部3とを備えている。
入力部1は、ユーザによって作成された質問文を受け付ける。質問文は、自然言語によって作成された文である。
演算部2は、質問解析部20と、情報検索部21と、回答候補抽出部22と、回答候補評価部23とから構成されている。
質問解析部20は、質問文を解析し、質問文に対する回答タイプの同定、及び情報検索用の検索キーワードの生成を行う。
また、質問解析部20は、形態素解析部201と、述部機能表現正規化部202と、内容語抽出部203と、検索キーワード生成部204と、回答タイプ判定部205とから構成されている。
形態素解析部201は、入力部1により入力された質問文について、形態素解析を行って単語に分解し、各々の単語に品詞を付与する。
述部機能表現正規化部202は、質問文の述部について、形態素解析部201によって解析された形態素解析結果に基づいて、述部の意味に影響を与えないように機能表現を単純な形に変換する。ここで、述部は、「内容語」と、「内容語」に後続する文字列であって少なくとも1つの機能語を含む文字列である「機能表現」との組み合わせで構成される。また、「内容語」は動詞、名詞、形容詞、形容動詞、副詞といった一般的な意味を持つ語を指し、「機能語」は助詞、助動詞などの文法的な役割を持つ語を指す。
具体的には、述部機能表現正規化部202は、質問文の述部を抽出した後に、当該述部の機能表現を単純な表現に言い換える正規化を行う。当該述部機能表現の正規化方法は、上記特許文献1に開示されているとおりであり、内容語と、機能表現との組み合わせで構成される述部について、述部の意味に影響を与えない機能語及び冗長な機能語を削除して機能表現を単純な形に変換する。
述部の意味に影響を与えない機能語を削除する方法としては、予め定められた、否定を表す機能語、態を表す機能語、時制を表す機能語、及びモダリティを表す機能語に該当しない機能語を、述部の意味に影響を与えない機能語として削除する。すなわち、出来事の意味に影響する否定、態、時制、モダリティを表す機能語は残し、それ以外の機能語を削除することで、述部の機能表現を、出来事の意味を変えずに単純な表現に言い換えることができる。
ここで、述部機能表現正規化部202の動作について、質問文「パソコンが壊れちゃったよ。」が質問応答装置100に入力された場合を例に挙げて詳述する。
述部機能表現を正規化するためには、機能表現意味ラベル辞書を用いる。ここで、機能表現意味ラベル辞書とは、述部の意味に影響を与える機能表現の意味を表す意味ラベルと、各意味ラベルに対応する機能表現の標準形による文字列のリストと、一つの述部に対応する機能表現が同じ意味ラベルの機能語を複数含む場合にそれらの機能語をどのように保持すべきかを表した意味ラベル毎の冗長ルールとを組み合わせてなる辞書である。機能表現意味ラベル辞書には、以下(1)〜(4)の意味ラベルと文字のリストが格納されている。
(1)述部が表す出来事の否定または肯定を区別するための意味ラベルとして、「否定」の意味ラベルが格納されており、「否定」の意味ラベルに対応する文字リストとして、「ない」、「ねえ」が格納されている。なお、「否定」の意味ラベルに対応する文字リストに含まれる機能語が、否定を表す機能語の一例である。
(2)述部の態を区別するための意味ラベルとして、「受身」、「使役」の意味ラベルが格納されている。そして、各々の意味ラベルに対応する文字リストとして、以下の文字リストが格納されている。
「受身」:「れる」「られる」
「使役」:「せる」「される」
なお、「受身」、「使役」の意味ラベルに対応する文字リストに含まれる機能語が、態を表す機能語の一例である。
(3)述部が表す出来事の時制を特徴付ける意味ラベルとして、「完了」の意味ラベルが格納されており、「完了」の意味ラベルに対応する文字リストとして、「た」、「ちゃう」、「ちまう」、「て/しまう」、「て/おく」が格納されている。なお、「完了」の意味ラベルに対応する文字リストに含まれる機能語が、時制を表す機能語の一例である。
(4)述部が表す出来事に話者(ユーザ)の主観(即ち、モダリティ表現)が含まれているか否かを区別するための意味ラベルとして、「疑問」、「勧誘・意志」、「願望」、「依頼」、「勧め」、「必要」、「許可」、「推量」、「可能」が格納されている。そして、各々の意味ラベルに対応する文字リストとして、以下の文字リストが格納されている。
「疑問」:「か」
「勧誘・意志」:「う」
「願望」:「たい」「がな」「たい/がる」
「依頼」:「て/くれる」「て/欲しい」
「勧め」:「た/方/が/いい」「と/良い」
「必要」:「べき」「ない/て/は/いける/ない」
「許可」:「て/も/いい」
「推量」:「かも/知れる/ない」「らしい」「よう」「そう」「だろう」
「可能」:「れる」「こと/が/できる」
なお、これらの意味ラベルに対応する文字リストに含まれる機能語が、モダリティを表す機能語の一例である。
質問文「パソコンが壊れちゃったよ。」について、形態素解析部201によって形態素解析が行われ、図2に示すような形態素解析結果が述部機能表現正規化部202に入力されると、最初に、機能表現意味ラベル辞書(図示省略)の機能表現の標準形による文字列のリスト(エントリー)と一致する「ちゃ(う)」「た」が、述部の意味に影響を与える機能語として認識される。
次に、品詞「助詞」に属する「よ」が機能語として認識される。そして最後に、品詞「動詞−自立」に属する「壊れ(る)」が内容語として認識される。その結果、「壊れちゃったよ」が述部として抽出される。図3に当該述部抽出結果の例を示す。
次に、上記抽出された述部「壊れちゃったよ」について、「後方からの最長一致法」によって、初めに「よ」が解析される。しかし、機能表現意味ラベル辞書に「よ」のエントリーがないため、空の意味ラベル「NULL」が付与される。次に「た」及び「ちゃう」が解析され、それぞれ「完了」の意味ラベルが付与される。述部を構成する形態素に対して後方からの最長一致法で処理を進めた場合の最後の形態素、つまり内容語「壊れる」の直前でこの意味ラベル付与作業を終了する。図4に意味ラベル付与結果の例を示す。なお、意味ラベルの付与方法は後方からの最長一致法に限定せず、他の方法を用いてもよい。
次に、上記述部の機能表現「ちゃったよ」について、空の意味ラベル「NULL」が付与された「よ」が削除され、「ちゃった」という機能表現に単純化される。図5にNULL削除結果の例を示す。
次に、機能表現意味ラベル辞書に記載の冗長ルールを用いて、冗長な機能語について、そのエントリー全て(単語情報)を削除する。冗長ルールというのは、「同一述部内に同じ意味を表す機能語が複数存在する場合、そのうちの一つのみ残すことで当該述部が表す意味を保持できる」という知見に基づくものである。意味ラベル付与後で、かつNULL削除後の述部が「壊れちゃった」であった場合、初めに当該意味ラベル付与後でかつNULL削除後の述部に対応する形態素毎の単語情報中に同一意味ラベルが2つ以上存在するか否かを調べ、2つ以上存在する場合は冗長ルールに沿って削除を行う。上記述部「壊れちゃった」に対応する形態素毎の単語情報には意味ラベル「完了」が2つ存在しているので、冗長ルールの対象となる。「完了」の冗長ルールは「表層形が同じ場合は先頭(First)を残し、それ以外は最後(Last)を残す」というものである。これに従って、機能語「ちゃっ」が削除され、正規化された機能表現として、意味ラベル「完了」の機能語「た」が残される。図6に冗長ラベル削除結果の例を示す。
次に、内容語「壊れ(る)」と、正規化された機能表現「た」とを接続させる。単語の活用を含む形態素の接続処理には、言語モデルによる活用生成器を使用することができる。言語モデルによる活用生成器とは、予め正解データより、前方の単語の表層形、品詞及び活用型と、後方の単語の表層形及び品詞とを素性として「どの接続が尤もらしいか」を学習したモデルを用いた生成器である。従って、言語モデルによる活用生成器に、内容語「壊れ(る)」の「表記;品詞;活用型」である「壊れ;動詞−自立;一段」と、機能表現「た」の「た;助動詞;特殊・タ」と、文の終わりを表す形態素「。」の「。;記号−句点」とを入力することで、正しく接続された述部である「壊れた。」を生成することができる。なお、質問文に機能表現を含まない述部(正規化が不要な述部)が含まれている場合にも、当該述部を検索キーワードに含めるようにすることができる。
上記例1について、述部機能表現正規化部202によって述部機能表現正規化を行うと、上記例1の質問文は「伝えた」が述部であり、正規化後の述部も「伝えた」となる。これは、述語「伝える」に完了の意味を持つ機能語「た」が付与されている形式であるが、完了は時制に属する意味であり、これを削除すると出来事が現在時制に変わってしまうため、「伝える」に「た」が付与された形で正規化される。また、上記例2の場合、述部機能表現正規化で「かまれちゃいました」が述部として判定され、正規化が行われる。この述部は、「かむ」が述語、「れる」が意味ラベル「受身」の機能語、「ちゃう」が意味ラベル「完了」の機能語、「ます」が丁寧を表す機能語、「た」が意味ラベル「完了」の機能語である。このうち「ます」は出来事の意味に影響しないため、削除され、「完了」の意味ラベルの機能語として、「ちゃう」「た」が冗長に現れているため、「ちゃう」は不必要と判断され、削除される。結果、正規化結果として、「かむ」「れる」「た」が残り、「かまれた」が正規化済み述部として出力される。
内容語抽出部203は、形態素解析部201による形態素解析結果に基づいて、質問文の述部以外の部分から、内容語を抽出する。たとえば、上記例1では「日本」「メガネ」の2語が、述部以外の部分における内容語である。また、上記例2では、述部以外の部分における内容語として抽出されるのは、「犬」である。
検索キーワード生成部204は、述部機能表現正規化部202によって正規化された述部と、内容語抽出部203によって抽出された内容語との組み合わせを、質問文に対する回答を検索するための検索キーワードとして生成する。上記例1の場合、結果として「日本 メガネ 伝えた」が検索キーワードとして生成される。上記例2の場合、「犬 かまれた」が検索キーワードとして生成される。
回答タイプ判定部205は、形態素解析部201による形態素解析結果に基づいて、質問文に対応する回答タイプを判定して出力する。回答タイプはあらかじめ決まっており、本実施の形態では、ファクトイド型質問の回答タイプとして、人名、地名、組織名、人工物名、日付、時間、金額、割合の8種があり、ノンファクトイド型質問の回答タイプとして、理由、方法の2種がある。回答タイプは、質問文に含まれる手がかり語(単語や表現)や、機械学習を用いた分類器によって決定される。たとえば上記例1では、手がかり語「誰」が含まれているため、人名を問われていると判定される。上記例2では、手がかり語「どうしたら」が含まれているため、方法を答えるものとして判定される。
情報検索部21は、検索キーワード生成部204によって生成された検索キーワードを基にインターネット検索を行い、得られた検索結果から、検索キーワードを含むスニペットのうち、検索キーワードを多く含む上位n個のスニペットを取得する。ここでnは通常数十である。例えば、上記例1では「日本 メガネ 伝えた」という検索キーワードに対して、上記図9に示す文書2−1、文書2−2のスニペットが得られる。上記例2では、「犬 かまれた」という検索キーワードに対して、上記図10に示す文書2−1、文書2−2のようなスニペットが得られる。
回答候補抽出部22は、情報検索部21で取得されたn個のスニペットと回答タイプ判定部205で得られた回答タイプとに基づいて、回答候補を抽出する。
もし、回答タイプ判定部205によって判定された回答タイプがファクトイド型質問の回答タイプであった場合には、情報検索部21によって得られたスニペットから固有表現の抽出を行う。固有表現の抽出では、スニペットから、ファクトイド型質問の回答タイプ8種に対応する、人名、地名、組織名、人工物名、日付、時間、金額、及び割合の各々を表す形態素列を固有表現として抽出する。スニペットが「メガネは1549年にフランシスコ・ザビエルが日本に伝えた」であったとすると、「1549年」が日付、「フランシスコ・ザビエル」が人名、「日本」が地名として抽出される。回答候補抽出部22では、この固有表現の抽出処理をインターネット検索で得られた全スニペットに対して行い、抽出された固有表現から、判定された回答タイプ(上記例1では人名)と一致する固有表現をすべて回答候補として抽出する。
もし、回答タイプ判定部205によって判定された回答タイプがノンファクトイド型質問のタイプであった場合には、スニペット(文書)を段落や文に分解したのちに、回答タイプに応じた処理が行われる(上記非特許文献1参照)。回答タイプが方法であった場合、たとえば手がかり表現「方法」「手順」「ことにより」「〜には」「〜ときは」が含まれている段落や文を回答候補として抽出する(上記非特許文献1参照)。
回答候補評価部23は、回答候補抽出部22で得られた複数の回答候補のうち、最も回答に適したものを選択して出力する。回答タイプ判定部205によって判定された回答タイプがファクトイド型質問のタイプであった場合には、回答候補のうち、最も多くのスニペットに出現したものを選択する。たとえば、上記例1については、人名「フランシスコ・ザビエル」が4つのスニペットに出現し、「大内義隆」が2つのスニペットに出現した場合、回答として「フランシスコ・ザビエル」を出力する。一方、回答タイプ判定部205によって判定された回答タイプがノンファクトイド型質問のタイプであった場合には、回答候補抽出部22によって抽出された回答候補の各々についてスコアを算出し、当該スコアと予め定められた閾値に基づいて、回答を出力する(上記非特許文献1参照)。
出力部3は、回答候補評価部23によって出力された回答を結果として出力する。上記図9に示す文書2−1、文書2−2には、回答の正解である「フランシスコ・ザビエル」が含まれているため、質問応答装置100は「フランシスコ・ザビエル」を正しい回答として出力することができる。また、上記図10に示す文書2−1、文書2−2には、犬にかまれたときの対処法が書かれているため、質問応答装置100は当該対処法部分を質問文に合った回答として出力することができる。
<質問応答装置の作用>
次に、本実施の形態に係る質問応答装置100の作用について説明する。まず、ユーザによって作成された質問文が質問応答装置100に入力されると、質問応答装置100によって、図7に示す質問応答処理ルーチンが実行される。
まず、ステップS100において、質問文の入力を受け付ける。次に、ステップS102において、上記ステップS100で受け付けた質問文について、形態素解析処理を行う。
次に、ステップS104において、述部機能表現正規化部202によって、上記ステップS102で解析された形態素解析結果に基づいて、質問文の述部を特定して抽出する。
そして、ステップS106において、述部機能表現正規化部202によって、上記ステップS104で抽出された質問文の述部について、形態素解析部201によって解析された形態素解析結果に基づいて、述部の意味に影響を与えないように機能表現を単純な形に変換して正規化する。
そして、ステップS108において、内容語抽出部203によって、上記ステップS102による形態素解析結果に基づいて、質問文の述部以外の部分から、内容語を抽出する。
ステップS110において、検索キーワード生成部204によって、上記ステップS106で正規化された述部と、上記ステップS108で抽出された内容語との組み合わせを、質問文に対する回答を検索するための検索キーワードとして生成する。
次に、ステップS112において、回答タイプ判定部205によって、上記ステップS102による形態素解析結果に基づいて、質問文に対応する回答タイプを判定する。
そして、ステップS114において、情報検索部21によって、上記ステップS110で生成された検索キーワードを基にインターネット検索を行い、得られた検索結果から、検索キーワードを含むスニペットのうち、検索キーワードを多く含む上位n個のスニペットを取得する。
ステップS116において、回答候補抽出部22によって、上記ステップS114で取得されたn個のスニペットと上記ステップS112で判定された回答タイプとを基に、回答候補を抽出する。
次に、ステップS118において、回答候補評価部23によって、上記ステップS116で得られた複数の回答候補のうち、最も回答に適したものを選択する。
そして、ステップS120において、出力部3によって、上記ステップS118で選択された回答候補を結果として出力して、質問回答処理ルーチンを終了する。
以上説明したように、本実施の形態に係る質問応答装置100によれば、質問文の述部の意味に影響を与えないように、機能表現を単純な形に変換して述部を正規化し、正規化された述部と、質問文に含まれる内容語との組み合わせを、質問文に対する回答を検索するための検索キーワードとして生成することにより、質問文に対する回答を精度よく検索するための検索キーワードを得ることができる。
また、質問文から、出来事に関連する否定、態、時制、モダリティの機能語は残し、それ以外の機能語を削除した検索キーワードを生成することにより、出来事に必要な単語を含むスニペットが優先的に検索される。
また、出来事に影響しない機能表現は削除されるため、質問応答の回答にならないスニペットが検索されるリスクが低減し、その結果、質問応答の回答精度が向上する。
また、質問解析部20によって生成された検索キーワードを使うことにより、情報検索において、必要な機能表現を含み、余計な機能表現を含まないスニペットが多くマッチし、質問応答装置が適切な回答を返すようになる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、質問応答装置100における述部機能表現正規化部202、内容語抽出部203、及び回答タイプ判定部205は、形態素解析部201による形態素解析結果に基づいて処理を行う場合を例に説明したが、これに限定されるものではなく、例えば、入力部1により入力される質問文は形態素解析済みであっても良い。
上述の質問応答装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
2 演算部
20 質問解析部
100 質問応答装置
202 述部機能表現正規化部
203 内容語抽出部
204 検索キーワード生成部

Claims (7)

  1. 述部機能表現正規化手段、内容語抽出手段、及び検索キーワード生成手段を含む質問応答用検索キーワード生成装置における質問応答用検索キーワード生成方法であって、
    前記述部機能表現正規化手段によって、入力された質問文の形態素解析結果に基づいて、前記質問文に含まれる、内容語と、前記内容語に後続する文字列であって少なくとも1つの機能語を含む文字列である機能表現との組み合わせで構成される述部について、前記述部の意味に影響を与えないように前記機能表現を単純な形に変換することにより、前記述部を正規化するステップと、
    前記内容語抽出手段によって、前記質問文の形態素解析結果に基づいて、前記質問文の述部以外の部分から、内容語を抽出するステップと、
    前記検索キーワード生成手段によって、前記述部機能表現正規化手段によって正規化された述部と、前記内容語抽出手段によって抽出された内容語との組み合わせを、前記質問文に対する回答を検索するための検索キーワードとして生成するステップと、
    を含む質問応答用検索キーワード生成方法。
  2. 前記述部機能表現正規化手段によって正規化するステップは、前記入力された質問文の形態素解析結果に基づいて、前記質問文に含まれる、内容語と、前記機能表現との組み合わせで構成される述部について、前記述部の意味に影響を与えない機能語及び冗長な機能語を削除して前記機能表現を単純な形に変換することにより、前記述部を正規化する請求項1記載の質問応答用検索キーワード生成方法。
  3. 前記述部機能表現正規化手段によって正規化するステップは、予め定められた、否定を表す機能語、態を表す機能語、時制を表す機能語、及びモダリティを表す機能語以外の機能語を、前記述部の意味に影響を与えない機能語として削除する請求項2記載の質問応答用検索キーワード生成方法。
  4. 入力された質問文の形態素解析結果に基づいて、前記質問文に含まれる、内容語と、前記内容語に後続する文字列であって少なくとも1つの機能語を含む文字列である機能表現との組み合わせで構成される述部について、前記述部の意味に影響を与えないように前記機能表現を単純な形に変換することにより、前記述部を正規化する述部機能表現正規化手段と、
    前記質問文の形態素解析結果に基づいて、前記質問文の述部以外の部分から、内容語を抽出する内容語抽出手段と、
    前記述部機能表現正規化手段によって正規化された述部と、前記内容語抽出手段によって抽出された内容語との組み合わせを、前記質問文に対する回答を検索するための検索キーワードとして生成する検索キーワード生成手段と、
    を含む質問応答用検索キーワード生成装置。
  5. 前記述部機能表現正規化手段は、前記入力された質問文の形態素解析結果に基づいて、前記質問文に含まれる、内容語と、前記機能表現との組み合わせで構成される述部について、前記述部の意味に影響を与えない機能語及び冗長な機能語を削除して前記機能表現を単純な形に変換することにより、前記述部を正規化する請求項4記載の質問応答用検索キーワード生成装置。
  6. 前記述部機能表現正規化手段は、予め定められた、否定を表す機能語、態を表す機能語、時制を表す機能語、及びモダリティを表す機能語以外の機能語を、前記述部の意味に影響を与えない機能語として削除する請求項5記載の質問応答用検索キーワード生成装置。
  7. 請求項1〜請求項3の何れか1項記載の質問応答用検索キーワード生成方法を構成する各ステップをコンピュータに実行させるためのプログラム。
JP2013001146A 2013-01-08 2013-01-08 質問応答用検索キーワード生成方法、装置、及びプログラム Expired - Fee Related JP5882241B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013001146A JP5882241B2 (ja) 2013-01-08 2013-01-08 質問応答用検索キーワード生成方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013001146A JP5882241B2 (ja) 2013-01-08 2013-01-08 質問応答用検索キーワード生成方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014134871A true JP2014134871A (ja) 2014-07-24
JP5882241B2 JP5882241B2 (ja) 2016-03-09

Family

ID=51413104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013001146A Expired - Fee Related JP5882241B2 (ja) 2013-01-08 2013-01-08 質問応答用検索キーワード生成方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5882241B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016027714A1 (ja) * 2014-08-21 2016-02-25 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
US10796096B2 (en) 2017-06-12 2020-10-06 Shanghai Xiaoi Robot Technology Co., Ltd. Semantic expression generation method and apparatus

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08129554A (ja) * 1994-05-25 1996-05-21 Fuji Xerox Co Ltd 関係表現抽出装置および関係表現検索装置
JP2003132060A (ja) * 2001-10-23 2003-05-09 Just Syst Corp 検索支援装置、検索支援方法、及び検索支援プログラム
US20050131886A1 (en) * 2000-06-22 2005-06-16 Hapax Limited Method and system for information extraction
JP2009116662A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology 質問応答装置、質問応答方法、及びプログラム
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
JP2012220666A (ja) * 2011-04-07 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 読解問題回答装置、方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08129554A (ja) * 1994-05-25 1996-05-21 Fuji Xerox Co Ltd 関係表現抽出装置および関係表現検索装置
US20050131886A1 (en) * 2000-06-22 2005-06-16 Hapax Limited Method and system for information extraction
JP2003132060A (ja) * 2001-10-23 2003-05-09 Just Syst Corp 検索支援装置、検索支援方法、及び検索支援プログラム
JP2009116662A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology 質問応答装置、質問応答方法、及びプログラム
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
JP2012220666A (ja) * 2011-04-07 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 読解問題回答装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013029576; 泉朋子 他4名: '正規化を指向した機能動詞表現の述部言い換え' 言語処理学会第15回年次大会発表論文集 , 20090302, 264-267頁, 言語処理学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016027714A1 (ja) * 2014-08-21 2016-02-25 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
JP2016045652A (ja) * 2014-08-21 2016-04-04 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
US10380149B2 (en) 2014-08-21 2019-08-13 National Institute Of Information And Communications Technology Question sentence generating device and computer program
US10796096B2 (en) 2017-06-12 2020-10-06 Shanghai Xiaoi Robot Technology Co., Ltd. Semantic expression generation method and apparatus

Also Published As

Publication number Publication date
JP5882241B2 (ja) 2016-03-09

Similar Documents

Publication Publication Date Title
US11397762B2 (en) Automatically generating natural language responses to users&#39; questions
US11068662B2 (en) Method for automatically detecting meaning and measuring the univocality of text
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
US10339168B2 (en) System and method for generating full questions from natural language queries
CN111078875B (zh) 一种基于机器学习的从半结构化文档中提取问答对的方法
Mishra et al. MAULIK: an effective stemmer for Hindi language
US10339167B2 (en) System and method for generating full questions from natural language queries
JP2013254420A (ja) 質問応答装置、モデル学習装置、方法、及びプログラム
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
Kavitha et al. Chatbot for healthcare system using Artificial Intelligence
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
JP2014219872A (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP5882241B2 (ja) 質問応答用検索キーワード生成方法、装置、及びプログラム
CN111046168B (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
KR20210012606A (ko) 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체
Lim et al. A Conceptual Framework for Malay-English Mixed-language Question Answering System
Jarman Combining Natural Language Processing and Statistical Text Mining: A Study of Specialized Versus Common Languages
Peng et al. A novel method of complex temporal question generation
Prasla et al. Question answering system using artificial neural network
CN116226677B (zh) 平行语料构建方法及装置、存储介质及电子设备
Yu et al. Extracting and Clustering of Story Events from a Story Corpus.
Patel Sentiment analysis on Twitter data using machine learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160203

R150 Certificate of patent or registration of utility model

Ref document number: 5882241

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees