JP2016057810A - 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 - Google Patents

述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 Download PDF

Info

Publication number
JP2016057810A
JP2016057810A JP2014183214A JP2014183214A JP2016057810A JP 2016057810 A JP2016057810 A JP 2016057810A JP 2014183214 A JP2014183214 A JP 2014183214A JP 2014183214 A JP2014183214 A JP 2014183214A JP 2016057810 A JP2016057810 A JP 2016057810A
Authority
JP
Japan
Prior art keywords
sentence
question
answer
term structure
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014183214A
Other languages
English (en)
Other versions
JP5911931B2 (ja
Inventor
のぞみ 小林
Nozomi Kobayashi
のぞみ 小林
徹 平野
Toru Hirano
徹 平野
竜一郎 東中
Ryuichiro Higashinaka
竜一郎 東中
俊朗 牧野
Toshiaki Makino
俊朗 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014183214A priority Critical patent/JP5911931B2/ja
Publication of JP2016057810A publication Critical patent/JP2016057810A/ja
Application granted granted Critical
Publication of JP5911931B2 publication Critical patent/JP5911931B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】質問文と応答文とのペアから述語項構造を抽出できる。【解決手段】テキスト解析部30が質問文と応答文とのペアをテキスト解析し、質問表現同定部32が、解析済みの質問文から疑問詞及び質問表現を同定し、回答タイプ判定部34が、解析済みの応答文の回答タイプを判定し、回答表現抽出部36が、解析済みの応答文から回答表現を抽出し、回答文生成部42が、質問文と、応答文と、疑問詞及び質問表現と、回答タイプと、回答表現とに基づいて回答文を生成し、述語項構造抽出部44が、回答文から述語項構造を抽出する。【選択図】図1

Description

本発明は、述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体に係り、特に、質問文と応答文とのペアから述語項構造を抽出する述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体に関する。
テキストマイニングシステムでは、係り受け解析に基づいて「何がどうだ」を表す述語と項の形(e.g.[インターネット、つながらない])で集計が可能となっている(例えば非特許文献1)。現在のテキストマイニングシステムは、係り受け解析に基づいて述語と項を抽出するものがほとんどであるが、テキストから述語とその項を抽出する技術として「述語項構造解析」もある(例えば非特許文献2)。
脇森浩志,"ビッグデータに対するテキストマイニングとその適用例",UNISYS TECHNOLOGY REVIEW 第115号,2013. 今村賢治, 東中竜一郎, 泉朋子,"ゼロ代名詞照応付き述語項構造解析の対話への適応",言語処理学会第20回年次大会発表論文集,2014.
しかし対話テキストには、「インターネットにつながりますか?」「いいえ」のように、質問と回答が対になっているテキストが多く存在する。この場合、回答は「いいえ」のみとなり「インターネット、つながらない」という述語と項を獲得できない。
非特許文献2に記載されているように、従来の述語項構造解析技術は、述語に対して省略されている項を補完するものであり、述語が省略されているケースには対応していないため、「ルータのランプは何色に光っていますか?」「赤です」のように、回答側で述語が省略される場合に述語項構造を正しく獲得できない、という問題がある。
このように回答の述語項構造が正しく獲得できないと、たとえばコールセンタのデータでユーザの述語項情報で集計しようとしたときに正しい集計結果を得ることができない。
本発明は、上記問題点を解決するために成されたものであり、質問文と応答文とのペアから述語項構造を精度よく抽出できる述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体を提供することを目的とする。
上記目的を達成するために、本発明に係る述語項構造抽出装置は、入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出装置であって、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定する質問表現同定部と、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定する回答タイプ判定部と、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出する回答表現抽出部と、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記質問文に対する回答文を生成する回答文生成部と、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出する述語項構造抽出部と、を含んで構成されている。
また、本発明に係る述語項構造抽出装置において、前記述語項構造抽出部において述語項構造が抽出されなかった場合に、前記生成された回答文に対して述語項構造解析を行って、前記述語項構造を生成する述語項構造解析部を更に含んでもよい。
また、本発明に係る述語項構造抽出装置において、前記回答タイプ判定部は、前記応答文の回答タイプとして、肯定否定型、用言型、及び名詞型の何れであるかを判定し、前記回答文生成部は、前記判定された回答タイプが肯定否定型又は名詞型であった場合には、前記回答タイプに対して予め定められた書き換え方法に基づいて、前記質問文に対する回答文を生成し、前記判定された回答タイプが用言型であった場合には、前記回答文を生成せずに、前記質問文及び前記応答文を前記述語項構造解析部に出力し、前記述語項構造解析部は、前記回答タイプ判定部において判定された回答タイプが用言型であった場合には、前記出力された前記質問文と前記応答文との各々に対して述語項構造解析を行って、前記質問文と前記応答文との各々に対する述語項構造を生成し、述語が同じ前記質問文と前記応答文との各々に対する述語項構造において、前記質問文に対する述語項構造の格要素であって、前記応答文に対する述語項構造に含まれていない格要素と、前記述語との組み合わせである述語項構造を出力してもよい。
本発明に係る述語項構造抽出方法は、入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出方法であって、質問表現同定部が、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定するステップと、回答タイプ判定部が、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定するステップと、回答表現抽出部が、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出するステップと、回答文生成部が、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記質問文に対する回答文を生成するステップと、述語項構造抽出部が、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出するステップと、を含んで実行することを特徴とする。
また、本発明に係る述語項構造抽出方法において、述語項構造解析部が、前記述語項構造抽出部において述語項構造が抽出されなかった場合に、前記生成された回答文に対して述語項構造解析を行って、前記述語項構造を生成するステップを更に含んでもよい。
また、本発明に係る述語項構造抽出方法において、前記回答タイプ判定部が判定するステップは、前記応答文の回答タイプとして、肯定否定型、用言型、及び名詞型の何れであるかを判定し、前記回答文生成部が前記回答文を生成するステップは、前記判定された回答タイプが肯定否定型又は名詞型であった場合には、前記回答タイプに対して予め定められた書き換え方法に基づいて、前記質問文に対する回答文を生成し、前記判定された回答タイプが用言型であった場合には、前記回答文を生成せずに、前記質問文及び前記応答文を前記述語項構造解析部に出力し、前記述語項構造解析部が前記述語項構造を生成するステップは、前記回答タイプ判定部において判定された回答タイプが用言型であった場合には、前記出力された前記質問文と前記応答文との各々に対して述語項構造解析を行って、前記質問文と前記応答文との各々に対する述語項構造を生成し、述語が同じ前記質問文と前記応答文との各々に対する述語項構造において、前記質問文に対する述語項構造の格要素であって、前記応答文に対する述語項構造に含まれていない格要素と、前記述語との組み合わせである述語項構造を出力してもよい。
本発明に係るプログラムは、コンピュータに、上記の述語項構造抽出装置の各部を実行させるためのプログラムである。
本発明に係る記録媒体は、コンピュータに、上記の述語項構造抽出装置の各部を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明の述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体によれば、質問文の疑問詞及び質問表現を同定し、応答文の回答タイプを判定し、応答文の回答表現を抽出して、質問文と、応答文と、疑問詞及び質問表現と、回答タイプと、回答表現とに基づいて回答文を生成し、回答文から述語項構造を抽出することで、質問文と応答文とのペアから精度よく述語項構造を抽出できる、という効果が得られる。
本発明の実施の形態に係る述語項構造抽出装置の構成を示すブロック図である。 疑問詞辞書の例を示す説明図である。 肯定否定表現リストの例を示す説明図である。 述語項構造抽出規則の例を示す説明図である。 本発明の実施の形態に係る述語項構造抽出装置における述語項構造抽出処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る述語項構造抽出装置の構成>
次に、本発明の実施の形態に係る述語項構造抽出装置の構成について説明する。図1に示すように、本発明の実施の形態に係る述語項構造抽出装置100は、CPUと、RAMと、後述する述語項構造抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この述語項構造抽出装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、対話テキストから得られる質問文と質問文に対する応答文とのペアを受け付ける。
演算部20は、テキスト解析部30と、質問表現同定部32と、回答タイプ判定部34と、回答表現抽出部36と、疑問詞辞書38と、肯定否定表現リスト40と、回答文生成部42と、述語項構造抽出部44と、述語項構造抽出規則46と、述語項構造解析部48とを含んで構成されている。
テキスト解析部30は、入力部10で受け付けた質問文と応答文とのペアを入力とし、それぞれの文に既知の技術である形態素解析及び固有表現抽出によりテキスト解析を行う。
以下の表1に質問文「ランプは何色に光っていますか?」、表2に応答文「赤色です」が入力された場合の形態素解析及び固有表現抽出の例を示す。なお、以下の例の場合、固有表現は存在していないため何も出力されない。
質問表現同定部32は、テキスト解析部30で解析された形態素解析済みの質問文に対して、疑問詞の表記と疑問詞タイプとの組み合わせの各々が格納された疑問詞辞書38を用いて辞書引きを行い、質問文に含まれる疑問詞及び疑問詞タイプを同定すると共に、質問文の品詞情報と予め定められた質問表現抽出規則と同定された疑問詞及び疑問詞タイプとに基づいて、質問文に含まれる質問表現の範囲を同定する。
質問表現同定部32は、具体的には、まず形態素解析済みの質問文に対し、疑問詞辞書38を辞書引きすることで疑問詞を同定する。疑問詞辞書38には、図2に示すように、疑問詞の「出現表記」と「疑問詞タイプ」の組み合わせが格納されている。例えば疑問詞タイプには、人物を聞く「WHO」、数を聞く「NUMBER」、場所を聞く「WHERE」、理由や手段を聞く「HOW」、選択質問を表す「WHICH」などがある。また、「何県」「何色」のように、求めている答えが何か(e.g.県の名前、色の名前)が特定できる疑問詞の疑問詞タイプを「SPECIFIC」とする。疑問詞辞書38中の出現表記にマッチしなければ、以降の質問表現の範囲同定は行わず、質問表現は無しとなる。表1に示す例では、疑問詞辞書中の出現表記「何色」が解析済みの質問文にマッチし、疑問詞タイプが「SPECIFIC」として同定される。
次に、質問表現同定部32は質問表現の範囲の同定を行う。形態素解析済みの質問文と、同定された疑問詞とに対して、質問表現抽出規則を適用して、質問文における質問表現の範囲を同定する。ここでは、同定された疑問詞タイプ、疑問詞の品詞、疑問詞の直後の形態素の品詞などを用いて定められた質問表現抽出規則をもとに、質問文から質問表現の範囲を同定する。
例えば、質問表現抽出規則として以下の規則1〜規則4を適用することができる(二重引用符付きは疑問詞を表す)。なお、以下に挙げる規則は一例であり、これに限定されるものではなく、その他の規則を適用できることは勿論である。
規則1では、疑問詞の疑問詞タイプが「SPECIFIC」の場合、直後形態素に関わらず、疑問詞を質問表現として抽出する。例えば「“何色”のランプですか」から「質問表現:何色」を同定する。
規則2では、疑問詞の疑問詞タイプが「NUMBER」、「TIME」、又は「WHAT」であり、かつ疑問詞の品詞が「Number」の場合、直後形態素の品詞が「助数詞」であれば、当該疑問詞と直後形態素とをまとめて候補とし、候補の直後形態素表記が「の」でなければ、当該候補を質問表現として抽出する。例えば、「箱は“何”センチですか」から「質問表現:何センチ」を同定する。
規則3では、疑問詞の品詞が「連体詞」の場合、直後形態素の品詞が「名詞接尾辞:名詞」、「名詞」、「名詞:動作」、及び「冠名詞」のいずれかであれば、当該疑問詞と直後形態素とを候補としてまとめ、当該候補の直後形態素の表記が「の」でなければ、当該候補を質問表現として抽出する。例えば、「“どんな”色に光っていますか」から「質問表現:どんな色」を同定する。
規則4では、疑問詞の品詞が「連用詞」の場合、直後形態素の表記が「くらい」であれば、当該疑問詞と直後形態素とをまとめ、かつその後が「名詞接尾辞:名詞」、「名詞」、「名詞:動作」、及び「冠名詞」のいずれかであればまとめて候補とする。候補の直後形態素が「判定詞:終止」、「句点」、又は「の以外の格助詞」であれば、当該候補を質問表現として抽出する。例えば、「エラーは“何回”くらいありますか」から「質問表現:何回くらい」を同定する。
表1の例では、規則1が適用され、質問表現は「何色」、疑問詞タイプは「SPECIFIC」と同定される。
回答タイプ判定部34は、テキスト解析部30で解析された形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した肯定否定表現リスト40とに基づいて、応答文の回答タイプを判定する。
本実施の形態では、回答タイプ判定部34は、回答タイプとして、応答文が肯定否定型、用言型、及び名詞型のいずれであるかを判定する。
肯定否定型は、「はい」「いいえ」など、肯定又は否定を表す表現で応答している応答文が該当する。
用言型は、「光っていません」「赤い」のように、応答文の述語が用言(動詞、形容詞、形容動詞)の応答文が該当する。
名詞型は、「赤色です」「3回です」のように名詞や数値等で応答している応答文が該当する。
回答タイプ判定部34は、具体的には、まず図3に示すような予め用意した肯定否定表現リスト40の表現を参照し、応答文中に肯定否定表現リスト40にマッチする表現があれば肯定否定型と判定する。肯定否定表現リスト40にマッチする表現がない場合は、応答文の末尾に用言が出現すれば用言型と判定し、用言型でもなければ名詞型という流れで判定を行う。また、肯定否定表現リスト40の表現の各々には、それぞれ肯定又は否定の種類が付随しており、後述する回答文生成部42の処理で使用する。
表2の例では、応答文中に用言が存在しないため名詞型と判断される。
回答表現抽出部36は、テキスト解析部30で解析された形態素解析済みの応答文の品詞情報に基づいて、応答文に含まれる固有表現又は名詞を回答表現として抽出する。回答にあたる表現は、基本的には固有表現か名詞であるため、応答文の最も末尾に出現する固有表現もしくは名詞の連続を応答表現として抽出すればよい。該当する表現がなければ何も出力しない。例えば、応答文「赤色です」では、品詞が名詞の「赤色」が回答表現となる。
回答文生成部42は、形態素解析済みの質問文及び応答文と、質問表現同定部32により同定された疑問詞及び質問表現と、回答タイプ判定部34により判定された回答タイプと、回答表現抽出部36により抽出された回答表現とに基づいて、質問文に対する回答文を生成する。
回答文生成部42は、具体的には、判定された回答タイプに対して予め定められた書き換え方法に基づいて回答文を生成する。
回答文生成部42は、回答タイプが肯定否定型の場合、質問文を平叙文に書き換えて回答文とする。平叙文への書き換えは、疑問を表す「?」や疑問を表す終助詞(たとえば「か」)を削除することで実現できる。例えば、「赤ランプが点灯していますか?」「はい」という質問文と、肯定否定型の種類が肯定の応答文とが入力だった場合、書き換えにより「赤ランプが点灯しています」が回答文となる。また、肯定否定型の種類が否定だった場合、文末を否定形に書き換える。否定形への書き換えは、形態素の表記や品詞等を用いることで実現できる。たとえば「赤ランプが点灯しています」という例で、形態素「ます」の品詞は「動詞接尾辞:終止」だとすると、「末尾形態素の表記が「ます」かつ「動詞接尾辞:終止」であれば「ません」にする」というような規則によって書き換えることができる。
回答文生成部42は、回答タイプが用言型の場合、回答文を生成せずに形態素解析済みの質問文と形態素解析済みの応答文とをそのまま述語項構造解析部48に出力する。
回答文生成部42は、回答タイプが名詞型の場合、質問表現と回答表現がどちらも存在すれば、質問文の質問表現を回答表現で置き換え、平叙文に修正して回答文とする。例えば、疑問詞タイプが「SPECIFIC」で、質問文が「ランプは何色に光っていますか?」、応答文が「赤色です」の場合、回答タイプが名詞型、質問表現が「何色」、回答表現が「赤色」であるため、疑問を表す「?」や疑問を表す終助詞を削除して、質問表現「何色」を回答表現「赤色」に書き換えることで、「ランプは赤色に光っています」という回答文を生成する。なお、疑問詞タイプが「WHICH」以外の疑問詞タイプの場合には、同様の処理を行う。
疑問詞タイプが「WHICH」の場合は、質問表現より前の部分は切り捨てる。例えば「AとBのどちらが光っていますか?」「Aです」が入力だった場合、「どちら」が質問表現で疑問詞タイプは「WHICH」、回答表現が「A」であるため、疑問を表す「?」や疑問を表す終助詞を削除すると共に、「AとBの」を切り捨て、質問表現「どちら」を回答表現「A」に書き換えて「Aが光っています」という回答文を生成する。なお、名詞型の場合において、質問表現と回答表現のいずれかが存在しない場合は何も出力しない。
述語項構造抽出部44は、回答文生成部42で生成された回答文に対して、予め定めた述語項構造抽出規則46を適用して、述語項構造抽出規則46がマッチした部分から、述語項構造を抽出し、出力部50に出力する。
述語項構造抽出規則46の規則と適用例を図4に示す。規則は、形態素区切りにして、正規表現で表したものである。形態素区切りを入れることで、形態素の一部に誤ってマッチするケースを防いでいる。図4の例ではタブが区切り文字となっている。また、回答文だけでなく、応答文に述語項構造抽出規則を適用するようにしてもよい。なお、規則にマッチしない場合には何も出力しない。このように、頻出するパターンを述語項構造抽出規則として予め用意しておくことで、処理速度を向上させること可能となる。
述語項構造解析部48は、前段の述語項構造抽出部44で何も出力されなかった場合に、回答文生成部42で生成された回答文に対して、既知の技術である述語項構造解析を行って述語項構造を生成し、出力する。
また、述語項構造解析部48は、回答文生成部42で回答文が生成されずに質問文と応答文が出力されている場合(回答タイプが用言型の場合)、出力された質問文と応答文との各々に対して述語項構造解析を行って、質問文と応答文との各々に対する述語項構造を生成し、述語が同じ質問文と応答文との各々に対する述語項構造において、質問文に対する述語項構造の格要素であって、応答文に対する述語項構造に含まれていない格要素と、述語との組み合わせである述語項構造を出力する。具体的には、質問文と応答文の述語項構造がともに存在する場合、二つの述語が同じであれば質問文にあって応答文にない項をコピーして回答文の述語項構造を生成し、出力する。その際、「何」「なん」等の疑問詞はコピーの対象外とする。述語が同じか否かは、たとえば述語の終止形が同じであるかどうかで判断できる。述語が異なる場合は応答文の述語項構造をそのまま出力する。応答文の述語項構造が存在しない場合は何も出力しない。
例えば、「ランプが光っていますか?」「緑に光ってます」という質問文と応答文が入力の場合、質問文の述語項構造は[述語:光る、ガ格:ランプ]であり、応答文の述語項構造は[述語:光る、ニ格:緑]となるため、述語は同じである。応答文の述語項構造にはガ格が省略されているため、質問文の述語項構造からガ格をコピーし[述語:光る、ガ格:ランプ、ニ格:緑]という回答文の述語項構造を生成し、出力部50に出力する。
<本発明の実施の形態に係る述語項構造抽出装置の作用>
次に、本発明の実施の形態に係る述語項構造抽出装置100の作用について説明する。入力部10において入力部10で受け付けた質問文と応答文とのペアを受け付けると、述語項構造抽出装置100は、図5に示す述語処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた質問文と応答文とのペアを取得する。
次に、ステップS102では、ステップS100で取得した質問文と応答文のそれぞれに対し、既知の技術である形態素解析及び固有表現抽出によりテキスト解析を行う。
ステップS104では、ステップS102で解析された形態素解析済みの質問文に対して、疑問詞の表記と疑問詞タイプとの組み合わせの各々が格納された辞書を用いて辞書引きを行い、質問文に含まれる疑問詞及び疑問詞タイプを同定すると共に、質問文の品詞情報と予め定められた質問表現抽出規則と同定された疑問詞とに基づいて、質問文に含まれる質問表現の範囲を同定する。
ステップS106では、ステップS102で解析された形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した肯定否定表現リスト40とに基づいて、応答文の回答タイプを判定する。
ステップS108では、ステップS102で解析された形態素解析済みの応答文の品詞情報に基づいて、応答文に含まれる固有表現又は名詞を回答表現として抽出する。
ステップS110では、ステップS106で判定された回答タイプが、肯定否定型、名詞型、及び用言型の何れであるかを判定し、肯定否定型又は名詞型であればステップS112へ移行し、用言型であればステップS120へ移行する。
ステップS112では、ステップS102で解析された形態素解析済みの質問文及び応答文と、ステップS104で同定された疑問詞及び質問表現と、ステップS106で判定された回答タイプと、ステップS108で抽出された回答表現とに基づいて、質問文に対する回答文を生成する。
ステップS114では、ステップS112で生成された回答文に対して、予め定めた述語項構造抽出規則46を適用して、述語項構造抽出規則46がマッチした部分から、回答文の述語項構造を抽出する。
ステップS116では、ステップS114で述語項構造が抽出されたかを判定し、抽出された場合はステップS124へ移行し、抽出されなかった場合はステップS118へ移行する。
ステップS118では、ステップS112で生成された回答文に対して述語項構造解析を行って、回答文の述語項構造を生成する。
ステップS120では、回答文を生成せずに形態素解析済みの質問文と形態素解析済みの応答文とを出力する。
ステップS122では、ステップS120で出力された質問文と応答文との各々に対して述語項構造解析を行って、質問文と応答文との各々に対する述語項構造を生成し、述語が同じ質問文と応答文との各々に対する述語項構造において、質問文に対する述語項構造の格要素であって、応答文に対する述語項構造に含まれていない格要素と、述語との組み合わせである述語項構造を、回答文の述語項構造として生成する。
ステップS124では、ステップS114で抽出され、又はステップS122で生成された回答文の述語項構造の結果を出力して処理を終了する。
以上説明したように、本発明の実施の形態に係る述語項構造抽出装置によれば、質問文の疑問詞及び質問表現を同定し、応答文の回答タイプを判定し、応答文の回答表現を抽出して、質問文と、応答文と、疑問詞及び質問表現と、回答タイプと、回答表現とに基づいて回答文を生成し、回答文から述語項構造を抽出することで、質問文と応答文とのペアから精度よく述語項構造を抽出できる。
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、肯定否定表現リストとの照合や応答文の末尾の表現などに基づいて応答文の回答タイプを判定したが、これに限定されるものではなく、予め応答文に対して、肯定否定型、用言型、及び名詞型の3タイプのタグを付与したデータを用意し、既知の教師あり学習の枠組みを用いて肯定否定型、用言型、及び名詞型を判断するモデルを作成しておき、応答文の入力に対して、作成したモデルを適用して回答タイプの判定を行ってもよい。
10 入力部
20 演算部
30 テキスト解析部
32 質問表現同定部
34 回答タイプ判定部
36 回答表現抽出部
38 疑問詞辞書
40 肯定否定表現リスト
42 回答文生成部
44 述語項構造抽出部
46 述語項構造抽出規則
48 述語項構造解析部
50 出力部
100 述語項構造抽出装置
上記目的を達成するために、本発明に係る述語項構造抽出装置は、入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出装置であって、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定する質問表現同定部と、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定する回答タイプ判定部と、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出する回答表現抽出部と、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記回答タイプに対して予め定められた書き換え方法に応じて、前記質問文を書き換えることにより、前記質問文に対する回答文を生成する回答文生成部と、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出する述語項構造抽出部と、を含んで構成されている。
本発明に係る述語項構造抽出方法は、入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出方法であって、質問表現同定部が、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定するステップと、回答タイプ判定部が、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定するステップと、回答表現抽出部が、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出するステップと、回答文生成部が、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記回答タイプに対して予め定められた書き換え方法に応じて、前記質問文を書き換えることにより、前記質問文に対する回答文を生成するステップと、述語項構造抽出部が、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出するステップと、を含んで実行することを特徴とする。

Claims (8)

  1. 入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出装置であって、
    前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定する質問表現同定部と、
    前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定する回答タイプ判定部と、
    前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出する回答表現抽出部と、
    前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記質問文に対する回答文を生成する回答文生成部と、
    前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出する述語項構造抽出部と、
    を含む述語項構造抽出装置。
  2. 前記述語項構造抽出部において述語項構造が抽出されなかった場合に、前記生成された回答文に対して述語項構造解析を行って、前記述語項構造を生成する述語項構造解析部を更に含む請求項1記載の述語項構造抽出装置。
  3. 前記回答タイプ判定部は、前記応答文の回答タイプとして、肯定否定型、用言型、及び名詞型の何れであるかを判定し、
    前記回答文生成部は、前記判定された回答タイプが肯定否定型又は名詞型であった場合には、前記回答タイプに対して予め定められた書き換え方法に基づいて、前記質問文に対する回答文を生成し、前記判定された回答タイプが用言型であった場合には、前記回答文を生成せずに、前記質問文及び前記応答文を前記述語項構造解析部に出力し、
    前記述語項構造解析部は、前記回答タイプ判定部において判定された回答タイプが用言型であった場合には、前記出力された前記質問文と前記応答文との各々に対して述語項構造解析を行って、前記質問文と前記応答文との各々に対する述語項構造を生成し、述語が同じ前記質問文と前記応答文との各々に対する述語項構造において、前記質問文に対する述語項構造の格要素であって、前記応答文に対する述語項構造に含まれていない格要素と、前記述語との組み合わせである述語項構造を出力する請求項2記載の述語項構造抽出装置。
  4. 入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出方法であって、
    質問表現同定部が、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定するステップと、
    回答タイプ判定部が、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定するステップと、
    回答表現抽出部が、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出するステップと、
    回答文生成部が、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記質問文に対する回答文を生成するステップと、
    述語項構造抽出部が、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出するステップと、
    を含む述語項構造抽出方法。
  5. 述語項構造解析部が、前記述語項構造抽出部において述語項構造が抽出されなかった場合に、前記生成された回答文に対して述語項構造解析を行って、前記述語項構造を生成するステップを更に含む請求項4記載の述語項構造抽出方法。
  6. 前記回答タイプ判定部が判定するステップは、前記応答文の回答タイプとして、肯定否定型、用言型、及び名詞型の何れであるかを判定し、
    前記回答文生成部が前記回答文を生成するステップは、前記判定された回答タイプが肯定否定型又は名詞型であった場合には、前記回答タイプに対して予め定められた書き換え方法に基づいて、前記質問文に対する回答文を生成し、前記判定された回答タイプが用言型であった場合には、前記回答文を生成せずに、前記質問文及び前記応答文を前記述語項構造解析部に出力し、
    前記述語項構造解析部が前記述語項構造を生成するステップは、前記回答タイプ判定部において判定された回答タイプが用言型であった場合には、前記出力された前記質問文と前記応答文との各々に対して述語項構造解析を行って、前記質問文と前記応答文との各々に対する述語項構造を生成し、述語が同じ前記質問文と前記応答文との各々に対する述語項構造において、前記質問文に対する述語項構造の格要素であって、前記応答文に対する述語項構造に含まれていない格要素と、前記述語との組み合わせである述語項構造を出力する請求項5記載の述語項構造抽出方法。
  7. コンピュータに、請求項1〜請求項3何れか1項に記載の述語項構造抽出装置の各部を実行させるためのプログラム。
  8. コンピュータに、請求項1〜請求項3何れか1項に記載の述語項構造抽出装置の各部を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2014183214A 2014-09-09 2014-09-09 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 Active JP5911931B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014183214A JP5911931B2 (ja) 2014-09-09 2014-09-09 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014183214A JP5911931B2 (ja) 2014-09-09 2014-09-09 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2016057810A true JP2016057810A (ja) 2016-04-21
JP5911931B2 JP5911931B2 (ja) 2016-04-27

Family

ID=55758607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014183214A Active JP5911931B2 (ja) 2014-09-09 2014-09-09 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP5911931B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209781A (zh) * 2018-08-13 2019-09-06 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN114548086A (zh) * 2020-11-26 2022-05-27 税友软件集团股份有限公司 一种事件文本数据处理方法及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022599A (ja) * 2010-07-16 2012-02-02 Hitachi Ltd 文構造解析装置、文構造解析方法および文構造解析プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022599A (ja) * 2010-07-16 2012-02-02 Hitachi Ltd 文構造解析装置、文構造解析方法および文構造解析プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6015030161; 萩行 正嗣 外2名: '著者・読者表現および外界ゼロ照応を考慮したゼロ照応解析' 言語処理学会第20回年次大会 発表論文集 [online] , 20140318, p.721-724, 言語処理学会 *
JPN6015030162; 松本 裕治 外2名: '述語と項の位置関係ごとの候補比較による日本語述語項構造解析' 自然言語処理 第21巻第1号, 20140314, p.3-25, 言語処理学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209781A (zh) * 2018-08-13 2019-09-06 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110209781B (zh) * 2018-08-13 2023-04-07 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN114548086A (zh) * 2020-11-26 2022-05-27 税友软件集团股份有限公司 一种事件文本数据处理方法及相关装置
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN112685549B (zh) * 2021-01-08 2022-07-29 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统

Also Published As

Publication number Publication date
JP5911931B2 (ja) 2016-04-27

Similar Documents

Publication Publication Date Title
Fernandes et al. Latent structure perceptron with feature induction for unrestricted coreference resolution
US10157171B2 (en) Annotation assisting apparatus and computer program therefor
US9342499B2 (en) Round-trip translation for automated grammatical error correction
WO2016051551A1 (ja) 文章生成システム
US20140180728A1 (en) Natural Language Processing
Gómez-Adorno et al. A graph based authorship identification approach
US20160124943A1 (en) Foreign language sentence creation support apparatus, method, and program
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Jain et al. Text independent root word identification in Hindi language using natural language processing
Hamdi et al. Automatically building a Tunisian lexicon for deverbal nouns
Lee et al. Splitting complex English sentences
JP5954836B2 (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム
KR102203895B1 (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
Van Zaanen et al. The development of Dutch and Afrikaans language resources for compound boundary analysis
JP6667875B2 (ja) 要約文作成モデル学習装置、要約文作成装置、要約文作成モデル学習方法、要約文作成方法、及びプログラム
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Rajalingam A rule based iterative affix stripping stemming algorithm for Tamil
JP5944859B2 (ja) 評価情報抽出装置、確信度学習装置、方法、及びプログラム
CN113158654B (zh) 一种领域模型提取方法、装置及可读存储介质
JP2017091100A (ja) 述語項構造抽出装置、方法、及びプログラム
Chhetri et al. Development of a morph analyser for Nepali noun token

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160330

R150 Certificate of patent or registration of utility model

Ref document number: 5911931

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150