JP2016057810A - 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 - Google Patents
述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2016057810A JP2016057810A JP2014183214A JP2014183214A JP2016057810A JP 2016057810 A JP2016057810 A JP 2016057810A JP 2014183214 A JP2014183214 A JP 2014183214A JP 2014183214 A JP2014183214 A JP 2014183214A JP 2016057810 A JP2016057810 A JP 2016057810A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- question
- answer
- term structure
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【課題】質問文と応答文とのペアから述語項構造を抽出できる。【解決手段】テキスト解析部30が質問文と応答文とのペアをテキスト解析し、質問表現同定部32が、解析済みの質問文から疑問詞及び質問表現を同定し、回答タイプ判定部34が、解析済みの応答文の回答タイプを判定し、回答表現抽出部36が、解析済みの応答文から回答表現を抽出し、回答文生成部42が、質問文と、応答文と、疑問詞及び質問表現と、回答タイプと、回答表現とに基づいて回答文を生成し、述語項構造抽出部44が、回答文から述語項構造を抽出する。【選択図】図1
Description
本発明は、述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体に係り、特に、質問文と応答文とのペアから述語項構造を抽出する述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体に関する。
テキストマイニングシステムでは、係り受け解析に基づいて「何がどうだ」を表す述語と項の形(e.g.[インターネット、つながらない])で集計が可能となっている(例えば非特許文献1)。現在のテキストマイニングシステムは、係り受け解析に基づいて述語と項を抽出するものがほとんどであるが、テキストから述語とその項を抽出する技術として「述語項構造解析」もある(例えば非特許文献2)。
脇森浩志,"ビッグデータに対するテキストマイニングとその適用例",UNISYS TECHNOLOGY REVIEW 第115号,2013.
今村賢治, 東中竜一郎, 泉朋子,"ゼロ代名詞照応付き述語項構造解析の対話への適応",言語処理学会第20回年次大会発表論文集,2014.
しかし対話テキストには、「インターネットにつながりますか?」「いいえ」のように、質問と回答が対になっているテキストが多く存在する。この場合、回答は「いいえ」のみとなり「インターネット、つながらない」という述語と項を獲得できない。
非特許文献2に記載されているように、従来の述語項構造解析技術は、述語に対して省略されている項を補完するものであり、述語が省略されているケースには対応していないため、「ルータのランプは何色に光っていますか?」「赤です」のように、回答側で述語が省略される場合に述語項構造を正しく獲得できない、という問題がある。
このように回答の述語項構造が正しく獲得できないと、たとえばコールセンタのデータでユーザの述語項情報で集計しようとしたときに正しい集計結果を得ることができない。
本発明は、上記問題点を解決するために成されたものであり、質問文と応答文とのペアから述語項構造を精度よく抽出できる述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体を提供することを目的とする。
上記目的を達成するために、本発明に係る述語項構造抽出装置は、入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出装置であって、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定する質問表現同定部と、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定する回答タイプ判定部と、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出する回答表現抽出部と、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記質問文に対する回答文を生成する回答文生成部と、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出する述語項構造抽出部と、を含んで構成されている。
また、本発明に係る述語項構造抽出装置において、前記述語項構造抽出部において述語項構造が抽出されなかった場合に、前記生成された回答文に対して述語項構造解析を行って、前記述語項構造を生成する述語項構造解析部を更に含んでもよい。
また、本発明に係る述語項構造抽出装置において、前記回答タイプ判定部は、前記応答文の回答タイプとして、肯定否定型、用言型、及び名詞型の何れであるかを判定し、前記回答文生成部は、前記判定された回答タイプが肯定否定型又は名詞型であった場合には、前記回答タイプに対して予め定められた書き換え方法に基づいて、前記質問文に対する回答文を生成し、前記判定された回答タイプが用言型であった場合には、前記回答文を生成せずに、前記質問文及び前記応答文を前記述語項構造解析部に出力し、前記述語項構造解析部は、前記回答タイプ判定部において判定された回答タイプが用言型であった場合には、前記出力された前記質問文と前記応答文との各々に対して述語項構造解析を行って、前記質問文と前記応答文との各々に対する述語項構造を生成し、述語が同じ前記質問文と前記応答文との各々に対する述語項構造において、前記質問文に対する述語項構造の格要素であって、前記応答文に対する述語項構造に含まれていない格要素と、前記述語との組み合わせである述語項構造を出力してもよい。
本発明に係る述語項構造抽出方法は、入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出方法であって、質問表現同定部が、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定するステップと、回答タイプ判定部が、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定するステップと、回答表現抽出部が、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出するステップと、回答文生成部が、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記質問文に対する回答文を生成するステップと、述語項構造抽出部が、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出するステップと、を含んで実行することを特徴とする。
また、本発明に係る述語項構造抽出方法において、述語項構造解析部が、前記述語項構造抽出部において述語項構造が抽出されなかった場合に、前記生成された回答文に対して述語項構造解析を行って、前記述語項構造を生成するステップを更に含んでもよい。
また、本発明に係る述語項構造抽出方法において、前記回答タイプ判定部が判定するステップは、前記応答文の回答タイプとして、肯定否定型、用言型、及び名詞型の何れであるかを判定し、前記回答文生成部が前記回答文を生成するステップは、前記判定された回答タイプが肯定否定型又は名詞型であった場合には、前記回答タイプに対して予め定められた書き換え方法に基づいて、前記質問文に対する回答文を生成し、前記判定された回答タイプが用言型であった場合には、前記回答文を生成せずに、前記質問文及び前記応答文を前記述語項構造解析部に出力し、前記述語項構造解析部が前記述語項構造を生成するステップは、前記回答タイプ判定部において判定された回答タイプが用言型であった場合には、前記出力された前記質問文と前記応答文との各々に対して述語項構造解析を行って、前記質問文と前記応答文との各々に対する述語項構造を生成し、述語が同じ前記質問文と前記応答文との各々に対する述語項構造において、前記質問文に対する述語項構造の格要素であって、前記応答文に対する述語項構造に含まれていない格要素と、前記述語との組み合わせである述語項構造を出力してもよい。
本発明に係るプログラムは、コンピュータに、上記の述語項構造抽出装置の各部を実行させるためのプログラムである。
本発明に係る記録媒体は、コンピュータに、上記の述語項構造抽出装置の各部を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明の述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体によれば、質問文の疑問詞及び質問表現を同定し、応答文の回答タイプを判定し、応答文の回答表現を抽出して、質問文と、応答文と、疑問詞及び質問表現と、回答タイプと、回答表現とに基づいて回答文を生成し、回答文から述語項構造を抽出することで、質問文と応答文とのペアから精度よく述語項構造を抽出できる、という効果が得られる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る述語項構造抽出装置の構成>
次に、本発明の実施の形態に係る述語項構造抽出装置の構成について説明する。図1に示すように、本発明の実施の形態に係る述語項構造抽出装置100は、CPUと、RAMと、後述する述語項構造抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この述語項構造抽出装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、対話テキストから得られる質問文と質問文に対する応答文とのペアを受け付ける。
演算部20は、テキスト解析部30と、質問表現同定部32と、回答タイプ判定部34と、回答表現抽出部36と、疑問詞辞書38と、肯定否定表現リスト40と、回答文生成部42と、述語項構造抽出部44と、述語項構造抽出規則46と、述語項構造解析部48とを含んで構成されている。
テキスト解析部30は、入力部10で受け付けた質問文と応答文とのペアを入力とし、それぞれの文に既知の技術である形態素解析及び固有表現抽出によりテキスト解析を行う。
以下の表1に質問文「ランプは何色に光っていますか?」、表2に応答文「赤色です」が入力された場合の形態素解析及び固有表現抽出の例を示す。なお、以下の例の場合、固有表現は存在していないため何も出力されない。
質問表現同定部32は、具体的には、まず形態素解析済みの質問文に対し、疑問詞辞書38を辞書引きすることで疑問詞を同定する。疑問詞辞書38には、図2に示すように、疑問詞の「出現表記」と「疑問詞タイプ」の組み合わせが格納されている。例えば疑問詞タイプには、人物を聞く「WHO」、数を聞く「NUMBER」、場所を聞く「WHERE」、理由や手段を聞く「HOW」、選択質問を表す「WHICH」などがある。また、「何県」「何色」のように、求めている答えが何か(e.g.県の名前、色の名前)が特定できる疑問詞の疑問詞タイプを「SPECIFIC」とする。疑問詞辞書38中の出現表記にマッチしなければ、以降の質問表現の範囲同定は行わず、質問表現は無しとなる。表1に示す例では、疑問詞辞書中の出現表記「何色」が解析済みの質問文にマッチし、疑問詞タイプが「SPECIFIC」として同定される。
次に、質問表現同定部32は質問表現の範囲の同定を行う。形態素解析済みの質問文と、同定された疑問詞とに対して、質問表現抽出規則を適用して、質問文における質問表現の範囲を同定する。ここでは、同定された疑問詞タイプ、疑問詞の品詞、疑問詞の直後の形態素の品詞などを用いて定められた質問表現抽出規則をもとに、質問文から質問表現の範囲を同定する。
例えば、質問表現抽出規則として以下の規則1〜規則4を適用することができる(二重引用符付きは疑問詞を表す)。なお、以下に挙げる規則は一例であり、これに限定されるものではなく、その他の規則を適用できることは勿論である。
規則1では、疑問詞の疑問詞タイプが「SPECIFIC」の場合、直後形態素に関わらず、疑問詞を質問表現として抽出する。例えば「“何色”のランプですか」から「質問表現:何色」を同定する。
規則2では、疑問詞の疑問詞タイプが「NUMBER」、「TIME」、又は「WHAT」であり、かつ疑問詞の品詞が「Number」の場合、直後形態素の品詞が「助数詞」であれば、当該疑問詞と直後形態素とをまとめて候補とし、候補の直後形態素表記が「の」でなければ、当該候補を質問表現として抽出する。例えば、「箱は“何”センチですか」から「質問表現:何センチ」を同定する。
規則3では、疑問詞の品詞が「連体詞」の場合、直後形態素の品詞が「名詞接尾辞:名詞」、「名詞」、「名詞:動作」、及び「冠名詞」のいずれかであれば、当該疑問詞と直後形態素とを候補としてまとめ、当該候補の直後形態素の表記が「の」でなければ、当該候補を質問表現として抽出する。例えば、「“どんな”色に光っていますか」から「質問表現:どんな色」を同定する。
規則4では、疑問詞の品詞が「連用詞」の場合、直後形態素の表記が「くらい」であれば、当該疑問詞と直後形態素とをまとめ、かつその後が「名詞接尾辞:名詞」、「名詞」、「名詞:動作」、及び「冠名詞」のいずれかであればまとめて候補とする。候補の直後形態素が「判定詞:終止」、「句点」、又は「の以外の格助詞」であれば、当該候補を質問表現として抽出する。例えば、「エラーは“何回”くらいありますか」から「質問表現:何回くらい」を同定する。
表1の例では、規則1が適用され、質問表現は「何色」、疑問詞タイプは「SPECIFIC」と同定される。
回答タイプ判定部34は、テキスト解析部30で解析された形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した肯定否定表現リスト40とに基づいて、応答文の回答タイプを判定する。
本実施の形態では、回答タイプ判定部34は、回答タイプとして、応答文が肯定否定型、用言型、及び名詞型のいずれであるかを判定する。
肯定否定型は、「はい」「いいえ」など、肯定又は否定を表す表現で応答している応答文が該当する。
用言型は、「光っていません」「赤い」のように、応答文の述語が用言(動詞、形容詞、形容動詞)の応答文が該当する。
名詞型は、「赤色です」「3回です」のように名詞や数値等で応答している応答文が該当する。
回答タイプ判定部34は、具体的には、まず図3に示すような予め用意した肯定否定表現リスト40の表現を参照し、応答文中に肯定否定表現リスト40にマッチする表現があれば肯定否定型と判定する。肯定否定表現リスト40にマッチする表現がない場合は、応答文の末尾に用言が出現すれば用言型と判定し、用言型でもなければ名詞型という流れで判定を行う。また、肯定否定表現リスト40の表現の各々には、それぞれ肯定又は否定の種類が付随しており、後述する回答文生成部42の処理で使用する。
表2の例では、応答文中に用言が存在しないため名詞型と判断される。
回答表現抽出部36は、テキスト解析部30で解析された形態素解析済みの応答文の品詞情報に基づいて、応答文に含まれる固有表現又は名詞を回答表現として抽出する。回答にあたる表現は、基本的には固有表現か名詞であるため、応答文の最も末尾に出現する固有表現もしくは名詞の連続を応答表現として抽出すればよい。該当する表現がなければ何も出力しない。例えば、応答文「赤色です」では、品詞が名詞の「赤色」が回答表現となる。
回答文生成部42は、形態素解析済みの質問文及び応答文と、質問表現同定部32により同定された疑問詞及び質問表現と、回答タイプ判定部34により判定された回答タイプと、回答表現抽出部36により抽出された回答表現とに基づいて、質問文に対する回答文を生成する。
回答文生成部42は、具体的には、判定された回答タイプに対して予め定められた書き換え方法に基づいて回答文を生成する。
回答文生成部42は、回答タイプが肯定否定型の場合、質問文を平叙文に書き換えて回答文とする。平叙文への書き換えは、疑問を表す「?」や疑問を表す終助詞(たとえば「か」)を削除することで実現できる。例えば、「赤ランプが点灯していますか?」「はい」という質問文と、肯定否定型の種類が肯定の応答文とが入力だった場合、書き換えにより「赤ランプが点灯しています」が回答文となる。また、肯定否定型の種類が否定だった場合、文末を否定形に書き換える。否定形への書き換えは、形態素の表記や品詞等を用いることで実現できる。たとえば「赤ランプが点灯しています」という例で、形態素「ます」の品詞は「動詞接尾辞:終止」だとすると、「末尾形態素の表記が「ます」かつ「動詞接尾辞:終止」であれば「ません」にする」というような規則によって書き換えることができる。
回答文生成部42は、回答タイプが用言型の場合、回答文を生成せずに形態素解析済みの質問文と形態素解析済みの応答文とをそのまま述語項構造解析部48に出力する。
回答文生成部42は、回答タイプが名詞型の場合、質問表現と回答表現がどちらも存在すれば、質問文の質問表現を回答表現で置き換え、平叙文に修正して回答文とする。例えば、疑問詞タイプが「SPECIFIC」で、質問文が「ランプは何色に光っていますか?」、応答文が「赤色です」の場合、回答タイプが名詞型、質問表現が「何色」、回答表現が「赤色」であるため、疑問を表す「?」や疑問を表す終助詞を削除して、質問表現「何色」を回答表現「赤色」に書き換えることで、「ランプは赤色に光っています」という回答文を生成する。なお、疑問詞タイプが「WHICH」以外の疑問詞タイプの場合には、同様の処理を行う。
疑問詞タイプが「WHICH」の場合は、質問表現より前の部分は切り捨てる。例えば「AとBのどちらが光っていますか?」「Aです」が入力だった場合、「どちら」が質問表現で疑問詞タイプは「WHICH」、回答表現が「A」であるため、疑問を表す「?」や疑問を表す終助詞を削除すると共に、「AとBの」を切り捨て、質問表現「どちら」を回答表現「A」に書き換えて「Aが光っています」という回答文を生成する。なお、名詞型の場合において、質問表現と回答表現のいずれかが存在しない場合は何も出力しない。
述語項構造抽出部44は、回答文生成部42で生成された回答文に対して、予め定めた述語項構造抽出規則46を適用して、述語項構造抽出規則46がマッチした部分から、述語項構造を抽出し、出力部50に出力する。
述語項構造抽出規則46の規則と適用例を図4に示す。規則は、形態素区切りにして、正規表現で表したものである。形態素区切りを入れることで、形態素の一部に誤ってマッチするケースを防いでいる。図4の例ではタブが区切り文字となっている。また、回答文だけでなく、応答文に述語項構造抽出規則を適用するようにしてもよい。なお、規則にマッチしない場合には何も出力しない。このように、頻出するパターンを述語項構造抽出規則として予め用意しておくことで、処理速度を向上させること可能となる。
述語項構造解析部48は、前段の述語項構造抽出部44で何も出力されなかった場合に、回答文生成部42で生成された回答文に対して、既知の技術である述語項構造解析を行って述語項構造を生成し、出力する。
また、述語項構造解析部48は、回答文生成部42で回答文が生成されずに質問文と応答文が出力されている場合(回答タイプが用言型の場合)、出力された質問文と応答文との各々に対して述語項構造解析を行って、質問文と応答文との各々に対する述語項構造を生成し、述語が同じ質問文と応答文との各々に対する述語項構造において、質問文に対する述語項構造の格要素であって、応答文に対する述語項構造に含まれていない格要素と、述語との組み合わせである述語項構造を出力する。具体的には、質問文と応答文の述語項構造がともに存在する場合、二つの述語が同じであれば質問文にあって応答文にない項をコピーして回答文の述語項構造を生成し、出力する。その際、「何」「なん」等の疑問詞はコピーの対象外とする。述語が同じか否かは、たとえば述語の終止形が同じであるかどうかで判断できる。述語が異なる場合は応答文の述語項構造をそのまま出力する。応答文の述語項構造が存在しない場合は何も出力しない。
例えば、「ランプが光っていますか?」「緑に光ってます」という質問文と応答文が入力の場合、質問文の述語項構造は[述語:光る、ガ格:ランプ]であり、応答文の述語項構造は[述語:光る、ニ格:緑]となるため、述語は同じである。応答文の述語項構造にはガ格が省略されているため、質問文の述語項構造からガ格をコピーし[述語:光る、ガ格:ランプ、ニ格:緑]という回答文の述語項構造を生成し、出力部50に出力する。
<本発明の実施の形態に係る述語項構造抽出装置の作用>
次に、本発明の実施の形態に係る述語項構造抽出装置100の作用について説明する。入力部10において入力部10で受け付けた質問文と応答文とのペアを受け付けると、述語項構造抽出装置100は、図5に示す述語処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた質問文と応答文とのペアを取得する。
次に、ステップS102では、ステップS100で取得した質問文と応答文のそれぞれに対し、既知の技術である形態素解析及び固有表現抽出によりテキスト解析を行う。
ステップS104では、ステップS102で解析された形態素解析済みの質問文に対して、疑問詞の表記と疑問詞タイプとの組み合わせの各々が格納された辞書を用いて辞書引きを行い、質問文に含まれる疑問詞及び疑問詞タイプを同定すると共に、質問文の品詞情報と予め定められた質問表現抽出規則と同定された疑問詞とに基づいて、質問文に含まれる質問表現の範囲を同定する。
ステップS106では、ステップS102で解析された形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した肯定否定表現リスト40とに基づいて、応答文の回答タイプを判定する。
ステップS108では、ステップS102で解析された形態素解析済みの応答文の品詞情報に基づいて、応答文に含まれる固有表現又は名詞を回答表現として抽出する。
ステップS110では、ステップS106で判定された回答タイプが、肯定否定型、名詞型、及び用言型の何れであるかを判定し、肯定否定型又は名詞型であればステップS112へ移行し、用言型であればステップS120へ移行する。
ステップS112では、ステップS102で解析された形態素解析済みの質問文及び応答文と、ステップS104で同定された疑問詞及び質問表現と、ステップS106で判定された回答タイプと、ステップS108で抽出された回答表現とに基づいて、質問文に対する回答文を生成する。
ステップS114では、ステップS112で生成された回答文に対して、予め定めた述語項構造抽出規則46を適用して、述語項構造抽出規則46がマッチした部分から、回答文の述語項構造を抽出する。
ステップS116では、ステップS114で述語項構造が抽出されたかを判定し、抽出された場合はステップS124へ移行し、抽出されなかった場合はステップS118へ移行する。
ステップS118では、ステップS112で生成された回答文に対して述語項構造解析を行って、回答文の述語項構造を生成する。
ステップS120では、回答文を生成せずに形態素解析済みの質問文と形態素解析済みの応答文とを出力する。
ステップS122では、ステップS120で出力された質問文と応答文との各々に対して述語項構造解析を行って、質問文と応答文との各々に対する述語項構造を生成し、述語が同じ質問文と応答文との各々に対する述語項構造において、質問文に対する述語項構造の格要素であって、応答文に対する述語項構造に含まれていない格要素と、述語との組み合わせである述語項構造を、回答文の述語項構造として生成する。
ステップS124では、ステップS114で抽出され、又はステップS122で生成された回答文の述語項構造の結果を出力して処理を終了する。
以上説明したように、本発明の実施の形態に係る述語項構造抽出装置によれば、質問文の疑問詞及び質問表現を同定し、応答文の回答タイプを判定し、応答文の回答表現を抽出して、質問文と、応答文と、疑問詞及び質問表現と、回答タイプと、回答表現とに基づいて回答文を生成し、回答文から述語項構造を抽出することで、質問文と応答文とのペアから精度よく述語項構造を抽出できる。
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、肯定否定表現リストとの照合や応答文の末尾の表現などに基づいて応答文の回答タイプを判定したが、これに限定されるものではなく、予め応答文に対して、肯定否定型、用言型、及び名詞型の3タイプのタグを付与したデータを用意し、既知の教師あり学習の枠組みを用いて肯定否定型、用言型、及び名詞型を判断するモデルを作成しておき、応答文の入力に対して、作成したモデルを適用して回答タイプの判定を行ってもよい。
10 入力部
20 演算部
30 テキスト解析部
32 質問表現同定部
34 回答タイプ判定部
36 回答表現抽出部
38 疑問詞辞書
40 肯定否定表現リスト
42 回答文生成部
44 述語項構造抽出部
46 述語項構造抽出規則
48 述語項構造解析部
50 出力部
100 述語項構造抽出装置
20 演算部
30 テキスト解析部
32 質問表現同定部
34 回答タイプ判定部
36 回答表現抽出部
38 疑問詞辞書
40 肯定否定表現リスト
42 回答文生成部
44 述語項構造抽出部
46 述語項構造抽出規則
48 述語項構造解析部
50 出力部
100 述語項構造抽出装置
上記目的を達成するために、本発明に係る述語項構造抽出装置は、入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出装置であって、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定する質問表現同定部と、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定する回答タイプ判定部と、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出する回答表現抽出部と、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記回答タイプに対して予め定められた書き換え方法に応じて、前記質問文を書き換えることにより、前記質問文に対する回答文を生成する回答文生成部と、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出する述語項構造抽出部と、を含んで構成されている。
本発明に係る述語項構造抽出方法は、入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出方法であって、質問表現同定部が、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定するステップと、回答タイプ判定部が、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定するステップと、回答表現抽出部が、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出するステップと、回答文生成部が、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記回答タイプに対して予め定められた書き換え方法に応じて、前記質問文を書き換えることにより、前記質問文に対する回答文を生成するステップと、述語項構造抽出部が、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出するステップと、を含んで実行することを特徴とする。
Claims (8)
- 入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出装置であって、
前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定する質問表現同定部と、
前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定する回答タイプ判定部と、
前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出する回答表現抽出部と、
前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記質問文に対する回答文を生成する回答文生成部と、
前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出する述語項構造抽出部と、
を含む述語項構造抽出装置。 - 前記述語項構造抽出部において述語項構造が抽出されなかった場合に、前記生成された回答文に対して述語項構造解析を行って、前記述語項構造を生成する述語項構造解析部を更に含む請求項1記載の述語項構造抽出装置。
- 前記回答タイプ判定部は、前記応答文の回答タイプとして、肯定否定型、用言型、及び名詞型の何れであるかを判定し、
前記回答文生成部は、前記判定された回答タイプが肯定否定型又は名詞型であった場合には、前記回答タイプに対して予め定められた書き換え方法に基づいて、前記質問文に対する回答文を生成し、前記判定された回答タイプが用言型であった場合には、前記回答文を生成せずに、前記質問文及び前記応答文を前記述語項構造解析部に出力し、
前記述語項構造解析部は、前記回答タイプ判定部において判定された回答タイプが用言型であった場合には、前記出力された前記質問文と前記応答文との各々に対して述語項構造解析を行って、前記質問文と前記応答文との各々に対する述語項構造を生成し、述語が同じ前記質問文と前記応答文との各々に対する述語項構造において、前記質問文に対する述語項構造の格要素であって、前記応答文に対する述語項構造に含まれていない格要素と、前記述語との組み合わせである述語項構造を出力する請求項2記載の述語項構造抽出装置。 - 入力された形態素解析済みの質問文と形態素解析済みの応答文とのペアから、述語と前記述語に対応する格要素との組み合わせである述語項構造を抽出する述語項構造抽出方法であって、
質問表現同定部が、前記形態素解析済みの質問文に対して、疑問詞の表記が格納された辞書を用いて辞書引きを行い、前記質問文に含まれる疑問詞を同定すると共に、前記質問文の品詞情報と予め定められた質問表現抽出規則と前記同定された疑問詞とに基づいて、前記質問文に含まれる質問表現の範囲を同定するステップと、
回答タイプ判定部が、前記形態素解析済みの応答文の品詞情報と、複数の肯定表現及び複数の否定表現を格納した表現リストとに基づいて、前記応答文の回答タイプを判定するステップと、
回答表現抽出部が、前記応答文の品詞情報に基づいて、前記応答文に含まれる固有表現又は名詞を回答表現として抽出するステップと、
回答文生成部が、前記質問文と、前記応答文と、前記質問表現同定部により同定された疑問詞及び質問表現と、前記回答タイプ判定部により判定された回答タイプと、前記回答表現抽出部により抽出された回答表現とに基づいて、前記質問文に対する回答文を生成するステップと、
述語項構造抽出部が、前記回答文生成部により生成した回答文から、予め定められた述語項構造抽出規則に従って、前記述語項構造を抽出するステップと、
を含む述語項構造抽出方法。 - 述語項構造解析部が、前記述語項構造抽出部において述語項構造が抽出されなかった場合に、前記生成された回答文に対して述語項構造解析を行って、前記述語項構造を生成するステップを更に含む請求項4記載の述語項構造抽出方法。
- 前記回答タイプ判定部が判定するステップは、前記応答文の回答タイプとして、肯定否定型、用言型、及び名詞型の何れであるかを判定し、
前記回答文生成部が前記回答文を生成するステップは、前記判定された回答タイプが肯定否定型又は名詞型であった場合には、前記回答タイプに対して予め定められた書き換え方法に基づいて、前記質問文に対する回答文を生成し、前記判定された回答タイプが用言型であった場合には、前記回答文を生成せずに、前記質問文及び前記応答文を前記述語項構造解析部に出力し、
前記述語項構造解析部が前記述語項構造を生成するステップは、前記回答タイプ判定部において判定された回答タイプが用言型であった場合には、前記出力された前記質問文と前記応答文との各々に対して述語項構造解析を行って、前記質問文と前記応答文との各々に対する述語項構造を生成し、述語が同じ前記質問文と前記応答文との各々に対する述語項構造において、前記質問文に対する述語項構造の格要素であって、前記応答文に対する述語項構造に含まれていない格要素と、前記述語との組み合わせである述語項構造を出力する請求項5記載の述語項構造抽出方法。 - コンピュータに、請求項1〜請求項3何れか1項に記載の述語項構造抽出装置の各部を実行させるためのプログラム。
- コンピュータに、請求項1〜請求項3何れか1項に記載の述語項構造抽出装置の各部を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014183214A JP5911931B2 (ja) | 2014-09-09 | 2014-09-09 | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014183214A JP5911931B2 (ja) | 2014-09-09 | 2014-09-09 | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016057810A true JP2016057810A (ja) | 2016-04-21 |
JP5911931B2 JP5911931B2 (ja) | 2016-04-27 |
Family
ID=55758607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014183214A Active JP5911931B2 (ja) | 2014-09-09 | 2014-09-09 | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5911931B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209781A (zh) * | 2018-08-13 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
CN112685549A (zh) * | 2021-01-08 | 2021-04-20 | 昆明理工大学 | 融入篇章语义的涉案新闻要素实体识别方法及系统 |
CN114548086A (zh) * | 2020-11-26 | 2022-05-27 | 税友软件集团股份有限公司 | 一种事件文本数据处理方法及相关装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012022599A (ja) * | 2010-07-16 | 2012-02-02 | Hitachi Ltd | 文構造解析装置、文構造解析方法および文構造解析プログラム |
-
2014
- 2014-09-09 JP JP2014183214A patent/JP5911931B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012022599A (ja) * | 2010-07-16 | 2012-02-02 | Hitachi Ltd | 文構造解析装置、文構造解析方法および文構造解析プログラム |
Non-Patent Citations (2)
Title |
---|
JPN6015030161; 萩行 正嗣 外2名: '著者・読者表現および外界ゼロ照応を考慮したゼロ照応解析' 言語処理学会第20回年次大会 発表論文集 [online] , 20140318, p.721-724, 言語処理学会 * |
JPN6015030162; 松本 裕治 外2名: '述語と項の位置関係ごとの候補比較による日本語述語項構造解析' 自然言語処理 第21巻第1号, 20140314, p.3-25, 言語処理学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209781A (zh) * | 2018-08-13 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
CN110209781B (zh) * | 2018-08-13 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
CN114548086A (zh) * | 2020-11-26 | 2022-05-27 | 税友软件集团股份有限公司 | 一种事件文本数据处理方法及相关装置 |
CN112685549A (zh) * | 2021-01-08 | 2021-04-20 | 昆明理工大学 | 融入篇章语义的涉案新闻要素实体识别方法及系统 |
CN112685549B (zh) * | 2021-01-08 | 2022-07-29 | 昆明理工大学 | 融入篇章语义的涉案新闻要素实体识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5911931B2 (ja) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fernandes et al. | Latent structure perceptron with feature induction for unrestricted coreference resolution | |
US10157171B2 (en) | Annotation assisting apparatus and computer program therefor | |
US9342499B2 (en) | Round-trip translation for automated grammatical error correction | |
WO2016051551A1 (ja) | 文章生成システム | |
US20140180728A1 (en) | Natural Language Processing | |
Gómez-Adorno et al. | A graph based authorship identification approach | |
US20160124943A1 (en) | Foreign language sentence creation support apparatus, method, and program | |
Jayan et al. | A hybrid statistical approach for named entity recognition for malayalam language | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
Jain et al. | Text independent root word identification in Hindi language using natural language processing | |
Hamdi et al. | Automatically building a Tunisian lexicon for deverbal nouns | |
Lee et al. | Splitting complex English sentences | |
JP5954836B2 (ja) | 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム | |
JP6586055B2 (ja) | 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
KR102203895B1 (ko) | 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체 | |
JP2018077604A (ja) | 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置 | |
Van Zaanen et al. | The development of Dutch and Afrikaans language resources for compound boundary analysis | |
JP6667875B2 (ja) | 要約文作成モデル学習装置、要約文作成装置、要約文作成モデル学習方法、要約文作成方法、及びプログラム | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
Rajalingam | A rule based iterative affix stripping stemming algorithm for Tamil | |
JP5944859B2 (ja) | 評価情報抽出装置、確信度学習装置、方法、及びプログラム | |
CN113158654B (zh) | 一种领域模型提取方法、装置及可读存储介质 | |
JP2017091100A (ja) | 述語項構造抽出装置、方法、及びプログラム | |
Chhetri et al. | Development of a morph analyser for Nepali noun token |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5911931 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |