JP7054145B2 - 談話構造解析装置、方法、及びプログラム - Google Patents

談話構造解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP7054145B2
JP7054145B2 JP2019028629A JP2019028629A JP7054145B2 JP 7054145 B2 JP7054145 B2 JP 7054145B2 JP 2019028629 A JP2019028629 A JP 2019028629A JP 2019028629 A JP2019028629 A JP 2019028629A JP 7054145 B2 JP7054145 B2 JP 7054145B2
Authority
JP
Japan
Prior art keywords
spans
paragraph
sentence
tree
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019028629A
Other languages
English (en)
Other versions
JP2020135467A (ja
Inventor
努 平尾
昌明 永田
尚輝 小林
学 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Tokyo Institute of Technology NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019028629A priority Critical patent/JP7054145B2/ja
Publication of JP2020135467A publication Critical patent/JP2020135467A/ja
Application granted granted Critical
Publication of JP7054145B2 publication Critical patent/JP7054145B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、談話構造解析装置、方法、及びプログラムに係り、特に、文書の談話構造を解析するための談話構造解析装置、方法、及びプログラムに関する。
従来の談話構造解析技術として、文書を、基本単位であるElementary Discourse Unit(EDU)と呼ばれる文よりも小さい、節に相当するテキストユニットの系列データとみなし、EDUをボトムアップに組み上げていくことで文書全体の談話構造木(図1)を構築する手法が提案されている。図1は一般的な談話構造木の一例を示す図である。なお、図1に示すように以下の実施の形態において用いる談話構造木は2分木として表現される(たとえば、非特許文献1など)。図1において、終端記号はEDU(e)であり、非終端記号はそれが支配するスパン(連続したEDUの系列)が核(N)であるか衛星(S)であるかを表す。SからN、NからNをつなぐエッジにはElaboration、Same-Unitなどの関係ラベルが与えられる。
duVerle, David and Prendinger, Helmut, "A Novel Discourse Parser Based on Support Vector Machine Classication", Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pp 665{673, 2009
従来の方法は、文書中の文、段落といった明示的に利用できる構造を利用せずに単にEDUの系列としてとらえている。一般的には文書中のEDUの数が数十におよぶことは珍しくないため、多くのEDUを考慮しつつ木を構築していかなければならず解析性能が劣化する。また、文書中の文、段落といった構造を無視して、ボトムアップに木を構築していくとエラーが累積し、解析性能が劣化するという問題があった。
本発明は、上記事情を鑑みて成されたものであり、EDUの数に関わらず、精度よく、談話構造木を構築できる談話構造解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る談話構造解析装置は、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記基本単位の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力する文内解析部と、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記文の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する段落内解析部と、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記段落の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する文書内解析部と、前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力する木結合部と、を含んで構成されている。
また、第1の発明に係る談話構造解析装置において、前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とするようにしてもよい。
第2の発明に係る談話構造解析方法は、部分構造解析部が、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行うステップと、文内解析部が、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記基本単位の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力するステップと、段落内解析部が、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記文の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力するステップと、文書内解析部が、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記段落の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力するステップと、木結合部が、前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る談話構造解析方法において、前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とするようにしてもよい。
第3の発明に係るプログラムは、第1の発明に記載の談話構造解析装置の各部として機能させるためのプログラムである。
本発明の談話構造解析装置、方法、及びプログラムによれば、EDUの数に関わらず、精度よく、談話構造木を構築できる、という効果が得られる。
一般的な談話構造木の一例を示す図である。 文、段落、及び文書の部分構造木への分割例を示す図である。 本発明の実施の形態に係る談話構造解析装置の構成を示すブロック図である。 EDUを葉とする文内談話木の一例を示す図である。 文を葉とする文書内談話木の一例を示す図である。 段落を葉とする文書内談話木の一例を示す図である。 文内解析部、段落内解析部、及び文書内解析部に対応する具体的な内部構成を示す図である。 分類する関係ラベルの18種の種類の一例を示す図である。 本発明の実施の形態に係る談話構造解析装置の談話構造解析処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
本発明の実施の形態では、上記課題に対して、文書を文、段落、及び文書という3つの部分構造に分割し、それぞれの構造に対して、トップダウンで解析を行う。つまり、EDU系列、文系列、段落系列を2分することを繰り返し、木を構築する。図2は文、段落、及び文書の部分構造木への分割例を示す図である。
<本発明の実施の形態に係る談話構造解析装置の構成>
次に、本発明の実施の形態に係る談話構造解析装置の構成について説明する。図3に示すように、本発明の実施の形態に係る談話構造解析装置100は、CPUと、RAMと、後述する談話構造解析処理ルーチンを実行するためのプログラム及び各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この談話構造解析装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、談話構造を解析する対象となる文書を受け付ける。
演算部20は、部分構造解析部30と、文内解析部32と、段落内解析部34と、文書内解析部36と、木結合部38とを含んで構成されている。
図4はEDUを葉とする文内談話木の一例を示す図である。図5は文を葉とする文書内談話木の一例を示す図である。図6は段落を葉とする文書内談話木の一例を示す図である。
談話構造解析装置100の処理の概要を説明する。談話構造解析装置100は、入力として文書を受け取ると、文書を、文、段落、文書という構造に分割し、それぞれをEDU系列、文系列、段落系列として扱う。文内解析部32で、EDUを葉とする文内談話木(図4)を構築する。段落内解析部34で、文を葉とする段落内談話木(図5)、文書内解析部36で、段落を葉とする文書内談話木(図6)を構築する。木結合部38は、これらの木を結合し、最終的に談話構造木を出力する。EDUが基本単位の一例である。
図7は文内解析部32、段落内解析部34、及び文書内解析部36に対応する具体的な内部構成を示す図である。文内解析部32、段落内解析部34、及び文書内解析部36の具体的な内部処理は、図7に示す構成の各処理部によって実現される。内部処理を行う各処理部は、パラメタ学習部220と、ベクトル変換部230と、最適分割部232と、パラメタ記憶部234と、関係分類部236とを含んで構成される。内部処理については後述する。
以下、談話構造解析装置100の各処理部について説明する。
部分構造解析部30は、入力部10で受け付けた文書について、文書の段落の系列(段落系列)への分割と、各段落に含まれる文の系列(文系列)への分割と、各文に含まれるEDUの系列(EDU系列)への分割とを行う。
具体的には、部分構造解析部30は、以下に説明するように、文書から、文、段落、文書の3つの構造に分割し、それぞれEDU系列、文系列、段落系列として出力する。EDU系列への分割は、文をEDUへ分割する既存技術が提案されているのでそれを用いればよい。文系列への分割は、句点を手がかりに文を認定すればよい。また、文系列への分割は、既存の文境界認定器を利用することも可能である。段落系列への分割は、空行、字下げなどを手がかりとして分割すればよい。手がかりの情報がない場合には既存技術を用いて段落境界を認定すればよい。
文内解析部32は、各文について、当該文に含まれるEDUの系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共にEDUの系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々がEDUとなるまで再帰的に繰り返す。組み合わせの推定は、当該文に含まれるEDUの系列の各EDUを表すEDUベクトルと、EDUの系列を二つのスパンに分割する位置、及び二つのスパンの各々に付与する非終端記号の組み合わせを推定するための学習済みのモデルのパラメタ(後述するパラメタ記憶部234に記憶)とに基づく。文内解析部32は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、EDUを単位とした談話構造木である文内談話木を出力する。
段落内解析部34は、各段落について、当該段落に含まれる文の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に文の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が文となるまで再帰的に繰り返す。組み合わせの推定は、当該段落に含まれる文の系列の各文を表す文ベクトルと、学習済みのモデルのパラメタとに基づく。段落内解析部34は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する。
文書内解析部36は、文書に含まれる段落の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に段落の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が段落となるまで再帰的に繰り返す。組み合わせの推定は、文書に含まれる段落の系列の各段落を表す段落ベクトルと、学習済みのモデルのパラメタとに基づく。文書内解析部36は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する。
木結合部38は、文内解析部32が出力した文内談話木と、段落内解析部34が出力した段落内談話木と、文書内解析部36が出力した文書内談話木とに基づいて、文書のEDUと文と段落との構造を結合した談話構造木を出力部50に出力する。
次に、図7の文内解析部32、段落内解析部34、及び文書内解析部36の内部処理について、文内解析部32の場合を例に説明する。
ベクトル変換部230は、入力されたEDU系列をEDUベクトル系列に変換する。ベクトル変換部230は、EDUベクトル系列に基づいて任意のスパン(i番目のEDUからj(i<j)番目のEDUまでの連続したEDU系列)のベクトルを双方向LSTMを用いて構築する。EDUベクトルは、EDUに含まれる単語のベクトルの加重平均として表現される。単語のベクトルとしては、既存技術で得た単語ベクトルを利用すればよい。i番目のEDUからj番目のEDUで構成されるスパンのベクトルは、EDUベクトル系列全体を前向きLSTM、後ろ向きLSTMへ入力し、それぞれの内部状態ベクトルの差分を連結したものとする。つまり、Si,j=f-f;b-bとなる。fは前向きLSTMから得た内部状態ベクトル、bは後ろ向きLSTMから得た内部状態ベクトルである。また、「;」はベクトルを連結することを表す。
最適分割部232は、i番目のEDUからj番目のEDUで構成されるスパンのベクトルとパラメタを受け取り、入力されたスパンを2つのスパンに分割し、それぞれのスパンのラベルを与える。
具体的には、最適分割部232は、非終端記号のラベルの組み合わせ(l∈{N-S,S-N,N-N})のもっともらしさを表すスコアを以下の(1)式で定義する。
Figure 0007054145000001

・・・(1)
非終端記号のラベルの組み合わせは、i番目のEDUからj番目のEDUで構成されるスパンをあるEDU直後で分割した際の2つのスパンに対して与えるラベルの組み合わせである。なお、S-Sというラベルの組み合わせは談話構造解析の理論上ではありえない。また、W、v、bは学習済みモデルのパラメタ行列であり、パラメタ記憶部234に記憶されている。学習済みモデルのパラメタ行列W、v、bは、ラベル付きのEDU系列を入力として、パラメタ学習部220により予め学習しておけばよい。パラメタ学習部220については後述する。
最適分割部232は、i番目のEDUからj番目のEDUからなるスパンに対して、k番目のEDU(i≦k<j)の直後でスパンを分割する際のもっともらしさを表すスコアを以下の(2)式で定義する。
Figure 0007054145000002

・・・(2)
また、最適分割部232は、以下の(3)式にてスパンとしてのもっともらしさを最大にする位置kにてスパンを分割し、分割した2つのスパンに対してラベルを付与する。
Figure 0007054145000003

・・・(3)
ここで、Sbest()は以下の(4)式で定義する。
Figure 0007054145000004

・・・(4)
このように、スパンを分割する位置は、パラメタ記憶部234の学習済みのモデルのパラメタに基づいて定義される、分割する位置で分割したときに得られる二つのスパンのもっともらしさを最大にする位置となる。
上述したように、最適分割部232は、i番目のEDUからj番目のEDUで構成されるスパンのベクトルとパラメタを受け取り、以下の(5)式、(6)式に従って、入力されたスパンを位置^kで2つのスパンに分割し、それぞれのスパンのラベルの組み合わせ^lを与える。
Figure 0007054145000005

・・・(5)
Figure 0007054145000006

・・・(6)
最適分割部232は、i番目のEDUからj番目のEDUとして文の先頭のEDUから末尾のEDUを与え、2つのスパンに分割する手続きを再帰的に繰り返し、分割されたスパンが単体のEDUになるまで繰り返す。この手続が終了すると、文に対して非終端記号がNかS、終端記号がEDUとなる2分木が構築される。
関係分類部236は、ラベル付きの2つのスパンを受け取り関係ラベルを出力する。関係分類部236は、訓練データから正解の2つのラベル付きスパンが与えられたときに正解の関係ラベルを出力するように学習したモデル(図示省略)を用いればよい。図8は、分類する関係ラベルの18種の種類の一例を示す図である。
次に、パラメタ学習部220の事前処理を説明する。パラメタ学習部220は、i番目のEDUからj番目のEDUまでのスパンを表すベクトルと正しい分割を表すk、ラベルの組み合わせlが与えられるとする。パラメタ学習部220は、ランダムに初期化したパラメタを以下の(7)式のスコアを最大化するように逐次的に学習する。
Figure 0007054145000007

・・・(7)
ここで、^k、及び^lは、現在のパラメタにおける最良の分割とラベルの組み合わせであり、(5)式、及び(6)式で得る。
以上が文内解析部32を例にした内部処理の説明である。
段落内解析部34として処理する場合には、上記の内部処理において、EDU系列を文系列に置き換え、EDUベクトルを文ベクトルに置き換えて処理すればよい。ただし、文ベクトルは、文に含まれる単語のベクトルの加重平均として表現される。また、文書内解析部36として処理する場合には、上記の内部処理において、EDU系列を段落系列に置き換え、EDUベクトルを段落ベクトルに置き換えて処理すればよい。ただし、段落ベクトルは、段落に含まれる単語のベクトルの加重平均として表現される。
<本発明の実施の形態に係る談話構造解析装置の作用>
次に、本発明の実施の形態に係る談話構造解析装置100の作用について説明する。入力部10において文書を受け付けると、談話構造解析装置100は、図9に示す談話構造処理ルーチンを実行する。
まず、ステップS100では、部分構造解析部30は、入力部10で受け付けた文書について、文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれるEDUの系列への分割とを行う。
次に、ステップS102では、文内解析部32は、各文について、当該文に含まれるEDUの系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共にEDUの系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々がEDUとなるまで再帰的に繰り返す。組み合わせの推定は、当該文に含まれるEDUの系列の各EDUを表すEDUベクトルと、EDUの系列を二つのスパンに分割する位置と、二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づく。文内解析部32は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、EDUを単位とした談話構造木である文内談話木を出力する。
ステップS104では、段落内解析部34は、各段落について、当該段落に含まれる文の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に文の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が文となるまで再帰的に繰り返す。組み合わせの推定は、当該段落に含まれる文の系列の各文を表す文ベクトルと、学習済みのモデルのパラメタとに基づく。段落内解析部34は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する。
ステップS106では、文書内解析部36は、文書に含まれる段落の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に段落の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が段落となるまで再帰的に繰り返す。組み合わせの推定は、文書に含まれる段落の系列の各段落を表す段落ベクトルと、学習済みのモデルのパラメタとに基づく。文書内解析部36は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する。
ステップS108では、木結合部38は、文内解析部32が出力した文内談話木と、段落内解析部34が出力した段落内談話木と、文書内解析部36が出力した文書内談話木とに基づいて、文書のEDUと文と段落との構造を結合した談話構造木を出力部50に出力する。
以上説明したように、本発明の実施の形態に係る談話構造解析装置によれば、EDUの数に関わらず、精度よく、談話構造木を構築できる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
30 部分構造解析部
32 文内解析部
34 段落内解析部
36 文書内解析部
38 木結合部
50 出力部
100 談話構造解析装置
220 パラメタ学習部
230 ベクトル変換部
232 最適分割部
234 パラメタ記憶部
236 関係分類部

Claims (5)

  1. 文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、
    各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記基本単位の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力する文内解析部と、
    各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記文の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する段落内解析部と、
    前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記段落の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する文書内解析部と、
    前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力する木結合部と、
    を含む談話構造解析装置。
  2. 前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とする請求項1に記載の談話構造解析装置。
  3. 部分構造解析部が、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行うステップと、
    文内解析部が、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力するステップと、
    段落内解析部が、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力するステップと、
    文書内解析部が、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力するステップと、
    木結合部が、前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力するステップと、
    を含む談話構造解析方法。
  4. 前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とする請求項3に記載の談話構造解析方法。
  5. コンピュータを、請求項1又は請求項2に記載の談話構造解析装置の各部として機能させるためのプログラム。
JP2019028629A 2019-02-20 2019-02-20 談話構造解析装置、方法、及びプログラム Active JP7054145B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019028629A JP7054145B2 (ja) 2019-02-20 2019-02-20 談話構造解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019028629A JP7054145B2 (ja) 2019-02-20 2019-02-20 談話構造解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020135467A JP2020135467A (ja) 2020-08-31
JP7054145B2 true JP7054145B2 (ja) 2022-04-13

Family

ID=72263252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019028629A Active JP7054145B2 (ja) 2019-02-20 2019-02-20 談話構造解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7054145B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162198A (ja) 2015-03-02 2016-09-05 日本電信電話株式会社 パラメータ学習方法、装置、及びプログラム
US20180365228A1 (en) 2017-06-15 2018-12-20 Oracle International Corporation Tree kernel learning for text classification into classes of intent

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162198A (ja) 2015-03-02 2016-09-05 日本電信電話株式会社 パラメータ学習方法、装置、及びプログラム
US20180365228A1 (en) 2017-06-15 2018-12-20 Oracle International Corporation Tree kernel learning for text classification into classes of intent

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徳永 健伸,自然言語処理技術の最近の動向,情報処理,社団法人情報処理学会,1992年07月15日,第33巻 第7号,780~789

Also Published As

Publication number Publication date
JP2020135467A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
CN109597891B (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN106847288B (zh) 语音识别文本的纠错方法与装置
US8447589B2 (en) Text paraphrasing method and program, conversion rule computing method and program, and text paraphrasing system
US8655803B2 (en) Method of feature extraction from noisy documents
US20140236577A1 (en) Semantic Representations of Rare Words in a Neural Probabilistic Language Model
US10936950B1 (en) Processing sequential interaction data
JP2021022367A (ja) 画像処理方法及び情報処理装置
Maier et al. Discontinuous parsing with continuous trees
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
US6850930B2 (en) Method for transforming words to unique numerical representation
CN110751234A (zh) Ocr识别纠错方法、装置及设备
CN115203507A (zh) 一种面向文书领域的基于预训练模型的事件抽取方法
JP7054145B2 (ja) 談話構造解析装置、方法、及びプログラム
Leskes The value of agreement, a new boosting algorithm
CN112765985B (zh) 一种面向特定领域专利实施例的命名实体识别方法
JP6062829B2 (ja) 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム
CN113255353A (zh) 一种实体标准化方法
CN112016299A (zh) 计算机执行、利用神经网络生成依存句法树的方法及装置
CN116795789A (zh) 自动生成专利检索报告的方法及装置
CN113010717B (zh) 图像诗句描述生成方法、装置和设备
Haghdoost et al. Building a morphological network for persian on top of a morpheme-segmented lexicon
KR102569381B1 (ko) 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법
CN113641789B (zh) 基于分层融合多头注意力网络和卷积网络的观点检索方法及系统
JP7148077B2 (ja) 木構造解析装置、方法、及びプログラム
CN112214683B (zh) 基于异构信息网络的混合推荐模型处理方法、系统和介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220323

R150 Certificate of patent or registration of utility model

Ref document number: 7054145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150