JP7148077B2 - 木構造解析装置、方法、及びプログラム - Google Patents

木構造解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP7148077B2
JP7148077B2 JP2019035758A JP2019035758A JP7148077B2 JP 7148077 B2 JP7148077 B2 JP 7148077B2 JP 2019035758 A JP2019035758 A JP 2019035758A JP 2019035758 A JP2019035758 A JP 2019035758A JP 7148077 B2 JP7148077 B2 JP 7148077B2
Authority
JP
Japan
Prior art keywords
series
sentence
vector
paragraph
spans
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019035758A
Other languages
English (en)
Other versions
JP2020140464A (ja
Inventor
努 平尾
昌明 永田
尚輝 小林
学 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Tokyo Institute of Technology NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019035758A priority Critical patent/JP7148077B2/ja
Publication of JP2020140464A publication Critical patent/JP2020140464A/ja
Application granted granted Critical
Publication of JP7148077B2 publication Critical patent/JP7148077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、木構造解析装置、方法、及びプログラムに係り、特に、文書の木構造を解析するための木構造解析装置、方法、及びプログラムに関する。
従来の文書構造解析技術は、Rhetorical Structure Theory (RST)に基づき、文書を、Elementary Discourse Unit(EDU)と呼ばれる文よりも小さい、節に相当するテキストユニットを終端記号(葉) とし、2つ以上のEDUで構成されるスパンの役割を示すN/Sラベルを非終端記号とする2分木として表現する(図1)。なお、Nは系列の核であり、Sは系列の衛星をあらわす。こうした木構造を得るため、従来の多くの方法は、文書をEDUの系列データとみなし、EDUをボトムアップに組み上げていくことで文書全体の木を構築する(たとえば、非特許文献1など)。
duVerle, David and Prendinger, Helmut, "A Novel Discourse Parser Based on Support Vector Machine Classification", Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pp 665-673, 2009
従来の方法は、文書中の文、段落といった明示的に利用できる構造を利用していない。さらに、正解の木構造を訓練データとして木の構築に必要なパラメタを学習している。
本発明は、上記事情を鑑みて成されたものであり、訓練データがなくても、精度よく、文書を表す木構造を構築できる木構造解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の態様に係る木構造解析装置は、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力する木構造推定部と、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する木結合部と、を含んで構成されている。
第2の態様に係る木構造解析方法は、部分構造解析部が、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、木構造推定部が、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、木結合部が、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する。
第3の態様に係るプログラムは、コンピュータに、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力することを実行させるためのプログラムである。
本発明の一態様に係る木構造解析装置、方法、及びプログラムによれば、訓練データがなくても、精度よく、文書を表す木構造を構築できる、という効果が得られる。
一般的な木構造の一例を示す図である。 EDUの系列、文の系列、及び段落の系列を2分割して木構造を構築する方法を説明するための図である。 非終端記号を用いない木構造の一例を示す図である。 本発明の実施の形態に係る木構造解析装置の構成を示すブロック図である。 EDUの系列を2分割して、EDUを葉とする木構造を構築する方法を説明するための図である。 文の系列を2分割して、文を葉とする木構造を構築する方法を説明するための図である。 段落の系列を2分割して、段落を葉とする木構造を構築する方法を説明するための図である。 木構造推定部の具体的な内部構成を示す図である。 分割スコアが最小となる分割点で系列を分割する方法を説明するための図である。 木構造を結合する方法を説明するための図である。 木構造解析装置として機能するコンピュータの一例の概略ブロック図である。 本発明の実施の形態に係る木構造解析装置の木構造解析処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
本発明の実施の形態では、文、段落という構造を利用し、文書は段落の系列、段落は文の系列、文はEDUの系列としてとらえ、それぞれの系列を独立に2分割していくことで文書全体の構造木を構築する(図2)。系列の分割は、分割点に対する左右の系列間の類似スコアに基づくため、訓練データを必要としない。なお、本発明の実施の形態の目的は木構造の推定であり(図3)、木の非終端記号ラベル(N/S)の推定を明示的に行わない。ラベル推定は既存のテキスト分類手法などを利用すれば推定可能である。
<本発明の実施の形態に係る木構造解析装置の構成>
次に、本発明の実施の形態に係る木構造解析装置の構成について説明する。図4に示すように、本発明の実施の形態に係る木構造解析装置100は、機能的には、入力部10と、演算部20と、出力部50とを備えている。
入力部10は、解析対象となる文書を受け付ける。
演算部20は、部分構造解析部30と、木構造推定部32と、木結合部38とを含んで構成されている。
木構造解析装置100の処理の概要を説明する。木構造解析装置100は、入力として文書を受け取ると、部分構造解析部30にて文書を段落系列、段落を文系列、文をEDU系列に分割する。次に、木構造推定部32のベクトル変換部42にて、段落系列をベクトル系列へと変換し(図5)、文系列をベクトル系列へと変換し(図6)、EDU系列をベクトル系列へと変換する(図7)。いま、系列の長さをnとし、スコア計算部44にて受け取った系列の1番目のユニットからk番目のユニットの系列と、k+1番目のユニットからn番目のユニットの系列との間の分割スコアを計算し、それが最小となるk(1≦k≦n-1)で入力系列を2分割する。分割したそれぞれの系列に対しても同様にスコア計算部44で分割スコアを計算しそれが最小となる位置で系列を2分割することを再帰的に繰り返す。この分割は分割結果が系列を構成する最小ユニット(段落、文、EDU)になるまで繰り返す。これにより、EDUを葉とする木構造(図5)と、文を葉とする木構造(図6)と、段落を葉とする木構造(図7)とを構築する。木結合部38は、これらの木構造を結合し、最終的な木構造を出力する。EDUが基本単位の一例である。
以下、木構造解析装置100の各処理部について説明する。
部分構造解析部30は、入力部10で受け付けた文書について、文書の段落の系列(段落系列)への分割と、各段落に含まれる文の系列(文系列)への分割と、各文に含まれるEDUの系列(EDU系列)への分割とを行う。
具体的には、部分構造解析部30は、以下に説明するように、文書から、文、段落、文書の3つの構造に分割し、それぞれを、EDU系列、文系列、段落系列として出力する。EDU系列への分割は、EDU境界を認定する既存技術を用いればよい。文系列への分割は、句点を手がかりに文境界を認定すればよいし、既存の文境界認定技術を利用してもよい。また、段落系列への分割は、空行、字下げなどを手がかりとして分割すればよい。手がかりの情報がない場合には既存技術を用いて段落境界を認定すればよい。
木構造推定部32は、各文について、文に含まれるEDU系列を表すEDUベクトルの系列に基づいて、当該文に含まれるEDU系列を二つのスパンに分割することを、スパンの各々がEDUとなるまで再帰的に繰り返し、スパンの各々をノードとした二分木で表される、EDUを単位とした木構造を出力する。
また、木構造推定部32は、各段落について、段落に含まれる文系列の各文を表す文ベクトルの系列に基づいて、当該段落に含まれる文系列を二つのスパンに分割することを、スパンの各々が文となるまで再帰的に繰り返し、スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力する。
また、木構造推定部32は、文書に含まれる段落系列の各段落を表す段落ベクトルの系列に基づいて、文書に含まれる段落系列を二つのスパンに分割することを、スパンの各々が段落となるまで再帰的に繰り返し、スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力する。
具体的には、木構造推定部32は、図8に示すように、単語ベクトルデータベース40と、ベクトル変換部42と、スコア計算部44とを備えている。
単語ベクトルデータベース40には、各単語について、単語を表す単語ベクトルが格納されている。
ベクトル変換部42は、入力された系列をベクトル系列に変換する。ここで、入力された系列における最小ユニットのベクトルを、当該最小ユニットに含まれる単語のベクトルの加重平均とする。たとえば、SIF(smooth inverse frequency)などを用いればよい(非特許文献2参照)。
[非特許文献2]Arora, Sanjeev, Liang, Yingyu and Ma, Tengyu, "A Simple But Tough-to-best Baseline for Sentence Embeddings" on Support Vector Machine Classification", Proceedings of the ICLR-2017, 2017.
例えば、入力された系列が、段落系列の場合は、各段落を段落ベクトルに変換して、段落ベクトルの系列を出力する。入力された系列が、文系列の場合は、各文を文ベクトルに変換して、文ベクトルの系列を出力する。入力された系列が、EDU系列の場合は、各EDUをEDUベクトルに変換して、EDUベクトルの系列を出力する。
スコア計算部44は、文に含まれるEDU系列を二つのスパンに分割する位置を決定する際に、分割する位置より左側のEDU系列に対するベクトルと、分割する位置より右側のEDU系列に対するベクトルとに基づいて、分割スコアを計算する。
具体的には、系列の長さをnとすると系列を2分割するための分割候補はn-1箇所ある。つまり、1番目のEDUの直後からn-1番目のEDUの直後が分割候補となる。ここで、任意の分割点k(1≦k≦n-1)に対して、左側の系列のベクトル、右側の系列のベクトルを以下の式で定義する。
Figure 0007148077000001

(1)
Figure 0007148077000002

(2)
ここで、u(ei)はEDUのベクトルである。vleft(k)とvright(k)を用いて分割点kにおける分割スコアを以下の式で定義する。
Figure 0007148077000003

(3)
上記の分割スコアは、左側の系列のベクトルと、右側の系列のベクトルとの類似度を表している。
木構造推定部32は、以下の式にて可能な分割点kのうち分割スコアが最小となる分割点kにてEDU系列を分割する(図9)。
Figure 0007148077000004

(4)
上記のように分割スコアが最小となる分割点kにてEDU系列を分割することにより、左側の系列のベクトルと、右側の系列のベクトルとの類似度が最小となる分割点kにてEDU系列を分割することができる。
この手続きを分割後のEDU系列に対しても再帰的に行い、分割したEDU系列のすべてがEDUになるまで繰り返し、EDUを単位とした木構造を出力する。
なお、上記手続きは貪欲法と呼ばれる手法に基づいており、木全体での総分割スコアを最大化するとは限らない。そこで、木全体での総分割スコアを最大化する方法を以下に示す。上記同様EDU系列に対して木構造を推定する方法を例として説明する。
いま、任意の系列el:m(l番目のEDUからm番目のEDUまでの系列)をk(l≦k≦m-1)番目のEDUの直後で分割することを考える場合、その分割スコアの最大値V[l][m]はl番目のEDUからk番目のEDUで構成されるスパンの分割スコアの最大値V[l][k]、k番目のEDUでスパンを分割する際の分割スコアscore(k)、k+1番目のEDUからm番目のEDUで構成されるスパンの分割スコアの最大値V[k+1][m]を用いて以下の式で定義される。
Figure 0007148077000005

(5)
l、mとして木構造を推定したいEDU系列を与え、テーブルVをボトムアップに埋めていくと最終的には、V[l][m]が求まる。V[l][m]が求まったならEDU系列el:mを2分割する最適な分割点kが式(5)より定まっているので、分割点kにてEDU系列を分割する。分割後のEDU系列に対してもテーブルVを埋める過程で最適な分割が式(5)より定まっているのでそれに従い分割を繰り返す。このようにテーブルVをボトムアップに埋めていけば可能なすべての木から総分割スコアが最大となる木を獲得できる。計算量に関しては、貪欲法の方が少ないので利用する状況に応じて2つの手法を使い分ければ良い。
スコア計算部44は、EDU系列と同様に、段落に含まれる文系列を二つのスパンに分割する位置を決定する際に、分割する位置より左側の文系列に対するベクトルと、分割する位置より右側の文系列に対するベクトルとに基づいて、上記式(1)~式(3)に従って、分割スコアを計算する。このとき、u(ei)は文のベクトルである。
木構造推定部32は、上記式(4)にて可能な分割点kのうち分割スコアが最小となる分割点kにて文系列を分割する。この手続きを分割後の文系列に対しても再帰的に行い、分割した文系列のすべてが文になるまで繰り返し、文を単位とした木構造を出力する。
スコア計算部44は、EDU系列と同様に、文書に含まれる段落系列を二つのスパンに分割する位置を決定する際に、分割する位置より左側の段落系列に対するベクトルと、分割する位置より右側の段落系列に対するベクトルとに基づいて、上記式(1)~式(3)に従って、分割スコアを計算する。このとき、u(ei)は段落のベクトルである。
木構造推定部32は、上記式(4)にて可能な分割点kのうち分割スコアが最小となる分割点kにて段落系列を分割する。この手続きを分割後の段落系列に対しても再帰的に行い、分割した段落系列のすべてが段落になるまで繰り返し、段落を単位とした木構造を出力する。
木結合部38は、木構造推定部32で推定した、EDUを単位とした木構造、文を単位とした木構造、及び段落を単位とした木構造を結合して、出力部50により出力する。具体的には、段落を単位とした木構造の葉と、当該葉が表している段落について得られた、文を単位とした木構造の根とを結合し、文を単位とした木構造の葉と、当該葉が表している文について得られた、EDUを単位とした木構造の根とを結合する。
例えば、図10に示すように、段落p1を表す葉と、段落p1について得られた、文s1から文s5で構成される木構造の根とを結合し、文s1を表す葉と、文s1について得られた、EDUe1からEDUe6で構成される木構造の根を結合している。このように、すべての段落pに対して文sを葉とする木構造を結合した後、すべての文sに対してEDUeを葉とする木構造を結合する。
木構造解析装置100の各々は、一例として、図11に示すコンピュータ84によって実現される。コンピュータ84は、CPU86、メモリ88、プログラム82を記憶した記憶部92、モニタを含む表示部94、及びキーボードやマウスを含む入力部96を含んでいる。CPU86、メモリ88、記憶部92、表示部94、及び入力部96はバス98を介して互いに接続されている。
記憶部92はHDD、SSD、フラッシュメモリ等によって実現される。記憶部92には、コンピュータ84を木構造解析装置100として機能させるためのプログラム82が記憶されている。CPU86は、プログラム82を記憶部92から読み出してメモリ88に展開し、プログラム82を実行する。なお、プログラム82をコンピュータ可読媒体に格納して提供してもよい。
<本発明の実施の形態に係る木構造解析装置の作用>
次に、本発明の実施の形態に係る木構造解析装置100の作用について説明する。入力部10において文書を受け付けると、木構造解析装置100は、図12に示す木構造解析処理ルーチンを実行する。
まず、ステップS100では、部分構造解析部30は、入力部10で受け付けた文書について、段落系列への分割と、文系列への分割と、EDU系列への分割とを行う。
次に、ステップS101では、ベクトル変換部42は、EDU系列に基づいて、各EDUをEDUベクトルに変換して、EDUベクトルの系列を出力する。
ステップS102では、木構造推定部32は、可能な分割点kのうち分割スコアが最小となる分割点kにてEDU系列を分割することを、再帰的に行い、分割したEDU系列のすべてがEDUになるまで繰り返し、EDUを単位とした文の木構造を出力する。
次に、ステップS103では、ベクトル変換部42は、文系列に基づいて、各文を文ベクトルに変換して、文ベクトルの系列を出力する。
ステップS104では、木構造推定部32は、可能な分割点kのうち分割スコアが最小となる分割点kにて文系列を分割することを、再帰的に行い、分割した文系列のすべてが文になるまで繰り返し、文を単位とした段落の木構造を出力する。
次に、ステップS105では、ベクトル変換部42は、段落系列に基づいて、各段落を段落ベクトルに変換して、段落ベクトルの系列を出力する。
ステップS106では、木構造推定部32は、可能な分割点kのうち分割スコアが最小となる分割点kにて段落系列を分割することを、再帰的に行い、分割した段落系列のすべてが段落になるまで繰り返し、段落を単位とした文書の木構造を出力する。
ステップS108では、木結合部38は、上記ステップS102、S104、S106で推定した、EDUを単位とした木構造、文を単位とした木構造、及び段落を単位とした木構造を結合して、出力部50により出力し、木構造解析処理ルーチンを終了する。
以上説明したように、本発明の実施の形態に係る木構造解析装置によれば、各文について、EDUベクトルの系列に基づいて、文に含まれるEDU系列を二つのスパンに分割することを再帰的に繰り返し、基本単位を単位とした木構造を出力し、各段落について、文ベクトルの系列に基づいて、段落に含まれる文系列を二つのスパンに分割することを再帰的に繰り返し、文を単位とした木構造を出力し、段落ベクトルの系列に基づいて、文書に含まれる段落系列を二つのスパンに分割することを再帰的に繰り返し、段落を単位とした木構造を出力し、基本単位を単位とした木構造と、文を単位とした木構造と、段落を単位とした木構造とを最終的に結合することにより、訓練データがなくても、精度よく、文書を表す木構造を構築できる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
30 部分構造解析部
32 木構造推定部
38 木結合部
40 単語ベクトルデータベース
42 ベクトル変換部
44 スコア計算部
50 出力部
82 プログラム
84 コンピュータ
100 木構造解析装置

Claims (7)

  1. 文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、
    各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
    各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
    前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力する木構造推定部と、
    前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する木結合部と、
    を含む木構造解析装置。
  2. 前記木構造推定部は、前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記基本単位の系列に対するベクトルと、前記分割する位置より右側の前記基本単位の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
    前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記文の系列に対するベクトルと、前記分割する位置より右側の前記文の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
    前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記段落の系列に対するベクトルと、前記分割する位置より右側の前記段落の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定する請求項1記載の木構造解析装置。
  3. 前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
    前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
    前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算される請求項2記載の木構造解析装置。
  4. コンピュータが、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、
    各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
    各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
    前記コンピュータが、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、
    前記コンピュータが、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する
    木構造解析方法。
  5. 前記コンピュータが、前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記基本単位の系列に対するベクトルと、前記分割する位置より右側の前記基本単位の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
    前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記文の系列に対するベクトルと、前記分割する位置より右側の前記文の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
    前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記段落の系列に対するベクトルと、前記分割する位置より右側の前記段落の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定する請求項4に記載の木構造解析方法。
  6. 前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルとの類似度に基づいて前記コンピュータにより計算され、
    前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルとの類似度に基づいて前記コンピュータにより計算され、
    前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルとの類似度に基づいて前記コンピュータにより計算される請求項5に記載の木構造解析方法。
  7. コンピュータに、
    文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、
    各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
    各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
    前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、
    前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する
    ことを実行させるためのプログラム。
JP2019035758A 2019-02-28 2019-02-28 木構造解析装置、方法、及びプログラム Active JP7148077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019035758A JP7148077B2 (ja) 2019-02-28 2019-02-28 木構造解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019035758A JP7148077B2 (ja) 2019-02-28 2019-02-28 木構造解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020140464A JP2020140464A (ja) 2020-09-03
JP7148077B2 true JP7148077B2 (ja) 2022-10-05

Family

ID=72265028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019035758A Active JP7148077B2 (ja) 2019-02-28 2019-02-28 木構造解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7148077B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002117019A (ja) 2000-10-02 2002-04-19 Hewlett Packard Co <Hp> 意味的まとまりに基づいて文書を分割する装置および方法
JP2002169803A (ja) 2000-09-25 2002-06-14 Fujitsu Ltd 複数の文書を閲覧するための装置および方法
JP2007241902A (ja) 2006-03-10 2007-09-20 Univ Of Tsukuba テキストデータの分割システム及びテキストデータの分割及び階層化方法
JP2017076281A (ja) 2015-10-15 2017-04-20 日本電信電話株式会社 単語埋込学習装置、テキスト評価装置、方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169803A (ja) 2000-09-25 2002-06-14 Fujitsu Ltd 複数の文書を閲覧するための装置および方法
JP2002117019A (ja) 2000-10-02 2002-04-19 Hewlett Packard Co <Hp> 意味的まとまりに基づいて文書を分割する装置および方法
JP2007241902A (ja) 2006-03-10 2007-09-20 Univ Of Tsukuba テキストデータの分割システム及びテキストデータの分割及び階層化方法
JP2017076281A (ja) 2015-10-15 2017-04-20 日本電信電話株式会社 単語埋込学習装置、テキスト評価装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田村 直良 NAOYOSHI TAMURA,セグメントの分割と統合による文章の構造解析 Text Structuring by Composition and Decomposition of Segments,自然言語処理 第5巻 第1号 Journal of Natural Language Processing,日本,言語処理学会 The Association for Natural Language Processing,1998年01月10日,第5巻 第1号,59~78

Also Published As

Publication number Publication date
JP2020140464A (ja) 2020-09-03

Similar Documents

Publication Publication Date Title
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
US8447589B2 (en) Text paraphrasing method and program, conversion rule computing method and program, and text paraphrasing system
US7480612B2 (en) Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
US20170308526A1 (en) Compcuter Implemented machine translation apparatus and machine translation method
US9767193B2 (en) Generation apparatus and method
JP6778654B2 (ja) 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
JP7148077B2 (ja) 木構造解析装置、方法、及びプログラム
JP6062829B2 (ja) 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
US20050033566A1 (en) Natural language processing method
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
KR102569381B1 (ko) 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법
CN112652299B (zh) 时间序列语音识别深度学习模型的量化方法及装置
CN114611529A (zh) 意图识别方法和装置、电子设备及存储介质
CN110413779B (zh) 一种针对电力行业的词向量训练方法及其系统、介质
Ivanov et al. About one-sided one-symbol insertion-deletion P systems
JP2017041207A (ja) 構造解析装置、方法、及びプログラム
JP7054145B2 (ja) 談話構造解析装置、方法、及びプログラム
JP2017174009A (ja) 事態間知識抽出装置、事態間知識抽出方法、及びプログラム
Rajagukguk et al. Interpretable Semantic Textual Similarity for Indonesian Sentence
CN116978354B (zh) 韵律预测模型的训练方法及装置、语音合成方法及装置
JP6220761B2 (ja) モデル学習装置、文字列変換装置、方法、及びプログラム
JP6019538B2 (ja) 文対応付け決定装置、方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190301

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220913

R150 Certificate of patent or registration of utility model

Ref document number: 7148077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150