JP2020140464A - 木構造解析装置、方法、及びプログラム - Google Patents
木構造解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2020140464A JP2020140464A JP2019035758A JP2019035758A JP2020140464A JP 2020140464 A JP2020140464 A JP 2020140464A JP 2019035758 A JP2019035758 A JP 2019035758A JP 2019035758 A JP2019035758 A JP 2019035758A JP 2020140464 A JP2020140464 A JP 2020140464A
- Authority
- JP
- Japan
- Prior art keywords
- series
- paragraph
- sentence
- tree structure
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明の実施の形態では、文、段落という構造を利用し、文書は段落の系列、段落は文の系列、文はEDUの系列としてとらえ、それぞれの系列を独立に2分割していくことで文書全体の構造木を構築する(図2)。系列の分割は、分割点に対する左右の系列間の類似スコアに基づくため、訓練データを必要としない。なお、本発明の実施の形態の目的は木構造の推定であり(図3)、木の非終端記号ラベル(N/S)の推定を明示的に行わない。ラベル推定は既存のテキスト分類手法などを利用すれば推定可能である。
次に、本発明の実施の形態に係る木構造解析装置の構成について説明する。図4に示すように、本発明の実施の形態に係る木構造解析装置100は、機能的には、入力部10と、演算部20と、出力部50とを備えている。
(1)
(2)
(3)
(4)
(5)
次に、本発明の実施の形態に係る木構造解析装置100の作用について説明する。入力部10において文書を受け付けると、木構造解析装置100は、図12に示す木構造解析処理ルーチンを実行する。
20 演算部
30 部分構造解析部
32 木構造推定部
38 木結合部
40 単語ベクトルデータベース
42 ベクトル変換部
44 スコア計算部
50 出力部
82 プログラム
84 コンピュータ
100 木構造解析装置
Claims (7)
- 文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力する木構造推定部と、
前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する木結合部と、
を含む木構造解析装置。 - 前記木構造推定部は、前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記基本単位の系列に対するベクトルと、前記分割する位置より右側の前記基本単位の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記文の系列に対するベクトルと、前記分割する位置より右側の前記文の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記段落の系列に対するベクトルと、前記分割する位置より右側の前記段落の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定する請求項1記載の木構造解析装置。 - 前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算される請求項2記載の木構造解析装置。 - 部分構造解析部が、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
木構造推定部が、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、
木結合部が、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する
木構造解析方法。 - 前記木構造推定部が、前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記基本単位の系列に対するベクトルと、前記分割する位置より右側の前記基本単位の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記文の系列に対するベクトルと、前記分割する位置より右側の前記文の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記段落の系列に対するベクトルと、前記分割する位置より右側の前記段落の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定する請求項4に記載の木構造解析方法。 - 前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算される請求項5に記載の木構造解析方法。 - コンピュータに、
文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、
前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する
ことを実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019035758A JP7148077B2 (ja) | 2019-02-28 | 2019-02-28 | 木構造解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019035758A JP7148077B2 (ja) | 2019-02-28 | 2019-02-28 | 木構造解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020140464A true JP2020140464A (ja) | 2020-09-03 |
JP7148077B2 JP7148077B2 (ja) | 2022-10-05 |
Family
ID=72265028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019035758A Active JP7148077B2 (ja) | 2019-02-28 | 2019-02-28 | 木構造解析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7148077B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002117019A (ja) * | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | 意味的まとまりに基づいて文書を分割する装置および方法 |
JP2002169803A (ja) * | 2000-09-25 | 2002-06-14 | Fujitsu Ltd | 複数の文書を閲覧するための装置および方法 |
JP2007241902A (ja) * | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
JP2017076281A (ja) * | 2015-10-15 | 2017-04-20 | 日本電信電話株式会社 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
-
2019
- 2019-02-28 JP JP2019035758A patent/JP7148077B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169803A (ja) * | 2000-09-25 | 2002-06-14 | Fujitsu Ltd | 複数の文書を閲覧するための装置および方法 |
JP2002117019A (ja) * | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | 意味的まとまりに基づいて文書を分割する装置および方法 |
JP2007241902A (ja) * | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
JP2017076281A (ja) * | 2015-10-15 | 2017-04-20 | 日本電信電話株式会社 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
田村 直良 NAOYOSHI TAMURA: "セグメントの分割と統合による文章の構造解析 Text Structuring by Composition and Decomposition of Seg", 自然言語処理 第5巻 第1号 JOURNAL OF NATURAL LANGUAGE PROCESSING, vol. 第5巻 第1号, JPN6022006102, 10 January 1998 (1998-01-10), JP, pages 59 - 78, ISSN: 0004710682 * |
Also Published As
Publication number | Publication date |
---|---|
JP7148077B2 (ja) | 2022-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11106714B2 (en) | Summary generating apparatus, summary generating method and computer program | |
CN109616093B (zh) | 端对端语音合成方法、装置、设备及存储介质 | |
CN106503231B (zh) | 基于人工智能的搜索方法和装置 | |
JP6778654B2 (ja) | 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
JP6312467B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6232522B2 (ja) | 計算機及びグラフデータ生成方法 | |
CN110532575A (zh) | 文本翻译方法及装置 | |
CN116821299A (zh) | 智能问答方法、智能问答装置、设备及存储介质 | |
CN116955644A (zh) | 基于知识图谱的知识融合方法、系统及存储介质 | |
KR102204395B1 (ko) | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 | |
US20110022906A1 (en) | Method and system for test point insertion | |
JP2020140464A (ja) | 木構造解析装置、方法、及びプログラム | |
JP2015043163A (ja) | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム | |
JP7054145B2 (ja) | 談話構造解析装置、方法、及びプログラム | |
CN114580439A (zh) | 翻译模型训练方法、翻译方法、装置、设备以及存储介质 | |
US12106048B2 (en) | Structured text processing learning apparatus, structured text processing apparatus, structured text processing learning method, structured text processing method and program | |
JP2017041207A (ja) | 構造解析装置、方法、及びプログラム | |
Nakashima et al. | Faster Lyndon factorization algorithms for SLP and LZ78 compressed text | |
CN116978354B (zh) | 韵律预测模型的训练方法及装置、语音合成方法及装置 | |
JP3953772B2 (ja) | 読みがな付与装置およびプログラム | |
US20230066586A1 (en) | Non-transitory computer-readable storage medium for storing information processing program, information processing method, and information processing device | |
US12126368B2 (en) | Non-transitory computer-readable storage medium for storing information processing program, information processing method, and information processing device | |
CN114491040B (zh) | 信息挖掘方法及装置 | |
US20230386489A1 (en) | Audio signal conversion model learning apparatus, audio signal conversion apparatus, audio signal conversion model learning method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190301 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7148077 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |