JP6062829B2 - 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム - Google Patents
係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6062829B2 JP6062829B2 JP2013174799A JP2013174799A JP6062829B2 JP 6062829 B2 JP6062829 B2 JP 6062829B2 JP 2013174799 A JP2013174799 A JP 2013174799A JP 2013174799 A JP2013174799 A JP 2013174799A JP 6062829 B2 JP6062829 B2 JP 6062829B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- dependency
- learning
- unit
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
また、係り受け解析を精度よく行うことができる係り受け関係解析装置、方法、及びプログラムを提供することを目的とする。
まず、本発明の実施の形態の概要について説明する。
(1)文書の修辞構造に基づく談話構造木(RST−DT)から、文書の依存構造に基づく談話構造木(Dependency based Discourse Tree:DEP−DT)への変換ルールを定める。
(2)また、文書内の談話構造における最小の単位(Elementary Discourse Unit:以下、EDUと称する。)間の依存関係を係り受け解析として定式化する。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態の係り受け関係解析パラメータ学習装置100は、文書内のEDU間の係り受け関係を解析するためのパラメータを学習する。図1は、本発明の実施の形態の係り受け関係解析パラメータ学習装置100を示すブロック図である。係り受け関係解析パラメータ学習装置100は、CPUと、RAMと、後述する学習処理ルーチン及び構造木変換処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
現在着目しているEDUeiがSならば、兄弟関係にあるEDUの中で最左のNであるejをeiの親とする(eiとその親との間の関係ラベルをeiとejの間の関係ラベルに設定する)。
現在着目しているEDUeiがNならば、Sのノードに到達するまで親のノードを辿る。Sのノードに到達したら、その一つ親のノードを辿り、そのノードをPと設定する。また、Pとその子供の間の関係ラベルをRとする(Rootに到達したらそれ以上親は辿らない)。
PからEDUに到達するまでNのノードを辿る(Nの子供を複数持つ場合は最左のものを選ぶ)。到達したEDUのノードejをeiの親とし、その間の関係ラベルをRと設定する。
(2)EDUeiとEDUejが同じ文に含まれるか。
(3)EDUeiの先頭が「Because」で始まるか。
(4)EDUeiとEDUejの間にあるEDUの数。
(5)EDUeiの主辞の品詞が動詞であるか。
(6)係り受け関係の向きが左から右であるか。
(2)e1とe2は同じ文に含まれる。
(3)e1の先頭は「Because」で始まらない。
(4)e1とe2の間にあるEDUの数は0個。
(5)e1の主辞の品詞が動詞ではない。
(6)係り受け関係の向きが左から右である。
図4は、本発明の実施の形態の係り受け関係解析装置200を示すブロック図である。この係り受け関係解析装置200は、CPUと、RAMと、後述する解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
次に、本実施の形態の係り受け関係解析パラメータ学習装置100の作用について説明する。まず、複数の学習データが係り受け関係解析パラメータ学習装置100に入力されると、係り受け関係解析パラメータ学習装置100によって、入力された複数の学習データが、学習データベース20へ格納される。そして、係り受け関係解析パラメータ学習装置100によって、図5に示す学習処理ルーチンが実行される。
まず、ステップS150において、修辞構造木変換部22によって、上記ステップS100で構築されたRST−DTについて、RST−DTのノードのうち、1つのEDUを表すノードを着目ノードとして設定する。
次に、本実施の形態の係り受け関係解析装置200の作用について説明する。まず、係り受け関係解析パラメータ学習装置100のパラメータデータベース3に記憶されているパラメータベクトルw^が、係り受け関係解析装置200に入力されると、パラメータデータベース5に格納される。そして、係り受け解析対象としての入力文書が係り受け関係解析装置200に入力されると、係り受け関係解析装置200によって、図7に示す解析処理ルーチンが実行される。
本発明の実施の形態の有効性を検証するために、RST−DTを用いて学習したHILDAの解析結果を修辞構造木変換部22に適用した係り受け解析結果(単に、HILDAのアルゴリズムを用いて文書から変換したRST−DTを、DEP−DTに変換処理した結果)の精度と、修辞構造木変換部22を用いてRST−DTをDEP−DTに変換したものから学習されたパラメータベクトルw^を用いて、係り受け解析部64によって係り受け解析したものの解析精度を比較した。RST−DTのアノテーションが付与された新聞記事を、学習データとして342文書、評価用のデータとして38文書用意した。評価結果を表1に示す。評価結果より、提案手法はHILDAよりも良い正解率を得ており、その有効性が分かる。
2 学習用演算部
3、5 パラメータデータベース
4 入力部
6 演算部
7 出力部
20 学習データベース
22 修辞構造木変換部
24 学習用特徴抽出部
26 パラメータ学習部
60 分割部
62 特徴抽出部
64 係り受け解析部
100 係り受け関係解析パラメータ学習装置
200 係り受け関係解析装置
Claims (6)
- 文書内の文字列単位の係り受け関係を解析するためのパラメータを学習する係り受け関係解析パラメータ学習装置であって、
ルートノードが学習用文書の全体を表し、かつ前記学習用文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係及び関係ラベルを表した、前記学習用文書の文字列単位の系列の各々の修辞構造に基づく談話構造木について、前記修辞構造に基づく談話構造木の、文字列単位の各々と、各文字列単位のペアの各々とに基づいて、
前記修辞構造に基づく談話構造木のノードのうち、前記文字列単位を表すノードの各々を着目ノードとして、
前記着目ノードの文字列単位が、兄弟ノードを修飾する場合に、前記兄弟ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与すると共に、
前記着目ノードの文字列単位が、兄弟ノードから修飾される場合に、前記着目ノードの先祖ノードのうち、兄弟ノードを修飾するノードであって、直近に位置するノードを辿り、前記辿ったノードの親ノードの子孫ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与することにより、前記修辞構造に基づく談話構造木を、前記学習用文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記学習用文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合し、前記エッジに、前記関係ラベルを付与した、前記学習用文書の各文字列単位の依存構造に基づく談話構造木に変換する修辞構造木変換部と、
前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木のエッジの各々に対し、前記エッジで結合されたノードのペアに対応する文字列単位のペア、及び前記エッジに付与された前記関係ラベルの組み合わせについて、前記学習用文書に基づく各特徴量からなる特徴ベクトルを抽出する学習用特徴抽出部と、
前記学習用特徴抽出部によって抽出された前記エッジの各々に対する特徴ベクトル、及び前記特徴ベクトルの各特徴量に対する重みからなるパラメータベクトルに基づいて前記エッジの各々について算出される第1のスコアの和と、前記学習用文書の文字列単位の系列から生成される、任意の前記依存構造に基づく談話構造木のエッジの各々に対して抽出される前記特徴ベクトル、及び前記パラメータベクトルとに基づいて前記エッジの各々について算出される第2のスコアの和とに基づいて、前記第1のスコアの和と前記第2のスコアの和との差が、前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木と前記任意の前記依存構造に基づく談話構造木とに関する予め設定された損失関数の値以上であり、かつ前記パラメータベクトルのノルムを最小化するように、前記パラメータベクトルを学習するパラメータ学習部と、
を含む係り受け関係解析パラメータ学習装置。 - 入力文書を文字列単位に分割した結果に基づき生成される、任意の前記依存構造に基づく談話構造木のエッジの各々について、前記特徴ベクトルを抽出する特徴抽出部と、
前記任意の前記依存構造に基づく談話構造木の中から、前記特徴抽出部によって抽出された前記エッジの各々についての特徴ベクトルと、請求項1に記載の係り受け関係解析パラメータ学習装置によって学習された前記パラメータベクトルとに基づいて算出されるスコアが最大となる、前記依存構造に基づく談話構造木を特定し、前記入力文書内の文字列単位の係り受け関係の解析結果として出力する係り受け解析部と、
を含む係り受け関係解析装置。 - 修辞構造木変換部、学習用特徴抽出部、及びパラメータ学習部を含み、文書内の文字列単位の係り受け関係を解析するためのパラメータを学習する係り受け関係解析パラメータ学習装置における係り受け関係解析パラメータ学習方法であって、
前記修辞構造木変換部によって、ルートノードが学習用文書の全体を表し、かつ前記学習用文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係及び関係ラベルを表した、前記学習用文書の文字列単位の系列の各々の修辞構造に基づく談話構造木について、前記修辞構造に基づく談話構造木の、文字列単位の各々と、各文字列単位のペアの各々とに基づいて、
前記修辞構造に基づく談話構造木のノードのうち、前記文字列単位を表すノードの各々を着目ノードとして、
前記着目ノードの文字列単位が、兄弟ノードを修飾する場合に、前記兄弟ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与すると共に、
前記着目ノードの文字列単位が、兄弟ノードから修飾される場合に、前記着目ノードの先祖ノードのうち、兄弟ノードを修飾するノードであって、直近に位置するノードを辿り、前記辿ったノードの親ノードの子孫ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与することにより、前記修辞構造に基づく談話構造木を、前記学習用文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記学習用文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合し、前記エッジに、前記関係ラベルを付与した、前記学習用文書の各文字列単位の依存構造に基づく談話構造木に変換するステップと、
前記学習用特徴抽出部によって、前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木のエッジの各々に対し、前記エッジで結合されたノードのペアに対応する文字列単位のペア、及び前記エッジに付与された前記関係ラベルの組み合わせについて、前記学習用文書に基づく各特徴量からなる特徴ベクトルを抽出するステップと、
前記パラメータ学習部によって、前記学習用特徴抽出部によって抽出された前記エッジの各々に対する特徴ベクトル、及び前記特徴ベクトルの各特徴量に対する重みからなるパラメータベクトルに基づいて前記エッジの各々について算出される第1のスコアの和と、前記学習用文書の文字列単位の系列から生成される、任意の前記依存構造に基づく談話構造木のエッジの各々に対して抽出される前記特徴ベクトル、及び前記パラメータベクトルとに基づいて前記エッジの各々について算出される第2のスコアの和とに基づいて、前記第1のスコアの和と前記第2のスコアの和との差が、前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木と前記任意の前記依存構造に基づく談話構造木とに関する予め設定された損失関数の値以上であり、かつ前記パラメータベクトルのノルムを最小化するように、前記パラメータベクトルを学習するステップと、
を含む係り受け関係解析パラメータ学習方法。 - 特徴抽出部及び係り受け解析部を含む係り受け関係解析装置における係り受け関係解析方法であって、
前記特徴抽出部によって、入力文書を文字列単位に分割した結果に基づき生成される、任意の前記依存構造に基づく談話構造木のエッジの各々について、前記特徴ベクトルを抽出するステップと、
前記係り受け解析部によって、前記任意の前記依存構造に基づく談話構造木の中から、前記特徴抽出部によって抽出された前記エッジの各々についての特徴ベクトルと、請求項3に記載の係り受け関係解析パラメータ学習方法によって学習された前記パラメータベクトルとに基づいて算出されるスコアが最大となる、前記依存構造に基づく談話構造木を特定し、前記入力文書内の文字列単位の係り受け関係の解析結果として出力するステップと、
を含む係り受け関係解析方法。 - コンピュータを、請求項1に記載の係り受け関係解析パラメータ学習装置の各部として機能させるためのプログラム。
- コンピュータを、請求項2に記載の係り受け関係解析装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013174799A JP6062829B2 (ja) | 2013-08-26 | 2013-08-26 | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013174799A JP6062829B2 (ja) | 2013-08-26 | 2013-08-26 | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015043163A JP2015043163A (ja) | 2015-03-05 |
JP6062829B2 true JP6062829B2 (ja) | 2017-01-18 |
Family
ID=52696663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013174799A Active JP6062829B2 (ja) | 2013-08-26 | 2013-08-26 | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6062829B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6291440B2 (ja) * | 2015-03-02 | 2018-03-14 | 日本電信電話株式会社 | パラメータ学習方法、装置、及びプログラム |
JP7421363B2 (ja) | 2020-02-14 | 2024-01-24 | 株式会社Screenホールディングス | パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法 |
US20220269868A1 (en) * | 2021-02-22 | 2022-08-25 | Tencent America LLC | Structure self-aware model for discourse parsing on multi-party dialogues |
CN116739646B (zh) * | 2023-08-15 | 2023-11-24 | 南京易联阳光信息技术股份有限公司 | 网络交易大数据分析方法及分析系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
-
2013
- 2013-08-26 JP JP2013174799A patent/JP6062829B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015043163A (ja) | 2015-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Karimi et al. | Learning hierarchical discourse-level structure for fake news detection | |
White et al. | Inference is everything: Recasting semantic resources into a unified evaluation framework | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
WO2018207723A1 (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
CN110851596A (zh) | 文本分类方法、装置及计算机可读存储介质 | |
JP5239307B2 (ja) | 翻訳装置及び翻訳プログラム | |
CN109886294A (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
US20100324883A1 (en) | Trans-lingual representation of text documents | |
KR101732634B1 (ko) | 의존관계 포레스트를 이용한 통계적 기계 번역 방법 | |
JP6062829B2 (ja) | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム | |
CN109558482B (zh) | 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 | |
JP6946842B2 (ja) | モデル学習装置、変換装置、方法、及びプログラム | |
Li et al. | Text-to-text generative adversarial networks | |
CN111353306A (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
Vel | Pre-processing techniques of text mining using computational linguistics and python libraries | |
CN109062904A (zh) | 逻辑谓词提取方法和装置 | |
CN105849718B (zh) | 学习装置、翻译装置、学习方法以及翻译方法 | |
CN110633467A (zh) | 一种基于改进特征融合的语义关系抽取方法 | |
JP6614152B2 (ja) | テキスト処理システム、テキスト処理方法、及び、コンピュータ・プログラム | |
Goyal et al. | A joint model of rhetorical discourse structure and summarization | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
JP6291440B2 (ja) | パラメータ学習方法、装置、及びプログラム | |
JP5921457B2 (ja) | 文書要約方法、装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160607 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6062829 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |