JP6062829B2 - 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム - Google Patents

係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP6062829B2
JP6062829B2 JP2013174799A JP2013174799A JP6062829B2 JP 6062829 B2 JP6062829 B2 JP 6062829B2 JP 2013174799 A JP2013174799 A JP 2013174799A JP 2013174799 A JP2013174799 A JP 2013174799A JP 6062829 B2 JP6062829 B2 JP 6062829B2
Authority
JP
Japan
Prior art keywords
node
dependency
learning
unit
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013174799A
Other languages
English (en)
Other versions
JP2015043163A (ja
Inventor
康久 吉田
康久 吉田
平尾 努
努 平尾
鈴木 潤
潤 鈴木
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013174799A priority Critical patent/JP6062829B2/ja
Publication of JP2015043163A publication Critical patent/JP2015043163A/ja
Application granted granted Critical
Publication of JP6062829B2 publication Critical patent/JP6062829B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラムに関し、特に、文書を解析する係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラムに関する。
修辞構造理論(Rhetorical Structure Theory:RST)とは文書の論理構造(修辞構造)を捉えるための理論である(例えば、非特許文献1)。RSTに基づく修辞構造を表わした木のことを修辞構造木(Rhetorical Structure Theory based Discourse Tree:RST−DT)と呼ぶ。RST−DTの例を図8に示す。与えられた文書は談話構造における最小の単位(Elementary Discourse Unit:EDU)に分割される(図8ではe1からe10までがそれに対応)。各EDUには衛星(Satellite:S)または核(Nuclues:N)というラベルが付与され、Sは必ずNを修飾するという関係がある。また、SとN、NとNの間には修辞関係を表わすラベルが付与される。例えば、eとeの間には「Background」という関係ラベルが付与される。
RST−DTでは文書全体が一つのノードになるまで、ノード間に付与されたNまたはSのラベル、修辞関係のラベルを一つのノードとし、ラベルの付与とノードの生成を再帰的に行なう。Rootは文書全体を表わす仮想的なノードである。
文書が与えられた際にRST−DTへと解析するアルゴリズムの代表的なものとしてHILDA(例えば、非特許文献2)がある。HILDAでは以下の手続きを用いて与えられた文をRST−DTへと解析する。
(ステップ1)与えられた文書をEDUに区切る。
(ステップ2)隣り合うノードの中でどれが最も結合しやすいかSupport Vector Machine を用いて決定し、ラベルを付与した上で隣り合うノードを一つのノードに結合する。
(ステップ3)全体が一つのノードであれば結合された木を返し、そうでなければステップ2へ戻る。
William C,Mann and Sandra A. Thompson、「Rhetorical structure theory: Toward a functional theory of text organization」、1988、Text,8(3)、p.243―281 H. Hernault, H. Prendinger, David A. duVerle, and M. Ishizuka、「HILDA: A Discourse Parser Using Support Vector Machine Classfication」、2010、In Dialogue & Discourse, 2010(3)、p.1-33
しかし、HILDAに代表される従来の談話構造解析技術は、談話構造の相互依存関係を必ずしも正確に捉えているとは限らない。例えば上記図8ではeとeの間の関係ラベルを「Concession」、eとe10との間の関係ラベルを「Antithesis」、それらを積み上げたときのものの間の関係ラベルが「Example」であるが、eとeを積み上げたときの関係ラベルを誤って「Evidence」と付与してしまうと、さらに上の関係ラベルの「Example」を正しく付与できなくなる恐れがある。
本発明は、上記の事情を鑑みてなされたもので、係り受け解析を精度よく行うためのパラメータを得ることができる係り受け関係解析パラメータ学習装置、方法、及びプログラムを提供することを目的とする。
また、係り受け解析を精度よく行うことができる係り受け関係解析装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明の係り受け関係解析パラメータ学習装置は、文書内の文字列単位の係り受け関係を解析するためのパラメータを学習する係り受け関係解析パラメータ学習装置であって、ルートノードが学習用文書の全体を表し、かつ前記学習用文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係及び関係ラベルを表した、前記学習用文書の文字列単位の系列の各々の修辞構造に基づく談話構造木について、前記修辞構造に基づく談話構造木の、文字列単位の各々と、各文字列単位のペアの各々とに基づいて、前記修辞構造に基づく談話構造木を、前記学習用文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記学習用文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合し、前記エッジに、前記関係ラベルを付与した、前記学習用文書の各文字列単位の依存構造に基づく談話構造木に変換する修辞構造木変換部と、前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木のエッジの各々に対し、前記エッジで結合されたノードのペアに対応する文字列単位のペア、及び前記エッジに付与された前記関係ラベルの組み合わせについて、前記学習用文書に基づく各特徴量からなる特徴ベクトルを抽出する学習用特徴抽出部と、前記学習用特徴抽出部によって抽出された前記エッジの各々に対する特徴ベクトル、及び前記特徴ベクトルの各特徴量に対する重みからなるパラメータベクトルに基づいて算出されるスコアと、前記学習用文書の文字列単位の系列から生成される、任意の前記依存構造に基づく談話構造木のエッジの各々に対して抽出される前記特徴ベクトル、及び前記パラメータベクトルとに基づいて算出されるスコアとに基づいて、最適化された前記パラメータベクトルを学習するパラメータ学習部と、を含んで構成されている。
本発明の係り受け関係解析パラメータ学習方法は、修辞構造木変換部、学習用特徴抽出部、及びパラメータ学習部を含み、文書内の文字列単位の係り受け関係を解析するためのパラメータを学習する係り受け関係解析パラメータ学習装置における係り受け関係解析パラメータ学習方法であって、前記修辞構造木変換部によって、ルートノードが学習用文書の全体を表し、かつ前記学習用文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係及び関係ラベルを表した、前記学習用文書の文字列単位の系列の各々の修辞構造に基づく談話構造木について、前記修辞構造に基づく談話構造木の、文字列単位の各々と、各文字列単位のペアの各々とに基づいて、前記修辞構造に基づく談話構造木を、前記学習用文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記学習用文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合し、前記エッジに、前記関係ラベルを付与した、前記学習用文書の各文字列単位の依存構造に基づく談話構造木に変換するステップと、前記学習用特徴抽出部によって、前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木のエッジの各々に対し、前記エッジで結合されたノードのペアに対応する文字列単位のペア、及び前記エッジに付与された前記関係ラベルの組み合わせについて、前記学習用文書に基づく各特徴量からなる特徴ベクトルを抽出するステップと、前記パラメータ学習部によって、前記学習用特徴抽出部によって抽出された前記エッジの各々に対する特徴ベクトル、及び前記特徴ベクトルの各特徴量に対する重みからなるパラメータベクトルに基づいて算出されるスコアと、前記学習用文書の文字列単位の系列から生成される、任意の前記依存構造に基づく談話構造木のエッジの各々に対して抽出される前記特徴ベクトル、及び前記パラメータベクトルとに基づいて算出されるスコアとに基づいて、最適化された前記パラメータベクトルを学習するステップと、を含む。
また、本発明の前記修辞構造木変換部は、前記修辞構造に基づく談話構造木のノードのうち、前記文字列単位を表すノードの各々を着目ノードとして、前記着目ノードの文字列単位が、兄弟ノードを修飾する場合に、前記兄弟ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、前記依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与すると共に、前記着目ノードの文字列単位が、兄弟ノードから修飾される場合に、前記着目ノードの先祖ノードのうち、兄弟ノードを修飾するノードであって、直近に位置するノードを辿り、前記辿ったノードの親ノードの子孫ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、前記依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与することにより、前記修辞構造に基づく談話構造木を、前記依存構造に基づく談話構造木に変換するようにすることができる。
本発明の係り受け関係解析装置は、入力文書を文字列単位に分割した結果に基づき生成される、任意の前記依存構造に基づく談話構造木のエッジの各々について、前記特徴ベクトルを抽出する特徴抽出部と、前記任意の前記依存構造に基づく談話構造木の中から、前記特徴抽出部によって抽出された前記エッジの各々についての特徴ベクトルと、上記の係り受け関係解析パラメータ学習装置によって学習された前記パラメータベクトルとに基づいて算出されるスコアが最大となる、前記依存構造に基づく談話構造木を特定し、前記入力文書内の文字列単位の係り受け関係の解析結果として出力する係り受け解析部と、を含んで構成されている。
本発明の係り受け関係解析方法は、特徴抽出部及び係り受け解析部を含む係り受け関係解析装置における係り受け関係解析方法であって、前記特徴抽出部によって、入力文書を文字列単位に分割した結果に基づき生成される、任意の前記依存構造に基づく談話構造木のエッジの各々について、前記特徴ベクトルを抽出するステップと、前記係り受け解析部によって、前記任意の前記依存構造に基づく談話構造木の中から、前記特徴抽出部によって抽出された前記エッジの各々についての特徴ベクトルと、上記の係り受け関係解析パラメータ学習方法によって学習された前記パラメータベクトルとに基づいて算出されるスコアが最大となる、前記依存構造に基づく談話構造木を特定し、前記入力文書内の文字列単位の係り受け関係の解析結果として出力するステップと、を含む。
本発明の第1のプログラムは、コンピュータを、本発明の係り受け関係解析パラメータ学習装置の各部として機能させるためのプログラムである。
本発明の第2のプログラムは、コンピュータを、本発明の係り受け関係解析装置の各部として機能させるためのプログラムである。
以上説明したように、本発明の係り受け関係解析パラメータ学習装置、方法、及びプログラムによれば、修辞構造に基づく談話構造木から変換された依存構造に基づく談話構造木のエッジの各々に対し、エッジで結合されたノードのペアに対応する文字列単位のペア、及びエッジに付与された関係ラベルの組み合わせについて、学習用文書に基づく各特徴量からなる特徴ベクトルを抽出し、抽出されたエッジの各々に対する特徴ベクトル、及び特徴ベクトルの各特徴量に対する重みからなるパラメータベクトルに基づいて算出されるスコアと、学習用文書の文字列単位の系列から生成される、任意の依存構造に基づく談話構造木のエッジの各々に対して抽出される特徴ベクトル、及びパラメータベクトルに基づいて算出されるスコアとに基づいて、最適化されたパラメータベクトルを学習することにより、係り受け解析を精度よく行うためのパラメータを得ることができる、という効果が得られる。
また、本発明の係り受け関係解析装置、方法、及びプログラムによれば、任意の依存構造に基づく談話構造木の中から、エッジの各々についての特徴ベクトルと、学習されたパラメータベクトルとに基づいて算出されるスコアが最大となる、依存構造に基づく談話構造木を特定し、入力文書内の文字列単位の係り受け関係の解析結果として出力することにより、係り受け解析を精度よく行うことができる、という効果が得られる。
本発明の実施の形態の係り受け関係解析パラメータ学習装置の一構成例を示すブロック図である。 文書の依存構造に基づく談話構造木(DEP−DT)の一例を示す図である。 修辞構造に基づく談話構造木(RST−DT)から、依存構造に基づく談話構造木(DEP−DT)への変換ルールを説明するための説明図である。 本発明の実施の形態の係り受け関係解析装置の一構成例を示すブロック図である。 本発明の実施の形態の係り受け関係解析パラメータ学習装置における学習処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の係り受け関係解析パラメータ学習装置における構造木変換処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の係り受け関係解析装置における解析処理ルーチンの内容を示すフローチャートである。 修辞構造に基づく談話構造木(RST−DT)を説明するための説明図である。
<概要>
まず、本発明の実施の形態の概要について説明する。
本発明に係る実施の形態は、与えられた文書中の文法的な要素間の係り受け関係の解析に関する。この技術はアノテーションが付与されていない文書中の文法的な要素の間の修辞関係を解析し、文書全体を木として表現することで文法的な要素間の依存関係を解析する技術である。
本発明に係る実施の形態では、
(1)文書の修辞構造に基づく談話構造木(RST−DT)から、文書の依存構造に基づく談話構造木(Dependency based Discourse Tree:DEP−DT)への変換ルールを定める。
(2)また、文書内の談話構造における最小の単位(Elementary Discourse Unit:以下、EDUと称する。)間の依存関係を係り受け解析として定式化する。
ここで、RST−DTとは、ルートノードが文書の全体を表し、かつ文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、文字列単位の系列間の修飾関係及び関係ラベルを表した、文書の文字列単位の系列の各々の修辞構造に基づく談話構造木である。
また、DEP−DTとは、文書のうちの最も重要な文字列単位をルートノードとし、かつ文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する各文字列単位間に対応するノード間をエッジで結合し、エッジに、関係ラベルを付与した、文書の各文字列単位の依存構造に基づく談話構造木である。
また、RST−DT及びDEP−DTの文字列単位は、文書中の最小の単位(Elementary Discourse Unit:EDU)に対応する。
本実施の形態では、談話構造関係の相互依存関係をより正確に捉えるために大域的最適化の観点に基づいて談話構造解析を行なう。RST−DTは、文脈自由文法(Context Free Grammer:CFG)と似ており、内側外側アルゴリズム(Inside Outside Algorithm)が適用可能にも思えるが、CFGでは単語であった終端記号がRST−DTではEDUとなっている。EDUの種類数は単語の語彙数よりもはるかに多くなり、結果として終端記号の種類数が多すぎるため、CFGをそのまま談話構造解析に適用するのは現実的には不可能である。
そこで本実施の形態では、RST−DTをDEP−DTへと変換することで談話構造関係間の相互依存構造をより正確に捉え、大域的最適化に基づいて談話構造を解析する。本実施の形態は最適なパラメータを学習する段階と、最適なパラメータを使って入力された文書内のEDU間の係り受け関係を解析する段階の二つに分かれる。
まず、最適なパラメータを学習する段階について説明する。この段階ではまず、入力された修辞構造アノテーション済みの文書を、修辞構造木変換部を用いて係り受け木(DEP−DT)に変換する。次にDEP−DTから抽出された特徴ベクトルと、初期パラメータベクトルとをパラメータ学習部の入力とする。パラメータ学習部では係り受け解析を行なうのに最適なパラメータベクトルを学習し、そのパラメータベクトルを学習済みパラメータとして出力する。
次に、最適なパラメータベクトルを使って、入力された文書内のEDU間の係り受け関係を解析する段階について説明する。この段階では、入力された文書をEDUの単位に分割する。次にEDUの列から特徴ベクトルを抽出し、前段階で得られた学習済みパラメータベクトルと共に係り受け解析部に渡される。係り受け解析部では、それらを基に元の文書に対し、係り受け解析を行なったものを出力する。
<係り受け関係解析パラメータ学習装置のシステム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態の係り受け関係解析パラメータ学習装置100は、文書内のEDU間の係り受け関係を解析するためのパラメータを学習する。図1は、本発明の実施の形態の係り受け関係解析パラメータ学習装置100を示すブロック図である。係り受け関係解析パラメータ学習装置100は、CPUと、RAMと、後述する学習処理ルーチン及び構造木変換処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態の係り受け関係解析パラメータ学習装置100は、図1に示すように、学習用入力部1と、学習用演算部2と、パラメータデータベース3とを備えている。
学習用入力部1は、複数の学習データの入力を受け付ける。ここで、学習データは、修辞構造アノテーション済みの学習用文書である。修辞構造アノテーション済みの学習用文書とは、学習用文書について予め修辞構造が解析され、学習用文書内の各EDU間の修辞関係及び関係ラベルが予め付与された文書である。また、学習用文書は、少なくとも1文からなる文書である。
学習用演算部2は、学習用入力部1により受け付けた複数の学習データに基づいて、文書の係り受け解析をするためのパラメータを学習する。学習用演算部2は、学習データベース20と、修辞構造木変換部22と、学習用特徴抽出部24と、パラメータ学習部26とを備えている。
学習データベース20には、学習用入力部1により受け付けた複数の学習データが格納される。
修辞構造木変換部22は、学習データである修辞構造アノテーション済みの学習用文書の各々について、RST−DTを構築する。
そして、修辞構造木変換部22は、構築されたRST−DTの各々について、当該RST−DTをDEP−DTに変換する。
具体的には、修辞構造木変換部22は、RST−DTのノードのうち、EDUを表すノードの各々を着目ノードとして、着目ノードのEDUが兄弟ノードを修飾する場合に、当該兄弟ノードのうち、修飾されるEDUを表すノードであって、最左に位置するノードを、DEP−DTにおける着目ノードの親ノードとする。そして、着目ノードと親ノードとを結合するエッジに、関係ラベルを付与する。
また、修辞構造木変換部22は、RST−DTのノードのうち、EDUを表すノードの各々を着目ノードとして、着目ノードのEDUが兄弟ノードから修飾される場合に、当該着目ノードの先祖ノードのうち、兄弟ノードを修飾するノードであって、直近に位置するノードを辿り、辿ったノードの親ノードの子孫ノードうち、修飾されるEDUを表すノードであって、最左に位置するノードを、DEP−DTにおける、着目ノードの親ノードとする。そして、着目ノードと親ノードとを結合するエッジに、関係ラベルを付与する。
より詳細には、修辞構造木変換部22は、あるEDUeの親であるEDUeと、その間にある関係を探す手続きを以下のように定義する。
(ステップ0)
現在着目しているEDUeがSならば、兄弟関係にあるEDUの中で最左のNであるeをeの親とする(eとその親との間の関係ラベルをeとeの間の関係ラベルに設定する)。
(ステップ1−1)
現在着目しているEDUeがNならば、Sのノードに到達するまで親のノードを辿る。Sのノードに到達したら、その一つ親のノードを辿り、そのノードをPと設定する。また、Pとその子供の間の関係ラベルをRとする(Rootに到達したらそれ以上親は辿らない)。
(ステップ1−2)
PからEDUに到達するまでNのノードを辿る(Nの子供を複数持つ場合は最左のものを選ぶ)。到達したEDUのノードeをeの親とし、その間の関係ラベルをRと設定する。
文書中にn個のEDUの列E^=[e,e,・・・,e]がある際に、上記の(ステップ0)、(ステップ1−1)、(ステップ1−2)の手続きを、文書中のn個のEDU全てに対して行なうことが、RST−DTをDEP−DTへの変換ルールと定義する。このように修辞構造木変換部22では、上記図8のようなRST−DTを入力とし、図2のようなDEP−DTを出力する。なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。
なお、上記の変換(RST−DTからDEP−DT)は一意に可能であるが、逆変換(DEP−DTからRST−DT)は一意ではない。
次に、図3を用いて、RST−DTからDEP−DTへの変換ルールを適用した例を説明する。まず、上記(ステップ0)について説明する。ここでは、上記図3のEDUeについて説明する。現在着目しているEDUeはSであるから、兄弟関係にある最左のEDUeをEDUeの親に設定する。
次に、上記(ステップ1−1)と上記(ステップ1−2)とについて説明する。ここではEDUeの親と、その間の関係をどのように探すかについてのみ説明する。EDUeはNのノードなので、(ステップ1−1)に進む。Sのノードに到達するまで親のノードを辿るので、ノードN11まで到達する。ノードN11の親ノードであるN5をPと設定し、その子供の間にある関係ラベル「Elaboration」を関係ラベルRと設定する。(ステップ1−2)に進み、PからNのノードをEDUに到達するまで辿る。ここではEDUeがそれに該当する。以上より、EDUeをEDUeの親と設定し、これらの間の関係ラベルを「Elaboration」と設定する。
学習用特徴抽出部24は、修辞構造木変換部22によって変換されたDEP−DTの各々について、当該DEP−DTのエッジの各々に対し、エッジで結合されたノードのペアに対応するEDUのペア、及びエッジに付与された関係ラベルの組み合わせについての、学習用文書に基づく各特徴量からなる特徴ベクトルを抽出する。
ここで、EDUeとEDUeのペア及びEDUeとEDUeの間の関係ラベルr∈Rの組み合わせに対するスコア
と定義する。また、f^(e,r,e)∈{0,1}はEDUeとEDUeの間の関係ラベルrから得られる各特徴量を表わすバイナリベクトル(以下、特徴ベクトルと称する。ただし、Mは特徴量の次元数を表わす正の整数である。)、w^は、w^∈RのM次元の実数ベクトルのパラメータ(以下、パラメータベクトルと称する。)である。すなわち、パラメータベクトルw^は、特徴ベクトルf^(e,r,e)の各特徴量に対する重みからなる。
特徴ベクトルが表す各特徴量のうち、代表的なものを以下に挙げる。
(1)EDUeに含まれる単語数が5以下であるか。
(2)EDUeとEDUeが同じ文に含まれるか。
(3)EDUeの先頭が「Because」で始まるか。
(4)EDUeとEDUeの間にあるEDUの数。
(5)EDUeの主辞の品詞が動詞であるか。
(6)係り受け関係の向きが左から右であるか。
単語数のように1より大きい値を取りうるものについては「単語数が5以上ならば1、そうでなければ0」のように特徴量を、2値化する。以上のように、学習用特徴抽出部24では、EDUの列を入力とし、∀i,j∈{1,・・・,n},∀rの組み合わせの各々に対して、M次元のバイナリの特徴ベクトルf^(e,r,e)を出力する。
上記図2のeとeを例に取り、実際の特徴ベクトルがどのようなものになるかを説明する。eの実際の文書は「With its distant orbit ― 50 percent farther from the sum than Earth ― and slim atmospheric blanket,」、eの実際の文書は「Mars experiences frigid weather conditions.」であるとする。EDUeをe、EDUeをeとし、eがeの親である場合(関係ラベルは「Evidence」)の特徴量の各々は
(1)eに含まれる単語数は21個なので、単語数は5個より大きい。
(2)eとeは同じ文に含まれる。
(3)eの先頭は「Because」で始まらない。
(4)eとeの間にあるEDUの数は0個。
(5)eの主辞の品詞が動詞ではない。
(6)係り受け関係の向きが左から右である。
であることからf^(e,Evidence,e)=[0,1,0,0,0,1]となる。
パラメータ学習部26は、DEP−DTの各々における、学習用特徴抽出部24よって抽出された当該DEP−DTのエッジの各々に対する特徴ベクトルf^(e,r,e)、及びパラメータベクトルw^に基づいて算出されるスコアの和と、当該DEP−DTのEDUの系列から生成される、任意のDEP−DTのエッジの各々に対して抽出される特徴ベクトルf^(e,r,e)、及びパラメータベクトルw^とに基づき算出されるスコアの和とに基づいて、最適化されたパラメータベクトルw^を学習する。
最適なパラメータベクトルw^が決まれば、スコア関数を通じて大域的に最適なEDU間の係り受け関係を求めることができるが、最適なパラメータベクトルw^は既知ではない。そこで本実施の形態では、Support Vector Machineと同様にマージン最大化に基づいて最適なパラメータベクトルw^を求める。マージン最大化基準に基づく制約付き最適化問題は以下のように定式化できる。
ここで、γは分離平面からのマージン、L(A;A)は任意の係り受け木Aとk番目の正解の係り受け木Aとの損失関数である。直感的な式の意味としては「正解Aと大きく違う係り受け木Aに関してはなるべく大きなマージンを取るようにパラメータベクトルw^を設定したい」ということを意味している。また、任意の係り受け木Aと、k番目の正解の係り受け木Aとは、同じ学習用文書内のEDU系列から得られる係り受け木である必要がある。この制約付き最適化問題(1)式自体は直接解くのは非常に困難なので、マージンγを1に固定した下で、より簡単な形に変形すると、以下の制約付き最適化問題を得る。
この最適化問題は、教師ありの構造学習の枠組み(構造化パーセプトロン)で捉えることができ、本実施の形態ではこの方法を用いて最適なパラメータベクトルw^を求める。
パラメータデータベース3には、パラメータ学習部26で学習されたパラメータベクトルw^が格納される。
<係り受け関係解析装置のシステム構成>
図4は、本発明の実施の形態の係り受け関係解析装置200を示すブロック図である。この係り受け関係解析装置200は、CPUと、RAMと、後述する解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
係り受け関係解析装置200では、係り受け解析対象の文書が入力されると、当該文書の係り受け解析を行う。
本実施の形態の係り受け関係解析装置200は、図4に示すように、入力部4と、パラメータデータベース5と、演算部6と、出力部7とを備えている。
入力部4は、係り受け解析対象の文書の入力を受け付ける。なお、入力される文書は、少なくとも1文からなる文書である。
パラメータデータベース5には、上記の係り受け関係解析パラメータ学習装置100によって学習されたパラメータベクトルw^が格納される。
演算部6は、入力部4により受け付けた、係り受け解析対象の文書について係り受け解析を行う。また、演算部6は、EDU分割部60と、特徴抽出部62と、係り受け解析部64とを備えている。
EDU分割部60は、入力部4により受け付けた係り受け解析対象の文書をEDUに分割する。具体的には、EDU分割部60では、修辞構造のアノテーションがされていない、係り受け解析対象の文書の入力を受け付け、入力された文書をEDUに分割し、EDUの列を出力する。一般に文書中のどこでEDUに区切れるかは未知であるため、文書中の各単語間でSVMなどの分類器を用いて、区切れるか区切れないかを判断させ、文書をEDUに分割したものを出力する。
特徴抽出部62は、EDU分割部60によって得られたEDUの列に基づき生成される任意のDEP−DTのエッジの各々について、学習用特徴抽出部24と同様に、特徴ベクトルを抽出する。具体的には、EDUの列を入力とし、∀i,j∈{1,・・・,n},∀rの組み合わせの各々に対して、特徴ベクトルf^(e,r,e)を出力する。
係り受け解析部64は、EDUの列に基づき生成される任意のDEP−DTの中から、パラメータデータベース5に格納されたパラメータベクトルw^と特徴ベクトルとに基づいて算出されるスコアの和が最大となる、DEP−DTを特定し、係り受け解析対象の文書内のEDUの係り受け関係を解析結果として出力する。特定されたスコアの和が最大となるDEP−DTは、EDUe、関係ラベルr∈R、EDUeの三つ組を要素とする集合で表わされる。Rは全ての関係ラベルの集合である。このように、係り受け解析部64では、EDUeとEDUeの間に関係ラベルr∈Rがあるときのスコアを
とし、EDUの列に基づき生成される任意のDEP−DTの中から、各エッジに対するスコアの和が最大になるようなDEP−DTを特定する。
本実施の形態では、各エッジに対してスコアが与えられた下で、n個のEDUの列からスコアの和が最大になるDEP−DTを求めるアルゴリズムとして、Maximum Spanning Tree Algorithm(MST Algorithm)を用いる。これにより、O(n)で計算できる。
出力部7は、係り受け解析部64で出力された係り受け関係を結果として出力する。
<係り受け関係解析パラメータ学習装置の作用>
次に、本実施の形態の係り受け関係解析パラメータ学習装置100の作用について説明する。まず、複数の学習データが係り受け関係解析パラメータ学習装置100に入力されると、係り受け関係解析パラメータ学習装置100によって、入力された複数の学習データが、学習データベース20へ格納される。そして、係り受け関係解析パラメータ学習装置100によって、図5に示す学習処理ルーチンが実行される。
まず、ステップS100において、修辞構造木変換部22によって、1つの学習データを学習データベース20から読み込み、RST−DTを構築する。
次に、ステップS102において、上記ステップS102で構築されたRST−DTについて、当該RST−DTをDEP−DTに変換する。ステップS102は、図6に示す構造木変換処理ルーチンによって実現される。
<構造木変換処理ルーチン>
まず、ステップS150において、修辞構造木変換部22によって、上記ステップS100で構築されたRST−DTについて、RST−DTのノードのうち、1つのEDUを表すノードを着目ノードとして設定する。
次に、ステップS152において、上記ステップS150で設定された着目ノードが兄弟ノードを修飾するか、または着目ノードが兄弟ノードから修飾されるかを判定する。すなわち、当該着目ノードに付与されているラベルがSかNかを判定する。着目ノードに付与されているラベルがSである場合には、ステップS154へ進む。一方、着目ノードに付与されているラベルがNである場合には、ステップS158へ進む。
ステップS154において、着目ノードの兄弟ノードのうち、修飾されるEDUを表すノード(ラベルNが付与されたノード)であって、最左に位置するノードを、DEP−DTにおける着目ノードの親ノードとする。
ステップS156において、上記ステップS154での、着目ノードと、着目ノードの親との間の関係ラベルを、着目ノードと親ノードとを結合するエッジに対する関係ラベルとして付与する。
ステップS158において、着目ノードの先祖ノードのうち、兄弟ノードを修飾するノード(ラベルSが付与されたノード)であって、直近に位置するノードを辿り、当該直近に位置するノードの親ノードをPと設定する。
ステップS160において、上記ステップS158で設定されたノードPと、ノードPの子ノードとの間の関係ラベルをRとする。
ステップS162において、上記ステップS158で設定されたノードPの子孫ノードのうち、修飾されるEDUを表すノード(ラベルNが付与されたノード)であって、最左に位置するノードを、DEP−DTにおける、着目ノードの親ノードとする。
ステップS164において、上記ステップS160で設定した関係ラベルRを、着目ノードと親ノードとを結合するエッジの関係ラベルとして付与する。
ステップS166において、全てのEDUを表すノードについて、上記ステップS150〜S164の処理を実行したか否かを判定する。そして、全てのEDUを表すノードについて、上記ステップS150〜S164の処理を実行した場合には、ステップS168へ進む。一方、上記ステップS150〜S164の処理を実行していないEDUを表すノードが存在する場合には、上記ステップS150へ戻る。
そして、ステップS168において、上記ステップS150〜S164の処理で得られた、各着目ノードの親ノード及び関係ラベルに基づいて、DEP−DTを生成し、結果として出力して、構造木変換処理ルーチンを終了する。
次に、学習処理ルーチンに戻り、ステップS104において、学習用特徴抽出部24によって、上記ステップS104で出力されたDEP−DTについて、当該DEP−DTのエッジの各々に対し、エッジで結合されたノードのペアに対応するEDUのペア、及びエッジに付与された関係ラベルの組み合わせについての、当該学習データの学習用文書に基づく各特徴量からなる特徴ベクトルを抽出する。
次に、ステップS106において、学習データベース20に格納された全ての学習データについて上記ステップS100〜S104の処理を実行したか否かを判定する。全ての学習データについて上記ステップS100〜S104の処理を実行した場合には、上記ステップS108へ進む。一方、上記ステップS100〜S104の処理を実行していない学習データが存在する場合には、ステップS100へ戻る。
ステップS108において、パラメータ学習部26によって、学習データについて得られたDEP−DTの各々における、上記ステップS104で抽出された当該DEP−DTのエッジの各々に対する特徴ベクトルf^(e,r,e)、及びパラメータベクトルw^に基づいて算出されるスコアの和と、当該DEP−DTのEDUの系列から生成される、任意のDEP−DTのエッジの各々に対して抽出される特徴ベクトルf^(e,r,e)、及びパラメータベクトルw^とに基づき算出されるスコアの和とに基づいて、上記(2)式に従って、最適化されたパラメータベクトルw^を学習する。
そして、ステップS110において、パラメータ学習部26によって、上記ステップS108で学習されたパラメータベクトルw^をパラメータデータベース3へ格納して、学習処理ルーチンを終了する。
<係り受け関係解析装置の作用>
次に、本実施の形態の係り受け関係解析装置200の作用について説明する。まず、係り受け関係解析パラメータ学習装置100のパラメータデータベース3に記憶されているパラメータベクトルw^が、係り受け関係解析装置200に入力されると、パラメータデータベース5に格納される。そして、係り受け解析対象としての入力文書が係り受け関係解析装置200に入力されると、係り受け関係解析装置200によって、図7に示す解析処理ルーチンが実行される。
まず、ステップS200において、入力部4によって、係り受け解析対象の入力文書を受け付ける。
次に、ステップS202において、EDU分割部60によって、上記ステップS200で受け付けた係り受け解析対象の入力文書をEDUに分割する。
ステップS204において、特徴抽出部62によって、上記ステップS202で得られたEDUの列に基づき生成される任意のDEP−DTのエッジの各々について、特徴ベクトルf^を抽出する。
ステップS206において、パラメータデータベース5に格納されたパラメータベクトルw^を読み込む。
ステップS208において、係り受け解析部64によって、EDUの列に基づき生成される任意のDEP−DTの中から、上記ステップS206で読み込まれたパラメータベクトルw^と上記ステップS204で抽出された特徴ベクトルf^とに基づいて算出されるスコアの和が最大となる、DEP−DTを特定する。
そして、ステップS210において、上記ステップS208で特定されたDEP−DTを、係り受け解析対象の入力文書内のEDUの係り受け関係の解析結果として出力し、解析処理ルーチンを終了する。
<実験結果>
本発明の実施の形態の有効性を検証するために、RST−DTを用いて学習したHILDAの解析結果を修辞構造木変換部22に適用した係り受け解析結果(単に、HILDAのアルゴリズムを用いて文書から変換したRST−DTを、DEP−DTに変換処理した結果)の精度と、修辞構造木変換部22を用いてRST−DTをDEP−DTに変換したものから学習されたパラメータベクトルw^を用いて、係り受け解析部64によって係り受け解析したものの解析精度を比較した。RST−DTのアノテーションが付与された新聞記事を、学習データとして342文書、評価用のデータとして38文書用意した。評価結果を表1に示す。評価結果より、提案手法はHILDAよりも良い正解率を得ており、その有効性が分かる。
以上説明したように、本実施の形態の係り受け関係解析パラメータ学習装置によれば、RST−DTから変換されたDEP−DTのエッジの各々に対し、エッジで結合されたノードのペアに対応するEDUのペア、及びエッジに付与された関係ラベルの組み合わせについて、学習用文書に基づく各特徴量からなる特徴ベクトルを抽出し、抽出されたエッジの各々に対する特徴ベクトル、及び特徴ベクトルの各特徴量に対する重みからなるパラメータベクトルw^に基づいて算出されるスコアの和と、学習用文書のEDUの系列から生成される、任意のDEP−DTのエッジの各々に対して抽出される特徴ベクトル、及びパラメータベクトルに基づいて算出されるスコアの和とに基づいて、最適化されたパラメータベクトルw^を学習することにより、係り受け解析を精度よく行うためのパラメータベクトルw^を得ることができる。
本実施の形態の係り受け関係解析装置によれば、入力文書のEDUの列から生成される任意のDEP−DTの中から、エッジの各々についての特徴ベクトルと、上記の係り受け関係解析パラメータ学習装置によって学習されたパラメータベクトルw^とに基づいて算出されるスコアの和が最大となる、DEP−DTを特定し、入力文書内のEDUの係り受け関係の解析結果として出力することにより、係り受け解析を精度よく行うことができる。
また、本実施の形態の係り受け関係解析パラメータ学習装置及び係り受け関係解析装置を用いることで、大域的最適化の観点に基づいて談話構造の相互依存関係をより正確に捉える談話構造解析が可能となる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態では、文書中のEDUをDEP−DTの各ノードとした場合を例に説明したが、各ノードをEDU以外の文字列単位として表わすこともできる。その場合には、EDU分割部60によって、文書を当該文字列単位に分割し、当該文字列単位をノードとして表したDEP−DTを構築する。
また、本実施の形態の係り受け関係解析パラメータ学習装置及び係り受け関係解析装置は、英語だけでなく日本語等の他の言語にも適用可能である。
また、学習データベース20及びパラメータデータベース3は、係り受け関係解析パラメータ学習装置の外部に設けられ、係り受け関係解析パラメータ学習装置とネットワークで接続されていてもよい。また、パラメータデータベース3は、係り受け関係解析装置の外部に設けられ、係り受け関係解析装置とネットワークで接続されていてもよい。
また、入力部4に入力される文書は、既に文又はEDUに分割された形態であってもよい。その場合には、EDU分割部60の処理については省略する。
また、上記実施の形態では、係り受け関係解析パラメータ学習装置と係り受け関係解析装置とを別々の装置として構成する場合を例に説明したが、係り受け関係解析パラメータ学習装置と係り受け関係解析装置とを1つの装置として構成してもよい。
上述の係り受け関係解析パラメータ学習装置及び係り受け関係解析パラメータ学習装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 学習用入力部
2 学習用演算部
3、5 パラメータデータベース
4 入力部
6 演算部
7 出力部
20 学習データベース
22 修辞構造木変換部
24 学習用特徴抽出部
26 パラメータ学習部
60 分割部
62 特徴抽出部
64 係り受け解析部
100 係り受け関係解析パラメータ学習装置
200 係り受け関係解析装置

Claims (6)

  1. 文書内の文字列単位の係り受け関係を解析するためのパラメータを学習する係り受け関係解析パラメータ学習装置であって、
    ルートノードが学習用文書の全体を表し、かつ前記学習用文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係及び関係ラベルを表した、前記学習用文書の文字列単位の系列の各々の修辞構造に基づく談話構造木について、前記修辞構造に基づく談話構造木の、文字列単位の各々と、各文字列単位のペアの各々とに基づいて、
    前記修辞構造に基づく談話構造木のノードのうち、前記文字列単位を表すノードの各々を着目ノードとして、
    前記着目ノードの文字列単位が、兄弟ノードを修飾する場合に、前記兄弟ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与すると共に、
    前記着目ノードの文字列単位が、兄弟ノードから修飾される場合に、前記着目ノードの先祖ノードのうち、兄弟ノードを修飾するノードであって、直近に位置するノードを辿り、前記辿ったノードの親ノードの子孫ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与することにより、前記修辞構造に基づく談話構造木を、前記学習用文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記学習用文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合し、前記エッジに、前記関係ラベルを付与した、前記学習用文書の各文字列単位の依存構造に基づく談話構造木に変換する修辞構造木変換部と、
    前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木のエッジの各々に対し、前記エッジで結合されたノードのペアに対応する文字列単位のペア、及び前記エッジに付与された前記関係ラベルの組み合わせについて、前記学習用文書に基づく各特徴量からなる特徴ベクトルを抽出する学習用特徴抽出部と、
    前記学習用特徴抽出部によって抽出された前記エッジの各々に対する特徴ベクトル、及び前記特徴ベクトルの各特徴量に対する重みからなるパラメータベクトルに基づいて前記エッジの各々について算出される第1のスコアの和と、前記学習用文書の文字列単位の系列から生成される、任意の前記依存構造に基づく談話構造木のエッジの各々に対して抽出される前記特徴ベクトル、及び前記パラメータベクトルとに基づいて前記エッジの各々について算出される第2のスコアの和とに基づいて、前記第1のスコアの和と前記第2のスコアの和との差が、前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木と前記任意の前記依存構造に基づく談話構造木とに関する予め設定された損失関数の値以上であり、かつ前記パラメータベクトルのノルムを最小化するように、前記パラメータベクトルを学習するパラメータ学習部と、
    を含む係り受け関係解析パラメータ学習装置。
  2. 入力文書を文字列単位に分割した結果に基づき生成される、任意の前記依存構造に基づく談話構造木のエッジの各々について、前記特徴ベクトルを抽出する特徴抽出部と、
    前記任意の前記依存構造に基づく談話構造木の中から、前記特徴抽出部によって抽出された前記エッジの各々についての特徴ベクトルと、請求項1に記載の係り受け関係解析パラメータ学習装置によって学習された前記パラメータベクトルとに基づいて算出されるスコアが最大となる、前記依存構造に基づく談話構造木を特定し、前記入力文書内の文字列単位の係り受け関係の解析結果として出力する係り受け解析部と、
    を含む係り受け関係解析装置。
  3. 修辞構造木変換部、学習用特徴抽出部、及びパラメータ学習部を含み、文書内の文字列単位の係り受け関係を解析するためのパラメータを学習する係り受け関係解析パラメータ学習装置における係り受け関係解析パラメータ学習方法であって、
    前記修辞構造木変換部によって、ルートノードが学習用文書の全体を表し、かつ前記学習用文書のうちの少なくとも1つの文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係及び関係ラベルを表した、前記学習用文書の文字列単位の系列の各々の修辞構造に基づく談話構造木について、前記修辞構造に基づく談話構造木の、文字列単位の各々と、各文字列単位のペアの各々とに基づいて、
    前記修辞構造に基づく談話構造木のノードのうち、前記文字列単位を表すノードの各々を着目ノードとして、
    前記着目ノードの文字列単位が、兄弟ノードを修飾する場合に、前記兄弟ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与すると共に、
    前記着目ノードの文字列単位が、兄弟ノードから修飾される場合に、前記着目ノードの先祖ノードのうち、兄弟ノードを修飾するノードであって、直近に位置するノードを辿り、前記辿ったノードの親ノードの子孫ノードのうち、修飾される文字列単位を表すノードであって、最左に位置するノードを、依存構造に基づく談話構造木における、前記着目ノードの親ノードとし、前記着目ノードと親ノードとを結合するエッジに、前記関係ラベルを付与することにより、前記修辞構造に基づく談話構造木を、前記学習用文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記学習用文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合し、前記エッジに、前記関係ラベルを付与した、前記学習用文書の各文字列単位の依存構造に基づく談話構造木に変換するステップと、
    前記学習用特徴抽出部によって、前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木のエッジの各々に対し、前記エッジで結合されたノードのペアに対応する文字列単位のペア、及び前記エッジに付与された前記関係ラベルの組み合わせについて、前記学習用文書に基づく各特徴量からなる特徴ベクトルを抽出するステップと、
    前記パラメータ学習部によって、前記学習用特徴抽出部によって抽出された前記エッジの各々に対する特徴ベクトル、及び前記特徴ベクトルの各特徴量に対する重みからなるパラメータベクトルに基づいて前記エッジの各々について算出される第1のスコアの和と、前記学習用文書の文字列単位の系列から生成される、任意の前記依存構造に基づく談話構造木のエッジの各々に対して抽出される前記特徴ベクトル、及び前記パラメータベクトルとに基づいて前記エッジの各々について算出される第2のスコアの和とに基づいて、前記第1のスコアの和と前記第2のスコアの和との差が、前記修辞構造木変換部によって変換された前記依存構造に基づく談話構造木と前記任意の前記依存構造に基づく談話構造木とに関する予め設定された損失関数の値以上であり、かつ前記パラメータベクトルのノルムを最小化するように、前記パラメータベクトルを学習するステップと、
    を含む係り受け関係解析パラメータ学習方法。
  4. 特徴抽出部及び係り受け解析部を含む係り受け関係解析装置における係り受け関係解析方法であって、
    前記特徴抽出部によって、入力文書を文字列単位に分割した結果に基づき生成される、任意の前記依存構造に基づく談話構造木のエッジの各々について、前記特徴ベクトルを抽出するステップと、
    前記係り受け解析部によって、前記任意の前記依存構造に基づく談話構造木の中から、前記特徴抽出部によって抽出された前記エッジの各々についての特徴ベクトルと、請求項に記載の係り受け関係解析パラメータ学習方法によって学習された前記パラメータベクトルとに基づいて算出されるスコアが最大となる、前記依存構造に基づく談話構造木を特定し、前記入力文書内の文字列単位の係り受け関係の解析結果として出力するステップと、
    を含む係り受け関係解析方法。
  5. コンピュータを、請求項1に記載の係り受け関係解析パラメータ学習装置の各部として機能させるためのプログラム。
  6. コンピュータを、請求項に記載の係り受け関係解析装置の各部として機能させるためのプログラム。
JP2013174799A 2013-08-26 2013-08-26 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム Active JP6062829B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013174799A JP6062829B2 (ja) 2013-08-26 2013-08-26 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013174799A JP6062829B2 (ja) 2013-08-26 2013-08-26 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015043163A JP2015043163A (ja) 2015-03-05
JP6062829B2 true JP6062829B2 (ja) 2017-01-18

Family

ID=52696663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013174799A Active JP6062829B2 (ja) 2013-08-26 2013-08-26 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6062829B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6291440B2 (ja) * 2015-03-02 2018-03-14 日本電信電話株式会社 パラメータ学習方法、装置、及びプログラム
JP7421363B2 (ja) 2020-02-14 2024-01-24 株式会社Screenホールディングス パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法
US20220269868A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Structure self-aware model for discourse parsing on multi-party dialogues
CN116739646B (zh) * 2023-08-15 2023-11-24 南京易联阳光信息技术股份有限公司 网络交易大数据分析方法及分析系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法

Also Published As

Publication number Publication date
JP2015043163A (ja) 2015-03-05

Similar Documents

Publication Publication Date Title
Karimi et al. Learning hierarchical discourse-level structure for fake news detection
White et al. Inference is everything: Recasting semantic resources into a unified evaluation framework
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
WO2018207723A1 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
JP5239307B2 (ja) 翻訳装置及び翻訳プログラム
CN109886294A (zh) 知识融合方法、装置、计算机设备和存储介质
US20100324883A1 (en) Trans-lingual representation of text documents
KR101732634B1 (ko) 의존관계 포레스트를 이용한 통계적 기계 번역 방법
JP6062829B2 (ja) 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム
CN109558482B (zh) 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
JP6946842B2 (ja) モデル学習装置、変換装置、方法、及びプログラム
Li et al. Text-to-text generative adversarial networks
CN111353306A (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN104699797A (zh) 一种网页数据结构化解析方法和装置
Vel Pre-processing techniques of text mining using computational linguistics and python libraries
CN109062904A (zh) 逻辑谓词提取方法和装置
CN105849718B (zh) 学习装置、翻译装置、学习方法以及翻译方法
CN110633467A (zh) 一种基于改进特征融合的语义关系抽取方法
JP6614152B2 (ja) テキスト処理システム、テキスト処理方法、及び、コンピュータ・プログラム
Goyal et al. A joint model of rhetorical discourse structure and summarization
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
CN109815497B (zh) 基于句法依存的人物属性抽取方法
JP6291440B2 (ja) パラメータ学習方法、装置、及びプログラム
JP5921457B2 (ja) 文書要約方法、装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160607

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161215

R150 Certificate of patent or registration of utility model

Ref document number: 6062829

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150