JP6232390B2 - Text summarization apparatus, method, and program - Google Patents

Text summarization apparatus, method, and program

Info

Publication number
JP6232390B2
JP6232390B2 JP2015024610A JP2015024610A JP6232390B2 JP 6232390 B2 JP6232390 B2 JP 6232390B2 JP 2015024610 A JP2015024610 A JP 2015024610A JP 2015024610 A JP2015024610 A JP 2015024610A JP 6232390 B2 JP6232390 B2 JP 6232390B2
Authority
JP
Japan
Prior art keywords
node
nodes
tree structure
subtree
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015024610A
Other languages
Japanese (ja)
Other versions
JP2016148946A (en
Inventor
正彬 西野
正彬 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015024610A priority Critical patent/JP6232390B2/en
Publication of JP2016148946A publication Critical patent/JP2016148946A/en
Application granted granted Critical
Publication of JP6232390B2 publication Critical patent/JP6232390B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキスト要約装置、方法、及びプログラムに係り、特に、与えられたテキストを要約するテキスト要約装置、方法、及びプログラムに関する。   The present invention relates to a text summarization apparatus, method, and program, and more particularly, to a text summarization apparatus, method, and program that summarizes a given text.

自然言語処理における要約文書生成とは、与えられた入力文書又は入力文に対して、適切な要約文書を自動的に生成することである。既存の要約生成手法として、組合せ最適化問題を解くことによって要約文書を生成する手法がいくつか存在する。手法の一種として、入力文書又は文を、文書の構成要素である文又は単語の依存関係を表現する根つき木として表現したのちに、制約を満たしつつ、かつある評価指標を最大化するような木の部分木を求めることによって要約を生成する手法が存在する(非特許文献1〜非特許文献3)。   The summary document generation in natural language processing is to automatically generate an appropriate summary document for a given input document or input sentence. As existing summary generation methods, there are several methods for generating summary documents by solving combinatorial optimization problems. As a kind of technique, after an input document or sentence is expressed as a rooted tree that expresses the dependency of sentences or words that are components of the document, a certain evaluation index is maximized while satisfying the constraints. There is a technique for generating a summary by obtaining a subtree of a tree (Non-Patent Document 1 to Non-Patent Document 3).

部分木の選択問題に基づいて文書要約を行うことによって、得られた要約文書においては、元の入力文書における構成要素間の依存関係が保存されることになり、結果と入力文書の適切な要約を生成することが可能である。   By performing document summarization based on the subtree selection problem, the resulting summary document preserves the dependencies between the components in the original input document, and results and an appropriate summary of the input document. Can be generated.

T. Hirao, Y. Yoshida and M. Nishino, N. Yasuda and M. Nagata,"Single-Document Summarization as a Tree Knapsack Problem", in proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013.T. Hirao, Y. Yoshida and M. Nishino, N. Yasuda and M. Nagata, "Single-Document Summarization as a Tree Knapsack Problem", in proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013. Y. Kikuchi, T. Hirao and H. Takamura, M. Okumura and M. Nagata,"Single document summarization based on nested tree structure", in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014.Y. Kikuchi, T. Hirao and H. Takamura, M. Okumura and M. Nagata, "Single document summarization based on nested tree structure", in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014. K. Filippova and M. Strube, "Dependency tree based sentence compression", in Proceedings of the Fifth International Natural Language Generation Conference, 2008.K. Filippova and M. Strube, "Dependency tree based sentence compression", in Proceedings of the Fifth International Natural Language Generation Conference, 2008. H. Hernault, H. Prendinger, D. duVerle, and M. Ishizuka, "HILDA:A discourse parser using support vector machine classication", Dialogue &Discourse, Vol. 1 No.3, 2010.H. Hernault, H. Prendinger, D. duVerle, and M. Ishizuka, "HILDA: A discourse parser using support vector machine classication", Dialogue & Discourse, Vol. 1 No. 3, 2010.

既存手法では要約を生成する際に、問題を整数線形計画問題として定式化して、定式化された問題について、整数線形計画問題ソルバーを用いて解くことによって解を求めていた。しかし、整数線形計画問題ソルバーは常に問題を解けることが保証されておらず、また、仮に問題を解けたとしても、問題を解けるまでにかかる時間を正確に見積もることが困難であるという問題があった。   In the existing method, when the summary is generated, the problem is formulated as an integer linear programming problem, and the formulated problem is solved by using an integer linear programming problem solver. However, the integer linear programming problem solver is not always guaranteed to solve the problem, and even if the problem is solved, it is difficult to accurately estimate the time required to solve the problem. It was.

本発明は、上記問題点を解決するために成されたものであり、計算時間の増大を抑制し、かつ、安定して要約の最適解を求めることができるテキスト要約装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made to solve the above-described problems, and provides a text summarization apparatus, method, and program capable of suppressing an increase in calculation time and stably obtaining an optimum summary solution. The purpose is to provide.

上記目的を達成するために、第1の発明に係るテキスト要約装置は、入力テキストに含まれる文字列単位を表すノードの各々から構成される木構造から、許容される部分木を選択することにより、前記入力テキストを要約するテキスト要約装置であって、前記木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むゼロサプレス型二分決定グラフ(Zero-suppressed Binary Decision Diagrams)を構築するZDD構築部と、前記木構造の各ノードについて入力された前記ノードのスコア及び長さと、入力された上限長さLと、前記ZDD構築部によって構築された前記ゼロサプレス型二分決定グラフとに基づいて、各ノードの順序に従って、n番目のノードについて、各長さj(0≦j≦L)に対し、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、前記部分木の各ノードのスコアの和が最大となる部分木を繰り返し計算して記憶部に記憶する最適値計算部と、前記最適値計算部によって繰り返し計算された計算過程に基づいて、前記上限長さL以下となる許容される部分木のうち、前記許容される部分木の各ノードのスコアの和が最大となる許容される部分木を、前記入力テキストの要約として出力するバックトラック部とを含み、前記最適値計算部は、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、前記部分木の各ノードのスコアの和が最大となる部分木を計算するとき、前記記憶部に記憶した、各ノードのスコアの和の最大値を呼び出して、LO側子ノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木と、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなるHI側子ノードを含む前記部分木とのうち、各ノードのスコアの和が最大となる前記部分木を再帰的に計算するように構成されている。   In order to achieve the above object, a text summarizing apparatus according to a first invention selects an allowable subtree from a tree structure composed of nodes each representing a character string unit included in an input text. A text summarization device for summarizing the input text, the HI side child node representing a set of allowable subtrees of the tree structure, and corresponding to each of the two terminal nodes and each node of the tree structure And a ZDD constructing unit for constructing a zero-suppressed binary decision diagram including a root node or an intermediate node having an LO side child node, and a score of the node input for each node of the tree structure, and Based on the length, the input upper limit length L, and the zero suppression type binary decision graph constructed by the ZDD constructing unit, the order of each node In accordance with the order, for each length j (0 ≦ j ≦ L) for the nth node, among the set of subtrees represented by the zero-suppressed binary decision graph with the nth node as the root node, An optimal value calculation unit that repeatedly calculates a partial tree having a sum of lengths equal to the length j and having the maximum score of each node of the partial tree and stores the subtree in a storage unit; Based on the calculation process repeatedly calculated by the optimum value calculation unit, the sum of the scores of the nodes of the allowable subtree among the allowable subtrees having the upper limit length L or less is maximized. A backtrack unit that outputs an allowable subtree as a summary of the input text, and the optimum value calculation unit is a set of subtrees represented by the zero-suppressed binary decision graph having an nth node as a root node Out of When calculating a subtree in which the sum of the lengths of the nodes is equal to the length j and the sum of the scores of the nodes of the subtree is maximized, the subtree is stored in the storage unit. The maximum sum of the scores of each node is called, and the sum of the lengths of the nodes is equal to the length j in the set of subtrees represented by the zero-suppressed binary decision graph whose root node is the LO side child node. And a sub-tree represented by the zero-suppressed binary decision graph having the n-th node as a root node, including a HI side node whose sum of lengths of each node is equal to a length j Among the subtrees, the subtree having the maximum score of each node is recursively calculated.

また、第1の発明に係るテキスト要約装置において、前記ZDD構築部は、前記入力テキストに対して予め定められた複数の根候補ノードを根ノードとする、前記木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むゼロサプレス型二分決定グラフを構築するようにしてもよい。   Further, in the text summarizing device according to the first invention, the ZDD constructing unit has a plurality of root candidate nodes predetermined for the input text as root nodes, and the allowable subtree of the tree structure. A zero-suppressed binary decision graph including a root node or an intermediate node having a HI-side child node and a LO-side child node corresponding to each terminal of the tree structure and representing the set and corresponding to each node of the tree structure is constructed. May be.

また、第1の発明に係るテキスト要約装置において、前記木構造は、入力テキストに含まれる第1の文字列単位を表すノードの各々から構成される木構造であって、前記第1の文字列単位を表すノードを、前記第1の文字列単位に含まれ、かつ、前記第1の文字列単位より小さい文字列単位である第2の文字列単位を表すノードの各々から構成される木構造に置き換えた、入れ子構造で表現される木構造であるようにしてもよい。   In the text summarizing device according to the first aspect of the present invention, the tree structure is a tree structure including nodes representing a first character string unit included in the input text, and the first character string. A tree structure including nodes representing units, each of which is included in the first character string unit and represents a second character string unit that is a character string unit smaller than the first character string unit A tree structure represented by a nested structure may be used.

第2の発明に係るテキスト要約方法は、入力テキストに含まれる文字列単位を表すノードの各々から構成される木構造から、許容される部分木を選択することにより、前記入力テキストを要約するテキスト要約方法であって、ZDD構築部が、前記木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むゼロサプレス型二分決定グラフ(Zero-suppressed Binary Decision Diagrams)を構築するステップと、最適値計算部が、前記木構造の各ノードについて入力された前記ノードのスコア及び長さと、入力された上限長さLと、前記ZDD構築部によって構築された前記ゼロサプレス型二分決定グラフとに基づいて、各ノードの順序に従って、n番目のノードについて、各長さj(0≦j≦L)に対し、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、前記部分木の各ノードのスコアの和が最大となる部分木を繰り返し計算して記憶部に記憶するステップと、バックトラック部が、前記最適値計算部によって繰り返し計算された計算過程に基づいて、前記上限長さL以下となる許容される部分木のうち、前記許容される部分木の各ノードのスコアの和が最大となる許容される部分木を、前記入力テキストの要約として出力するステップとを含んで、実行し、前記最適値計算部によって計算するステップは、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、前記部分木の各ノードのスコアの和が最大となる部分木を計算するとき、前記記憶部に記憶した、各ノードのスコアの和の最大値を呼び出して、LO側子ノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木と、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなるHI側子ノードを含む前記部分木とのうち、各ノードのスコアの和が最大となる前記部分木を再帰的に計算することを特徴とする。   The text summarizing method according to the second invention is a text summarizing the input text by selecting an allowable subtree from a tree structure composed of nodes representing character string units included in the input text. A summarization method, wherein a ZDD construction unit represents a set of allowable subtrees of the tree structure, and corresponds to two terminal nodes and each node of the tree structure. A step of constructing a zero-suppressed binary decision diagram including a root node or an intermediate node having child nodes, and an optimal value calculation unit input the score of the node input for each node of the tree structure And the length, the input upper limit length L, and the zero-suppressed binary decision graph constructed by the ZDD constructing unit. According to the order, for each length j (0 ≦ j ≦ L) for the nth node, each node of the set of subtrees represented by the zero-suppressed binary decision graph with the nth node as a root node A step of repeatedly calculating a subtree having a sum of lengths equal to the length j and having a maximum sum of scores of each node of the subtree and storing the subtree in a storage unit; and backtracking Based on the calculation process repeatedly calculated by the optimal value calculation unit, the sum of the scores of the nodes of the allowable subtree among the allowable subtrees having the upper limit length L or less is maximum. And outputting the allowed subtree as a summary of the input text, and calculating by the optimum value calculation unit includes the zero-supplement having the nth node as a root node. The subtree represented by the S-type binary decision graph is a subtree in which the sum of the lengths of the nodes is equal to the length j, and the sum of the scores of the nodes of the subtree is maximized When calculating a subtree, the maximum value of the sum of scores of each node stored in the storage unit is called, and among the set of subtrees represented by the zero suppression type binary decision graph having a LO side child node as a root node , The sum of the lengths of the nodes among the set of subtrees represented by the zero-suppressed binary decision graph having the sum of the lengths of the nodes equal to the length j and the nth node as the root node Among the subtrees including the HI side child node whose length is equal to the length j, the subtree having the maximum score of each node is recursively calculated.

また、第2の発明に係るテキスト要約方法において、前記ZDD構築部によってゼロサプレス型二分決定グラフを構築するステップは、前記入力テキストに対して予め定められた複数の根候補ノードを根ノードとする、前記木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むゼロサプレス型二分決定グラフを構築するようにしてもよい。   Further, in the text summarizing method according to the second invention, the step of constructing a zero-suppressed binary decision graph by the ZDD constructing unit uses a plurality of root candidate nodes predetermined for the input text as root nodes. Represents a set of permissible subtrees of the tree structure and includes two terminal nodes and root nodes or intermediate nodes having HI side nodes and LO side child nodes corresponding to each node of the tree structure A zero suppression type binary decision graph may be constructed.

また、第2の発明に係るテキスト要約方法において、前記木構造は、入力テキストに含まれる第1の文字列単位を表すノードの各々から構成される木構造であって、前記第1の文字列単位を表すノードを、前記第1の文字列単位に含まれ、かつ、前記第1の文字列単位より小さい文字列単位である第2の文字列単位を表すノードの各々から構成される木構造に置き換えた、入れ子構造で表現される木構造であるようにしてもよい。   In the text summarizing method according to the second invention, the tree structure is a tree structure composed of nodes representing the first character string unit included in the input text, and the first character string. A tree structure including nodes representing units, each of which is included in the first character string unit and represents a second character string unit that is a character string unit smaller than the first character string unit A tree structure represented by a nested structure may be used.

第2の発明に係るプログラムは、コンピュータを、上記第1の発明に係るテキスト要約装置を構成する各部として機能させるためのプログラムである。     A program according to the second invention is a program for causing a computer to function as each part constituting the text summarizing device according to the first invention.

本発明のテキスト要約装置、方法、及びプログラムによれば、木構造の許容される部分木の集合を表すZDDを構築し、ノードのスコア及び長さと、入力された上限長さLと、構築されたZDDとに基づいて、各ノードの順序に従って、n番目のノードについて、各長さjに対し、n番目のノードを根ノードとするゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる許容される部分木であって、かつ、部分木の各ノードのスコアの和が最大となる部分木を繰り返し計算するときに、記憶部に記憶した、各ノードのスコアの和の最大値を呼び出して、LO側子ノードを根ノードとするゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木と、n番目のノードを根ノードとする部分木ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなるHI側子ノードを含む部分木とのうち、各ノードのスコアの和が最大となる部分木を再帰的に計算することにより、計算時間の増大を抑制し、かつ、安定して要約の最適解を求めることができる、という効果が得られる。   According to the text summarization apparatus, method, and program of the present invention, a ZDD representing a set of allowable subtrees of a tree structure is constructed, and the score and length of the node and the input upper limit length L are constructed. Based on the ZDD, according to the order of each node, for each length j, for each length j, each of the subtrees represented by the zero suppression type binary decision graph with the nth node as a root node Stored in the storage unit when iteratively calculates a subtree in which the sum of the lengths of the nodes is an allowable subtree whose length is equal to the length j and the sum of the scores of the nodes of the subtree is maximum. The sum of the lengths of the nodes in the set of subtrees represented by the zero-suppressed binary decision graph with the LO side child node as the root node is called Equal subtree , A subtree including a HI side node in which the sum of the lengths of the nodes is equal to the length j among the set of subtrees represented by the subtree zero-suppression binary decision graph having the nth node as a root node Among them, by recursively calculating the subtree that maximizes the sum of the scores of each node, it is possible to suppress the increase in calculation time and to obtain the optimal solution for the summary stably. It is done.

本発明の実施の形態に係るテキスト要約装置の構成を示すブロック図である。It is a block diagram which shows the structure of the text summarizing apparatus which concerns on embodiment of this invention. 木構造と許容される部分木の一例を示す図である。It is a figure which shows an example of a tree structure and an allowable subtree. 木構造に対するZDDの一例を示す図である。It is a figure which shows an example of ZDD with respect to a tree structure. ZDDを配列で表現したものの一例を示す図である。It is a figure which shows an example of what represented ZDD by the arrangement | sequence. 二次元配列S、及び二次元配列Bの値の表現の一例を示す図である。It is a figure which shows an example of the expression of the value of the two-dimensional array S and the two-dimensional array B. バックトラッキングの一例を示す図である。It is a figure which shows an example of backtracking. 本発明の実施の形態に係るテキスト要約装置におけるテキスト要約処理ルーチンを示すフローチャートである。It is a flowchart which shows the text summarization processing routine in the text summarization apparatus concerning embodiment of this invention. 本発明の実施の形態に係るテキスト要約装置における最適解算出処理ルーチンを示すフローチャートである。It is a flowchart which shows the optimal solution calculation process routine in the text summarizing apparatus which concerns on embodiment of this invention. 複数の根候補ノードをもつ木構造により表現された文の一例を示す図である。It is a figure which shows an example of the sentence expressed by the tree structure which has several root candidate nodes. 根候補ノード集合をもつ木構造の一例を示す図である。It is a figure which shows an example of the tree structure which has a root candidate node set. 木構造の根候補ノードを根ノードとしてもつ部分木、及びそれらのノードの集合を表現したZDDの一例を示す図である。It is a figure which shows an example of ZDD expressing the subtree which has a root candidate node of a tree structure as a root node, and the set of those nodes. 許容される部分木の一例を示す図である。It is a figure which shows an example of the allowable subtree. 入れ子構造の木構造により表現される文書の一例を示す図である。It is a figure which shows an example of the document expressed by the tree structure of a nested structure. 入れ子構造で表現される木構造の一例を示す図である。It is a figure which shows an example of the tree structure expressed with a nesting structure. 入れ子構造で表現される木構造の許容される部分木の集合を表現したZDDの一例を示す図である。It is a figure which shows an example of ZDD expressing the collection of the allowable subtree of the tree structure expressed by a nested structure. 許容される部分木の一例を示す図である。It is a figure which shows an example of the allowable subtree.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態に係る概要> <Outline according to Embodiment of the Present Invention>

まず、本発明の実施の形態における概要を説明する。   First, an outline of the embodiment of the present invention will be described.

本発明の実施の形態では、部分木の選択問題を解くための動的計画法に基づく要約生成装置を用いる。本発明の実施の形態で示す要約生成装置を用いることで、部分木の選択問題において常に最適解を求められることが保証されている。また、処理時間も入力として与えられた木のノード数をN、生成する要約の最大長さをLとしたときに、O(NLlogN)となることが理論的に保証されている。   In the embodiment of the present invention, a summary generation apparatus based on dynamic programming for solving a subtree selection problem is used. By using the summary generation apparatus shown in the embodiment of the present invention, it is guaranteed that an optimal solution can always be obtained in the subtree selection problem. The processing time is theoretically guaranteed to be O (NLlogN), where N is the number of nodes in the tree given as input and L is the maximum length of the summary to be generated.

本発明の実施の形態で示す要約生成装置では、入力により木構造が与えられた時に、部分木の集合をゼロサプレス型二分決定グラフ(Zero-suppressed Binary Decision Diagrams:以下、ZDDと記載する。)にまず変換する。ゼロサプレス型二分決定グラフは集合族を表現するためのデータ構造であり、集合族を有向非巡回グラフ(Directed Acyclic Graph:以下、DAGと記載する。)として表現する。部分木の集合をZDDとして表現したのちに、ZDDの構造を用いた動的計画法を実行することによって最適な部分木を得る。原理的には、木のノード数をN、各ノードをe,・・・,e、ノードeのスコアをw、長さをlとすると、以下(1)及び(2)式に示す問題を説くことに相当する。 In the summary generation apparatus shown in the embodiment of the present invention, when a tree structure is given by input, a set of sub-trees is converted into a zero-suppressed binary decision diagram (hereinafter referred to as ZDD). First convert. The zero-suppressed binary decision graph is a data structure for expressing a set family, and the set family is expressed as a directed acyclic graph (hereinafter referred to as DAG). After expressing a set of subtrees as ZDD, an optimal subtree is obtained by executing dynamic programming using the structure of ZDD. In principle, if the number of nodes in the tree is N, each node is e 1 ,..., E N , the score of the node e i is w i , and the length is l i , the following (1) and (2) This is equivalent to explaining the problem shown in the formula.

ここでTは部分木、Sは部分木の集合である。各部分木Tはそれに含まれるノードの集合として表現される。したがってT∈{e,・・・,e}である。 Here, T is a subtree and S is a set of subtrees. Each subtree T is expressed as a set of nodes included therein. Therefore, T∈ {e 1 ,..., E N }.

<本発明の第1の実施の形態に係るテキスト要約装置の構成> <Configuration of Text Summarization Device According to First Embodiment of the Present Invention>

次に、本発明の第1の実施の形態に係るテキスト要約装置の構成について説明する。第1の実施の形態に係るテキスト要約装置は文抽出問題を解く。図1に示すように、本発明の第1の実施の形態に係るテキスト要約装置100は、CPUと、RAMと、後述するテキスト要約処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このテキスト要約装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。   Next, the configuration of the text summarizing device according to the first embodiment of the present invention will be described. The text summarization apparatus according to the first embodiment solves a sentence extraction problem. As shown in FIG. 1, a text summarization apparatus 100 according to the first embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a text summarization processing routine described later. , Can be configured with a computer including. Functionally, the text summarizing apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 50 as shown in FIG.

入力部10は、木構造として表現された入力文書、木構造の各ノードに対応付けられたスコア、長さ、及び要約の長さとして許容する上限長さLを受け付ける。木構造の各ノードは、文書を構成する構成単位に相当し、本実施の形態では、文に相当する。入力として与えられる木構造の例を図2に示す。このような木構造は、上記非特許文献3に記載されている談話構造解析器に文書を入力することで得ることができる。   The input unit 10 receives an input document expressed as a tree structure, a score associated with each node of the tree structure, a length, and an upper limit length L allowed as a summary length. Each node of the tree structure corresponds to a structural unit constituting a document, and corresponds to a sentence in the present embodiment. An example of a tree structure given as an input is shown in FIG. Such a tree structure can be obtained by inputting a document to the discourse structure analyzer described in Non-Patent Document 3.

演算部20は、ZDD構築部30と、最適値計算部32と、記憶部40とを含んで構成されている。   The calculation unit 20 includes a ZDD construction unit 30, an optimum value calculation unit 32, and a storage unit 40.

ZDD構築部30は、入力部10で受け付けた、木構造として表現された入力文書に基づいて、木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むZDDを構築する。   The ZDD constructing unit 30 represents a set of allowable subtrees of the tree structure based on the input document expressed as a tree structure received by the input unit 10, and each of the two terminal nodes and the tree structure Construct a ZDD that includes a root or intermediate node that has a HI side child node and a LO side child node corresponding to the node.

ZDD構築部30の具体的な処理を以下に説明する。ZDD構築部30は、まず、入力部10により受け付けた、木構造として表現された入力文書を取得する。次に、ZDD構築部30は、入力部10により受け付けた、各ノードに対するスコアwおよび長さl、要約の上限長さLを取得する。スコアwは非負実数、長さ、及び上限長さは非負整数であるとする。スコア、及び長さの定義は任意であるが、例えば、非特許文献1と同様に、スコアを単語の出現頻度と木の構造より定め、長さは文に含まれる単語の個数で定義する。 Specific processing of the ZDD constructing unit 30 will be described below. The ZDD constructing unit 30 first acquires an input document expressed as a tree structure received by the input unit 10. Next, the ZDD constructing unit 30 acquires the score w i and the length l i for each node and the upper limit length L of the summary received by the input unit 10. Assume that the score w i is a non-negative real number, the length, and the upper limit length are non-negative integers. The definition of the score and the length is arbitrary. For example, as in Non-Patent Document 1, the score is determined from the appearance frequency of the word and the tree structure, and the length is defined by the number of words included in the sentence.

次に、取得した木構造に含まれる部分木のうち、取得した木構造における根ノードと同じ根ノードを持つ根付き部分木の集合を、許容される部分木の集合として表現するZDDを生成する。ここである部分木は、取得した木構造に含まれるノードの部分集合として表現されるものとする。図3は取得した木構造、木構造の根ノードと同じ根ノードをもつ部分木、及びそれらのノードの集合を表現したZDDである。取得した木構造に基づいて、こうした木構造の根を含む部分木のすべてを、ノードの集合として列挙したのちに、列挙したノードの集合からなる集合族を表現するZDDを生成する。ZDDは、例えば非特許文献5(S. Minato, "Zero-suppressed BDDs for set manipulation in combinatorial problems", in Proceedings of the 30th conference on Design Automation,1993.)で示されているようなapply演算を繰り返し適用することで生成することができる。   Next, among the subtrees included in the acquired tree structure, a ZDD is generated that expresses a set of rooted subtrees having the same root node as the root node in the acquired tree structure as an allowable subtree set. The subtree here is expressed as a subset of nodes included in the acquired tree structure. FIG. 3 is a ZDD representing an acquired tree structure, a subtree having the same root node as the root node of the tree structure, and a set of those nodes. Based on the acquired tree structure, all subtrees including the root of the tree structure are enumerated as a set of nodes, and then a ZDD representing a set family composed of the enumerated nodes is generated. For ZDD, for example, non-patent document 5 (S. Minato, “Zero-suppressed BDDs for set manipulation in combinatorial problems”, in Proceedings of the 30th conference on Design Automation, 1993.) is repeated. It can be generated by applying.

また、ZDD構築部30においてZDDを構成する際には、取得した木構造のノード間の全順序関係をあらかじめ定める必要がある。ノード間の順序を変化させるとZDDの構造も変化する。今回扱う問題では木を深さ優先で行き掛け順にたどったときの順序を採用する。例えば上記図2の木構造に対しては、順序e,e,e,e,e,e,eが深さ優先の行き掛け順に対応する。上記図3は、深さ優先の行き掛け順でノードの全順序関係を定めたときのZDDである。ZDDはDAGの形状をしており、ZDDの終端ノード以外の各中間ノードは必ず2つの子ノードをもつ。それぞれの子供をLO側子ノード(0−子)、HI側子ノード(1−子)と呼び、また子供を指すエッジをそれぞれ0−エッジ、1−エッジと呼ぶ。また、各ノードにはラベルが関連づけられている。各ラベルはZDDのノードに対応する木構造のノードを表している。1つのZDDは必ず2つの終端ノードを持ち、それらは Further, when the ZDD is configured in the ZDD constructing unit 30, it is necessary to predetermine the total order relationship between the acquired nodes of the tree structure. Changing the order between nodes also changes the ZDD structure. In the problem to be dealt with this time, the order in which the trees are traced in the order of priority with depth priority is adopted. For example, for the tree structure of FIG. 2, the order e 7, e 3, e 1 , e 2, e 5, e 4, e 6 corresponds to the pre-order traversal of the depth-first. FIG. 3 is a ZDD when the total order relationship of the nodes is determined in the depth-first order. ZDD has a DAG shape, and each intermediate node other than the terminal node of ZDD always has two child nodes. Each child is called an LO side child node (0-child) and an HI side child node (1-child), and edges pointing to the children are called 0-edge and 1-edge, respectively. Each node is associated with a label. Each label represents a tree-structured node corresponding to a ZDD node. A ZDD always has two end nodes, which are

と⊥のラベルが付与されている。ZDDは親ノードをもたないノードを必ず1つだけもつ。このノードを根ノードとよぶ。ZDDの根ノードから And ⊥ label. ZDD always has only one node that does not have a parent node. This node is called the root node. From the root node of ZDD

終端ノードまでの1つのパスが、集合族に含まれる1つの集合に対応する。具体的には、ZDDが表す集合族に含まれる1つの集合は、パス中に出現するノードのうち、1−エッジがパスに含まれているZDDのノードに対応づけられているラベルの集合に対応する。 One path to the end node corresponds to one set included in the set family. Specifically, one set included in the set family represented by ZDD is a set of labels associated with the ZDD nodes whose 1-edge is included in the path among the nodes appearing in the path. Correspond.

ZDD構築部30において、以上のようにして構築したZDDは配列として表現できる。配列はZDDのノード数に応じた個数の要素をもち、各要素はラベル、0−子のアドレス、1−子のアドレスの3つ組からなる。図4は図3のZDDを配列で表現したものである。i番目の要素について、ノードに対するラベルをv(i)、0−子のアドレスをlo(i)、1−子のアドレスをhi(i)とする。   In the ZDD construction unit 30, the ZDD constructed as described above can be expressed as an array. The array has a number of elements corresponding to the number of nodes in the ZDD, and each element consists of a triplet of a label, a 0-child address, and a 1-child address. FIG. 4 represents the ZDD of FIG. 3 in an array. For the i-th element, the label for the node is v (i), the 0-child address is lo (i), and the 1-child address is hi (i).

最適値計算部32は、木構造の各ノードについて入力されたノードのスコア及び長さと、入力された上限長さLと、ZDD構築部30によって構築されたZDDとに基づいて、各ノードの順序に従って、n番目のノードについて、各長さj(0≦j≦L)に対し、ZDD構築部30によって構築されたZDDの少なくとも一部のZDDであって、n番目のノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、部分木の各ノードのスコアの和が最大となる部分木を繰り返し計算して記憶部40に記憶する。ここで、n番目のノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、部分木の各ノードのスコアの和が最大となる部分木を計算するとき、記憶部40に記憶した、各ノードのスコアの和の最大値を呼び出して、LO側子ノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木と、n番目のノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなるHI側子ノードを含む部分木とのうち、各ノードのスコアの和が最大となる部分木を再帰的に計算する。   The optimum value calculation unit 32 determines the order of each node based on the node score and length input for each node of the tree structure, the input upper limit length L, and the ZDD constructed by the ZDD construction unit 30. The nth node is at least a part of the ZDD constructed by the ZDD constructing unit 30 for each length j (0 ≦ j ≦ L), and the nth node is a root node. Of the set of subtrees represented by ZDD, the subtree in which the sum of the lengths of the nodes is equal to the length j and the subtree having the maximum score of the nodes of the subtree is repeatedly calculated. And stored in the storage unit 40. Here, in the set of subtrees represented by the ZDD having the nth node as a root node, the subtrees in which the sum of the lengths of the nodes is equal to the length j, and each node of the subtree When calculating a subtree having the maximum score sum, a set of subtrees represented by ZDD having the LO side child node as a root node by calling the maximum value of the score sum of each node stored in the storage unit 40 Among the subtrees in which the sum of the lengths of the nodes is equal to the length j and the set of subtrees represented by ZDD with the nth node as the root node, the sum of the lengths of the nodes is the length Among the subtrees including the HI side child nodes equal to j, the subtree having the maximum score of each node is recursively calculated.

最適値計算部32における具体的な処理を以下に説明する。なお、最適化処理には動的計画法アルゴリズムを用いる。   Specific processing in the optimum value calculation unit 32 will be described below. Note that a dynamic programming algorithm is used for the optimization process.

最適値計算部32は、まず、2つのZ×(L+1)要素からなる2次元配列S、及び2次元配列Bを用意する。ZはZDD構築部30で求めたZDDのノードの個数である。配列Sの(i,j)要素(1≦i≦Z,0≦j≦Lとする)をS[i][j]と表す。1≦i≦Z,0≦j≦Lについては、S[i][j]に−∞を代入して、S[i][j]を初期化する。そして、S[Z−1][0]に0を代入する。   The optimum value calculation unit 32 first prepares a two-dimensional array S and a two-dimensional array B composed of two Z × (L + 1) elements. Z is the number of ZDD nodes obtained by the ZDD constructing unit 30. The (i, j) element of the array S (1 ≦ i ≦ Z, 0 ≦ j ≦ L) is represented as S [i] [j]. For 1 ≦ i ≦ Z and 0 ≦ j ≦ L, S [i] [j] is initialized by substituting −∞ for S [i] [j]. Then, 0 is substituted into S [Z-1] [0].

配列Sの値S[i][j]を、それぞれ、i=Z−1,Z−2,・・・,1、j=0,1,・・・,L+1の順に、以下の(3)式に従って再帰的に更新する。   The values S [i] [j] of the array S are changed to the following (3) in the order of i = Z-1, Z-2,..., 1, j = 0, 1,. Update recursively according to an expression.

ただし、上記(3)式の下段の選択肢はj−l≧0を満たす場合にのみ選択可能であるとする。上記(3)式に従って更新したS[i][j]は、i番目のノードを根とするZDDが表現する集合族に含まれる集合のうち、当該集合に含まれる木のノードの長さの和がjであるものを取り出したときのスコアの和の最大値となっている。 However, it is assumed that the lower option of the above expression (3) can be selected only when j−l i ≧ 0 is satisfied. S [i] [j] updated according to the above equation (3) is the length of the node of the tree included in the set among the sets included in the set family represented by the ZDD rooted at the i-th node. It is the maximum value of the sum of scores when the sum of j is extracted.

配列B[i][j]には、上記(3)式において、S[i][j]を上段又は下段の解の候補のうちのどちらを用いて更新したかを示す記号を記録する。すなわち、上記(3)式の上段の選択肢を用いてS[i][j]にS[lo(i)][j]を代入して更新したならば、B[i][j]にLO側子ノードを表す「LO」と記録し、下段の選択肢を用いてS[i][j]にS[hi(i)][j−l]+wと代入して更新したならば、B[i][j]にHI側子ノードを表すHIと記録する。B[i][j]に記録された値は後述するバックトラック部34の処理で用いられる。そして、S[1][j](0≦j≦L)の最大値を与えるjを取り出し、jとする。もし最大値が−∞ならば解なしとして処理を終了する。図5に実行途中のある時点での二次元配列S、及び二次元配列Bの値の表現を示す。図5の例では、iに関しては下から上にN8から順に更新し、jに関しては左から右に順に更新している。 In the array B [i] [j], a symbol indicating whether S [i] [j] is updated using the upper or lower solution candidate in the above equation (3) is recorded. That is, if S [lo (i)] [j] is substituted for S [i] [j] and updated using the upper option in the above equation (3), LO is set to B [i] [j]. represents the side child node records the "LO", if updated by substituting the S [i] to [j] S [hi (i )] [j-l i] + w i with lower choices, Record HI representing the HI side child node in B [i] [j]. The value recorded in B [i] [j] is used in the processing of the backtrack unit 34 described later. Then, j which gives the maximum value of S [1] [j] (0 ≦ j ≦ L) is taken out and is set as j * . If the maximum value is −∞, the process is terminated as no solution. FIG. 5 shows a representation of the values of the two-dimensional array S and the two-dimensional array B at a certain point during execution. In the example of FIG. 5, i is updated from bottom to top in order from N8, and j is updated in order from left to right.

バックトラック部34は、最適値計算部32によって繰り返し計算された計算過程に基づいて、上限長さL以下となる許容される部分木のうち、許容される部分木の各ノードのスコアの和が最大となる許容される部分木を、入力文書の要約として出力部50により出力する。   Based on the calculation process repeatedly calculated by the optimum value calculation unit 32, the backtrack unit 34 calculates the sum of the scores of the nodes of the allowable subtree among the allowable subtrees that are equal to or less than the upper limit length L. The maximum allowable subtree is output by the output unit 50 as a summary of the input document.

バックトラック部34の具体的なバックトラッキング処理について以下に説明する。バックトラック部34では、図6に示す二次元配列B[i][j]におけるバックトラッキングを実行する。バックトラック部34は、まず、   A specific back tracking process of the back track unit 34 will be described below. The backtrack unit 34 performs backtracking in the two-dimensional array B [i] [j] shown in FIG. First, the backtrack unit 34

として、sを初期化する。sは最適解となる部分木のラベルv(i)を格納する配列である。また、(i,j)に(1,j)を代入して、(i,j)を初期化する。次に、B[i][j]=LOならば、(i,j)に(lo(i),j)を代入して更新する。B[i][j]=HIならば、sをs∪v(i)に更新した上で、(i,j)に(hi(i),j−l)を代入して更新する。そして、(i,j)=(Z−1,0)ならばsに格納されたラベルによる許容される部分木を最適解として出力して処理を終了し、そうでなければバックトラッキングの処理を繰り返す。 S is initialized as follows. s is an array for storing the label v (i) of the subtree that is the optimal solution. Also, (i, j) is initialized by substituting (1, j * ) into (i, j). Next, if B [i] [j] = LO, it is updated by substituting (lo (i), j) for (i, j). If B [i] [j] = HI, s is updated to s∪v (i), and (hi (i), j−l i ) is substituted for (i, j). If (i, j) = (Z−1,0), the subtree allowed by the label stored in s is output as an optimal solution, and the process ends. Otherwise, the backtracking process is performed. repeat.

<本発明の第1の実施の形態に係るテキスト要約装置の作用> <Operation of Text Summarization Device According to First Embodiment of the Present Invention>

次に、本発明の第1の実施の形態に係るテキスト要約装置100の作用について説明する。入力部10において木構造として表現された入力文書、木構造の各ノードに対応付けられたスコア、長さ、及び要約の長さとして許容する上限長さLを受け付けると、テキスト要約装置100は、図7に示すテキスト要約処理ルーチンを実行する。   Next, the operation of the text summarization apparatus 100 according to the first embodiment of the present invention will be described. When receiving the input document expressed as a tree structure in the input unit 10, the score associated with each node of the tree structure, the length, and the upper limit length L allowed as the summary length, The text summarization processing routine shown in FIG. 7 is executed.

まず、ステップS100では、入力部10において受け付けた、木構造として表現された入力文書、スコア、長さ、及び要約の長さとして許容する上限長さLを取得する。   First, in step S100, the input unit 10 accepts an input document expressed as a tree structure, a score, a length, and an upper limit length L allowed as a summary length.

次に、ステップS102では、ステップS100で取得した木構造として表現された入力文書に基づいて、ZDDを生成する。   Next, in step S102, a ZDD is generated based on the input document expressed as a tree structure acquired in step S100.

ステップS104では、ステップS100で取得したスコア、長さ、及び要約の長さとして許容する上限長さLと、ステップS102で生成したZDDとに基づいて、各ノードの長さの和が、上限長さL以下であり、かつ、各ノードのスコアの和が最大となる許容される部分木を計算する。   In step S104, based on the upper limit length L allowed as the score, length, and summary length acquired in step S100, and the ZDD generated in step S102, the sum of the lengths of the nodes is determined as the upper limit length. An allowable subtree that is less than or equal to L and has the maximum score of each node is calculated.

ステップS106では、ステップS104で計算された、各ノードの長さの和が、上限長さL以下であり、かつ、各ノードのスコアの和が最大となる許容される部分木を、入力文書の要約として出力部50により出力し、処理を終了する。   In step S106, an allowable subtree in which the sum of the lengths of the respective nodes calculated in step S104 is equal to or less than the upper limit length L and the sum of the scores of the respective nodes is maximized is determined in the input document. A summary is output by the output unit 50, and the process is terminated.

上記ステップS104の最適解算出処理ルーチンについて以下、詳細に説明する。   The optimal solution calculation processing routine in step S104 will be described in detail below.

図8に示すステップS200では、まず、2次元配列S、及び2次元配列Bを用意する。   In step S200 shown in FIG. 8, first, a two-dimensional array S and a two-dimensional array B are prepared.

次に、ステップS202では、ステップS200で用意した2次元配列S、及び2次元配列Bを初期化する。   Next, in step S202, the two-dimensional array S and the two-dimensional array B prepared in step S200 are initialized.

ステップS204では、2次元配列Sを上記(3)式に従って再帰的に更新し、配列Bに上記(3)式において、S[i][j]を上段又は下段の解の候補のうちのどちらを用いて更新したかを示す記号を記録する。   In step S204, the two-dimensional array S is recursively updated according to the above equation (3), and in the above equation (3), S [i] [j] is replaced with one of the upper and lower solution candidates. Record the symbol that indicates whether it was updated using.

ステップS206では、ステップS204で更新したS[1][j](0≦j≦L)の最大値を与えるjを取り出し、jとする。 In step S206, j giving the maximum value of S [1] [j] (0 ≦ j ≦ L) updated in step S204 is extracted and is set as j * .

ステップS208では、配列sを初期化する。   In step S208, the array s is initialized.

ステップS210では、(i,j)に(1,j)を代入して、(i,j)を初期化する。 In step S210, (1, j * ) is substituted for (i, j) to initialize (i, j).

ステップS212では、ステップS204で更新したB[i][j]に基づいて、B[i][j]=LOならば、(i,j)に(lo(i),j)を代入して更新し、B[i][j]=HIならば、sをs∪v(i)に更新した上で、(i,j)に(hi(i),j−l)を代入して更新する。 In step S212, if B [i] [j] = LO based on B [i] [j] updated in step S204, (lo (i), j) is substituted for (i, j). If B [i] [j] = HI, s is updated to s∪v (i), and (hi (i), j−l i ) is substituted for (i, j). Update.

ステップS214では、(i,j)=(Z−1,0)かを判定し、(i,j)=(Z−1,0)であれば最適解算出処理ルーチンを終了し、(i,j)=(Z−1,0)でなければ、ステップS212へ移行して処理を繰り返す。   In step S214, it is determined whether (i, j) = (Z-1,0). If (i, j) = (Z-1,0), the optimal solution calculation processing routine is terminated. If j) = (Z-1, 0) is not satisfied, the process proceeds to step S212 and the process is repeated.

以上説明したように、第1の実施の形態に係るテキスト要約装置によれば、木構造の許容される部分木の集合を表すZDDを構築し、ノードのスコア及び長さと、入力された上限長さLと、構築されたZDDとに基づいて、各ノードの順序に従って、n番目のノードについて、各長さjに対し、n番目のノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、部分木の各ノードのスコアの和が最大となる部分木を繰り返し計算して記憶部に記憶するときに、記憶部に記憶した、各ノードのスコアの和の最大値を呼び出して、LO側子ノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木と、n番目のノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなるHI側子ノードを含む部分木とのうち、各ノードのスコアの和が最大となる部分木を再帰的に計算することにより、計算時間の増大を抑制し、かつ、安定して要約の最適解を求めることができる。   As described above, according to the text summarizing device according to the first embodiment, a ZDD representing an allowable subtree set of a tree structure is constructed, and the score and length of the node, and the input upper limit length Based on the length L and the constructed ZDD, according to the order of each node, for each length j, for the length j, out of the set of subtrees represented by the ZDD with the nth node as the root node When a subtree in which the sum of the lengths of the nodes is equal to the length j and the subtree in which the sum of the scores of the nodes of the subtree is maximum is repeatedly calculated and stored in the storage unit The maximum sum of the scores of each node stored in the storage unit is called, and the sum of the lengths of the nodes of the set of subtrees represented by ZDD whose root node is the LO side child node is the length j A subtree equal to and the root of the nth node Of the subtree set represented by ZDD, the subtree having the maximum sum of the scores of the nodes among the subtrees including the HI side nodes whose sum of lengths is equal to the length j. By recursively calculating, it is possible to suppress an increase in calculation time and to obtain an optimal solution for the summary stably.

<本発明の第2の実施の形態に係るテキスト要約装置の構成> <Configuration of Text Summarization Device According to Second Embodiment of the Present Invention>

次に、本発明の第2の実施の形態に係るテキスト要約装置の構成について説明する。第2の実施の形態に係るテキスト要約装置は文短縮問題を解く。なお、第1の実施の形態のテキスト要約装置100と同様の構成となる部分については、同一符号を付して説明を省略する。   Next, the configuration of the text summarizing apparatus according to the second embodiment of the present invention will be described. The text summarization apparatus according to the second embodiment solves the sentence shortening problem. In addition, about the part which becomes the structure similar to the text summarization apparatus 100 of 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

上記図1に示すように、本発明の第2の実施の形態に係るテキスト要約装置100は、CPUと、RAMと、テキスト要約処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このテキスト要約装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。   As shown in FIG. 1, the text summarization apparatus 100 according to the second embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a text summarization processing routine, Can be configured with a computer including Functionally, the text summarizing apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 50 as shown in FIG.

第2の実施の形態に係る入力部10は、木構造として表現された入力文、木構造の各ノードに対応付けられたスコア、長さ、及び要約の長さとして許容する上限長さLを受け付ける。また、入力部10は、当該入力文に対して予め定められた複数の根候補ノードを受け付ける。入力文は、文に含まれる単語の依存関係を表す根つき木として表現したものである。このような依存関係を表す根つき部分木は、文を非特許文献6(D. Chen and C. D. Manning, "A fast and accurate dependency parserusing neural networks", in Proceedings of the 2014 conference on Empirical Methods, in Natural Language Processing, 2014.)に示すような依存構造解析器に入力して出力された木に対して、上記非特許文献3に示す変換処理を適用することで得ることができる。入力として与えられる文の木構造の一例を図9に示す。   The input unit 10 according to the second embodiment includes an input sentence expressed as a tree structure, a score associated with each node of the tree structure, a length, and an upper limit length L that is allowed as a summary length. Accept. Further, the input unit 10 accepts a plurality of root candidate nodes determined in advance for the input sentence. The input sentence is expressed as a rooted tree representing the dependency of words included in the sentence. Such rooted subtrees representing dependencies are described in Non-Patent Document 6 (D. Chen and CD Manning, "A fast and accurate dependency parserusing neural networks", in Proceedings of the 2014 conference on Empirical Methods, in Natural It can be obtained by applying the conversion process shown in Non-Patent Document 3 to the tree that is input to and output from the dependency structure analyzer as shown in Language Processing, 2014.). An example of the tree structure of a sentence given as input is shown in FIG.

第2の実施の形態に係る演算部20は、ZDD構築部30と、最適値計算部32と、記憶部40とを含んで構成されている。   The calculation unit 20 according to the second embodiment includes a ZDD construction unit 30, an optimum value calculation unit 32, and a storage unit 40.

第2の実施の形態に係るZDD構築部30では、以下に説明するように、入力部10で受け付けた、木構造として表現された入力文書に基づいて、入力文に対して予め定められた複数の根候補ノードを根ノードとする、木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むZDDを構築する。   In the ZDD constructing unit 30 according to the second embodiment, as will be described below, a plurality of predetermined numbers for the input sentence based on the input document expressed as a tree structure received by the input unit 10. HI side child node and LO side child node that represent a set of allowable subtrees of a tree structure having a root candidate node as a root node, and corresponding to each of two terminal nodes and each node of the tree structure. Construct a ZDD that contains the root or intermediate nodes that you have.

第2の実施の形態に係るZDD構築部30では、取得した木構造に含まれる部分木のうち、取得した木構造における根候補ノードのいずれかを根ノードとして持つ部分木の集合を、許容される部分木の集合として表現するZDDを生成する。図10は取得した木構造を示し、図11は、木構造の根候補ノードを根ノードとしてもつ部分木、及びそれらのノードの集合を表現したZDDの一例である。また、第2の実施の形態に係るZDD構築部30では、第1の実施の形態と同様に、取得した木構造のノード間の全順序関係をあらかじめ定める必要がある。第2の実施の形態では、ノード間の全順序については、各ノードに対して順序スコアを定義し、順序スコアが高い子ノードの順序が先になるような深さ優先行きがけ順を採用する。ここで、ノードのスコアは、当該ノードの子孫ノードからなる部分木に含まれる、最大の許容される部分木のノード数とする。図12に示す許容される部分木であれば、例えばe,e,eのスコアはそれぞれ6,4,0である。 In the ZDD constructing unit 30 according to the second embodiment, among subtrees included in the acquired tree structure, a set of subtrees having any one of root candidate nodes in the acquired tree structure as a root node is allowed. ZDD expressed as a set of subtrees is generated. FIG. 10 shows the acquired tree structure, and FIG. 11 is an example of a ZDD representing a subtree having a root candidate node of the tree structure as a root node and a set of those nodes. Further, in the ZDD constructing unit 30 according to the second embodiment, it is necessary to determine in advance the total order relationship between the nodes of the acquired tree structure, as in the first embodiment. In the second embodiment, with respect to the total order between nodes, an order score is defined for each node, and a depth priority order is adopted in which the order of child nodes having a higher order score is first. Here, the score of the node is the maximum allowable number of subtrees included in the subtree consisting of the descendant nodes of the node. In the allowable subtree shown in FIG. 12, for example, the scores of e 1 , e 3 , and e 6 are 6 , 4 , and 0, respectively.

なお、第2の実施の形態に係るテキスト要約装置の他の構成及び作用は、第1の実施の形態のテキスト要約装置100と同様であるため詳細な説明を省略する。   In addition, since the other structure and effect | action of the text summarization apparatus based on 2nd Embodiment are the same as that of the text summarization apparatus 100 of 1st Embodiment, detailed description is abbreviate | omitted.

以上説明したように、本発明の第2の実施の形態に係るテキスト要約装置によれば、予め定められた複数の根候補ノードを根ノードとする、木構造の許容される部分木の集合を表すZDDを構築し、ノードのスコア及び長さと、入力された上限長さLと、構築されたZDDとに基づいて、各ノードの順序に従って、n番目のノードについて、各長さjに対し、n番目のノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、部分木の各ノードのスコアの和が最大となる部分木を繰り返し計算して記憶部に記憶するときに、記憶部に記憶した、各ノードのスコアの和の最大値を呼び出して、LO側子ノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木と、n番目のノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなるHI側子ノードを含む部分木とのうち、各ノードのスコアの和が最大となる部分木を再帰的に計算することにより、計算時間の増大を抑制し、かつ、安定して要約の最適解を求めることができる。   As described above, according to the text summarizing device according to the second embodiment of the present invention, a set of subtrees having an allowable tree structure having a plurality of predetermined root candidate nodes as root nodes. Construct a ZDD to represent, for each length j for the nth node according to the order of each node, based on the score and length of the node, the input upper limit length L, and the constructed ZDD, Of the set of subtrees represented by ZDD having the nth node as a root node, the sum of the lengths of the nodes is a subtree whose length is equal to j, and the sum of the scores of the nodes of the subtree When the subtree with the largest value is repeatedly calculated and stored in the storage unit, the maximum value of the sum of the scores of each node stored in the storage unit is called, and the ZDD with the LO side child node as the root node represents The length of each node in the set of subtrees HI side child node in which the sum of the lengths of each node is equal to the length j in the set of subtrees represented by ZDD whose root node is the nth node and the subtree whose sum is equal to the length j By recursively calculating the subtree that has the largest sum of the scores of each node, it is possible to suppress the increase in calculation time and to obtain the optimal solution for the summary stably. it can.

<本発明の第3の実施の形態に係るテキスト要約装置の構成> <Configuration of Text Summarization Device According to Third Embodiment of the Present Invention>

次に、本発明の第3の実施の形態に係るテキスト要約装置の構成について説明する。第3の実施の形態に係るテキスト要約装置は文抽出及び文短縮を同時に行う問題を解く。なお、第1及び第2の実施の形態のテキスト要約装置100と同様の構成となる部分については、同一符号を付して説明を省略する。   Next, the configuration of the text summarizing device according to the third embodiment of the present invention will be described. The text summarization apparatus according to the third embodiment solves the problem of sentence extraction and sentence shortening simultaneously. In addition, about the part which becomes the structure similar to the text summarization apparatus 100 of 1st and 2nd embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

上記図1に示すように、本発明の第3の実施の形態に係るテキスト要約装置100は、CPUと、RAMと、テキスト要約処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このテキスト要約装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。   As shown in FIG. 1, the text summarization apparatus 100 according to the third embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a text summarization processing routine, Can be configured with a computer including Functionally, the text summarizing apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 50 as shown in FIG.

第3の実施の形態に係る入力部10は、木構造として表現された文書、文書に含まれる各文であって、かつ、木構造として表現された各文、木構造の各ノードに対応付けられたスコア、長さ、及び要約の長さとして許容する上限長さLを受け付ける。文書の木構造は、文書に含まれる各文をノードとし、文の木構造は、文に含まれる各単語をノードとする。   The input unit 10 according to the third embodiment associates a document expressed as a tree structure, each sentence included in the document, and each sentence expressed as a tree structure and each node of the tree structure. The received upper limit length L is accepted as the score, the length, and the summary length. The tree structure of the document has each sentence included in the document as a node, and the tree structure of the sentence has each word included in the sentence as a node.

なお、本実施の形態では、文書を表す木構造、及び各文を表す木構造を、文をノードとする木構造の各ノードを、単語のノードとする木構造で置き換えた、入れ子構造で表現される木構造で表現する(図13参照)。   In this embodiment, the tree structure representing a document and the tree structure representing each sentence are expressed by a nested structure in which each node of the tree structure having a sentence as a node is replaced with a tree structure having a word node. The tree structure is expressed (see FIG. 13).

また、文書の第1の文字列単位として、文を用い、第1の文字列単位より小さい文字列単位である第2の文字列単位として、単語を用いる場合を例に説明したが、これに限定されるものではなく、他の文字列単位を用いてもよい。   In addition, the case where a sentence is used as the first character string unit of the document and a word is used as the second character string unit that is a character string unit smaller than the first character string unit has been described as an example. It is not limited and other character string units may be used.

第3の実施の形態に係る演算部20は、ZDD構築部30と、最適値計算部32と、記憶部40とを含んで構成されている。   The computing unit 20 according to the third embodiment includes a ZDD constructing unit 30, an optimum value calculating unit 32, and a storage unit 40.

第3の実施の形態に係るZDD構築部30では、以下に説明するように、入力部10で受け付けた、木構造として表現された文書、及び木構造として表現された各文に基づいて、入れ子構造で表現される木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むZDDを構築する。   In the ZDD constructing unit 30 according to the third embodiment, as described below, nesting is performed based on the document expressed as a tree structure and each sentence expressed as a tree structure received by the input unit 10. A root node or intermediate node that represents a set of allowed subtrees of the tree structure represented by the structure and has two terminal nodes and a HI side child node and a LO side child node corresponding to each node of the tree structure Construct a ZDD containing nodes.

具体的には、入れ子構造で表現される木構造の許容される部分木の集合として、外側の木構造についての根ノードを持つ部分木と、外側の木構造における当該部分木の各ノードに対する、当該ノードの内側の木構造についての、当該文について予め定められた複数の根候補ノードの何れかを根ノードを持つ部分木とからなる根付き部分木の集合を表現するZDDを生成する。図14は取得した入れ子構造で表現される木構造を示し、図15は、入れ子構造で表現される木構造の許容される部分木の集合を表現したZDDである。また、第3の実施の形態に係るZDD構築部30では、第1の実施の形態と同様に、取得した、入れ子構造で表現される木構造のノード間の全順序関係をあらかじめ定める必要がある。第3の実施の形態では、ノード間の全順序については、各ノードに対して順序スコアを定義し、順序スコアが高い子ノードの順序が先になるような深さ優先行きがけ順を採用する。ここで、ノードのスコアは、当該ノードが含まれる内側の木での子孫ノードからなる部分木に含まれる、最大の許容される部分木のノード数とする。図16に示す部分木であれば、例えばe,e,e,e12のスコアは、それぞれ5,0,4,3である。 Specifically, as a set of allowable subtrees of a tree structure represented by a nested structure, a subtree having a root node for the outer tree structure, and each node of the subtree in the outer tree structure, For the tree structure inside the node, a ZDD is generated that expresses a set of rooted subtrees consisting of any of a plurality of root candidate nodes predetermined for the sentence and a subtree having a root node. FIG. 14 shows a tree structure represented by the acquired nested structure, and FIG. 15 is a ZDD representing a set of allowable subtrees of the tree structure represented by the nested structure. Further, in the ZDD constructing unit 30 according to the third embodiment, it is necessary to determine in advance the entire order relationship between the acquired nodes of the tree structure represented by the nested structure, as in the first embodiment. . In the third embodiment, with respect to the total order between nodes, an order score is defined for each node, and a depth-priority order in which the order of child nodes having a higher order score comes first is adopted. Here, the score of a node is the maximum allowable number of subtrees included in a subtree consisting of descendant nodes in the inner tree in which the node is included. In the partial tree shown in FIG. 16, for example, the scores of e 1 , e 3 , e 6 , and e 12 are 5 , 0, 4 , and 3 , respectively.

なお、第3の実施の形態に係るテキスト要約装置の他の構成及び作用は、第1及び第2の実施の形態のテキスト要約装置100と同様であるため詳細な説明を省略する。   In addition, since the other structure and effect | action of the text summarization apparatus concerning 3rd Embodiment are the same as that of the text summarization apparatus 100 of 1st and 2nd embodiment, detailed description is abbreviate | omitted.

以上説明したように、本発明の第3の実施の形態に係るテキスト要約装置によれば、入れ子構造で表現された木構造の許容される部分木の集合を表すZDDを構築し、ノードのスコア及び長さと、入力された上限長さLと、構築されたZDDとに基づいて、各ノードの順序に従って、n番目のノードについて、各長さjに対し、n番目のノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、部分木の各ノードのスコアの和が最大となる部分木を繰り返し計算して記憶部に記憶するときに、記憶部に記憶した、各ノードのスコアの和の最大値を呼び出して、LO側子ノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木と、n番目のノードを根ノードとするZDDが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなるHI側子ノードを含む部分木とのうち、各ノードのスコアの和が最大となる部分木を再帰的に計算することにより、計算時間の増大を抑制し、かつ、安定して要約の最適解を求めることができる。   As described above, according to the text summarizing device according to the third exemplary embodiment of the present invention, a ZDD representing a set of allowable subtrees of a tree structure expressed in a nested structure is constructed, and a node score is obtained. Based on the length, the input upper limit length L, and the constructed ZDD, the nth node is defined as the root node for each length j for the nth node according to the order of each node. Of the set of subtrees represented by ZDD, the subtree in which the sum of the lengths of the nodes is equal to the length j and the subtree having the maximum score of the nodes of the subtree is repeatedly calculated. Each of the nodes in the set of subtrees represented by the ZDD having the LO side child node as a root node by calling the maximum sum of the scores of the nodes stored in the storage unit. Where the sum of the lengths is equal to the length j Each node of a tree and a subtree including a HI side child node in which the sum of the lengths of the nodes is equal to the length j of the subtree represented by the ZDD having the nth node as a root node By recursively calculating the subtree that maximizes the sum of the scores, it is possible to suppress an increase in calculation time and stably obtain the optimal solution for the summary.

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

10 入力部
20 演算部
30 ZDD構築部
32 最適値計算部
34 バックトラック部
40 記憶部
50 出力部
100 テキスト要約装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 30 ZDD construction part 32 Optimal value calculation part 34 Back track part 40 Storage part 50 Output part 100 Text summarization apparatus

Claims (7)

入力テキストに含まれる文字列単位を表すノードの各々から構成される木構造から、許容される部分木を選択することにより、前記入力テキストを要約するテキスト要約装置であって、
前記木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むゼロサプレス型二分決定グラフ(Zero-suppressed Binary Decision Diagrams)を構築するZDD構築部と、
前記木構造の各ノードについて入力された前記ノードのスコア及び長さと、入力された上限長さLと、前記ZDD構築部によって構築された前記ゼロサプレス型二分決定グラフとに基づいて、各ノードの順序に従って、n番目のノードについて、各長さj(0≦j≦L)に対し、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、前記部分木の各ノードのスコアの和が最大となる部分木を繰り返し計算して記憶部に記憶する最適値計算部と、
前記最適値計算部によって繰り返し計算された計算過程に基づいて、前記上限長さL以下となる許容される部分木のうち、前記許容される部分木の各ノードのスコアの和が最大となる許容される部分木を、前記入力テキストの要約として出力するバックトラック部とを含み、
前記最適値計算部は、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、前記部分木の各ノードのスコアの和が最大となる部分木を計算するとき、前記記憶部に記憶した、各ノードのスコアの和の最大値を呼び出して、LO側子ノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木と、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなるHI側子ノードを含む前記部分木とのうち、各ノードのスコアの和が最大となる前記部分木を再帰的に計算する
テキスト要約装置。
A text summarization device that summarizes the input text by selecting an allowable subtree from a tree structure composed of nodes each representing a character string unit included in the input text,
Represents a set of permissible subtrees of the tree structure and includes two terminal nodes and root nodes or intermediate nodes having HI side nodes and LO side child nodes corresponding to each node of the tree structure A ZDD constructing unit that constructs zero-suppressed binary decision diagrams;
Based on the score and length of the node inputted for each node of the tree structure, the inputted upper limit length L, and the zero-suppressed binary decision graph constructed by the ZDD construction unit, the order of the nodes The length of each node of the set of subtrees represented by the zero-suppressed binary decision graph with the nth node as a root node for each length j (0 ≦ j ≦ L) for the nth node An optimal value calculation unit that repeatedly calculates a partial tree having a sum of scores equal to the length j and having the maximum score of each node of the partial tree and stores it in the storage unit;
Based on the calculation process repeatedly calculated by the optimum value calculation unit, among the allowed subtrees that are less than or equal to the upper limit length L, the sum of the scores of the nodes of the permissible subtree is maximized And a backtrack unit that outputs a subtree as a summary of the input text,
The optimal value calculation unit is a subtree in which a sum of lengths of nodes is equal to a length j in a set of subtrees represented by the zero-suppressed binary decision graph having an nth node as a root node. And, when calculating the subtree that maximizes the sum of the scores of the nodes of the subtree, the maximum value of the sum of the scores of the nodes stored in the storage unit is called to Of the set of subtrees represented by the zero-suppressed binary decision graph as nodes, the subtree whose sum of the lengths of each node is equal to the length j and the zero-suppressed binary decision using the nth node as a root node Of the set of subtrees represented by the graph, the subtree having the maximum score sum of the nodes among the subtrees including the HI side child nodes in which the sum of the lengths of the nodes is equal to the length j Recursively calculate G summary device.
前記ZDD構築部は、前記入力テキストに対して予め定められた複数の根候補ノードを根ノードとする、前記木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むゼロサプレス型二分決定グラフを構築する請求項1記載のテキスト要約装置。   The ZDD constructing unit represents a set of allowed subtrees of the tree structure having a plurality of predetermined root candidate nodes for the input text as root nodes, two terminal nodes, and the The text summarization apparatus according to claim 1, wherein a zero suppression type binary decision graph including a root node or an intermediate node having an HI side child node and an LO side child node corresponding to each node of the tree structure is constructed. 前記木構造は、入力テキストに含まれる第1の文字列単位を表すノードの各々から構成される木構造であって、前記第1の文字列単位を表すノードを、前記第1の文字列単位に含まれ、かつ、前記第1の文字列単位より小さい文字列単位である第2の文字列単位を表すノードの各々から構成される木構造に置き換えた、入れ子構造で表現される木構造である請求項1又は2記載のテキスト要約装置。   The tree structure is a tree structure composed of each node representing a first character string unit included in an input text, and the node representing the first character string unit is represented by the first character string unit. And a tree structure represented by a nested structure that is replaced with a tree structure composed of nodes representing a second character string unit that is a character string unit smaller than the first character string unit. The text summarization device according to claim 1 or 2. 入力テキストに含まれる文字列単位を表すノードの各々から構成される木構造から、許容される部分木を選択することにより、前記入力テキストを要約するテキスト要約方法であって、
ZDD構築部が、前記木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むゼロサプレス型二分決定グラフ(Zero-suppressed Binary Decision Diagrams)を構築するステップと、
最適値計算部が、前記木構造の各ノードについて入力された前記ノードのスコア及び長さと、入力された上限長さLと、前記ZDD構築部によって構築された前記ゼロサプレス型二分決定グラフとに基づいて、各ノードの順序に従って、n番目のノードについて、各長さj(0≦j≦L)に対し、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、前記部分木の各ノードのスコアの和が最大となる部分木を繰り返し計算して記憶部に記憶するステップと、
バックトラック部が、前記最適値計算部によって繰り返し計算された計算過程に基づいて、前記上限長さL以下となる許容される部分木のうち、前記許容される部分木の各ノードのスコアの和が最大となる許容される部分木を、前記入力テキストの要約として出力するステップとを含み、
前記最適値計算部によって計算するステップは、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木であって、かつ、前記部分木の各ノードのスコアの和が最大となる部分木を計算するとき、前記記憶部に記憶した、各ノードのスコアの和の最大値を呼び出して、LO側子ノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなる部分木と、n番目のノードを根ノードとする前記ゼロサプレス型二分決定グラフが表す部分木の集合のうち、各ノードの長さの和が長さjと等しくなるHI側子ノードを含む前記部分木とのうち、各ノードのスコアの和が最大となる前記部分木を再帰的に計算する
テキスト要約方法。
A text summarization method for summarizing the input text by selecting an allowable subtree from a tree structure composed of nodes representing character string units included in the input text,
A root node having a HI side child node and a LO side child node, wherein the ZDD constructing unit represents a set of allowable subtrees of the tree structure, and corresponds to each of the two terminal nodes and each node of the tree structure. Or constructing zero-suppressed binary decision diagrams including intermediate nodes;
Based on the score and length of the node input for each node of the tree structure, the input upper limit length L, and the zero suppression type binary decision graph constructed by the ZDD construction unit Then, according to the order of each node, for the nth node, for each length j (0 ≦ j ≦ L), a set of subtrees represented by the zero suppression type binary decision graph with the nth node as a root node Among them, a subtree in which the sum of the lengths of the nodes is equal to the length j and the subtree in which the sum of the scores of the nodes of the subtree is maximum is repeatedly calculated and stored in the storage unit. Steps,
Based on the calculation process repeatedly calculated by the optimum value calculation unit by the backtrack unit, the sum of the scores of the nodes of the allowable subtrees among the allowable subtrees having the upper limit length L or less. Outputting an allowed subtree for which is a maximum as a summary of the input text,
The step of calculating by the optimum value calculation unit is a portion in which the sum of the lengths of the nodes is equal to the length j in the set of subtrees represented by the zero-suppressed binary decision graph having the nth node as a root node. When calculating a subtree that is a tree and has a maximum sum of scores of each node of the subtree, the maximum value of the sum of scores of each node stored in the storage unit is called, and the LO side Of a set of subtrees represented by the zero-suppressed binary decision graph having a child node as a root node, a subtree in which the sum of the lengths of the nodes is equal to a length j and the nth node as a root node Of the set of subtrees represented by the zero-suppressed binary decision graph, the sum of the scores of the nodes is the largest among the subtrees including the HI side nodes whose sum of the lengths of the nodes is equal to the length j. Said partial tree Text summarization method to calculate recursively.
前記ZDD構築部によってゼロサプレス型二分決定グラフを構築するステップは、前記入力テキストに対して予め定められた複数の根候補ノードを根ノードとする、前記木構造の許容される部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、HI側子ノード及びLO側子ノードを有する根ノード又は中間ノードを含むゼロサプレス型二分決定グラフを構築する請求項4記載のテキスト要約方法。   The step of constructing a zero-suppressed binary decision graph by the ZDD constructing unit represents a set of allowable subtrees of the tree structure having a plurality of root candidate nodes predetermined for the input text as root nodes. And constructing a zero-suppressed binary decision graph including two terminal nodes and a root node or intermediate node having an HI side node and an LO side node corresponding to each node of the tree structure. Text summarization method. 前記木構造は、入力テキストに含まれる第1の文字列単位を表すノードの各々から構成される木構造であって、前記第1の文字列単位を表すノードを、前記第1の文字列単位に含まれ、かつ、前記第1の文字列単位より小さい文字列単位である第2の文字列単位を表すノードの各々から構成される木構造に置き換えた、入れ子構造で表現される木構造である請求項4又は5記載のテキスト要約方法。   The tree structure is a tree structure composed of each node representing a first character string unit included in an input text, and the node representing the first character string unit is represented by the first character string unit. And a tree structure represented by a nested structure that is replaced with a tree structure composed of nodes representing a second character string unit that is a character string unit smaller than the first character string unit. The text summarization method according to claim 4 or 5. コンピュータを、請求項1〜請求項3の何れか1項に記載のテキスト要約装置を構成する各部として機能させるためのプログラム。   The program for functioning a computer as each part which comprises the text summarization apparatus of any one of Claims 1-3.
JP2015024610A 2015-02-10 2015-02-10 Text summarization apparatus, method, and program Active JP6232390B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015024610A JP6232390B2 (en) 2015-02-10 2015-02-10 Text summarization apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015024610A JP6232390B2 (en) 2015-02-10 2015-02-10 Text summarization apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2016148946A JP2016148946A (en) 2016-08-18
JP6232390B2 true JP6232390B2 (en) 2017-11-15

Family

ID=56688404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015024610A Active JP6232390B2 (en) 2015-02-10 2015-02-10 Text summarization apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6232390B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6698006B2 (en) * 2016-12-14 2020-05-27 日本電信電話株式会社 Abstract generation device, method, and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2851772C (en) * 2011-10-14 2017-03-28 Yahoo! Inc. Method and apparatus for automatically summarizing the contents of electronic documents
JP5921457B2 (en) * 2013-02-05 2016-05-24 日本電信電話株式会社 Document summarization method, apparatus, and program

Also Published As

Publication number Publication date
JP2016148946A (en) 2016-08-18

Similar Documents

Publication Publication Date Title
JP6498095B2 (en) Word embedding learning device, text evaluation device, method, and program
CN109886294A (en) Knowledge fusion method, apparatus, computer equipment and storage medium
JP6635307B2 (en) Abstract generation apparatus, text conversion apparatus, method, and program
JP6663873B2 (en) Automatic program generation system and automatic program generation method
JP6946842B2 (en) Model learners, converters, methods, and programs
CN110245349B (en) Syntax dependence analysis method and apparatus, and electronic device
Li et al. Neural-guided symbolic regression with asymptotic constraints
CN112528624B (en) Text processing method, text processing device, text searching method and processor
JP7143677B2 (en) WORD ENCODER, ANALYSIS DEVICE, LANGUAGE MODEL LEARNING DEVICE, METHOD, AND PROGRAM
JP6232390B2 (en) Text summarization apparatus, method, and program
CN113065322B (en) Code segment annotation generation method and system and readable storage medium
JP5921457B2 (en) Document summarization method, apparatus, and program
JP5462819B2 (en) Basic tree acquisition device, syntax analysis device, method, and program
JP2016162198A (en) Parameter learning method, device, and program
Consoli et al. Improved metaheuristics for the quartet method of hierarchical clustering
JP6021079B2 (en) Document summarization apparatus, method, and program
JP6062829B2 (en) Dependency relationship analysis parameter learning device, dependency relationship analysis device, method, and program
JP6958417B2 (en) Document summarizers, methods, and programs
JP2014225158A (en) Document summarizing device, method, and program
CN114328924A (en) Relation classification method based on combination of pre-training model and syntax subtree
Saettler et al. Trading off worst and expected cost in decision tree problems
JP6634001B2 (en) Text summarization apparatus, method, and program
CN111859929A (en) Data visualization method and device and related equipment
JP6482084B2 (en) Grammar rule filter model learning device, grammar rule filter device, syntax analysis device, and program
WO2022259309A1 (en) Information processing device, learning method, and learning program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171023

R150 Certificate of patent or registration of utility model

Ref document number: 6232390

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150