JP6634001B2 - テキスト要約装置、方法、及びプログラム - Google Patents

テキスト要約装置、方法、及びプログラム Download PDF

Info

Publication number
JP6634001B2
JP6634001B2 JP2016222754A JP2016222754A JP6634001B2 JP 6634001 B2 JP6634001 B2 JP 6634001B2 JP 2016222754 A JP2016222754 A JP 2016222754A JP 2016222754 A JP2016222754 A JP 2016222754A JP 6634001 B2 JP6634001 B2 JP 6634001B2
Authority
JP
Japan
Prior art keywords
zdd
viewpoint
viewpoints
subtree
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016222754A
Other languages
English (en)
Other versions
JP2018081463A (ja
Inventor
宜仁 安田
宜仁 安田
平尾 努
努 平尾
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016222754A priority Critical patent/JP6634001B2/ja
Publication of JP2018081463A publication Critical patent/JP2018081463A/ja
Application granted granted Critical
Publication of JP6634001B2 publication Critical patent/JP6634001B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキスト要約装置、方法、及びプログラムに係り、特に、与えられたテキストを要約するテキスト要約装置、方法、及びプログラムに関する。
従来より、入力された文書を機械によって自動的に要約する技術が知られており、テキスト自動要約技術と呼ばれている。要約技術は大きく2種類に分けることができる。ひとつは、文書の中から重要だと思われる文を抽出して要約とする重要文抽出型要約であり、もうひとつは文内の不要な単語を除き、短い文を生成する文圧縮技術である。重要文抽出と文短縮の統合的な手法として、文書が持つ構造(たとえば修辞構造から得られる依存関係、具体的には理由となる文と結論となる文などの関係)から木を構成し、この木の根を含むような部分木を要約として生成することにより、文書・文が持つ構造を破壊することなく要約を生成する種類の木狩り込み型要約手法が存在する(非特許文献1、及び非特許文献2参照)。この技術によって、重要文抽出・文短縮の区分けなく、文書全体について文の持つ構造を尊重した要約を木刈込み型要約として捉えることが可能になっている。
一方、別の要約技術として、文書の持つ複数の話題や観点に着目する技術がある。文書は単一の話題や観点のみを取り扱うのではなく、複数の話題や観点を含んでいる。たとえば、大規模スポーツイベントに関連した公共建築物建設に関する一連の新聞記事を考える。これらの記事には、建築費用の多寡、決定までのプロセス、周辺道路への影響、イベント遂行のための建築物の妥当性といった観点を含むことがあり、もしこれらの記事群についての要約を行おうとした場合、これらの観点をバランスよく含むことが望ましいと考えられる。
上記の例のような文書自体が持つ複数の話題を取り扱う場合に限らず、自動要約が複数の話題や観点を取り扱えることは重要である。たとえば、文書検索における検索結果の提示を考える。インターネット検索サービスに代表されるように、多くの文書検索では、結果の文書の内容を端的に示す要約文が提示される。検索時には利用者はいくつかのキーワードを与えて検索しているため、これらのキーワードと検索結果の文書との関係を反映した要約文が望ましい。そのためには、各キーワードをひとつの観点として捉え、キーワードこれらの観点を反映した要約文を作成することが望ましい。複数の観点を考慮するための要約手法として、非特許文献3や非特許文献4の手法が存在する。これらの手法は、文書中の話題の比率を考慮し、各単語の重要度算出において、話題の比率を考慮することで、得られた要約における話題の比率を保つことが期待できる。
菊池悠太, 平尾努, 高村大也, 奥村学, 永田昌明, 「入れ子依存木の刈り込みに基づく単一文書要約手法」自然言語処理, Vol.22, No.3, pp.197-217, 2015. 西野正彬, 安田宜仁, 平尾努, 湊真一, 永田昌明, 「木刈込みに基づく文書要約のためのZDD を用いた動的計画法」言語処理学会第21 回年次大会発表論文集, 2015 Rachit Arora and Balaraman Ravindran. "Latent dirichlet allocation based multi-document summarization". In Proceedings of the second workshop on Analytics for noisy unstructured text data (AND '08), 2008 重松遥、小林一郎, 「潜在トピックの比率に基づく文書要約手法の提案」, 第26 回人工知能学会全国大会, 2012年06月
上述した2種類の方法、すなわち、木刈込み型要約と複数観点を考慮した要約は、それぞれ双方の利点を備えない。このため、「文書の持つ構造を反映しつつ、複数の観点の比率を保つ要約」を得ることができなかった。具体的には、従来の木刈込み型要約によれば、文書が持つ構造に違反しない要約を生成することが可能であるが複数の観点を考慮した要約を生成することができない。このため、たとえば、特定の話題についての言及が大半を占めるような要約が生成されるおそれがある。一方、従来の複数観点を考慮した要約によれば、複数の観点を考慮した要約を生成することが可能であるが、文書の持つ構造に違反しない要約を生成することができない。このため、たとえば、文の主辞を含まないため文として成立しないような文を含む要約が生成されたり、結論の文がないまま理由の文のみが存在するような要約が生成されるおそれがある。
本発明は、上記事情を鑑みて成されたものであり、観点を考慮した要約を作成できるテキスト要約装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るテキスト要約装置は、入力テキストに含まれる文字列単位を表すノードの各々から構成され、かつ、前記入力テキストを表現する木構造から、刈り込むことで得られる部分木を選択することにより、前記入力テキストを要約するテキスト要約装置であって、前記木構造を刈り込むことで得られる部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、根ノード又は中間ノードを含むゼロサプレス型二分決定グラフであるZDD(Zero-suppressed Binary Decision Diagrams)を構築する部分木保持ZDD作成部と、予め求められた複数の観点の各々について、前記入力テキストに含まれる前記文字列単位毎に、前記観点との関連度を算出し、前記文字列単位毎に前記観点の各々について算出された前記関連度に基づいて、前記入力テキストにおける前記複数の観点の比率を算出する観点情報抽出部と、前記複数の観点の各々について、前記観点の比率に応じた長さ上限と、前記ノードの各々に対応する前記文字列単位の前記観点との関連度と、前記ノードの各々に対応する前記文字列単位の長さとに基づいて、前記部分木保持ZDD作成部によって構築されたZDDが表す前記部分木の集合のうちの前記部分木の部分集合を表すZDDを、前記観点に対応する観点ZDDとして生成する観点部分木保持ZDD生成部と、前記複数の観点の各々について生成された前記観点ZDDが表す前記部分木の部分集合に共通する前記部分木の各々を表す共通ZDDのパスのうち、要約の長さ上限を満たす最適なパスを探索し、前記探索されたパスが表す前記部分木を出力する最適部分木算出部と、前記最適部分木算出部によって出力された前記部分木に基づいて、前記入力テキストの要約を出力する要約出力部と、を含んで構成されている。
また、第1の発明に係るテキスト要約装置において、前記複数の観点の各々について、前記要約の長さ上限と、前記算出された前記観点の比率とに基づいて、前記観点の比率に応じた長さ上限を決定する観点長さ決定部を更に含むようにしてもよい。
また、第1の発明に係るテキスト要約装置において、観点部分木保持ZDD生成部は、前記観点の各々について、前記ノードに対応する前記文字列単位の前記観点との関連度と、前記ノードに対応する前記文字列単位の長さとの積を、前記ノードの重みとして、前記観点の比率に応じた長さ上限を満たすように、前記ZDDの根ノードからのパスを再帰的に辿ることで、前記観点ZDDを作成するようにしてもよい。
また、第1の発明に係るテキスト要約装置において、前記最適部分木算出部は、前記ノードに対応する前記文字列単位の重要度を、前記ノードの重みとし、前記複数の観点の各々について生成された前記観点ZDDが表す前記部分木の部分集合に共通する前記部分木の各々を表す共通ZDDのパスのうち、要約の長さ上限を満たし、かつ、前記重みが最大となる最適なパスを探索し、前記探索されたパスが表す前記部分木を出力するようにしてもよい。
第1の発明に係るテキスト要約方法は、入力テキストに含まれる文字列単位を表すノードの各々から構成され、かつ、前記入力テキストを表現する木構造から、刈り込むことで得られる部分木を選択することにより、前記入力テキストを要約するテキスト要約装置におけるテキスト要約方法であって、部分木保持ZDD作成部が、前記木構造を刈り込むことで得られる部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、根ノード又は中間ノードを含むゼロサプレス型二分決定グラフであるZDD(Zero-suppressed Binary Decision Diagrams)を構築するステップと、観点情報抽出部が、予め求められた複数の観点の各々について、前記入力テキストに含まれる前記文字列単位毎に、前記観点との関連度を算出し、前記文字列単位毎に前記観点の各々について算出された前記関連度に基づいて、前記入力テキストにおける前記複数の観点の比率を算出するステップと、観点部分木保持ZDD生成部が、前記複数の観点の各々について、前記観点の比率に応じた長さ上限と、前記ノードの各々に対応する前記文字列単位の前記観点との関連度と、前記ノードの各々に対応する前記文字列単位の長さとに基づいて、前記部分木保持ZDD作成部によって構築されたZDDが表す前記部分木の集合のうちの前記部分木の部分集合を表すZDDを、前記観点に対応する観点ZDDとして生成するステップと、最適部分木算出部が、前記複数の観点の各々について生成された前記観点ZDDが表す前記部分木の部分集合に共通する前記部分木の各々を表す共通ZDDのパスのうち、要約の長さ上限を満たす最適なパスを探索し、前記探索されたパスが表す前記部分木を出力するステップと、要約出力部が、前記最適部分木算出部によって出力された前記部分木に基づいて、前記入力テキストの要約を出力するステップと、を含んで実行することを特徴とする。
また、第3の発明に係るプログラムにおいて、コンピュータを、第1の発明に係るテキスト要約装置の各部として機能させるためのプログラムである。
本発明のテキスト要約装置、方法、及びプログラムによれば、ZDDを構築し、複数の観点の各々について、入力テキストに含まれる文字列単位毎に、観点との関連度を算出し、文字列単位毎に観点の各々について算出された関連度に基づいて、入力テキストにおける複数の観点の比率を算出し、観点の比率に応じた長さ上限と、ノードの各々に対応する文字列単位の観点との関連度と、ノードの各々に対応する文字列単位の長さとに基づいて、構築されたZDDが表す部分木の集合のうちの部分木の部分集合を表すZDDを、観点に対応する観点ZDDとして生成し、観点ZDDが表す部分木の部分集合に共通する部分木を表す共通ZDDのパスのうち、要約の長さ上限を満たす最適なパスを探索し、探索されたパスが表す部分木を出力し、部分木に基づいて、入力テキストの要約を出力することにより、観点を考慮した要約を作成できる、という効果が得られる。
本発明の実施の形態に係るテキスト要約装置の構成を示すブロック図である。 単語長DB40の一例を示す図である。 単語重要度DB44の一例を示す図である。 入力となる木構造の一例を示す図である。 出力されるZDDの一例を示す図である。 関連度DB42の一例を示す図である。 長さを制限した観点ZDDを作成するための関数を表した図である。 本発明の実施の形態に係るテキスト要約装置におけるテキスト要約処理ルーチンを示すフローチャートである。 本発明の実施の形態に係るテキスト要約装置における最適処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係るテキスト要約装置の構成>
まず、本発明の実施の形態に係るテキスト要約装置の構成について説明する。図1に示すように、本発明の実施の形態に係るテキスト要約装置100は、CPUと、RAMと、後述するテキスト要約処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このテキスト要約装置100は、機能的には図1に示すように入力部10と、演算部20と、要約出力部50とを備えている。
入力部10は、入力テキストとして、自然言語で記述された文書を表現した文字列を受け付ける。また、文書の要約の文字数の長さの上限Lを受け付ける。
演算部20は、入力解析部22と、木構造解析部24と、部分木保持ZDD作成部26と、観点情報抽出部32と、観点長さ決定部34と、観点部分木保持ZDD生成部36と、最適部分木算出部38と、単語長DB40と、関連度DB42と、単語重要度DB44とを含んで構成されている。
入力解析部22は、まず入力部10から、文書を表現した文字列と、要約の長さの上限文字数を入力として受取り、後段の処理で利用するために計算機中のメモリあるいはディスクへ格納する。以下の処理では、文字列を単語の単位で扱う場合を例に説明する。
もし入力言語において単語の区切りが文字列だけからは自明ではない場合は(たとえば日本語の場合)、必要に応じて当業者に公知のたとえば公開されている形態素解析器などを用いて分かち書きすることにより単語に分割する。
入力解析部22は、次に、文書を表現した文字列に基づいて、入力された文書中での何番目の単語の長さが何文字であったのかを、単語長DB40へ格納する。図2に単語長DB40の例に示す。なお、要約の長さ上限として「指定された文字数以内」ではなく「指定された単語数以内」ということであれば、単語長DB40の長さのカラムをすべて1にすればよい。
入力解析部22は、次に、各単語の重要度を算出して、単語重要度DB44へ格納する。これには当業者に公知の技術を用いることができ、一例としては、当業者に公知のTF-IDFを段落単位に適用し、得られたTF-IDFを、単語出現位置i番目の単語wの重みとしても良い。図3に単語重要度DB44の例を示す。
木構造解析部24は、入力解析部22で得られた文書を表現する文字列の各単語を入力として、文書全体を表現した木構造を出力する。木構造解析には、当業者に公知の技術を用い、本実施の形態では、例えば、非特許文献1に示された手法を用いる。なお、非特許文献1に限るものではなく、入力文書に対応する木構造を得ることができる手法を用いることができる。木構造解析として、文書内の文と文の関係に関する依存構造解析を行い、依存構造解析の結果として、文書中でもっとも重要であると判断された文を根ノードとするような依存構造木が得られる。次に、文書文内の各文内での単語と単語(あるいは文節と文節)に関する依存構造解析を行う。この結果、文内の主辞を根ノードとするような依存構造木が得られる。次に、単語単位の依存構造木を文単位の依存構造木へ埋め込む。文単位の依存構造木によって得られた木の各節は文書中の各文に対応するので、この節を対応する文の単語単位の依存構造木に置き換えることによって、文書全体を表現する木構造を得る。
部分木保持ZDD作成部26は、木構造解析部24で得られた木構造に基づいて、当該木構造を刈り込むことで得られる部分木の集合を表し、かつ、2つの終端ノード、及び木構造の各ノードに対応する、根ノード又は中間ノードを含むゼロサプレス型二分決定グラフであるZDD(Zero-suppressed Binary Decision Diagrams)を構築する。
一般に、このような部分木の総数は指数的に多いが、ZDDによって表現することで、少ない節点数で表現することが可能である。部分木保持ZDD作成部26の処理としては、当業者に公知の技術を用いることができ、たとえば、非特許文献5に示されている方法を用いることができる。
非特許文献5:Nishino, M., Yasuda, N., Hirao, T., Minato, S., Nagata, M. "A dynamic programming algorithm for tree trimming-based text summarization". In Proceedings of NAACL HLT (pp. 462-471). 2015.
図4に入力となる木の例、図5に入力木に対して出力されるZDDの例を示す。図5では、ZDDの図示の慣例に従い、実線は1-枝(その変数で示される単語を含むことを選択する枝)を示し、破線は0-枝(その変数で示される単語を含まないことを選択する枝)を示す。
は1-終端、
は0-終端を示す。根節点(図5では1)から
までの任意のパスはこのZDDによって保持されている集合を示す。たとえば、パス
は集合{1,2,4}を示す。
観点情報抽出部32は、予め求められた複数の観点の各々について、文書に含まれる単語単位毎に、観点との関連度を算出し関連度DB42に格納する。そして、単語単位毎に観点の各々について算出された関連度に基づいて、文書における複数の観点の比率を算出する。
観点の数Kは、事前に設定してあるか、装置へ入力するパラメータとして与えられているものとする。
具体的には、予め、複数の観点の各々を表現する観点ベクトルを作成しておく。この観点ベクトルの各次元は、語、あるいは語を次元圧縮等で集約したものに相当する。観点ベクトルの作成には、当業者に公知の技術、たとえばLatent Dirichlet Allocation (LDA)等を用いることができる。
そして、観点情報抽出部32は、各観点と、文書に含まれる各単語との関連度を計算する。この処理には当業者に公知の技術を用いることができ、たとえば、文毎に、当該文に含まれる単語を表現した文ベクトルを作成して、文ベクトルと、観点ベクトルとのコサイン値を計算し、得られたコサイン値を、当該文内の各単語に対して、当該観点との関連度として一律に用いるといった方法を取ることができる。
観点情報抽出部32は、次に、各単語について、上記の処理で得られた各観点と当該単語との関連度を、当該単語に付与されている関連度の和が1になるように正規化する。具体的には、i番目の単語とj番目の観点との関連度をaij、求める正規化された関連度をrijとすると、以下の(1)式で正規化を行う。

・・・(1)
たとえば、K=3であるときに、単語wに付与されている関連度が(観点1:0.9,観点2:0.3,観点3:0.7)であった場合、これを(観点1:0.47,観点2:0.16,観点3:0.37)と正規化する。
こうして観点の各々について得られた各単語の関連度を、関連度DB42へ格納する。図6に関連度DB42の例を示す。
観点情報抽出部32は、次に、関連度DB42を用いて、文書全体での各観点の比率を求める。各観点の比率は、各単語との関連度の和の比とする。つまり、i番目の単語とj番目の観点の関連度をrij、総単語数をnとすると、観点jに対する比の値sは以下の(2)式により得られる。

・・・(2)
観点長さ決定部34は、複数の観点の各々について、要約の長さ上限Lと、観点情報抽出部32で算出された観点の比率s(i=1,2,3,...)とに基づいて、観点の比率に応じた長さ上限を決定する。
観点jの長さ上限lは以下の(3)式によって求める。

・・・(3)
観点部分木保持ZDD生成部36は、観点jの各々について、観点の比率に応じた長さ上限lと、関連度DB42におけるノードの各々に対応する単語の観点jとの関連度と、単語長DB40におけるノードの各々に対応する単語の長さとに基づいて、ノードに対応する単語の観点jとの関連度と、ノードに対応する単語の長さとの積を、ノードの重みとして、観点の比率sに応じた長さ上限lを満たすように、部分木保持ZDD作成部26によって構築されたZDDの根ノードからのパスを再帰的に辿ることで、ZDDが表す部分木の集合のうちの部分木の部分集合を表すZDDを、観点に対応する観点ZDDとして生成する。
観点部分木保持ZDD生成部36では、(1)部分木保持ZDD作成部26によって作成されたZDD、及び(2)観点長さ決定部34によって作成された各観点の長さ上限lの2つを入力として、観点jにつきひとつのZDD、計K個のZDDを作成し、観点の数だけの観点ZDDを出力する。観点ZDDは、元の部分木保持ZDD作成部26によって構築されたZDDが表す部分木の集合のうち、当該観点で許容される長さ上限lを満たすような部分木のみを保持したZDDとして作成する。
以下にj番目の観点についての処理を記す。観点jは1から観点数Kまで繰り返す。
まず、各ZDD変数(単語であるノードの選択を示す変数)の重みwを、以下の処理で決定する。i番目の単語に相当するZDD変数をvp(i)としたとき、変数vp(i)の重みは以下(4)式で求められる。

・・・(4)
ここで、len(i)はi番目の単語長を単語長DB40より得る関数、rel(i,j)はi番目の単語とj番目の観点の関連度を関連度DB42より得る関数である。
長さを制限した観点ZDDを作成するための関数を図7に示す。図7は再帰的な関数であり、この関数を用いて以下の操作により観点jに対応する観点ZDDを得る。
ここで入力ZDDは、部分木保持ZDD作成部26によって作成されたZDDである。
パスのノードが1-枝である場合にlから当該ノードに対応する重みwを減じて、パスを辿っていき、1-終端
や、0-終端
に辿りついた場合に、1-終端
や、0-終端
を返し、lから減じた結果が0未満になった場合に、0-終端
を返す関数となっている。
最適部分木算出部38は、関連度DB42における、ノードに対応する単語の重要度を、ノードの重みとし、複数の観点の各々について生成された観点ZDDが表す部分木の部分集合に共通する部分木の各々を表す共通ZDDのパスのうち、要約の長さ上限Lを満たし、かつ、重みが最大となる最適なパスを探索し、探索されたパスが表す部分木を出力する。
すわなち、最適部分木算出部38では、(1)観点部分木保持ZDD生成部36によって生成されたK個の観点ZDD、及び(2)要約の長さ上限Lの2つを入力とし、単語重要度DB42を参照し、いずれの観点ZDDにも含まれおり、かつ、長さ制約Lを満たし、かつ、単語重要度の和が最大となるような部分木を選択する。
具体的には、まず、各観点に相当する観点ZDDのいずれにも含まれているような部分木の各々を表すZDDを得る。2つ以上のZDDに共通する部分木の組合せを表すZDDを得る演算(たとえば、「Z=Z&Z&...&ZK」)はZDDの基本演算として当業者に公知である。
上記共通する部分木の組み合わせを表す共通ZDDについて、次に、共通ZDDの各ノードの重みとして、単語重要度DB44の値を設定する。
最後に、共通ZDD中の根節点から1-終端
まで達するパスのうち、要約の長さ上限Lを満たし、選択される単語の重みの和が最大となるようなパスを算出し、当該パスが表す部分木として、当該パス中で1-枝を辿った変数の番号を出力する。ここで、重みが最大となるようなパスの算出は典型的な動的計画法であり当業者で公知である。たとえば、非特許文献6中のAlgorithm Bなどを用いる。
非特許文献6:Donald E. Knuth. "The Art of Computer Programming", Volume 4, Fascicle 1. (ISBN-13: 978-0-3321-58050-4)
要約出力部50は、最適部分木算出部38によって出力された部分木に基づいて、文書の要約を出力する。具体的には、まず部分木の変数番号(つまり単語位置番号)を一次元配列に格納する。次に、配列を昇順に並びかえる。配列の先頭から順に、その位置番号が示す単語を入力文字列中の単語とすることで出力する要約とする。
<本発明の実施の形態に係るテキスト要約装置の作用>
次に、本発明の実施の形態に係るテキスト要約装置100の作用について説明する。入力部10において、文書、及び文書の要約の長さ(文字数)の上限Lを受け付けると、テキスト要約装置100は、図8に示すテキスト要約処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた文書を表現する文字列に基づいて、文書中での何番目の単語の長さが何文字であったのかを、単語長DB40へ格納する。また、各単語の重要度を算出して、単語重要度DB44へ格納する。
次に、ステップS102では、文書を表現する文字列を入力として、文書全体を表現した木構造を出力する。
ステップS104では、ステップS102で得られた木構造に基づいて、木構造を刈り込むことで得られる部分木の集合を表し、かつ、2つの終端ノード、及び木構造の各ノードに対応するZDDを構築する。
ステップS106では、複数の観点の各々について、文書に含まれる単語毎に、上記(1)式により、観点との関連度を算出して関連度DB42に格納する。次に、単語毎に観点の各々について算出された関連度に基づいて、上記(2)式により、文書における複数の観点の各々の比率sを算出する。
ステップS108では、複数の観点jの各々について、要約の長さ上限Lと、観点情報抽出部32で算出された当該観点の比率sとに基づいて、上記(3)式により、観点の比率に応じた長さ上限lを決定する。
ステップS110では、観点jの各々について、観点の比率に応じた長さ上限lと、関連度DB42におけるノードの各々に対応する単語の観点jとの関連度と、単語長DB40におけるノードの各々に対応する単語の長さとに基づいて、ノードに対応する単語の観点jとの関連度と、ノードに対応する単語の長さとの積を、ノードの重みとして、観点の比率sに応じた長さ上限を満たすように、部分木保持ZDD作成部26によって構築されたZDDの根ノードからのパスを再帰的に辿ることで、ZDDが表す部分木の集合のうちの部分木の部分集合を表すZDDを、観点に対応する観点ZDDとして生成する。
ステップS112では、関連度DB42におけるノードに対応する単語の重要度を、ノードの重みとし、複数の観点の各々について生成された観点ZDDが表す部分木の部分集合に共通する部分木を表す共通ZDDのパスのうち、要約の長さ上限Lを満たし、かつ、重みが最大となる最適なパスを探索し、探索されたパスが表す部分木を出力する。
ステップS114では、最適部分木算出部38によって出力された部分木に基づいて、文書の要約を出力し、処理を終了する。
上記のステップS112は、図9に示す最適処理ルーチンにより実行される。
ステップS200では、ステップS110で複数の観点の各々について生成された観点ZDDに基づいて、複数の観点ZDDが表す部分木の部分集合に共通する部分木の各々を表す共通ZDDを得る。
ステップS202では、共通ZDDの各ノードの重みとして、単語重要度DB44の値を設定する。
ステップS204では、共通ZDDについて、要約の長さ上限Lを満たし、選択した単語の重みの和が最大となるようなパスを算出し、当該パス中で1-枝を辿った変数の番号を出力する。
以上説明したように、本発明の実施の形態に係るテキスト要約装置によれば、ZDDを構築し、複数の観点の各々について、入力テキストに含まれる単語毎に、観点との関連度を算出し、単語毎に観点の各々について算出された関連度に基づいて、入力テキストにおける複数の観点の比率を算出し、観点の比率に応じた長さ上限と、ノードの各々に対応する単語の観点との関連度と、ノードの各々に対応する単語の長さとに基づいて、構築されたZDDが表す部分木の集合のうちの部分木の部分集合を表すZDDを、観点に対応する観点ZDDとして生成し、観点ZDDが表す部分木の部分集合に共通する部分木を表す共通ZDDのパスのうち、要約の長さ上限を満たす最適なパスを探索し、探索されたパスが表す部分木を出力し、部分木に基づいて、入力テキストの要約を出力することにより、観点を考慮した要約を作成できる。
また、本実施の形態のテキスト要約装置100によれば、複数の観点(トピック)について、それぞれのトピックについて関連する単語について要約内での出現に上限を課すことで、特定のトピックに偏った要約となることを防ぐことができる点が利点として挙げられる。
上記のようにすることで、トピックごとに「トピックごとの上限文字列を満たすすべての部分木を表現したデータ」を作成できるとういう利点がある。
また、すべてのトピックに関して文字列制限を満たし、しかも要約として長さ制限を満たし、しかも制限の範囲内においてはもっともスコアが高い要約を生成できる利点がある。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
20 演算部
22 入力解析部
24 木構造解析部
26 部分木保持ZDD作成部
32 観点情報抽出部
34 観点長さ決定部
36 観点部分木保持ZDD生成部
38 最適部分木算出部
50 要約出力部
100 テキスト要約装置

Claims (6)

  1. 入力テキストに含まれる文字列単位を表すノードの各々から構成され、かつ、前記入力テキストを表現する木構造から、刈り込むことで得られる部分木を選択することにより、前記入力テキストを要約するテキスト要約装置であって、
    前記木構造を刈り込むことで得られる部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、根ノード又は中間ノードを含むゼロサプレス型二分決定グラフであるZDD(Zero-suppressed Binary Decision Diagrams)を構築する部分木保持ZDD作成部と、
    予め求められた複数の観点の各々について、前記入力テキストに含まれる前記文字列単位毎に、前記観点との関連度を算出し、前記文字列単位毎に前記観点の各々について算出された前記関連度に基づいて、前記入力テキストにおける前記複数の観点の比率を算出する観点情報抽出部と、
    前記複数の観点の各々について、前記観点の比率に応じた長さ上限と、前記ノードの各々に対応する前記文字列単位の前記観点との関連度と、前記ノードの各々に対応する前記文字列単位の長さとに基づいて、前記部分木保持ZDD作成部によって構築されたZDDが表す前記部分木の集合のうちの前記部分木の部分集合を表すZDDを、前記観点に対応する観点ZDDとして生成する観点部分木保持ZDD生成部と、
    前記複数の観点の各々について生成された前記観点ZDDが表す前記部分木の部分集合に共通する前記部分木の各々を表す共通ZDDのパスのうち、要約の長さ上限を満たす最適なパスを探索し、前記探索されたパスが表す前記部分木を出力する最適部分木算出部と、
    前記最適部分木算出部によって出力された前記部分木に基づいて、前記入力テキストの要約を出力する要約出力部と、
    を含むテキスト要約装置。
  2. 前記複数の観点の各々について、前記要約の長さ上限と、前記算出された前記観点の比率とに基づいて、前記観点の比率に応じた長さ上限を決定する観点長さ決定部を更に含む請求項1記載のテキスト要約装置。
  3. 観点部分木保持ZDD生成部は、前記観点の各々について、前記ノードに対応する前記文字列単位の前記観点との関連度と、前記ノードに対応する前記文字列単位の長さとの積を、前記ノードの重みとして、前記観点の比率に応じた長さ上限を満たすように、前記ZDDの根ノードからのパスを再帰的に辿ることで、前記観点ZDDを作成する請求項1又は請求項2に記載のテキスト要約装置。
  4. 前記最適部分木算出部は、前記ノードに対応する前記文字列単位の重要度を、前記ノードの重みとし、前記複数の観点の各々について生成された前記観点ZDDが表す前記部分木の部分集合に共通する前記部分木の各々を表す共通ZDDのパスのうち、要約の長さ上限を満たし、かつ、前記重みが最大となる最適なパスを探索し、前記探索されたパスが表す前記部分木を出力する請求項1〜請求項3の何れか1項記載のテキスト要約装置。
  5. 入力テキストに含まれる文字列単位を表すノードの各々から構成され、かつ、前記入力テキストを表現する木構造から、刈り込むことで得られる部分木を選択することにより、前記入力テキストを要約するテキスト要約装置におけるテキスト要約方法であって、
    部分木保持ZDD作成部が、前記木構造を刈り込むことで得られる部分木の集合を表し、かつ、2つの終端ノード、及び前記木構造の各ノードに対応する、根ノード又は中間ノードを含むゼロサプレス型二分決定グラフであるZDD(Zero-suppressed Binary Decision Diagrams)を構築するステップと、
    観点情報抽出部が、予め求められた複数の観点の各々について、前記入力テキストに含まれる前記文字列単位毎に、前記観点との関連度を算出し、前記文字列単位毎に前記観点の各々について算出された前記関連度に基づいて、前記入力テキストにおける前記複数の観点の比率を算出するステップと、
    観点部分木保持ZDD生成部が、前記複数の観点の各々について、前記観点の比率に応じた長さ上限と、前記ノードの各々に対応する前記文字列単位の前記観点との関連度と、前記ノードの各々に対応する前記文字列単位の長さとに基づいて、前記部分木保持ZDD作成部によって構築されたZDDが表す前記部分木の集合のうちの前記部分木の部分集合を表すZDDを、前記観点に対応する観点ZDDとして生成するステップと、
    最適部分木算出部が、前記複数の観点の各々について生成された前記観点ZDDが表す前記部分木の部分集合に共通する前記部分木の各々を表す共通ZDDのパスのうち、要約の長さ上限を満たす最適なパスを探索し、前記探索されたパスが表す前記部分木を出力するステップと、
    要約出力部が、前記最適部分木算出部によって出力された前記部分木に基づいて、前記入力テキストの要約を出力するステップと、
    を含むテキスト要約方法。
  6. コンピュータを、請求項1〜請求項4のいずれか1項に記載のテキスト要約装置の各部として機能させるためのプログラム。
JP2016222754A 2016-11-15 2016-11-15 テキスト要約装置、方法、及びプログラム Active JP6634001B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016222754A JP6634001B2 (ja) 2016-11-15 2016-11-15 テキスト要約装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016222754A JP6634001B2 (ja) 2016-11-15 2016-11-15 テキスト要約装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018081463A JP2018081463A (ja) 2018-05-24
JP6634001B2 true JP6634001B2 (ja) 2020-01-22

Family

ID=62197190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016222754A Active JP6634001B2 (ja) 2016-11-15 2016-11-15 テキスト要約装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6634001B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7142559B2 (ja) * 2018-12-20 2022-09-27 ヤフー株式会社 提供装置、提供方法、及び提供プログラム

Also Published As

Publication number Publication date
JP2018081463A (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
US8359191B2 (en) Deriving ontology based on linguistics and community tag clouds
Thakkar et al. Graph-based algorithms for text summarization
US10289717B2 (en) Semantic search apparatus and method using mobile terminal
EP1154358A2 (en) Automatic text classification system
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2009087339A (ja) オントロジーデータのインポート/エクスポートのための方法および装置
WO2019169858A1 (zh) 一种基于搜索引擎技术的数据分析方法及系统
CN109471889B (zh) 报表加速方法、系统、计算机设备和存储介质
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP6543283B2 (ja) パッセージ型質問応答装置、方法、及びプログラム
CN111159361A (zh) 获取文章的方法和装置及电子设备
KR20130108537A (ko) 문자열 생성 방법, 프로그램 및 시스템
JP2016164708A (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
JP6634001B2 (ja) テキスト要約装置、方法、及びプログラム
KR101602342B1 (ko) 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
JP2010198278A (ja) 評判情報分類装置、評判情報分類方法及びプログラム
JP2008152641A (ja) 類似例文検索装置
JP2012141681A (ja) クエリセグメント位置決定装置
JP2011090463A (ja) 文書検索システム、情報処理装置およびプログラム
JP5184195B2 (ja) 言語処理装置およびプログラム
Manuja et al. Intelligent text classification system based on self-administered ontology
JP6173958B2 (ja) 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
CN110968668A (zh) 一种基于超网络的网络舆情主题相似度计算方法及装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191213

R150 Certificate of patent or registration of utility model

Ref document number: 6634001

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150