JP2018067199A - 要約生成装置、テキスト変換装置、方法、及びプログラム - Google Patents

要約生成装置、テキスト変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018067199A
JP2018067199A JP2016206254A JP2016206254A JP2018067199A JP 2018067199 A JP2018067199 A JP 2018067199A JP 2016206254 A JP2016206254 A JP 2016206254A JP 2016206254 A JP2016206254 A JP 2016206254A JP 2018067199 A JP2018067199 A JP 2018067199A
Authority
JP
Japan
Prior art keywords
unit
encoder
directed acyclic
node
acyclic graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016206254A
Other languages
English (en)
Other versions
JP6635307B2 (ja
Inventor
鈴木 潤
Jun Suzuki
潤 鈴木
平尾 努
Tsutomu Hirao
努 平尾
直観 岡崎
Naomi Okazaki
直観 岡崎
翔 高瀬
Sho Takase
翔 高瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Nippon Telegraph and Telephone Corp filed Critical Tohoku University NUC
Priority to JP2016206254A priority Critical patent/JP6635307B2/ja
Publication of JP2018067199A publication Critical patent/JP2018067199A/ja
Application granted granted Critical
Publication of JP6635307B2 publication Critical patent/JP6635307B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文法や意味的な制約を破らないように要約を生成することができる。【解決手段】変換部30が、入力テキストを、意味構造を表す有向非循環グラフに変換し、入力テキストの単語系列を表す系列構造を結合する。整列部32が、有向非循環グラフの各ノードを順序付ける。符号器構築部34が、各ノードの順序付けに沿って、符号化ユニットを接続した符号器を構築する。符号器計算部36が、各ノードの順序付けに沿って、各ノードのラベルを、符号器の符号化ユニットに入力して順次計算して、有向非循環グラフの符号を出力する。復号器計算部38が、有向非循環グラフの符号を、復号化ユニットの系列である系列復号器に入力して、順次計算して、単語の系列を、入力テキストの要約として出力する。【選択図】図2

Description

本発明は、要約生成装置、テキスト変換装置、方法、及びプログラムに係り、特に、入力テキストの要約を生成する要約文生成装置、入力テキストを変換するテキスト変換装置、方法、及びプログラムに関する。
文章の内容をなるべく保持して作成された要約文は、短時間で当該文章の大まかな内容を把握する目的に対して有効な手段である。しかし、あらゆる文章に人手で要約文を作成するのは、時間や費用の面で極めてコストが高くなり、実現するのは非現実的である。そこで、計算機により、与えられた文章の要約文を自動で作成する技術は、あらゆる(長い)文章の概要を短時間で把握する目的に極めて有効な手段となる(図9参照)。
従来は、与えられた元の文章から、内容を保持する上で最も重要な文や節(あるいは句)と、文法的に自然な文を壊さない程度の内容を残して、それ以外の不要な語、節、文を削除するという方法で、要約文を生成していた(例えば、非特許文献1)。このような、いわゆる原文からの抽出型のアプローチは、文の統語情報などが崩れにくいため、可読性の観点からはよい方法と言える。
一方、近年では、元の文章に含まれない語や言い回しを許容したニューラルネットに基づく生成型のアプローチも見られるようになっている。この方法は、抽出型では達成できない短い要約文を作成することが可能になるという利点がある(図10参照)。
Tsutomu Hirao, Yasuhisa Yoshida, Masaaki Nishino, Norihito Yasuda, and Masaaki Nagata, Single-Document Summarization as a Tree Knapsack Problem. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013. Thang Luong, and Hieu Pham, and Christopher D. Manning, Effective Approaches to Attention-based Neural Machine Translation. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.
前述の通り、ニューラルネットに基づく生成型の自動要約システムは、原文章に出現しない語を用いて要約文を生成するため、非常に高い圧縮率を達成できる可能性が高い。一方で、原文章に出現しない語も活用することから、自然言語が持つ文法や意味的な制約を満たさない可読性が低い文を生成してしまう場合がある(図11参照)。
これは、現在のニューラルネットをベースとした生成型の自動要約システムが、生成された文全体に対する文法や意味的な制約を満たしているかを判断することが方法論上困難であることに起因する。
本発明は、上記の事情を鑑みて成されたものであり、文法や意味的な制約を破らないような可読性の高い要約を生成することができる要約生成装置、方法、及びプログラムを提供することを目的とする。
また、文法や意味的な制約を破らないようにテキストを変換し、可読性の高い文章を生成できるテキスト変換装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る要約生成装置は、入力テキストを、前記入力テキストの文法的又は意味的な構成である意味構造を表し、かつ、各ノードにラベルが付与された有向非循環グラフに変換し、前記入力テキストの単語系列を表す各ノードを含む系列構造を、前記有向非循環グラフに結合する変換部と、前記変換部により得られた前記有向非循環グラフの各エッジの向きに基づいて、前記有向非循環グラフの各ノードを順序付ける整列部と、前記整列部による各ノードの順序付けに沿って、各ノードに対応する、前記ノードのラベルを符号化する符号化ユニットを接続した符号器であって、かつ、前記符号化ユニットは、前段の少なくとも一つの前記符号化ユニットの出力と前記ノードのラベルとを入力とする前記符号器を構築する符号器構築部と、前記整列部による各ノードの順序付けに沿って、各ノードのラベルを、前記符号器構築部によって構築された符号器の、対応する符号化ユニットに入力して順次計算して、前記有向非循環グラフの符号を出力する符号器計算部と、前記符号器計算部から出力された前記有向非循環グラフの符号を、単語に復号する復号化ユニットの系列である系列復号器であって、かつ、前記復号化ユニットは、前段の前記復号化ユニットの出力を入力とする前記系列復号器に入力して、順次計算して、単語の系列を、前記入力テキストの要約として出力する復号器計算部と、を含んで構成されている。
また、本発明に係る要約生成方法は、変換部が、入力テキストを、前記入力テキストの文法的又は意味的な構成である意味構造を表し、かつ、各ノードにラベルが付与された有向非循環グラフに変換し、前記入力テキストの単語系列を表す各ノードを含む系列構造を、前記有向非循環グラフに結合し、整列部が、前記変換部により得られた前記有向非循環グラフの各エッジの向きに基づいて、前記有向非循環グラフの各ノードを順序付け、符号器構築部が、前記整列部による各ノードの順序付けに沿って、各ノードに対応する、前記ノードのラベルを符号化する符号化ユニットを接続した符号器であって、かつ、前記符号化ユニットは、前段の少なくとも一つの前記符号化ユニットの出力と前記ノードのラベルとを入力とする前記符号器を構築し、符号器計算部が、前記整列部による各ノードの順序付けに沿って、各ノードのラベルを、前記符号器構築部によって構築された符号器の、対応する符号化ユニットに入力して順次計算して、前記有向非循環グラフの符号を出力し、復号器計算部が、前記符号器計算部から出力された前記有向非循環グラフの符号を、単語に復号する復号化ユニットの系列である系列復号器であって、かつ、前記復号化ユニットは、前段の前記復号化ユニットの出力を入力とする前記系列復号器に入力して、順次計算して、単語の系列を、前記入力テキストの要約として出力する。
また、本発明に係るテキスト変換装置は、入力テキストを、前記入力テキストの文法的又は意味的な構成である意味構造を表し、かつ、各ノードにラベルが付与された有向非循環グラフに変換し、前記入力テキストの単語系列を表す各ノードを含む系列構造を、前記有向非循環グラフに結合する変換部と、前記変換部により得られた前記有向非循環グラフの各エッジの向きに基づいて、前記有向非循環グラフの各ノードを順序付ける整列部と、前記整列部による各ノードの順序付けに沿って、各ノードに対応する、前記ノードのラベルを符号化する符号化ユニットを接続した符号器であって、かつ、前記符号化ユニットは、前段の少なくとも一つの前記符号化ユニットの出力と前記ノードのラベルとを入力とする前記符号器を構築する符号器構築部と、前記整列部による各ノードの順序付けに沿って、各ノードのラベルを、前記符号器構築部によって構築された符号器の、対応する符号化ユニットに入力して順次計算して、前記有向非循環グラフの符号を出力する符号器計算部と、前記符号器計算部から出力された前記有向非循環グラフの符号を、単語に復号する復号化ユニットの系列である系列復号器であって、かつ、前記復号化ユニットは、前段の前記復号化ユニットの出力を入力とする前記系列復号器に入力して、順次計算して、単語の系列を、変換後テキストとして出力する復号器計算部と、を含んで構成されている。
本発明に係るテキスト変換方法は、変換部が、入力テキストを、前記入力テキストの文法的又は意味的な構成である意味構造を表し、かつ、各ノードにラベルが付与された有向非循環グラフに変換し、前記入力テキストの単語系列を表す各ノードを含む系列構造を、前記有向非循環グラフに結合し、整列部が、前記変換部により得られた前記有向非循環グラフの各エッジの向きに基づいて、前記有向非循環グラフの各ノードを順序付け、符号器構築部が、前記整列部による各ノードの順序付けに沿って、各ノードに対応する、前記ノードのラベルを符号化する符号化ユニットを接続した符号器であって、かつ、前記符号化ユニットは、前段の少なくとも一つの前記符号化ユニットの出力と前記ノードのラベルとを入力とする前記符号器を構築し、符号器計算部が、前記整列部による各ノードの順序付けに沿って、各ノードのラベルを、前記符号器構築部によって構築された符号器の、対応する符号化ユニットに入力して順次計算して、前記有向非循環グラフの符号を出力し、復号器計算部が、前記符号器計算部から出力された前記有向非循環グラフの符号を、単語に復号する復号化ユニットの系列である系列復号器であって、かつ、前記復号化ユニットは、前段の前記復号化ユニットの出力を入力とする前記系列復号器に入力して、順次計算して、単語の系列を、変換後テキストとして出力する。
また、本発明に係るプログラムは、コンピュータを、上記の要約生成装置、又は上記のテキスト変換装置の各部として機能させるためのプログラムである。
本発明の要約生成装置、方法、及びプログラムによれば、入力テキストの意味構造を表す有向非循環グラフに、入力テキストの単語の系列構造を結合し、各ノードの順序付けに沿って、符号化ユニットを接続した符号器を構築して順次計算し、有向非循環グラフの符号を出力し、復号化ユニットの系列である系列復号器に入力して、順次計算して、単語の系列を、要約として出力することにより、文法や意味的な制約を破らないような可読性の高い要約を生成することができる、という効果が得られる。
また、本発明のテキスト変換装置、方法、及びプログラムによれば、入力テキストの意味構造を表す有向非循環グラフに、入力テキストの単語の系列構造を結合し、各ノードの順序付けに沿って、符号化ユニットを接続した符号器を構築して順次計算し、有向非循環グラフの符号を出力し、復号化ユニットの系列である系列復号器に入力して、順次計算して、単語の系列を、変換後のテキストとして出力することにより、文法や意味的な制約を破らないようにテキストを変換し、可読性の高い文章を生成できる、という効果が得られる。
テキスト、意味表現、及び要約の一例を示す図である。 本発明の実施の形態に係る要約生成装置の構成を示すブロック図である。 有向非循環グラフの一例を示す図である。 単語の系列構造を結合した有向非循環グラフの一例を示す図である。 符号器の一例を示す図である。 符号器の一例を示す図である。 単語を選択する方法を説明するための図である。 本発明の実施の形態に係る要約生成装置における要約生成処理ルーチンを示すフローチャートである。 自然言語処理における要約文を生成する例を示す図である。 従来技術における符号器による符号化と、復号器による復号化の例を示す図である。 従来技術における符号器による符号化と、復号器による復号化の例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態では、第一段階として入力テキストを自動解析し、文法あるいは意味的な構成をグラフ構造により表現する。次に第二段階として、第一段階で得られた文法的な構成および意味的な構成を表すグラフ構造の情報を利用して要約文を生成する(図1参照)。
<処理概要>
次に本発明の実施の形態に係る処理の概要について説明する。
文の文法的構成や意味構成要素のグラフ表現として、構文木、意味役割構造、中間意味表現、談話構造など、様々な方法論が存在する。ここでは、取り扱う文法的または意味的な構成要素の表現は、必ず有向非循環グラフ (DAG)により記述できることを前提とする。また、表記上の都合で、以降は「文法的または意味的な構成要素を表現」を単に「意味表現」と記載する。
ここでは、図2に意味表現の例をあげ、これを用いて本発明の最良執行形式を述べる。
処理の手順は以下のようになる。
(入力)
要約文を生成したいテキストを受け付ける。
(処理1)
意味表現解析器を用いて入力されたテキストを意味表現(有向非循環グラフ形式)に変換する。
(処理2)
変換された意味表現に対し、有向非循環グラフの性質に則ってノードの順序付けを行う。
(処理3)
処理2で決定したノードの順序に従って符号器を構築し、意味表現の有向非循環グラフ上の各ノードの符号(固定長ベクトル)を計算 する。
(処理4)
処理3で得た意味表現の有向非循環グラフ上の各ノードの符号(固定長ベクトル)を用いて、系列復号器から文を生成する。
(出力)
系列復号器により生成された文章を出力する。
<各符号化ユニットおよび復号化ユニットのパラメタ学習>
符号化ユニットと復号化ユニット内のパラメタは、学習用データを使って決定する。学習後、パラメタは固定される。このパラメタが符号化の精度を決定する。
パラメタ学習法は、学習用データを一つ選択し、それを入力として現在のパラメタで自動的に要約文を生成する。その際に、仮に正解データと同じ出力が得られれば、現在のパラメタはうまく調節ができていると言える。一方、正解データと同じでない場合は、正解が出力されるようにパラメタを調整する。このパラメタ調整を学習データ全体で最も間違いが少なくなるように少しずつ調整を行い、最終的に、学習用データすべて正解ができるような方向にパラメタ探索することでパラメタを調整する。
<本発明の実施の形態に係る要約生成装置の構成>
次に、本発明の実施の形態に係る要約生成装置の構成について説明する。図3に示すように、本発明の実施の形態に係る要約生成装置100は、CPUと、RAMと、後述する要約生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この要約生成装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、要約を行いたい入力テキストを受け付ける。
演算部20は、変換部30と、整列部32と、符号器構築部34と、符号器計算部36と、復号器計算部38とを含んで構成されている。
変換部30は、入力部10で受け付けた入力テキストを、入力テキストの文法的又は意味的な構成である意味構造を表し、かつ、各ノード及び各エッジにラベルが付与された有向非循環グラフに変換する。また、変換部30は、入力テキストの単語系列を表す各ノード及び各エッジを含む系列構造を、変換した有向非循環グラフに結合する(図4参照)。
この場合でも、系列構造と有向非循環グラフの合成なので、合成されたグラフは同様に有向非循環グラフ形式になることは容易に保証できる。
整列部32は、変換部30により得られた有向非循環グラフの各エッジの向きに基づいて、有向非循環グラフの各ノードを順序付ける。
ここで、有向非循環グラフの各ノードの順序付けについて説明する。一般的に有向非循環グラフの場合は、ノードを有向エッジに従ってトポロジカルソートにより半順序で整列させることができる。本発明の実施の形態では、上述した処理3以降でノードの半順序の順番で処理を行うこととなるため、ここで、ノードの順序関係を定義する。また、半順序関係によるノード順序未定義の関係に対しては、どのような順番で並べても処理結果には影響を与えないものとする。よって、順序関係が未定義の関係にあるノードの順番は適当(ランダム)に選択すれば良く、この選択により得られる結果が変わることはない。
本発明の実施の形態では、整列部32は、変換部30により得られた有向非循環グラフについて、トポロジカルソートの逆順でノードを整列する。ノード集合をVとする。また、エッジ集合をEで表す。ノード集合V内の任意の2つのノードをv,vとする。このとき、ノードvからノードvに向かって有向エッジが存在する場合、有向エッジをej,kと表記する。ここでは、有向エッジej,kが存在する場合に、この二つのノード間の大小関係をv>vと定義する。よって、ランダムに任意のノードvを選択し、そのノードから有向エッジで辿れるノードをvとすると、v>vの関係が成り立つ。よって、ノードを半順序で昇順に整列させる場合は、vから幅優先探索で出現したノードと逆順に並べることで、昇順に整列できる。ただし、重複して探索しないように一度探索したノードは探索空間から削除しながら探索を行う。辿れなかったノード集合に対して、また起点となるノードをランダムに選択し、同様の操作を繰り返すことで、ノードを半順序の昇順に整列できる。
変換部30により得られた有向非循環グラフ内のノードがK個あると仮定すると、整列部32は、最終的に、有向非循環グラフ内の各ノードに1からKまでの番号を付与することと等価である。
符号器構築部34は、整列部32による各ノードの順序付けと、有向非循環グラフの各エッジとに沿って、各ノードに対応する、ノードのラベルを符号化するノード用の符号化ユニットと、各エッジに対応する、エッジのラベルを符号化するエッジ用の符号化ユニットとを接続した符号器を構築する。また、符号器は、ノード用の符号化ユニットは、前段の少なくとも一つのエッジ用の符号化ユニットの出力と当該ノードのラベルとを入力とし、エッジ用の符号化ユニットは、前段のノード用の符号化ユニットの出力と当該エッジのラベルとを入力とする。
ここで、符号器の構築の原理を説明する。整列部32で付与したノードの番号に従って、符号化ユニットを連結することで、有向非循環グラフに対する符号器を構築し、符号器を計算することにより、各ノードに符号(固定長ベクトル)を付与する。符号化ユニット内部は様々な構成が考えられるが、ここでは例として、非特許文献3に記載の手法に従って、リカレントニューラルネット(RNN)により構成する場合と、長短期記憶メモリ(LSTM)により構築する場合の例をあげる。
[非特許文献3]:Kai Sheng Tai, Richard Socher and Christopher D. Manning. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015.
ここで、σ(・)は、ベクトルxを入力で受け取り、入力されたベクトルxの各要素xiに対してシグモイド関数
を計算し、新たなベクトルとして返す処理を行う関数とする。同様に、σ(・)は、入力ベクトルの各要素xに対してtanh関数
を計算し、新たなベクトルとして返す処理を行う関数とする。

は、有向非循環グラフ中のk番目のノードに向かって有向エッジを持つノード番号の集合とする。このとき、有向非循環グラフ中のk番目のノードの符号(固定長ベクトル)は以下の計算式により計算される。
以下に符号化ユニットをRNNにより構築する場合と、LSTMにより構築する場合の計算式を下記(1)式、(2)式に示す。
なお、これら以外にも様々な符号化ユニットの亜種が考えられる。符号化ユニットの入力がベクトルxと前段の符号化ユニットの出力zinであり、出力がzoutの形式で書ける符号化ユニットであれば、基本的に何を用いてもよい。
具体的には、符号器構築部34では、ノード・エッジラベル付きの有向非循環グラフを符号化するために、各ノードに付与されたノードラベルの情報を上記(1)式又は(2)式に従って符号化するノード用の符号化ユニットと、各エッジに付与されたエッジラベルの情報を上記(1)式又は(2)式に従って符号化するエッジ用の符号化ユニットの二種類の符号化ユニットを定義する。このとき、ノード用とエッジ用の符号化ユニットは、符号化ユニット内のパラメタは共有せず、ノード用またはエッジ用で別々であるとする。例えば、前述の通り、ノードラベルに割り当てられたベクトルがD次元、エッジラベルに割り当てられたベクトルがD次元、出力zのベクトルがD次元だとすると、ノード用の符号化ユニット内のパラメタWは、D×D行列であり、エッジ用の符号化ユニット内のパラメタWは、D×D行列となる。また、符号化ユニット内のパラメタWは、上述した方法により学習データから予め学習されているものとする。
そして、符号器構築部34は、整列部32で整列したノードとノード間のエッジの構造に従って、ノード用とエッジ用の符号化ユニットを配置するように、それぞれのユニットを接続する。よって、本実施の形態での符号器の中身は、基本的に二層の作りになっており、一つはノード用の符号化ユニットの層、もう一つは、エッジ用の符号化ユニットの層である。また、ノード用の符号化ユニットとエッジ用の符号化ユニットは必ず交互に接続される形になる(図5参照)。
符号器計算部36は、整列部32による各ノードの順序付けに沿って、各ノードのラベル及び各エッジのラベルを、符号器構築部34によって構築された符号器の、対応する符号化ユニットに入力して順次計算して、有向非循環グラフの符号を出力する。なお、単語の系列構造では、エッジにラベルが付与されていないため、仮のラベルが付与されているものとして、符号化ユニットの入力とすればよい。
ここで、符号器計算部36における処理は、符号器構築部34で構築した符号器を使って、有向非循環グラフを固定長ベクトルへ符号化する処理に相当する。整列部32で順序付けたノード昇順に各符号化ユニットを計算し、最終的に、有向非循環グラフの各ノードに、符号(固定長ベクトル)hout kが一つずつ付与される。つまり、有向非循環グラフ中の頂点数分の符号(固定長ベクトル)が生成されることになる。例えば、有向非循環グラフ中の頂点数がKの場合は、(hout 1,...,hout K)が生成される。
復号器計算部38は、符号器計算部36で出力された有向非循環グラフの各ノードの符号を、単語に復号する復号化ユニットの系列である系列復号器に入力して、順次計算して、単語の系列を、入力テキストの要約として出力する。また、系列復号器の復号化ユニットは、前段の復号化ユニットの出力であるyi-1から選択された単語をベクトル化したもの、前段の復号化ユニットの出力であるzi-1、及び符号器計算部36で出力された有向非循環グラフの各ノードの符号hout kを入力とする(図6参照)。
本実施の形態では、復号器計算部38は、符号器計算部36で出力された有向非循環グラフの各ノードの符号(固定長ベクトル)を利用して、系列復号器を用いて文を生成する。この処理は、生成する要約文の先頭から単語を一つずつ出力し文(文章)を生成する処理に相当する。
この系列復号器内の個々の復号化ユニットは基本的に従来法と同じである。以下に、非特許文献2で利用されている復号化ユニットにおける計算例を挙げる。
上記(3)式では、要約文のi番目の単語を出力する際に、i−1番目に出力した単語に対応する単語ベクトルをxiとして入力する。また、入力テキストから得られた意味表現の有向非循環グラフ中の各ノードに付与された符号(固定長ベクトル)hkも合わせて利用する。ただし、ここでは、有向非循環グラフ中のノード数をKとする。
また、f(hk,zi)はhkとziの類似度を計算するための関数である。これは類似度を計算する関数であればなんでもよいが、例えば、単純に内積を利用する。
また、符号化ユニットで上記(1)式を用いている場合、上記(1)式と同じ式に従って出力ziが計算される。一方、符号化ユニットで上記(2)式を用いている場合、上記(2)式と同じ式に従って出力ziが計算される。
また、復号化ユニットが出力するyiに対して、最も値の高い要素番号に対応する単語を単語リスト中から選択し、それをi番目の最終的な出力として得る(図7参照)。
上記の復号化ユニットの計算を必要回数分繰り返し、復号化ユニットが一つずつ出力するyiから得られる単語を出力順に並べて、最終的に要約文(要約された文章)を得る。
<本発明の実施の形態に係る要約生成装置の作用>
次に、本発明の実施の形態に係る要約生成装置100の作用について説明する。入力部10において入力テキストを受け付けると、要約生成装置100は、図8に示す要約生成処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた入力テキストを、当該入力テキストの意味構造を表し、かつ、各ノード及び各エッジにラベルが付与された有向非循環グラフに変換する。
ステップS102では、入力テキストの単語の系列構造を、上記ステップS100で得られた有向非循環グラフに結合する。
次に、ステップS104では、ステップS104で得られた有向非循環グラフの各エッジの向きに基づいて、有向非循環グラフの各ノードを順序付ける。
ステップS106では、ステップS104により得られた各ノードの順序付けと、有向非循環グラフの各エッジとに沿って、各ノードに対応する、ノードのラベルを符号化するノード用の符号化ユニットと、各エッジに対応する、エッジのラベルを符号化するエッジ用の符号化ユニットとを接続した符号器を構築する。
ステップS108では、ステップS104で得られた各ノードの順序付けに沿って、各ノードのラベル及び各エッジのラベルを、ステップS106で構築された符号器の、対応する符号化ユニットに入力して順次計算して、有向非循環グラフの各ノードの符号を出力する。
次のステップS110では、ステップS108で出力された有向非循環グラフの各ノードの符号を復号化ユニットの系列である系列復号器に入力して、順次計算して、入力テキストの要約を生成する。
以上説明したように、本発明の実施の形態に係る要約生成装置によれば、入力テキストの意味表現を表す有向非循環グラフに変換して、単語の系列構造を結合し、有向非循環グラフの各エッジの向きに基づいて、有向非循環グラフの各ノードを順序付け、各ノードの順序付けと、有向非循環グラフの各エッジとに沿って、ノード用の符号化ユニットと、エッジ用の符号化ユニットとを接続した符号器を構築し、各ノードの順序付けに沿って、各ノードのラベル及び各エッジのラベルを、構築された符号器の、対応する符号化ユニットに入力して順次計算して、有向非循環グラフの各ノードの符号を出力し、系列復号器に入力して、順次計算することにより、文法や意味的な制約を破らないように入力テキストの要約を生成することができる。
また、本発明の実施の形態に係る手法を用いることにより、入力テキストを文法・意味的な解析を行った結果を加味して文生成が可能となる。つまり、追加で利用する文法・意味的な構造情報により、より文法や意味的な制約を破らないような要約文の生成が可能となる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、要約生成装置に本発明を適用する場合を例に説明したが、これに限定されるものではなく、入力テキストを変換するテキスト変換装置に本発明を適用してもよい。例えば、入力テキストに対する翻訳文を生成したり、入力テキストに対応する応答文を生成したりするテキスト変換装置に本発明を適用してもよい。
また、ノード用の符号化ユニットと、エッジ用の符号化ユニットとを接続した符号器を構築する場合を例に説明したが、これに限定されるものではない。例えば、エッジ用の符号化ユニットを用いずに、ノード用の符号化ユニットを接続した符号器を構築するようにしてもよい。
また、意味表現を表す有向非循環グラフを用いる場合を例に説明したが、これに限定されるものではなく、入力テキストの複数の意味表現を表す有向非循環グラフを用いるようにしてもよい。この場合には、複数の意味表現を表す複数の有向非循環グラフを合成すればよい。これにより、様々な文法的また意味的な解析結果を活用して要約文の生成が可能となる。
また、有向非循環グラフは一般に木構造や系列構造を含むグラフのクラスであるため、入力が木構造や系列構造であってもよい。
10 入力部
20 演算部
30 変換部
32 整列部
34 符号器構築部
36 符号器計算部
38 復号器計算部
50 出力部
100 要約生成装置

Claims (5)

  1. 入力テキストを、前記入力テキストの文法的又は意味的な構成である意味構造を表し、かつ、各ノードにラベルが付与された有向非循環グラフに変換し、前記入力テキストの単語系列を表す各ノードを含む系列構造を、前記有向非循環グラフに結合する変換部と、
    前記変換部により得られた前記有向非循環グラフの各エッジの向きに基づいて、前記有向非循環グラフの各ノードを順序付ける整列部と、
    前記整列部による各ノードの順序付けに沿って、各ノードに対応する、前記ノードのラベルを符号化する符号化ユニットを接続した符号器であって、かつ、前記符号化ユニットは、前段の少なくとも一つの前記符号化ユニットの出力と前記ノードのラベルとを入力とする前記符号器を構築する符号器構築部と、
    前記整列部による各ノードの順序付けに沿って、各ノードのラベルを、前記符号器構築部によって構築された符号器の、対応する符号化ユニットに入力して順次計算して、前記有向非循環グラフの符号を出力する符号器計算部と、
    前記符号器計算部から出力された前記有向非循環グラフの符号を、単語に復号する復号化ユニットの系列である系列復号器であって、かつ、前記復号化ユニットは、前段の前記復号化ユニットの出力を入力とする前記系列復号器に入力して、順次計算して、単語の系列を、前記入力テキストの要約として出力する復号器計算部と、
    を含む要約生成装置。
  2. 入力テキストを、前記入力テキストの文法的又は意味的な構成である意味構造を表し、かつ、各ノードにラベルが付与された有向非循環グラフに変換し、前記入力テキストの単語系列を表す各ノードを含む系列構造を、前記有向非循環グラフに結合する変換部と、
    前記変換部により得られた前記有向非循環グラフの各エッジの向きに基づいて、前記有向非循環グラフの各ノードを順序付ける整列部と、
    前記整列部による各ノードの順序付けに沿って、各ノードに対応する、前記ノードのラベルを符号化する符号化ユニットを接続した符号器であって、かつ、前記符号化ユニットは、前段の少なくとも一つの前記符号化ユニットの出力と前記ノードのラベルとを入力とする前記符号器を構築する符号器構築部と、
    前記整列部による各ノードの順序付けに沿って、各ノードのラベルを、前記符号器構築部によって構築された符号器の、対応する符号化ユニットに入力して順次計算して、前記有向非循環グラフの符号を出力する符号器計算部と、
    前記符号器計算部から出力された前記有向非循環グラフの符号を、単語に復号する復号化ユニットの系列である系列復号器であって、かつ、前記復号化ユニットは、前段の前記復号化ユニットの出力を入力とする前記系列復号器に入力して、順次計算して、単語の系列を、変換後テキストとして出力する復号器計算部と、
    を含むテキスト変換装置。
  3. 変換部が、入力テキストを、前記入力テキストの文法的又は意味的な構成である意味構造を表し、かつ、各ノードにラベルが付与された有向非循環グラフに変換し、前記入力テキストの単語系列を表す各ノードを含む系列構造を、前記有向非循環グラフに結合し、
    整列部が、前記変換部により得られた前記有向非循環グラフの各エッジの向きに基づいて、前記有向非循環グラフの各ノードを順序付け、
    符号器構築部が、前記整列部による各ノードの順序付けに沿って、各ノードに対応する、前記ノードのラベルを符号化する符号化ユニットを接続した符号器であって、かつ、前記符号化ユニットは、前段の少なくとも一つの前記符号化ユニットの出力と前記ノードのラベルとを入力とする前記符号器を構築し、
    符号器計算部が、前記整列部による各ノードの順序付けに沿って、各ノードのラベルを、前記符号器構築部によって構築された符号器の、対応する符号化ユニットに入力して順次計算して、前記有向非循環グラフの符号を出力し、
    復号器計算部が、前記符号器計算部から出力された前記有向非循環グラフの符号を、単語に復号する復号化ユニットの系列である系列復号器であって、かつ、前記復号化ユニットは、前段の前記復号化ユニットの出力を入力とする前記系列復号器に入力して、順次計算して、単語の系列を、前記入力テキストの要約として出力する
    要約生成方法。
  4. 変換部が、入力テキストを、前記入力テキストの文法的又は意味的な構成である意味構造を表し、かつ、各ノードにラベルが付与された有向非循環グラフに変換し、前記入力テキストの単語系列を表す各ノードを含む系列構造を、前記有向非循環グラフに結合し、
    整列部が、前記変換部により得られた前記有向非循環グラフの各エッジの向きに基づいて、前記有向非循環グラフの各ノードを順序付け、
    符号器構築部が、前記整列部による各ノードの順序付けに沿って、各ノードに対応する、前記ノードのラベルを符号化する符号化ユニットを接続した符号器であって、かつ、前記符号化ユニットは、前段の少なくとも一つの前記符号化ユニットの出力と前記ノードのラベルとを入力とする前記符号器を構築し、
    符号器計算部が、前記整列部による各ノードの順序付けに沿って、各ノードのラベルを、前記符号器構築部によって構築された符号器の、対応する符号化ユニットに入力して順次計算して、前記有向非循環グラフの符号を出力し、
    復号器計算部が、前記符号器計算部から出力された前記有向非循環グラフの符号を、単語に復号する復号化ユニットの系列である系列復号器であって、かつ、前記復号化ユニットは、前段の前記復号化ユニットの出力を入力とする前記系列復号器に入力して、順次計算して、単語の系列を、変換後テキストとして出力する
    テキスト変換方法。
  5. コンピュータを、請求項1に記載の要約生成装置、又は請求項2に記載のテキスト変換装置の各部として機能させるためのプログラム。
JP2016206254A 2016-10-20 2016-10-20 要約生成装置、テキスト変換装置、方法、及びプログラム Active JP6635307B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016206254A JP6635307B2 (ja) 2016-10-20 2016-10-20 要約生成装置、テキスト変換装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016206254A JP6635307B2 (ja) 2016-10-20 2016-10-20 要約生成装置、テキスト変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018067199A true JP2018067199A (ja) 2018-04-26
JP6635307B2 JP6635307B2 (ja) 2020-01-22

Family

ID=62086144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016206254A Active JP6635307B2 (ja) 2016-10-20 2016-10-20 要約生成装置、テキスト変換装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6635307B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN110298038A (zh) * 2019-06-14 2019-10-01 北京奇艺世纪科技有限公司 一种文本打分方法及装置
JP2020087353A (ja) * 2018-11-30 2020-06-04 富士通株式会社 要約文生成方法、要約文生成プログラム及び要約文生成装置
CN111414505A (zh) * 2020-03-11 2020-07-14 上海爱数信息技术股份有限公司 一种基于序列生成模型的快速图像摘要生成方法
JP2020115303A (ja) * 2019-01-18 2020-07-30 ハーディス株式会社 自然言語の解析システム、解析方法およびプログラム
CN111723196A (zh) * 2020-05-21 2020-09-29 西北工业大学 基于多任务学习的单文档摘要生成模型构建方法及装置
CN113010666A (zh) * 2021-03-18 2021-06-22 京东数字科技控股股份有限公司 摘要生成方法、装置、计算机系统及可读存储介质
JP2021197132A (ja) * 2020-06-12 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 知識表現学習方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022051666A (ja) * 2020-09-21 2022-04-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005276183A (ja) * 2004-03-02 2005-10-06 Microsoft Corp グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005276183A (ja) * 2004-03-02 2005-10-06 Microsoft Corp グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
渡辺 太郎: "ニューラルネットワーク研究のフロンティア", 人工知能, vol. 31巻2号, JPN6019045177, 1 March 2016 (2016-03-01), JP, pages 202 - 209, ISSN: 0004158499 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
JP7211045B2 (ja) 2018-11-30 2023-01-24 富士通株式会社 要約文生成方法、要約文生成プログラム及び要約文生成装置
JP2020087353A (ja) * 2018-11-30 2020-06-04 富士通株式会社 要約文生成方法、要約文生成プログラム及び要約文生成装置
JP2020115303A (ja) * 2019-01-18 2020-07-30 ハーディス株式会社 自然言語の解析システム、解析方法およびプログラム
JP7095874B2 (ja) 2019-01-18 2022-07-05 ハーディス株式会社 自然言語の解析システム、解析方法およびプログラム
CN110298038B (zh) * 2019-06-14 2022-12-06 北京奇艺世纪科技有限公司 一种文本打分方法及装置
CN110298038A (zh) * 2019-06-14 2019-10-01 北京奇艺世纪科技有限公司 一种文本打分方法及装置
CN111414505B (zh) * 2020-03-11 2023-10-20 上海爱数信息技术股份有限公司 一种基于序列生成模型的快速图像摘要生成方法
CN111414505A (zh) * 2020-03-11 2020-07-14 上海爱数信息技术股份有限公司 一种基于序列生成模型的快速图像摘要生成方法
CN111723196A (zh) * 2020-05-21 2020-09-29 西北工业大学 基于多任务学习的单文档摘要生成模型构建方法及装置
CN111723196B (zh) * 2020-05-21 2023-03-24 西北工业大学 基于多任务学习的单文档摘要生成模型构建方法及装置
JP7220190B2 (ja) 2020-06-12 2023-02-09 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 知識表現学習方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2021197132A (ja) * 2020-06-12 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 知識表現学習方法、装置、電子機器、記憶媒体及びコンピュータプログラム
US11687718B2 (en) 2020-06-12 2023-06-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device, and storage medium for learning knowledge representation
JP7178441B2 (ja) 2020-09-21 2022-11-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体
JP2022051666A (ja) * 2020-09-21 2022-04-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体
CN113010666A (zh) * 2021-03-18 2021-06-22 京东数字科技控股股份有限公司 摘要生成方法、装置、计算机系统及可读存储介质
CN113010666B (zh) * 2021-03-18 2023-12-08 京东科技控股股份有限公司 摘要生成方法、装置、计算机系统及可读存储介质

Also Published As

Publication number Publication date
JP6635307B2 (ja) 2020-01-22

Similar Documents

Publication Publication Date Title
JP6635307B2 (ja) 要約生成装置、テキスト変換装置、方法、及びプログラム
CN110309287B (zh) 建模对话轮次信息的检索式闲聊对话打分方法
Liu et al. A recursive recurrent neural network for statistical machine translation
CN109661664B (zh) 一种信息处理的方法及相关装置
CN109740158B (zh) 一种文本语义解析方法及装置
CN111382574B (zh) 一种虚拟现实与增强现实场景下结合句法的语义解析系统
Kong et al. Transforming dependencies into phrase structures
CN112989796A (zh) 一种基于句法指导的文本命名实体信息识别方法
CN114489669A (zh) 一种基于图学习的Python语言代码片段生成方法
CN115935957B (zh) 一种基于句法分析的句子语法纠错方法及系统
CN111522581A (zh) 一种增强型代码注释自动生成方法及系统
CN115238045B (zh) 一种生成式事件论元抽取方法、系统及存储介质
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
CN113641819A (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
WO2020040255A1 (ja) 単語符号化装置、解析装置、言語モデル学習装置、方法、及びプログラム
CN110516053B (zh) 对话处理方法、设备及计算机存储介质
CN115455197A (zh) 一种融合位置感知细化的对话关系抽取方法
JP6550677B2 (ja) 符号化装置、復号化装置、離散系列変換装置、方法、及びプログラム
CN114757181B (zh) 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置
CN116629283A (zh) 文本翻译方法和装置、计算机设备及存储介质
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
JP6633999B2 (ja) 符号器学習装置、変換装置、方法、及びプログラム
JP2019144844A (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
CN114611529A (zh) 意图识别方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20181210

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191204

R150 Certificate of patent or registration of utility model

Ref document number: 6635307

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250