JP2018028866A - Explanatory text creation method, explanatory text creation model learning method, and program - Google Patents

Explanatory text creation method, explanatory text creation model learning method, and program Download PDF

Info

Publication number
JP2018028866A
JP2018028866A JP2016161426A JP2016161426A JP2018028866A JP 2018028866 A JP2018028866 A JP 2018028866A JP 2016161426 A JP2016161426 A JP 2016161426A JP 2016161426 A JP2016161426 A JP 2016161426A JP 2018028866 A JP2018028866 A JP 2018028866A
Authority
JP
Japan
Prior art keywords
document
learning
explanatory
sentence
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016161426A
Other languages
Japanese (ja)
Inventor
昭悟 木村
Shogo Kimura
昭悟 木村
裕之 藤代
Hiroyuki Fujihiro
裕之 藤代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Hosei University
Original Assignee
Nippon Telegraph and Telephone Corp
Hosei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Hosei University filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016161426A priority Critical patent/JP2018028866A/en
Publication of JP2018028866A publication Critical patent/JP2018028866A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To make it possible to learn a model for appropriately creating a text for explaining a document.SOLUTION: A document for learning division part 22 divides a document for learning that is each of documents in a set of documents for learning to form a document for learning component series that is a series of document for learning components that are components of the divided document for learning. A document component labeling part 24 provides a document for learning component label that is a label indicating the importance of the document for learning component to each of the document for learning components forming the document for learning component series, while referring to a corresponding explanatory text in a set of explanatory texts for learning. An explanatory text creation model leaning part 26 leans, as an explanatory text creation model, a model for predicting the document for learning component label series from the document for learning component series, by using the document for learning component series and a plurality of document for learning component label series that are each a series of the document for learning component labels corresponding to the document for learning component series.SELECTED DRAWING: Figure 1

Description

本発明は、説明文生成方法、説明文生成モデル学習方法、及びプログラムに係り、特に、与えられた文書を説明する文を生成するための説明文生成方法、説明文生成モデル学習方法、及びプログラムに関する。   The present invention relates to an explanatory sentence generation method, an explanatory sentence generation model learning method, and a program, and in particular, an explanatory sentence generation method, an explanatory sentence generation model learning method, and a program for generating a sentence that explains a given document. About.

Twitter(R)やFacebook(R)といったソーシャル・ネットワーキング・サービス (SNS)の隆盛により、ニュース消費の方法に大きな変化が訪れている。新聞やテレビといったマスメディア時代におけるニュース消費の方法は、報道機関から大衆=マスに向けて発信されるニュースを一方的に受け取るだけであった。ニュースに触れることができるのは、基本的に新聞では一日2回、テレビは番組の時間帯だけであった。   With the rise of social networking services (SNS) such as Twitter (R) and Facebook (R), major changes have been made in the way news is consumed. News consumption methods in the mass media era such as newspapers and television were only unilaterally receiving news sent from the news media to the mass. Basically, the news was accessible twice a day for newspapers and only during the program time on TV.

しかし、インターネットの登場によりニュースは新聞やテレビだけでなくインターネットで得られるようになり、近年ではSNSとスマートフォンの台頭により、ちょっとした空き時間にも簡単にニュースを見られるよう変化してきた。SNS上には膨大なニュースが溢れるようになり、整理して読者に提示するキュレーションサービスも登場した。これは人々のニュース消費が追いつかない状況を示している。   However, with the advent of the Internet, news can be obtained not only from newspapers and TV, but also from the Internet, and in recent years, with the rise of SNS and smartphones, it has changed so that news can be easily viewed even in a little free time. A huge amount of news has overflowed on SNS, and a curation service that organizes and presents to readers has also appeared. This indicates a situation where people cannot keep up with news consumption.

膨大なニュースから選んでもらうためにニュースを発信する側は、記事の価値だけではなく、数多くの読者の目を引きつけ記事に誘導する様々な仕掛けを行う必要に迫られている。例えば、SNSのアカウントを開設して情報発信したり、記事にはSNSに投稿できるボタンが設置したりしている。   The side that sends news to get selected from a vast amount of news is not only limited to the value of the article, it is necessary to do various devices that attract the attention of many readers and lead to articles. For example, an SNS account is opened to send information, and articles can be posted on SNS.

また、記事のタイトルもより読者に訴求するような変更が行われている。アメリカのバイラルメディア「Upworthy」では、拡散する見出しをつけるために1つのコンテンツに対して見出し案を25本書き出すという約束があると言われている。一方で、人々の関心を集める中身が伴わない過激なタイトルは「釣りタイトル」と呼ばれており、読者が適切な記事を見つけることを妨げている。「釣りタイトル」にならず読者に訴求するタイトルの構成は編集者の経験と勘に頼っており、具体的な方法論は見いだせていない。   The title of the article has also been changed to appeal to readers. In the American viral media "Upworthy", it is said that there is a promise to write 25 headlines for one piece of content in order to add a diffuse headline. On the other hand, extreme titles without content that attracts people's attention are called “fishing titles” and prevent readers from finding the right articles. The composition of titles that appeal to readers rather than “fishing titles” relies on the editor's experience and intuition, and no specific methodology has been found.

記事からタイトルを自動的に構成する方法として、文短縮技術を用いてニュース記事の見出しを付与する、非特許文献1の方法が知られている。この方法は、読み手の関心を強く引くと期待される表現があらかじめ与えられるという条件の下で、そのような表現をできるだけ保持したまま文を短く書き換える。   As a method of automatically constructing a title from an article, a method of Non-Patent Document 1 is known in which a headline of a news article is given using a sentence shortening technique. This method rewrites a sentence as short as possible while preserving such an expression as much as possible under the condition that an expression expected to attract the reader's attention is given in advance.

西川,今村,別所,牧野,松尾 “クエリ依存文短縮と見出し生成への応用,” 情報処理学会技術報告, 2013-NL-214, No.2, pp.1-7, 2013.Nishikawa, Imamura, Bessho, Makino, Matsuo “Query-dependent sentence shortening and application to headline generation,” IPSJ Technical Report, 2013-NL-214, No.2, pp.1-7, 2013.

しかしながら、非特許文献1の方法では、内容を要約することを目的として文を短縮する手法であり、SNSユーザの関心を引きつける表現を同定する課題は扱われていない。   However, the method of Non-Patent Document 1 is a method of shortening sentences for the purpose of summarizing the contents, and does not deal with the problem of identifying expressions that attract the interest of SNS users.

本発明は、上記の事情に鑑みてなされたもので、文書を説明する文を適切に生成することができる説明文生成方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object of the present invention is to provide an explanatory note generation method and program capable of appropriately generating a sentence explaining a document.

また、文書を説明する文を適切に生成するためのモデルを学習することができる説明文生成モデル学習方法、及びプログラムを提供することを目的とする。   It is another object of the present invention to provide an explanatory sentence generation model learning method and program capable of learning a model for appropriately generating a sentence explaining a document.

上記の目的を達成するために本発明に係る説明文生成方法は、与えられた文書である入力文書、及び予め学習された説明文生成モデルから、入力文書を説明する説明文である出力説明文を生成する説明文生成装置における説明文生成方法であって、入力文書分割部が、前記入力文書を所定の単位に分割することで、分割された入力文書の構成要素である入力文書構成要素の系列である入力文書構成要素系列を構成する、入力文書分割ステップと、文書構成要素ラベル推定部が、前記説明文生成モデルを用いることで、入力文書構成要素系列を構成する各入力文書構成要素に対して、前記入力文書構成要素の重要度を示すラベルである入力文書構成要素ラベルを推定する、文書構成要素ラベル推定ステップと、出力説明文生成部が、前記入力文書構成要素系列、及び前記入力文書構成要素系列に対応する入力文書構成要素ラベルの系列である入力文書構成要素ラベル系列を用いて、入力文書構成要素ラベルで示される重要度が高い入力文書構成要素を重視して出力説明文を生成する、出力説明文生成ステップと、を含むことを特徴とする。   In order to achieve the above object, the explanatory note generation method according to the present invention is an output explanatory sentence that is an explanatory sentence for explaining an input document from an input document that is a given document and an explanatory sentence generation model that has been learned in advance. An explanatory text generation method in an explanatory text generation apparatus for generating an input document component that is a constituent element of an input document divided by the input document dividing unit dividing the input document into predetermined units. The input document segmentation step that constitutes the input document constituent element series that is a series and the document constituent element label estimation unit use the explanation sentence generation model, so that each input document constituent element that constitutes the input document constituent element series On the other hand, a document component label estimation step for estimating an input document component label, which is a label indicating the importance of the input document component, and an output description sentence generation unit include the input sentence Using the input document component label sequence, which is a sequence of component document sequences and input document component label corresponding to the input document component sequence, an input document component having a high importance indicated by the input document component label And an output explanation generation step for generating an output explanation sentence with emphasis.

本発明に係る説明文生成モデル学習方法は、与えられた文書の集合である学習用文書集合、及び前記学習用文書集合の各文書を説明する説明文の集合である学習用説明文集合から、与えられた文書を説明する文を生成するためのモデルである説明文生成モデルを学習する説明文生成モデル学習装置における説明文生成モデル学習方法であって、学習用文書分割部が、前記学習用文書集合の各文書である学習用文書を所定の単位に分割することで、分割された学習用文書の構成要素である学習用文書構成要素の系列である学習用文書構成要素系列を構成する、学習用文書分割ステップと、文書構成要素ラベリング部が、前記学習用文書構成要素系列を構成する各学習用文書構成要素に対して、前記学習用文書構成要素の重要度を示すラベルである学習用文書構成要素ラベルを、前記学習用説明文集合のうちの対応する説明文を参照しつつ付与する、文書構成要素ラベリングステップと、説明文生成モデル学習部が、前記学習用文書構成要素系列、及び前記学習用文書構成要素系列に対応する学習用文書構成要素ラベルの系列である学習用文書構成要素ラベル系列を複数用いて、学習用文書構成要素系列から学習用文書構成要素ラベル系列を予測するためのモデルを、前記説明文生成モデルとして学習する、説明文生成モデル学習ステップと、を含むことを特徴とする。   The explanatory note generation model learning method according to the present invention includes a learning document set that is a set of given documents, and a learning explanatory note set that is a set of explanatory sentences explaining each document of the learning document set. An explanatory text generation model learning method in an explanatory text generation model learning device for learning an explanatory text generation model, which is a model for generating a sentence for explaining a given document, wherein the learning document dividing unit includes the learning By dividing the learning document that is each document of the document set into predetermined units, a learning document constituent element sequence that is a series of learning document constituent elements that are constituent elements of the divided learning document is configured. The learning document dividing step and the document component labeling unit are labels indicating the importance of the learning document component for each learning document component constituting the learning document component series. A document component labeling step for assigning a learning document component label with reference to a corresponding explanatory statement in the learning explanatory statement set, and an explanatory note generation model learning unit include the learning document component sequence , And a plurality of learning document component label sequences, which are sequences of learning document component labels corresponding to the learning document component sequence, to predict a learning document component label sequence from the learning document component sequence An explanatory sentence generation model learning step of learning a model for performing the explanation as the explanatory sentence generation model.

本発明に係るプログラムは、コンピュータに、上記の説明文生成方法又は説明文生成モデル学習方法の各ステップを実行させるためのプログラムである。   The program according to the present invention is a program for causing a computer to execute each step of the above description sentence generation method or explanation sentence generation model learning method.

以上説明したように、本発明の説明文生成方法、及びプログラムによれば、予め学習された説明文生成モデルを用いることで、入力文書構成要素系列を構成する各入力文書構成要素に対して、入力文書構成要素ラベルを推定し、入力文書構成要素ラベルで示される重要度が高い入力文書構成要素を重視して出力説明文を生成することにより、文書を説明する文を適切に生成することができる、という効果が得られる。   As described above, according to the explanatory note generation method and the program of the present invention, by using the explanatory note generation model learned in advance, for each input document constituent element constituting the input document constituent element series, By appropriately estimating the input document component label and generating the output description text with emphasis on the input document component having a high importance indicated by the input document component label, a sentence explaining the document can be appropriately generated. The effect of being able to be obtained is obtained.

本発明の説明文生成モデル学習方法、及びプログラムによれば、学習用文書構成要素系列を構成する各学習用文書構成要素に対して、学習用文書構成要素ラベルを、学習用説明文集合のうちの対応する説明文を参照しつつ付与し、学習用文書構成要素系列から学習用文書構成要素ラベル系列を予測するためのモデルを、説明文生成モデルとして学習することにより、文書を説明する文を適切に生成するためのモデルを学習することができる、という効果が得られる。   According to the explanatory note generation model learning method and program of the present invention, a learning document constituent element label is assigned to each learning document constituent element constituting the learning document constituent element sequence, from the learning explanatory sentence set. A sentence for explaining a document by learning a model for predicting a learning document constituent element label series from a learning document constituent element series as an explanatory sentence generation model. The effect that a model for generating appropriately can be learned is obtained.

本発明の実施の形態に係る説明文生成モデル学習装置の構成を示す概略図である。It is the schematic which shows the structure of the explanatory note production | generation model learning apparatus which concerns on embodiment of this invention. 説明文生成モデルの例を示す図である。It is a figure which shows the example of an explanatory note production | generation model. 説明文生成モデルの例を示す図である。It is a figure which shows the example of an explanatory note production | generation model. 本発明の実施の形態に係る説明文生成装置の構成を示す概略図である。It is the schematic which shows the structure of the explanatory note production | generation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る説明文生成モデル学習処理プログラムを示すフローチャートである。It is a flowchart which shows the explanatory note production | generation model learning process program which concerns on embodiment of this invention. 本発明の実施の形態に係る説明文生成処理プログラムを示すフローチャートである。It is a flowchart which shows the explanatory note production | generation processing program which concerns on embodiment of this invention. 実験結果を示す図である。It is a figure which shows an experimental result.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

[概要]
本発明の実施の形態は、SNSユーザの関心を引きつける説明文をニュース記事から自動的に構成する方法を提供する。本発明の実施の形態では、SNSユーザの関心を引きつけると考えられる文をニュース記事から選択するモデルを教師付学習により実現する。このモデルを学習するための教師情報として、ニュース記事と、そのニュース記事に言及した中で最も影響力の強かったSNSの投稿を用いる。影響力の強さは、例えばTwitter(R)の場合にはリツイート数やお気に入り数、Facebook(R)の場合には「いいね」の数やシェア数などを利用することができる。
[Overview]
Embodiments of the present invention provide a method for automatically constructing explanatory text that attracts the interest of SNS users from news articles. In the embodiment of the present invention, a model for selecting a sentence considered to attract the interest of an SNS user from a news article is realized by supervised learning. As the teacher information for learning this model, the news article and the most influential SNS post referring to the news article are used. As the strength of influence, for example, the number of retweets and the number of favorites in the case of Twitter (R), the number of likes and the number of shares in the case of Facebook (R) can be used.

本発明の実施の形態は、これまでに記載の通り、ニュース記事を主な対象としているが、文書とそれを説明する説明文の対を教師情報として利用できる対象であれば、文書の種類は特に限定されるものではない。例えば、SNS投稿に含まれるURLのコンテンツがニュース記事でなくても、本発明は同様に利用できる。また、SNS投稿の代わりに書籍のレビューを教師情報として用いることにより、書籍の文章からレビューの素材となる説明文を自動的に生成する方法として本発明を利用できる。さらに、文書がwebコンテンツである必要もなく、雑誌とその広告文、新聞とその見出しなど、あらゆる形態の文書に適用できる。   As described above, the embodiments of the present invention are mainly targeted for news articles. However, if a document can be used as teacher information, a document type can be used as a document type. It is not particularly limited. For example, even if the URL content included in the SNS post is not a news article, the present invention can be used similarly. In addition, the present invention can be used as a method for automatically generating an explanatory text as a review material from a book text by using a book review as teacher information instead of an SNS posting. Furthermore, the document does not need to be web content, and can be applied to all forms of documents such as magazines and advertisements, newspapers and headlines.

本発明の実施の形態では、(1)与えられた文書の集合である学習用文書集合、及び学習用文書集合の各文書を説明する文章の集合である学習用説明文集合から、与えられた文書を説明する文を生成するためのモデルである説明文生成モデルを学習する説明文生成モデル学習方法、及び、(2)学習用文書とは別に与えられた文書である入力文書及び説明文生成モデルから入力文書を説明する説明文である出力説明文を生成する説明文生成方法、この2つの方法を提供する。SNSユーザの関心を引きつける説明文を生成する目的においては、学習用文書集合の各要素である学習用文書はwebニュース記事、学習用説明文集合の各要素である学習用説明文はwebニュース記事に言及したSNSの投稿と解釈できる。   In the embodiment of the present invention, (1) a learning document set which is a set of given documents, and a learning explanation set which is a set of sentences explaining each document of the learning document set are given. An explanatory sentence generation model learning method for learning an explanatory sentence generation model that is a model for generating a sentence for explaining a document, and (2) generation of an input document and an explanatory sentence that are documents given separately from the learning document An explanatory text generation method for generating an output explanatory text that is an explanatory text explaining an input document from a model, and these two methods are provided. For the purpose of generating explanatory text that attracts the interest of SNS users, the learning text that is an element of the learning text set is a web news article, and the learning text that is an element of the learning text set is a web news article. It can be interpreted as an SNS post mentioned in.

具体的には、本発明の実施の形態では、文書構成要素ラベリング部において、学習用説明文の記述内容を考慮しながら学習用文書にラベルを付与し、説明文生成モデル学習部において、学習用文書、及び文書構成要素ラベリング部により付与したラベルの対を利用することにより、与えられた文書を説明する文を生成する説明文生成モデルを教師付学習により獲得する。この説明文生成モデルを用いることで、文書構成要素ラベル推定部において、新規に与えられた入力文書に対してのラベルを推定し、出力説明文生成部において、文書構成要素ラベル推定部で推定したラベルに基づいて、入力文書から出力説明文を構成する。   Specifically, in the embodiment of the present invention, the document component labeling unit assigns a label to the learning document in consideration of the description content of the learning explanatory text, and the explanatory text generation model learning unit performs the learning By using a pair of a label provided by the document and the document component labeling unit, an explanation sentence generation model for generating a sentence explaining the given document is obtained by supervised learning. By using this explanatory text generation model, the document component label estimation unit estimates a label for a newly given input document, and the output description generation unit estimates it by the document component label estimation unit. Based on the label, an output description is constructed from the input document.

[説明文生成モデル学習装置の構成]
以下、本発明の実施形態に係る説明文生成モデル学習装置について図面を参照して説明する。説明文生成モデル学習装置は、CPUと、RAMと、プログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1には、本発明の実施形態に係る説明文生成モデル学習装置100の構成の概略が示されている。図1に示すように、本実施形態に係る説明文生成モデル学習装置100は、入力部10と、演算部20とで構成されている。
[Configuration of explanatory text generation model learning device]
Hereinafter, an explanatory note generation model learning device according to an embodiment of the present invention will be described with reference to the drawings. The explanation sentence generation model learning device is configured by a computer including a CPU, a RAM, and a ROM storing a program, and is functionally configured as follows. FIG. 1 shows an outline of the configuration of the explanatory note generation model learning device 100 according to the embodiment of the present invention. As illustrated in FIG. 1, the explanatory note generation model learning device 100 according to the present embodiment includes an input unit 10 and a calculation unit 20.

入力部10は、与えられた文書の集合である学習用文書集合、及び前記学習用文書集合の各文書を説明する説明文の集合である学習用説明文集合を受け付ける。   The input unit 10 accepts a learning document set that is a set of given documents and a learning explanatory text set that is a set of explanatory texts that explain each document in the learning document set.

演算部20は、学習用文書分割部22と、文書構成要素ラベリング部24と、説明文生成モデル学習部26と、説明文生成モデル記憶部28とを備えている。   The computing unit 20 includes a learning document dividing unit 22, a document component labeling unit 24, an explanatory sentence generation model learning unit 26, and an explanatory sentence generation model storage unit 28.

学習用文書分割部22は、学習用文書集合を入力し、学習用文書集合の各文書である学習用文書を所定の単位に分割することで、分割された学習用文書の構成要素である学習用文書構成要素の系列である学習用文書構成要素系列を構成し、この学習用文書構成要素系列の集合である学習用文書構成要素系列集合を出力する。   The learning document dividing unit 22 inputs a learning document set, and divides the learning document that is each document of the learning document set into predetermined units, thereby learning that is a component of the divided learning document. A learning document component sequence that is a sequence of document components for learning is configured, and a learning document component sequence set that is a set of the document component sequences for learning is output.

学習用文書構成要素系列の構成方法は特に限定されるものではないが、本実施形態では、学習用文書を文に分割し、一文を文書構成要素として採用する。   The method for configuring the learning document constituent element series is not particularly limited, but in this embodiment, the learning document is divided into sentences and one sentence is adopted as the document constituent element.

文書構成要素ラベリング部24は、学習用文書構成要素系列集合及び学習用説明文集合を入力し、ある学習用文書から構成された学習用文書構成要素系列と、当該学習用文書を説明する学習用説明文とを対にし、学習用文書構成要素系列を構成する各学習用文書構成要素に対して、その学習用文書構成要素の重要度を示すラベルである学習用文書構成要素ラベルを、対となる学習用説明文を参照しつつ付与することで、この学習用文書構成要素ラベルの系列である学習用文書構成要素ラベル系列を学習用文書構成要素系列と学習用説明文との各対について構成し、この学習用文書構成要素ラベル系列の集合である学習用文書構成要素ラベル系列集合を出力する。   The document component labeling unit 24 inputs a learning document component sequence set and a learning explanation set, and uses a learning document component sequence composed of a certain learning document and a learning document that explains the learning document. For each of the learning document components that make up the learning document component series, the learning document component label, which is a label indicating the importance of the learning document component, is paired with the explanatory text. The learning document component label sequence that is a sequence of the learning document component label is configured for each pair of the learning document component sequence and the learning explanatory text Then, a learning document constituent element label series set which is a set of learning document constituent element label series is output.

学習用文書構成要素ラベルの与え方は特に限定されるものではないが、本実施形態では、学習用説明文に含まれる内容を考慮して与える方法について説明する。   Although the method of giving the learning document component label is not particularly limited, in the present embodiment, a method of giving in consideration the content included in the learning explanatory text will be described.

学習用説明文は、学習用文書を説明する文として適切と判断されたものが用いられている。すなわち、学習用説明文に含まれる内容を示す学習用文書中の部分が、学習用文書の中で重要な部分であると考えることができる。この考えに基づき、本実施形態では、例えば、学習用説明文の各文について、その文の内容と最も適合する学習用文書の中の文、すなわち学習用文書構成要素を特定し、この学習用文書構成要素に「選択」を意味する「1」のラベルを付与する。学習用説明文の各文について同様の処理を行い、「1」のラベルが付与されなかった残りすべての学習用文書構成要素に、「非選択」を意味する「−1」のラベルを付与する。   As the learning explanation sentence, a sentence determined to be appropriate as a sentence explaining the learning document is used. That is, it can be considered that the part in the learning document indicating the content included in the learning explanatory text is an important part in the learning document. Based on this idea, in this embodiment, for example, for each sentence of the learning explanation sentence, the sentence in the learning document that most closely matches the contents of the sentence, that is, the learning document constituent element is specified, and this learning A label “1” meaning “selection” is assigned to the document component. The same processing is performed for each sentence of the learning explanation sentence, and a label “−1” meaning “non-selection” is assigned to all remaining learning document constituent elements that are not assigned the label “1”. .

上記のような手順により、学習用文書各々について、対応する学習用文書構成要素系列と同じ要素数を持つ2値(1 or −1)系列を構成することができる。この2値系列を、学習用文書構成要素ラベル系列とする。   Through the above procedure, a binary (1 or -1) sequence having the same number of elements as the corresponding learning document constituent element sequence can be configured for each learning document. This binary series is used as a learning document component label series.

上記の実施形態では、学習用文書構成要素ラベルとして、「選択」と「非選択」の2種類のみを想定していたが、学習用説明文の各文にあらかじめ重要度が設定されている場合には、「選択」「非選択」を示すラベルの代わりにその重要度をラベルに設定する実施形態も可能である。すなわちラベルは任意の整数値や任意の実数値を取ることも可能である。また、学習用文書がニュース記事である場合には,記事の前半に重要な内容が含まれていることが多いことから、「選択」と判断された文書構成要素について,記事の前半ほど大きな値を取る重要度を加算もしくは乗算することも可能である。   In the above embodiment, only two types of “selected” and “non-selected” are assumed as learning document component labels. However, when importance is set in advance in each sentence of the learning explanatory text In the embodiment, instead of the label indicating “selected” and “non-selected”, the importance is set to the label. That is, the label can take any integer value or any real value. In addition, when the learning document is a news article, since the first half of the article often contains important content, the value of the document component that is determined to be “selected” is larger in the first half of the article. It is also possible to add or multiply the importance of taking.

上記の実施形態では、手動でラベリングすることが想定されていたが、学習用文書構成要素と学習用説明文との類似度を計算することでラベリングを自動化する実施形態も考えられる。上記類似度では、文同士の類似度を計算する手法であればいかなる方法も適用可能であり、単語頻度ベクトルのコサイン距離、TF-IDF特徴量のコサイン距離、word vector(非特許文献2)の平均ベクトルを特徴とするコサイン距離、paragraph vector(非特許文献3)のコサイン距離、などの方法が考えられる。   In the above-described embodiment, manual labeling is assumed. However, an embodiment in which labeling is automated by calculating the similarity between the learning document constituent element and the learning explanatory text is also conceivable. For the above similarity, any method can be applied as long as it is a method for calculating the similarity between sentences. The cosine distance of the word frequency vector, the cosine distance of the TF-IDF feature, the word vector (Non-patent Document 2) Methods such as a cosine distance characterized by an average vector and a cosine distance of a paragraph vector (Non-Patent Document 3) are conceivable.

(非特許文献2)Mikolov, Sutskever, Chen, Corrado, Dean “Distributed representations of words and phrases and their compositionality,” Proc. Advances in Neural Information Processing Systems (NIPS), pp.3111-3119, 2013. インターネット<URL:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf> (Non-Patent Document 2) Mikolov, Sutskever, Chen, Corrado, Dean “Distributed representations of words and phrases and their compositionality,” Proc. Advances in Neural Information Processing Systems (NIPS), pp.3111-3119, 2013. Internet <URL : Https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf>

(非特許文献3)Le and Mikolov “Distributed representations of sentences and documents,” arXiv:1405.4053, May 2014. インターネット<URL:https://cs.stanford.edu/~quocle/paragraph_vector.pdf> (Non-Patent Document 3) Le and Mikolov “Distributed representations of sentences and documents,” arXiv: 1405.4053, May 2014. Internet <URL: https://cs.stanford.edu/~quocle/paragraph_vector.pdf>

上記のような手順により、学習用文書各々について、対応する学習用文書構成要素系列と同じ要素数を持つ系列を構成することができ、この系列を学習用文書構成要素ラベル系列とする。   Through the above procedure, a sequence having the same number of elements as the corresponding learning document constituent element sequence can be formed for each learning document, and this series is set as a learning document constituent label sequence.

説明文生成モデル学習部26は、学習用文書構成要素系列集合及び学習用文書構成要素ラベル系列集合を入力し、学習用文書構成要素系列集合に含まれる各学習用文書構成要素系列から、これに対応する学習用文書構成要素ラベル系列を予測するモデルとして、説明文生成モデルを学習し、この説明文生成モデルを出力する。   The explanatory note generation model learning unit 26 inputs the learning document component sequence set and the learning document component label sequence set, and from each learning document component sequence included in the learning document component sequence set, The explanatory note generation model is learned as a model for predicting the corresponding learning document component label sequence, and this explanatory note generation model is output.

すなわち、本実施例において、説明文生成モデル学習部26の目的は、学習用文書の各文に与えられたラベルを予測するモデルを学習することにある。   That is, in this embodiment, the purpose of the explanatory note generation model learning unit 26 is to learn a model that predicts a label given to each sentence of the learning document.

説明文生成モデルは特に限定されるものではないが、本実施形態では、recurrent neural network (RNN) を用いたモデルを採用する。モデルの概略図を図2に示す。   The description sentence generation model is not particularly limited, but in this embodiment, a model using a recurrent neural network (RNN) is adopted. A schematic diagram of the model is shown in FIG.

本実施形態で採用するモデルは、単語系列

を入力し、ラベル系列

の予測

を出力するモデルである。ここで、Tは単語系列の長さである。このモデルでは、以下の式(1)に示す計算を行う。ただし、各単語

は1-of-K表現、すなわちK種類の単語のうちいずれか1つだけ1で残りがすべて0となる2値ベクトルで表現されているものとする。また、ε(・)は与えられた単語の1-of-K表現を多次元ベクトルに埋め込む関数、

はlong-short term memory (LSTM) block と呼ばれる時系列信号の長期依存性を学習するブロック、σ(・)は任意の活性化関数である。
The model adopted in this embodiment is a word sequence

Enter the label series

Prediction

Is a model that outputs Here, T is the length of the word sequence. In this model, the calculation shown in the following formula (1) is performed. However, each word

Is represented by a 1-of-K expression, that is, a binary vector in which only one of K types of words is 1 and the rest are all 0. Ε (·) is a function that embeds a 1-of-K representation of a given word in a multidimensional vector,

Is a long-short term memory (LSTM) block called a block that learns the long-term dependence of a time-series signal, and σ (•) is an arbitrary activation function.


・・・(1)

... (1)

活性化関数σ(・)の具体的な形状は特に限定されるものではないが、例えば、シグモイド関数やtanh関数などを用いることができる。埋め込み関数ε(・)については、全体のネットワークと同時に学習する方法だけでなく、非特許文献2に記載の単語埋め込みを利用することも可能である。   The specific shape of the activation function σ (•) is not particularly limited, and for example, a sigmoid function or a tanh function can be used. Regarding the embedding function ε (•), not only a method of learning simultaneously with the entire network but also word embedding described in Non-Patent Document 2 can be used.

本実施形態で採用するモデルにおいて、学習により求めるパラメータは、線形変換行列

、バイアス項

、LSTM

、活性化関数σ(・埋め込み関数ε)の内部パラメータである。これらのパラメータは、正解のラベル系列Yと予測ラベル系列

との誤差を小さくするように学習される。ラベル系列の誤差関数としてはクロスエントロピーが、パラメータ修正には確率的最急降下法が、それぞれ一般的に用いられる。
In the model employed in the present embodiment, the parameter obtained by learning is a linear transformation matrix.

, Bias term

, LSTM

, An internal parameter of the activation function σ (· embedding function ε). These parameters are the correct label sequence Y and the predicted label sequence

And learning to reduce the error. A cross-entropy is generally used as an error function of a label sequence, and a stochastic steepest descent method is generally used for parameter correction.

本実施形態では、学習用文書構成要素系列と学習用文書構成要素ラベル系列の組が学習データとして複数与えられる。学習用文書構成要素が文である場合には、ラベルは文ごとに与えられるため、本実施形態で採用する説明文生成モデルに適用するためには、文を単語に分割し、別途定めるストップワードを除去した後に、各単語にラベルを与える必要がある。各単語へのラベルの与え方は、すべての単語に文のラベルと同じものを与える、文の先頭の単語のみ文のラベルと同じものを与える、などの方法が考えられる。   In this embodiment, a plurality of sets of learning document constituent element sequences and learning document constituent element label sequences are given as learning data. When the learning document component is a sentence, a label is given for each sentence. Therefore, in order to apply to the explanatory sentence generation model adopted in the present embodiment, the sentence is divided into words and separately defined stop words. After removing, you need to give each word a label. As a method of giving a label to each word, a method such as giving the same thing as the sentence label to all words, or giving only the same word as the sentence label to the first word of the sentence can be considered.

説明文生成モデルは,前述のものに限定されるものではない。例えば、非特許文献4に記載のbidirectional LSTMと呼ばれるモデルを用いることも可能である。モデルの概略図を図3に示す。このモデルでは、以下の式(2)に示す計算を行う。   The explanatory note generation model is not limited to the above-described one. For example, a model called bidirectional LSTM described in Non-Patent Document 4 can be used. A schematic diagram of the model is shown in FIG. In this model, the calculation shown in the following formula (2) is performed.


・・・(2)

... (2)

(非特許文献4)Graves, Mohamed, Hinton “Speech recognition with deep recurrent neural networks,” Proc. ICASSP, 2013. インターネット<URL:http://www.cs.toronto.edu/~fritz/absps/RNN13.pdf> (Non-Patent Document 4) Graves, Mohamed, Hinton “Speech recognition with deep recurrent neural networks,” Proc. ICASSP, 2013. Internet <URL: http://www.cs.toronto.edu/~fritz/absps/RNN13. pdf>

ここまでの実施形態では、説明文生成モデルとしてRNNを用いてきたが、これに加えてsupport vector machine (SVM) を用いる実施形態も考えられる。この実施形態では、学習済RNNの隠れ層ベクトル

もしくは

もしくはその連結ベクトルをSVMの入力として単語ラベルを予測するSVMモデルを学習する。
In the embodiments so far, RNN has been used as the explanatory text generation model, but in addition to this, an embodiment using a support vector machine (SVM) is also conceivable. In this embodiment, the hidden layer vector of the learned RNN

Or

Alternatively, an SVM model that predicts a word label using the connected vector as an input of SVM is learned.

上記のような手順により、説明文生成モデル学習部26は、RNNもしくはRNNとSVMによって構成される説明文生成モデルを学習し、この説明文生成モデルを説明文生成モデル記憶部28に格納する。   Through the above procedure, the explanatory note generation model learning unit 26 learns an explanatory note generation model composed of RNN or RNN and SVM, and stores this explanatory note generation model in the explanatory note generation model storage unit 28.

[説明文生成装置の構成]
次に、本発明の実施形態に係る説明文生成装置について図面を参照して説明する。説明文生成装置は、CPUと、RAMと、プログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図4には、本発明の実施形態に係る説明文生成装置150の構成の概略が示されている。図4に示すように、本実施形態に係る説明文生成装置150は、入力部60と、演算部70と、出力部90とで構成されている。
[Configuration of explanation generator]
Next, an explanatory note generating apparatus according to an embodiment of the present invention will be described with reference to the drawings. The explanatory note generating apparatus is configured by a computer including a CPU, a RAM, and a ROM storing a program, and is functionally configured as follows. FIG. 4 shows an outline of the configuration of the explanatory note generation apparatus 150 according to the embodiment of the present invention. As illustrated in FIG. 4, the explanatory note generation apparatus 150 according to the present embodiment includes an input unit 60, a calculation unit 70, and an output unit 90.

入力部60は、生成する説明文の説明対象となる入力文書を受け付ける。   The input unit 60 accepts an input document that is an explanation target of a description to be generated.

演算部70は、入力文書分割部72と、説明文生成モデル記憶部74と、文書構成要素ラベル推定部76と、出力説明文生成部78とを備えている。   The computing unit 70 includes an input document dividing unit 72, an explanatory sentence generation model storage unit 74, a document component label estimation unit 76, and an output explanatory sentence generation unit 78.

入力文書分割部72は、学習用文書とは別に与えられた文書である入力文書を入力し、入力文書を所定の単位に分割することで、分割された入力文書の構成要素である入力文書構成要素の系列である入力文書構成要素系列を構成し、この入力文書構成要素系列を出力する。   The input document dividing unit 72 inputs an input document, which is a document given separately from the learning document, and divides the input document into predetermined units, so that an input document configuration which is a component of the divided input document An input document constituent element series which is a series of elements is formed, and this input document constituent element series is output.

入力文書分割部72は、入力文書を入力として、前述の学習用文書分割部22と同様の処理を行うことで、入力文書構成要素系列を構成する。   The input document dividing unit 72 configures an input document constituent element series by performing the same processing as the learning document dividing unit 22 described above using the input document as an input.

説明文生成モデル記憶部74は、説明文生成モデル記憶部28と同一の説明文生成モデルが記憶されている。   The explanatory note generation model storage unit 74 stores the same explanatory note generation model as the explanatory note generation model storage unit 28.

文書構成要素ラベル推定部76は、入力文書構成要素系列及び説明文生成モデルを入力し、入力文書構成要素系列を構成する各入力文書構成要素に対して、その重要度を示すラベルである入力文書構成要素ラベルを推定し、この入力文書構成要素ラベルの系列である入力文書構成要素ラベル系列を出力する。   The document component label estimation unit 76 inputs an input document component sequence and an explanatory sentence generation model, and is an input document that is a label indicating the importance of each input document component constituting the input document component sequence The component label is estimated, and an input document component label series that is a series of the input document component labels is output.

入力文書構成要素系列を説明文生成モデルに入力することにより、入力文書構成要素ラベル系列を得ることができる。例えば、説明文生成モデルとしてbidirectional LSTMを用いる場合には、前述の式(2)を用いて単語ごとの予測ラベルの系列

が得られる。また、説明文生成モデルとしてbidirectional LSTMとSVMを用いる場合には、前述の式(2)を用いて計算した隠れ層ベクトル

もしくは

もしくはその連結ベクトルをSVMに入力することで、単語ごとの予測ラベルが得られる。このようにして得られた単語ごとの予測ラベルを文で統合することで、入力文書構成要素ラベルが得られる。統合方法として、文中の単語の予測ラベルの平均値、最大値、最小値、最頻値などを用いることができる。
By inputting the input document constituent element series into the explanatory note generation model, the input document constituent element label series can be obtained. For example, when bidirectional LSTM is used as the explanatory text generation model, a series of predicted labels for each word using the above equation (2).

Is obtained. In addition, when using bidirectional LSTM and SVM as the explanatory text generation model, the hidden layer vector calculated using equation (2) above

Or

Alternatively, a prediction label for each word can be obtained by inputting the connected vector to the SVM. By integrating the predicted labels for each word obtained in this way with sentences, an input document component label can be obtained. As an integration method, an average value, a maximum value, a minimum value, a mode value, and the like of predicted labels of words in a sentence can be used.

出力説明文生成部78は、入力文書構成要素系列及び入力文書構成要素ラベル系列を入力し、入力文書構成要素ラベルで示される重要度が高い入力文書構成要素を重視して出力説明文を生成し、この出力説明文を出力部90により出力する。   The output description sentence generation unit 78 inputs the input document constituent element series and the input document constituent element label series, and generates an output description sentence with emphasis on the input document constituent element having a high importance indicated by the input document constituent element label. The output explanation is output by the output unit 90.

出力説明文の生成方法は特に限定されるものではないが、本実施形態では、以下の2つの方法について述べる。   The method for generating the output description is not particularly limited, but in the present embodiment, the following two methods will be described.

第一の方法は、入力文書構成要素ラベルに基づいた入力文書構成要素の選択によるものである。入力文書構成要素が文である場合、入力文書構成要素ラベルは入力文書における当該文の重要度の推定値を表す。そこで、この入力文書構成要素ラベルを用いる所定の基準によって文を選択し、選択された文を入力文書中での登場順に連結した文系列を、出力説明文とする。ここでの基準として、例えば、入力文書構成要素ラベルが所定の閾値を上回る文を選択する、入力文書構成要素ラベルの大きい順に所定の数の文を選択する、所定の文字数を上回らない範囲で入力文書構成要素ラベルを大きい順に選択する、非特許文献5に記載のナップサック制約最適化に基づく選択方法を用いる、などの方法が考えられる。   The first method is by selecting an input document component based on the input document component label. When the input document component is a sentence, the input document component label represents an estimated value of the importance of the sentence in the input document. Therefore, a sentence is selected according to a predetermined criterion using the input document component label, and a sentence series in which the selected sentences are connected in the order of appearance in the input document is set as an output explanation sentence. As a reference here, for example, a sentence whose input document component label exceeds a predetermined threshold is selected, a predetermined number of sentences are selected in descending order of the input document component label, and input is made within a range not exceeding a predetermined number of characters. Methods such as selecting document component labels in descending order and using a selection method based on knapsack constraint optimization described in Non-Patent Document 5 are conceivable.

(非特許文献5)平尾,鈴木,磯崎 “最適化問題としての文書要約,” 人工知能学会論文誌,Vol.24,No.2,pp.223-231,2009年.インターネット<URL:https://www.jstage.jst.go.jp/article/tjsai/24/2/24_2_223/_pdf> (Non-Patent Document 5) Hirao, Suzuki, Amagasaki “Document summary as an optimization problem,” Journal of the Japanese Society for Artificial Intelligence, Vol.24, No.2, pp.223-231, 2009. Internet <URL: https://www.jstage.jst.go.jp/article/tjsai/24/2/24_2_223/_pdf>

第二の方法は、第一の方法で選択された文をさらに短縮するように編集する方法である。文短縮の方法として、例えば、非特許文献6や非特許文献7に記載の方法などが考えられる。また、非特許文献5に記載の方法のように、文選択と文短縮を同時に行う方法の適用も可能である。   The second method is a method of editing the sentence selected by the first method so as to further shorten. As a sentence shortening method, for example, the methods described in Non-Patent Document 6 and Non-Patent Document 7 can be considered. In addition, as in the method described in Non-Patent Document 5, it is possible to apply a method for simultaneously selecting a sentence and shortening a sentence.

(非特許文献6)平尾,鈴木,磯崎 “識別学習による組合せ最適化問題としての文短縮手法,” 人工知能学会論文誌,Vol.22,No.6A,pp.574-584,2007年.インターネット<URL:https://www.jstage.jst.go.jp/article/tjsai/22/6/22_6_574/_pdf> (Non-patent document 6) Hirao, Suzuki, Amagasaki “Sentence shortening as a combinatorial optimization problem by discriminative learning,” Journal of the Japanese Society for Artificial Intelligence, Vol.22, No.6A, pp.574-584, 2007. Internet <URL: https://www.jstage.jst.go.jp/article/tjsai/22/6/22_6_574/_pdf>

(非特許文献7)平尾,鈴木,磯崎 “軽量な文短縮手法,” 言語処理学会年次大会発表論文集,2008年3月.インターネット<URL:http://www.anlp.jp/proceedings/annual_meeting/2008/pdf_dir/C3-1.pdf> (Non-Patent Document 7) Hirao, Suzuki, Amagasaki “Lightweight sentence shortening method,” Proceedings of the Annual Conference of the Language Processing Society, March 2008. Internet <URL: http://www.anlp.jp/proceedings/annual_meeting/2008/pdf_dir/C3-1.pdf>

[説明文生成モデル学習装置の作用]
次に、本発明の実施形態に係る説明文生成モデル学習装置の作用を説明する。
[Operation of explanation generation model learning device]
Next, the operation of the explanatory note generation model learning device according to the embodiment of the present invention will be described.

図5には、本発明の実施の形態に係る説明文生成モデル学習処理プログラムを示すフローチャートが示されている。説明文生成モデル学習処理プログラムがスタートすると、ステップS100で、学習用文書分割部22は、学習用文書集合を入力し、学習用文書集合の各文書である学習用文書を所定の単位に分割することで、分割された学習用文書の構成要素である学習用文書構成要素の系列である学習用文書構成要素系列を構成し、この学習用文書構成要素系列の集合である学習用文書構成要素系列集合を出力する。   FIG. 5 shows a flowchart showing the explanatory note generation model learning processing program according to the embodiment of the present invention. When the explanatory sentence generation model learning processing program starts, in step S100, the learning document dividing unit 22 inputs a learning document set, and divides the learning document that is each document of the learning document set into predetermined units. Thus, a learning document component sequence that is a sequence of learning document components that is a component of the divided learning document is configured, and a learning document component sequence that is a set of the learning document component sequences Output a set.

ステップS102で、文書構成要素ラベリング部24は、学習用文書構成要素系列集合及び学習用説明文集合を入力し、ある学習用文書から構成された学習用文書構成要素系列と、当該学習用文書を説明する学習用説明文とを対にし、学習用文書構成要素系列を構成する各学習用文書構成要素に対して、その学習用文書構成要素の重要度を示すラベルである学習用文書構成要素ラベルを、対となる学習用説明文を参照しつつ付与することで、この学習用文書構成要素ラベルの系列である学習用文書構成要素ラベル系列を学習用文書構成要素系列と学習用説明文との各対について構成し、この学習用文書構成要素ラベル系列の集合である学習用文書構成要素ラベル系列集合を出力する。   In step S102, the document component labeling unit 24 inputs a learning document component sequence set and a learning explanation set, and stores a learning document component sequence composed of a certain learning document and the learning document. Learning document component label, which is a label indicating the importance of the learning document component for each learning document component constituting the learning document component sequence by pairing with the explanatory description for explanation Is given with reference to a pair of learning explanation texts, so that the learning document constituent element label series, which is a series of learning document constituent element labels, is converted into a learning document constituent element series and a learning explanatory text. Each pair is configured, and a learning document component label series set which is a set of the learning document component label series is output.

ステップS104で、説明文生成モデル学習部26は、学習用文書構成要素系列集合及び学習用文書構成要素ラベル系列集合を入力し、学習用文書構成要素系列集合に含まれる各学習用文書構成要素系列から、これに対応する学習用文書構成要素ラベル系列を予測するモデルとして、説明文生成モデルを学習し、この説明文生成モデルを、説明文生成モデル記憶部28に格納して、説明文生成モデル学習処理プログラムを終了する。   In step S104, the explanatory note generation model learning unit 26 inputs the learning document component sequence set and the learning document component label sequence set, and each learning document component sequence included in the learning document component sequence set. From this, the explanatory note generation model is learned as a model for predicting the corresponding document component label sequence for learning, and the explanatory note generation model is stored in the explanatory note generation model storage unit 28, and the explanatory note generation model is stored. The learning processing program is terminated.

[説明文生成装置の作用]
次に、本発明の実施形態に係る説明文生成装置の作用を説明する。
[Operation of the explanation generator]
Next, the operation of the explanatory note generating apparatus according to the embodiment of the present invention will be described.

図6には、本発明の実施の形態に係る説明文生成処理プログラムを示すフローチャートが示されている。説明文生成処理プログラムがスタートすると、ステップS110で、入力文書を入力し、入力文書を所定の単位に分割することで、分割された入力文書の構成要素である入力文書構成要素の系列である入力文書構成要素系列を構成し、この入力文書構成要素系列を出力する。   FIG. 6 shows a flowchart showing the explanatory note generation processing program according to the embodiment of the present invention. When the explanatory note generation processing program starts, in step S110, an input document is input, and the input document is divided into predetermined units, whereby an input that is a series of input document constituent elements that are constituent elements of the divided input document. A document component series is constructed, and this input document constituent series is output.

ステップS112で、文書構成要素ラベル推定部76は、入力文書構成要素系列及び説明文生成モデルを入力し、入力文書構成要素系列を構成する各入力文書構成要素に対して、その重要度を示すラベルである入力文書構成要素ラベルを推定し、この入力文書構成要素ラベルの系列である入力文書構成要素ラベル系列を出力する。   In step S112, the document component element label estimation unit 76 inputs the input document component element sequence and the description sentence generation model, and indicates the importance level of each input document component element constituting the input document component element sequence. The input document component label is estimated, and an input document component label series which is a series of the input document component labels is output.

ステップS114で、出力説明文生成部78は、入力文書構成要素系列及び入力文書構成要素ラベル系列を入力し、入力文書構成要素ラベルで示される重要度が高い入力文書構成要素を重視して出力説明文を生成し、この出力説明文を出力部90により出力し、説明文生成処理プログラムを終了する。   In step S114, the output description sentence generation unit 78 inputs the input document constituent element series and the input document constituent element label series, and emphasizes the input document constituent element having a high importance indicated by the input document constituent element label. A sentence is generated, the output explanation is output by the output unit 90, and the explanation sentence generation processing program is terminated.

[実験結果]
次に、これまでに示した実施形態を検証するために,Twitter(R) APIから取得したツイートを学習用説明文として用いる実験を行った実験結果について説明する。およそ1年間の間に投稿されたツイートのうち、特定のニュースサイトの記事へのリンクを含み、5回以上リツイートもしくはお気に入り登録されたツイートを抽出した。また、これらの抽出したツイートでリンクされたニュースサイトの記事を収集し、タイトル、本文、メタ情報などを抽出した。上記の手順により、総計約6000記事、80万ツイートを収集した。
[Experimental result]
Next, in order to verify the embodiment shown so far, an experimental result of an experiment using a tweet acquired from the Twitter (R) API as an explanatory text for learning will be described. Out of tweets posted over the past year, we extracted tweets that were retweeted or favorited more than 5 times, including links to articles from specific news sites. In addition, we collected news site articles linked by these extracted tweets, and extracted titles, body text, meta information, and so on. Through the above procedure, a total of about 6,000 articles and 800,000 tweets were collected.

各ニュース記事について、その記事へのリンクを含むツイートの中から、リツイート数とお気に入り登録数が最も大きなツイートを選択し、これを当該ニュース記事の説明文の正解とした。この手順はすなわち、学習用文書としてあるニュース記事を設定した際の学習用説明文を設定する手順と見なすことができる。   For each news article, a tweet with the largest number of retweets and favorite registrations was selected from the tweets including the link to the article, and this was set as the correct answer for the description of the news article. That is, this procedure can be regarded as a procedure for setting a learning explanation when a news article is set as a learning document.

説明文生成モデル学習部26及び文書構成要素ラベル推定部76ではRNNとSVMを併用する方法を採用し、モデル学習の実装として、RNNモデル記述・学習・評価にChainer(インターネット<URL:http://chainer.org>)を、SVM学習・評価にLIBSVM(インターネット<URL:https://www.csie.ntu.edu.tw/~cjlin/libsvm/>)をそれぞれ用い、4-fold cross validationでモデル学習と評価を実行した。出力説明文生成部78では文の選択のみを行い、文短縮は行わなかった。すなわち、本実験のタスクは、与えられた入力文書の中から重要な文を選択することにあり、文書構成要素ラベリング部24によって与えられた文選択の正解をどれだけ正確に再現できるかが評価基準となる。   The explanation sentence generation model learning unit 26 and the document component label estimation unit 76 employ a method using both RNN and SVM. As an implementation of model learning, Chainer (Internet <URL: http: / /chainer.org>) and LIBSVM (Internet <URL: https://www.csie.ntu.edu.tw/~cjlin/libsvm/>) for SVM learning and evaluation, respectively, with 4-fold cross validation Model learning and evaluation were performed. The output explanation generation unit 78 only selects a sentence and does not shorten the sentence. That is, the task of this experiment is to select an important sentence from a given input document, and how accurately the correct sentence selection given by the document component labeling unit 24 can be reproduced. The standard.

本実験における説明文生成方法の評価方法として、分類問題における代表的な評価尺度であるROC curve及びarea under the ROC curve (AUC) を用いた。ROC curveは、横軸に誤分類率、縦軸に正答率を取るグラフであり、グラフ曲線が左上にあるほど良い方法と判断される。AUCはROCの右下にある領域の面積であり、値が大きいほど良い方法と判断される。評価対象として、入力文書からランダムに文を選択する手法 (random guess)、入力文書の先頭から順に選択する手法 (baseline)、及び本発明の実施形態による方法 (proposed) を採用した。   As an evaluation method of the explanation generation method in this experiment, ROC curve and area under the ROC curve (AUC) which are typical evaluation scales in the classification problem were used. The ROC curve is a graph with the misclassification rate on the horizontal axis and the correct answer rate on the vertical axis. The more the graph curve is on the upper left, the better the method. AUC is the area of the area at the lower right of the ROC, and the larger the value, the better the method. As evaluation targets, a method of randomly selecting sentences from the input document (random guess), a method of selecting sentences in order from the top of the input document (baseline), and a method according to an embodiment of the present invention (proposed) were adopted.

入力文書中の評価実験結果を図7に示す。この図から、本発明の実施形態による方法が最も良い結果を示すと共に、いずれの評価対象に対しても優位に良い結果であることが見て取れる。   The evaluation experiment results in the input document are shown in FIG. From this figure, it can be seen that the method according to the embodiment of the present invention shows the best result, and the result is superior to any evaluation object.

以上説明したように、本発明の実施の形態に係る説明文生成モデル学習装置によれば、学習用文書構成要素系列を構成する各学習用文書構成要素に対して、学習用文書構成要素ラベルを、学習用説明文集合のうちの対応する説明文を参照しつつ付与し、学習用文書構成要素系列から学習用文書構成要素ラベル系列を予測するためのモデルを、説明文生成モデルとして学習することにより、文書を説明する文を適切に生成するためのモデルを学習することができる。   As described above, according to the explanatory note generation model learning device according to the embodiment of the present invention, a learning document component label is assigned to each learning document component constituting the learning document component series. , Learning a model for predicting a learning document component label sequence from a learning document component sequence as an explanatory statement generation model, given with reference to the corresponding explanatory statement in the learning explanatory statement set Thus, it is possible to learn a model for appropriately generating a sentence explaining the document.

また、本発明の実施の形態に係る説明文生成装置によれば、上記説明文生成モデル学習装置により予め学習された説明文生成モデルを用いることで、入力文書構成要素系列を構成する各入力文書構成要素に対して、入力文書構成要素ラベルを推定し、入力文書構成要素ラベルで示される重要度が高い入力文書構成要素を重視して出力説明文を生成することにより、文書を説明する文を適切に生成することができる。
また、本発明の実施の形態は、ニュースなど複数の文で構成される文書を端的に説明する説明文を生成する文書要約方法に関するものであり、例えば、ソーシャルメディア上で多くの読者の目を引きつけるためのニュースの説明文を自動的に生成し、その説明文をソーシャルメディア上に配信することを支援することができる。
In addition, according to the explanatory note generation device according to the embodiment of the present invention, each input document constituting the input document constituent element series by using the explanatory note generation model learned in advance by the explanatory note generation model learning device. Estimate the input document component label for the component, and generate an output description with emphasis on the input document component with high importance indicated by the input document component label. It can be generated appropriately.
The embodiment of the present invention also relates to a document summarization method for generating an explanatory sentence that briefly explains a document composed of a plurality of sentences such as news. It is possible to automatically generate an explanatory note of news for attraction and to distribute the explanatory note on social media.

[変形例]
説明文生成モデル学習装置及び説明文生成装置の各々の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、説明文生成モデル学習装置及び説明文生成装置の各々に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
[Modification]
A program for executing each process of the explanatory note generation model learning device and the explanatory note generation device is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed. By doing so, you may perform the various process mentioned above which concerns on each of an explanatory note production | generation model learning apparatus and an explanatory note production | generation apparatus. Here, the “computer system” may include an OS and hardware such as peripheral devices. Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

10、60 入力部
20、70 演算部
22 学習用文書分割部
24 文書構成要素ラベリング部
26 説明文生成モデル学習部
28 説明文生成モデル記憶部
72 入力文書分割部
74 説明文生成モデル記憶部
76 文書構成要素ラベル推定部
78 出力説明文生成部
90 出力部
100 説明文生成モデル学習装置
150 説明文生成装置
10, 60 Input unit 20, 70 Arithmetic unit 22 Document dividing unit for learning 24 Document component labeling unit 26 Explanation sentence generation model learning unit 28 Explanation sentence generation model storage part 72 Input document division part 74 Explanation sentence generation model storage part 76 Document Component element label estimation unit 78 Output explanation generation unit 90 Output unit 100 Explanation sentence generation model learning device 150 Explanation sentence generation device

Claims (8)

与えられた文書である入力文書、及び予め学習された説明文生成モデルから、入力文書を説明する説明文である出力説明文を生成する説明文生成装置における説明文生成方法であって、
入力文書分割部が、前記入力文書を所定の単位に分割することで、分割された入力文書の構成要素である入力文書構成要素の系列である入力文書構成要素系列を構成する、入力文書分割ステップと、
文書構成要素ラベル推定部が、前記説明文生成モデルを用いることで、入力文書構成要素系列を構成する各入力文書構成要素に対して、前記入力文書構成要素の重要度を示すラベルである入力文書構成要素ラベルを推定する、文書構成要素ラベル推定ステップと、
出力説明文生成部が、前記入力文書構成要素系列、及び前記入力文書構成要素系列に対応する入力文書構成要素ラベルの系列である入力文書構成要素ラベル系列を用いて、入力文書構成要素ラベルで示される重要度が高い入力文書構成要素を重視して出力説明文を生成する、出力説明文生成ステップと、
を含むことを特徴とする説明文生成方法。
An explanatory text generation method in an explanatory text generation apparatus that generates an output explanatory text that is an explanatory text explaining an input document from an input text that is a given document and an explanatory text generation model that has been learned in advance.
An input document dividing step in which an input document dividing unit forms an input document constituent element series that is a series of input document constituent elements that are constituent elements of the divided input document by dividing the input document into predetermined units. When,
An input document in which the document component label estimation unit is a label indicating the importance of the input document component with respect to each input document component constituting the input document component series by using the description sentence generation model A document component label estimation step for estimating a component label;
The output description sentence generation unit uses the input document component label sequence that is a sequence of the input document component sequence and the input document component label corresponding to the input document component sequence to indicate the input document component label. An output description generation step for generating an output description with an emphasis on input document components having high importance,
An explanatory note generation method comprising:
前記入力文書分割ステップにおいて、与えられた入力文書を文単位に分割し、一文を構成要素の単位とする
ことを特徴とする、請求項1に記載の説明文生成方法。
2. The explanatory note generation method according to claim 1, wherein in the input document dividing step, a given input document is divided into sentence units, and one sentence is used as a unit of constituent elements.
前記文書構成要素ラベル推定ステップにおいて、入力文書構成要素系列を入力して文書構成要素ラベル系列を予測するための予め学習されたニューラルネットワークを、前記説明文生成モデルとして用いる
ことを特徴とする、請求項1又は請求項2に記載の説明文生成方法。
In the document component label estimation step, a pre-learned neural network for inputting an input document component sequence and predicting a document component label sequence is used as the description sentence generation model. The explanatory note generation method according to claim 1 or claim 2.
前記出力説明文生成ステップにおいて、前記入力文書構成要素ラベルで示される重要度が高い入力文書構成要素を重視して選択し、前記選択された入力文書構成要素を編集することで、前記出力説明文を構成する
ことを特徴とする、請求項1〜請求項3の何れか1項に記載の説明文生成方法。
In the output description sentence generation step, the output description sentence is selected by focusing on an input document constituent element having a high importance indicated by the input document constituent element label and editing the selected input document constituent element. The explanatory note generation method according to any one of claims 1 to 3, wherein:
与えられた文書の集合である学習用文書集合、及び前記学習用文書集合の各文書を説明する説明文の集合である学習用説明文集合から、与えられた文書を説明する文を生成するためのモデルである説明文生成モデルを学習する説明文生成モデル学習装置における説明文生成モデル学習方法であって、
学習用文書分割部が、前記学習用文書集合の各文書である学習用文書を所定の単位に分割することで、分割された学習用文書の構成要素である学習用文書構成要素の系列である学習用文書構成要素系列を構成する、学習用文書分割ステップと、
文書構成要素ラベリング部が、前記学習用文書構成要素系列を構成する各学習用文書構成要素に対して、前記学習用文書構成要素の重要度を示すラベルである学習用文書構成要素ラベルを、前記学習用説明文集合のうちの対応する説明文を参照しつつ付与する、文書構成要素ラベリングステップと、
説明文生成モデル学習部が、前記学習用文書構成要素系列、及び前記学習用文書構成要素系列に対応する学習用文書構成要素ラベルの系列である学習用文書構成要素ラベル系列を複数用いて、学習用文書構成要素系列から学習用文書構成要素ラベル系列を予測するためのモデルを、前記説明文生成モデルとして学習する、説明文生成モデル学習ステップと、
を含むことを特徴とする説明文生成モデル学習方法。
To generate a sentence that explains a given document from a learning document set that is a set of given documents and a learning explanation set that is a set of explanatory sentences that explain each document in the learning document set An explanatory text generation model learning method in an explanatory text generation model learning device for learning an explanatory text generation model that is a model of
The learning document dividing unit divides the learning document, which is each document of the learning document set, into predetermined units, and is a sequence of learning document constituent elements that are constituent elements of the divided learning documents. A learning document dividing step that constitutes a learning document component sequence; and
The document component labeling unit, for each learning document component constituting the learning document component sequence, a learning document component label that is a label indicating the importance of the learning document component, A document component labeling step to be given while referring to the corresponding explanatory text in the learning explanatory text set;
The explanation sentence generation model learning unit learns by using a plurality of learning document component label sequences that are sequences of the learning document component sequence and learning document component labels corresponding to the learning document component sequence. An explanatory sentence generation model learning step of learning, as the explanatory sentence generation model, a model for predicting a learning document constituent element label series from the original document constituent element series;
An explanatory note generation model learning method characterized by comprising:
前記学習用文書分割ステップにおいて、学習用文書を文単位に分割し、一文を構成要素の単位とする
ことを特徴とする、請求項5に記載の説明文生成モデル学習方法。
6. The explanatory text generation model learning method according to claim 5, wherein in the learning document dividing step, the learning document is divided into sentence units, and one sentence is used as a unit of constituent elements.
前記説明文生成モデル学習ステップにおいて、前記説明文生成モデルとして、学習用文書構成要素系列を入力して学習用文書構成要素ラベル系列を予測するためのニューラルネットワークを学習する
ことを特徴とする、請求項5又は請求項6に記載の説明文生成モデル学習方法。
In the explanatory sentence generation model learning step, as the explanatory sentence generation model, a neural network for inputting a learning document component sequence and predicting a learning document component label sequence is learned. The explanatory note generation model learning method according to claim 5 or claim 6.
コンピュータに、請求項1〜請求項4の何れか1項記載の説明文生成方法、又は請求項5〜請求項7の何れか1項記載の説明文生成モデル学習方法の各ステップを実行させるためのプログラム。   In order for a computer to execute each step of the explanatory note generation method according to any one of claims 1 to 4 or the explanatory note generation model learning method according to any one of claims 5 to 7. Program.
JP2016161426A 2016-08-19 2016-08-19 Explanatory text creation method, explanatory text creation model learning method, and program Pending JP2018028866A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016161426A JP2018028866A (en) 2016-08-19 2016-08-19 Explanatory text creation method, explanatory text creation model learning method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016161426A JP2018028866A (en) 2016-08-19 2016-08-19 Explanatory text creation method, explanatory text creation model learning method, and program

Publications (1)

Publication Number Publication Date
JP2018028866A true JP2018028866A (en) 2018-02-22

Family

ID=61248449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016161426A Pending JP2018028866A (en) 2016-08-19 2016-08-19 Explanatory text creation method, explanatory text creation model learning method, and program

Country Status (1)

Country Link
JP (1) JP2018028866A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020052494A (en) * 2018-09-25 2020-04-02 富士ゼロックス株式会社 Information processing device and information processing program
KR20210057708A (en) * 2020-05-28 2021-05-21 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. Method, apparatus, and electronic device for training text generation model
WO2024044014A1 (en) * 2022-08-21 2024-02-29 Nec Laboratories America, Inc. Concept-conditioned and pretrained language models based on time series to free-form text description generation

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020052494A (en) * 2018-09-25 2020-04-02 富士ゼロックス株式会社 Information processing device and information processing program
JP7215038B2 (en) 2018-09-25 2023-01-31 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program
KR20210057708A (en) * 2020-05-28 2021-05-21 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. Method, apparatus, and electronic device for training text generation model
JP2021157802A (en) * 2020-05-28 2021-10-07 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Text generation model training method, device, and electronic apparatus
US11574133B2 (en) 2020-05-28 2023-02-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device, and storage medium for training text generation model
KR102541306B1 (en) 2020-05-28 2023-06-12 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. Method, apparatus, and electronic device for training text generation model
WO2024044014A1 (en) * 2022-08-21 2024-02-29 Nec Laboratories America, Inc. Concept-conditioned and pretrained language models based on time series to free-form text description generation

Similar Documents

Publication Publication Date Title
CN107168952B (en) Information generation method and device based on artificial intelligence
CN107346336B (en) Information processing method and device based on artificial intelligence
US10242323B2 (en) Customisable method of data filtering
Stokowiec et al. Shallow reading with deep learning: Predicting popularity of online content using only its title
JP2017533531A (en) Focused sentiment classification
US11928985B2 (en) Content pre-personalization using biometric data
US10902209B2 (en) Method for content search and electronic device therefor
Shen et al. Kwickchat: A multi-turn dialogue system for aac using context-aware sentence generation by bag-of-keywords
CN113408706B (en) Method and device for training user interest mining model and user interest mining
US11526543B2 (en) Aggregate comment management from forwarded media content
Slavkov et al. Relieff for hierarchical multi-label classification
JP2018028866A (en) Explanatory text creation method, explanatory text creation model learning method, and program
Devi et al. Tweet sentiment classification using an ensemble of machine learning supervised classifiers employing statistical feature selection methods
JP6699031B2 (en) Model learning method, description evaluation method, and device
Anand et al. Analyzing and preprocessing the Twitter data for opinion mining
CN112307738A (en) Method and device for processing text
Deng et al. Variational autoencoder based enhanced behavior characteristics classification for social robot detection
Khurana Sentiment analysis of regional languages written in roman script on social media
Rajasekaran et al. Sentiment analysis of restaurant reviews
JP6205039B1 (en) Information processing apparatus, information processing method, and program
Florez Deep learning of semantic word representations to implement a content-based recommender for the RecSys Challenge’14
JP2019021218A (en) Learning device, program parameter, learning method and model
Li et al. Semi-supervised gender classification with joint textual and social modeling
Singh et al. Email Personalization and User Profiling Using RANSAC Multi Model Response Regression Based Optimized Pruning Extreme Learning Machines and Gradient Boosting Trees
Rodriguez et al. Cybersecurity text data classification and optimization for cti systems

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160822

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20160907