JP2020071737A - Learning method, learning program and learning device - Google Patents

Learning method, learning program and learning device Download PDF

Info

Publication number
JP2020071737A
JP2020071737A JP2018206012A JP2018206012A JP2020071737A JP 2020071737 A JP2020071737 A JP 2020071737A JP 2018206012 A JP2018206012 A JP 2018206012A JP 2018206012 A JP2018206012 A JP 2018206012A JP 2020071737 A JP2020071737 A JP 2020071737A
Authority
JP
Japan
Prior art keywords
sentence
model
learning
pseudo
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018206012A
Other languages
Japanese (ja)
Other versions
JP7099254B2 (en
Inventor
拓哉 牧野
Takuya Makino
拓哉 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018206012A priority Critical patent/JP7099254B2/en
Publication of JP2020071737A publication Critical patent/JP2020071737A/en
Application granted granted Critical
Publication of JP7099254B2 publication Critical patent/JP7099254B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide a learning method capable of suppressing learning of models that generate less readable summary.SOLUTION: The learning method of machine learning of a model that generates a summary from an input sentence, causes a computer to execute a series of processing including: acquiring an input sentence and a correct summary; generating a pseudo sentence in which a non-grammatical expression is simulated by changing the word order of the words included in the correct summary; and updating model parameters on the basis of the probability of generation of a pseudo sentence from the input sentence by model and the probability of generation of a correct summary by the model from the input sentence.SELECTED DRAWING: Figure 1

Description

本発明は、学習方法、学習プログラム及び学習装置に関する。   The present invention relates to a learning method, a learning program, and a learning device.

新聞やWebサイト、電光掲示板などの文書から要約文を生成する自動要約にニューラルネットワークなどの機械学習が利用されることがある。例えば、入力文をベクトル化するRNN(Recurrent Neural Networks)エンコーダと、入力文のベクトルを参照して要約文の単語の予測を繰り返すRNNデコーダとが接続されたモデルが要約文の生成に用いられる。   Machine learning such as a neural network may be used for automatic summarization for generating a summary from a document such as a newspaper, a website, or an electronic bulletin board. For example, a model in which an RNN (Recurrent Neural Networks) encoder that vectorizes an input sentence and an RNN decoder that repeats prediction of words in the abstract sentence by referring to the vector of the input sentence is connected is used for generating the abstract sentence.

このようなモデルを学習する方法の一例として、学習サンプルの入力文に対応する正解の要約文である参照要約の単語ごとにモデルのパラメータの更新に用いる損失を算出するものがある。例えば、モデル学習の際には、RNNデコーダは、入力文のベクトル、1時刻前の正解の単語及びRNNデコーダが文末記号と呼ばれるEOSを出力するまでの残り文字数などを入力とし、EOSを出力するまで時刻ごとに単語の確率分布を繰り返し計算する。ここで言う「EOS」は、「End Of Sentence」の略称である。このように時刻ごとに計算される単語の確率分布と、当該時刻における正解の単語とを比較することにより損失が計算される。例えば、1時刻目に計算される単語の確率分布は、参照要約に含まれる単語列のうち先頭の単語と比較される。また、2時刻目に計算される単語の確率分布は、参照要約の先頭から2番目の単語と比較される。   As an example of a method of learning such a model, there is a method of calculating a loss used for updating a parameter of a model for each word of a reference summary which is a correct summary sentence corresponding to an input sentence of a learning sample. For example, during model learning, the RNN decoder inputs the vector of the input sentence, the correct word one time before, and the number of characters remaining until the RNN decoder outputs EOS called a sentence end symbol, and outputs the EOS. Iteratively calculates the probability distribution of words at each time. “EOS” here is an abbreviation for “End Of Sentence”. In this way, the loss is calculated by comparing the probability distribution of words calculated for each time with the correct word at the time. For example, the probability distribution of the word calculated at the first time is compared with the first word in the word string included in the reference summary. Also, the probability distribution of the word calculated at the second time is compared with the second word from the beginning of the reference summary.

上記のモデル学習が行われる場合、要約文の語数の制限はある程度は満たされる一方で、RNNデコーダが出力する要約文と正解の参照要約との間で文意が同じであっても単語の語順が異なる場合には、損失が生じる評価となる。   When the above model learning is performed, the number of words in the summary sentence is satisfied to some extent, but the word order of the words is different even if the summary sentence output by the RNN decoder and the correct reference summary have the same meaning. If is different, it is evaluated that a loss occurs.

このことから、ROUGEと呼ばれる指標が自動生成の要約文の評価に用いられる場合がある。ここで言う「ROUGE」とは、正解の参照要約と、モデルが組み込まれた要約文生成システムが出力する要約文との間における単語のN−gramの重複度を表す指標を指す。このようなROUGEに基づいてRNNエンコーダ及びRNNデコーダのモデルのパラメータをチューニングするMRT(Minimum Risk Training)と呼ばれる技術も提案されている。   From this, an index called ROUGE may be used for evaluation of automatically generated summary sentences. The term "ROUGE" used herein refers to an index indicating the degree of N-gram overlap of words between the correct reference summary and the summary output by the summary generation system in which the model is incorporated. A technique called MRT (Minimum Risk Training) for tuning the parameters of the model of the RNN encoder and the RNN decoder based on such ROUGE has also been proposed.

特開2016−62181号公報JP, 2016-62181, A 特開2013−167985号公報JP, 2013-167985, A 特開2015−170224号公報JP, 2005-170224, A 特開2014−123219号公報JP, 2014-123219, A

Ayana, Shiqi Shen, Yu Zhao, Zhiyuan Liu, Maosong Sun “Neural Headline Generation with Sentence-wise Optimization” Submitted on 7 Apr 2016Ayana, Shiqi Shen, Yu Zhao, Zhiyuan Liu, Maosong Sun “Neural Headline Generation with Sentence-wise Optimization” Submitted on 7 Apr 2016

しかしながら、上記の技術では、正解の参照要約と語順が異なる全ての要約文が高評価を受けるので、可読性が低い要約文を生成するモデルが学習されてしまう場合がある。   However, in the above technique, all summary sentences whose word order is different from that of the correct reference summary are highly evaluated, so that a model that generates a summary sentence with low readability may be learned.

すなわち、上記のMRTでは、正解の参照要約と語順が異なる要約文であっても単語の重複度が高ければ高いROUGE値が算出される。そして、ROUGE値が高い要約文の中には、正解の参照要約との間で語順が入れ替わることによって非文法的な表現を持つ要約文も含まれることがある。このように非文法的な表現を持つ要約文に基づいてモデルのパラメータが更新されることが一因となって可読性が低い要約文を生成するモデルが学習されてしまう場合がある。   That is, in the above MRT, a high ROUGE value is calculated if the degree of word overlap is high even in a summary sentence having a word order different from that of the correct reference summary. In addition, a summary sentence having a high ROUGE value may include a summary sentence having a non-grammatical expression by changing the word order from that of the correct reference summary. In some cases, the model parameters are updated based on the summary sentence having a non-grammatical expression in this way, and a model that generates a summary sentence with low readability may be learned.

1つの側面では、本発明は、可読性が低い要約文を生成するモデルが学習されるのを抑制できる学習方法、学習プログラム及び学習装置を提供することを目的とする。   In one aspect, an object of the present invention is to provide a learning method, a learning program, and a learning device that can suppress the learning of a model that generates a low-readable summary sentence.

一態様では、入力文から要約文を生成するモデルの機械学習を行う学習方法であって、入力文および正解の要約文を取得し、前記正解の要約文に含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文を生成し、前記モデルによって前記擬似文が前記入力文から生成される前記擬似文の生成確率、および、前記モデルによって前記正解の要約文が前記入力文から生成される前記正解の要約文の生成確率に基づいて前記モデルのパラメータを更新する、処理をコンピュータが実行する。   In one aspect, a learning method for performing machine learning of a model that generates a summary sentence from an input sentence, wherein an input sentence and a summary sentence of a correct answer are acquired, and the word order of words included in the summary sentence of the correct answer is changed. A pseudo-sentence in which a non-grammatical expression is pseudo-reproduced is generated, the generation probability of the pseudo-sentence in which the pseudo-sentence is generated from the input sentence by the model, and the correct summary sentence by the model. The computer executes a process of updating the parameters of the model based on the generation probability of the correct summary sentence generated from the input sentence.

可読性が低い要約文を生成するモデルが学習されるのを抑制できる。   It is possible to suppress learning of a model that generates a summary sentence with low readability.

図1は、実施例1に係る学習装置の機能的構成を示すブロック図である。FIG. 1 is a block diagram of the functional configuration of the learning device according to the first embodiment. 図2は、記事要約ツールのユースケースの一例を示す図である。FIG. 2 is a diagram showing an example of a use case of the article summarizing tool. 図3は、入力文の一例を示す図である。FIG. 3 is a diagram showing an example of an input sentence. 図4Aは、参照要約の一例を示す図である。FIG. 4A is a diagram illustrating an example of the reference summary. 図4Bは、システム要約の一例を示す図である。FIG. 4B is a diagram showing an example of a system summary. 図4Cは、システム要約の一例を示す図である。FIG. 4C is a diagram showing an example of a system summary. 図5は、MRTの処理内容の一例を示す図である。FIG. 5 is a diagram showing an example of the processing contents of MRT. 図6は、生成確率およびROUGE値の一例を示す図である。FIG. 6 is a diagram illustrating an example of the generation probability and the ROUGE value. 図7Aは、参照要約の一例を示す図である。FIG. 7A is a diagram showing an example of a reference summary. 図7Bは、システム要約の一例を示す図である。FIG. 7B is a diagram showing an example of a system summary. 図7Cは、システム要約の一例を示す図である。FIG. 7C is a diagram showing an example of a system summary. 図7Dは、システム要約の一例を示す図である。FIG. 7D is a diagram showing an example of a system summary. 図8は、モデルのパラメータの更新方法の一例を示す図である。FIG. 8 is a diagram showing an example of a method for updating model parameters. 図9は、第1のモデル学習の一例を示す図である。FIG. 9 is a diagram illustrating an example of the first model learning. 図10は、第1のモデル学習の一例を示す図である。FIG. 10 is a diagram illustrating an example of the first model learning. 図11は、第1のモデル学習の一例を示す図である。FIG. 11 is a diagram illustrating an example of the first model learning. 図12は、第1の系統におけるモデルへの入出力の一例を示す図である。FIG. 12 is a diagram showing an example of input / output to / from the model in the first system. 図13は、重複度の算出方法の一例を示す図である。FIG. 13 is a diagram showing an example of a method of calculating the degree of overlap. 図14は、誤差付きの重複度の算出方法の一例を示す図である。FIG. 14 is a diagram showing an example of a method of calculating the degree of overlap with an error. 図15は、誤差付きの重複度の算出方法の一例を示す図である。FIG. 15 is a diagram illustrating an example of a method of calculating the degree of overlap with an error. 図16は、第2の系統におけるモデルへの入出力の一例を示す図である。FIG. 16 is a diagram showing an example of input / output to / from the model in the second system. 図17は、実施例1に係る学習処理の手順を示すフローチャートである。FIG. 17 is a flowchart illustrating the procedure of the learning process according to the first embodiment. 図18は、実施例1に係る第1の損失算出処理の手順を示すフローチャートである。FIG. 18 is a flowchart illustrating the procedure of the first loss calculation process according to the first embodiment. 図19は、実施例1に係る第2の損失算出処理の手順を示すフローチャートである。FIG. 19 is a flowchart illustrating the procedure of the second loss calculation process according to the first embodiment. 図20は、実施例1及び実施例2に係る学習プログラムを実行するコンピュータのハードウェア構成例を示す図である。FIG. 20 is a diagram illustrating a hardware configuration example of a computer that executes a learning program according to the first and second embodiments.

以下に添付図面を参照して本願に係る学習方法、学習プログラム及び学習装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。   A learning method, a learning program, and a learning device according to the present application will be described below with reference to the accompanying drawings. Note that this embodiment does not limit the disclosed technology. Then, the respective embodiments can be appropriately combined within the range in which the processing contents do not contradict each other.

図1は、実施例1に係る学習装置の機能的構成を示すブロック図である。図1に示す学習装置1は、新聞や電光掲示板、Webサイトなどの各種の記事を入力文として受け付け、その要約文を生成するモデルの学習を実行する学習サービスを提供するものである。   FIG. 1 is a block diagram of the functional configuration of the learning device according to the first embodiment. The learning device 1 shown in FIG. 1 provides a learning service that accepts various articles such as newspapers, electronic bulletin boards, websites, and the like as input sentences and learns a model for generating a summary sentence.

一実施形態として、学習装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習サービスを実現する学習プログラムを任意のコンピュータにインストールさせることによって実装できる。このように上記の学習プログラムをコンピュータに実行させることにより、コンピュータを学習装置1として機能させることができる。ここで言うコンピュータは、任意の情報処理装置であってよい。例えば、デスクトップ型またはノート型のパーソナルコンピュータやワークステーションの他、スマートフォンや携帯電話機などの移動体通信端末、タブレット端末、ウェアラブル端末などがその範疇に含まれる。また、学習装置1は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習サービスを提供するサーバ装置として実装することもできる。この場合、学習装置1は、複数の学習サンプルを含む学習データ、または、学習データをネットワークもしくは記憶メディアを介して呼び出すことができる識別情報を入力とするモデル学習のリクエストを受け付ける。その上で、学習装置1は、モデル学習のリクエストで受け付けた学習データに対するモデル学習の実行結果を出力する学習サービスを提供するサーバ装置として実装される。この場合、学習装置1は、上記の学習サービスを提供するサーバとしてオンプレミスに実装することとしてもよいし、アウトソーシングによって上記の学習サービスを提供するクラウドとして実装することとしてもかまわない。   As an embodiment, the learning device 1 can be implemented by installing a learning program that realizes the learning service described above as package software or online software in an arbitrary computer. The computer can be caused to function as the learning device 1 by causing the computer to execute the learning program as described above. The computer here may be an arbitrary information processing device. For example, in addition to desktop or notebook personal computers and workstations, mobile communication terminals such as smartphones and mobile phones, tablet terminals, wearable terminals, etc. are included in the category. The learning device 1 can also be implemented as a server device that provides a client with a terminal device used by a user and provides the client with the learning service. In this case, the learning device 1 receives a request for model learning that receives learning data including a plurality of learning samples, or identification information that can call the learning data via a network or a storage medium. Then, the learning device 1 is implemented as a server device that provides a learning service that outputs the execution result of model learning for the learning data received by the model learning request. In this case, the learning device 1 may be installed on-premises as a server that provides the above learning service, or may be installed as a cloud that provides the above learning service by outsourcing.

[学習済みモデルのユースケースの一例]
上記の学習サービスにより学習された学習済みモデルは、新聞記事や電光掲示板、Webサイトなどの記事の原文を入力文として受け付け、その要約文を生成する記事要約ツールとして実装することができる。
[Example of use case of learned model]
The learned model learned by the above learning service can be implemented as an article summarization tool that accepts an original text of an article such as a newspaper article, an electronic bulletin board, a website, etc. as an input sentence and generates the summary sentence.

ここで、上記の記事要約ツールは、あくまで1つの側面として、新聞や電光掲示板、Webサイトなどの各種のメディアを運営するメディア事業者をユーザとするアプリケーションの一機能として組み込むことができる。   Here, the above-mentioned article summarizing tool can be incorporated as one function of an application in which a media business operator who manages various media such as newspapers, electronic bulletin boards, and websites is a user, as one aspect.

このとき、上記のアプリケーションは、メディア事業者の関係者、例えば編集員等により使用される端末装置で実行されるスタンドアローンのソフトウェアとして実装されることとしてもよい。この他、上記のアプリケーションが提供する機能のうち、原文の入力や要約文の表示等のフロントエンドの機能が記者や編集者等の端末装置で提供されると共に、要約文の生成などのバックエンドの機能がWebサービスとして提供されることとしてもかまわない。   At this time, the above-mentioned application may be implemented as stand-alone software executed by a terminal device used by a person involved in the media business, such as an editor. In addition, among the functions provided by the above applications, front-end functions such as inputting original text and displaying summary text are provided by terminal devices such as reporters and editors, and back-end such as generation of summary text. The above function may be provided as a Web service.

図2は、記事要約ツールのユースケースの一例を示す図である。図2には、メディア事業者の関係者により使用される端末装置に表示される記事要約画面20の遷移の一例が示されている。   FIG. 2 is a diagram showing an example of a use case of the article summarizing tool. FIG. 2 shows an example of transition of the article summary screen 20 displayed on the terminal device used by a person involved in the media business.

図2の上段には、各種の項目に対する入力が設定されていない初期状態の記事要約画面20が示されている。例えば、記事要約画面20には、原文入力エリア21、要約表示エリア22、プルダウンメニュー23、要約ボタン24、クリアボタン25などのGUI(Graphical User Interface)コンポーネントが含まれる。このうち、原文入力エリア21は、記事等の原文を入力するエリアに対応する。また、要約表示エリア22は、原文入力エリア21に入力された原文に対応する要約文を表示するエリアに対応する。また、プルダウンメニュー23は、要約文の上限文字数を指定するGUIコンポーネントの一例に対応する。また、要約ボタン24は、原文入力エリア21に入力された原文に対応する要約文を生成するコマンドの実行を受け付けるGUIコンポーネントの一例に対応する。また、クリアボタン25は、原文入力エリア21に入力された原文のテキストをクリアするGUIコンポーネントの一例に対応する。   In the upper part of FIG. 2, an article summary screen 20 in an initial state in which inputs for various items are not set is shown. For example, the article summary screen 20 includes GUI (Graphical User Interface) components such as an original text input area 21, a summary display area 22, a pull-down menu 23, a summary button 24, and a clear button 25. Of these, the original text input area 21 corresponds to an area for inputting an original text such as an article. Further, the summary display area 22 corresponds to an area for displaying a summary sentence corresponding to the original sentence input to the original sentence input area 21. Further, the pull-down menu 23 corresponds to an example of a GUI component that specifies the maximum number of characters of the summary sentence. The summary button 24 corresponds to an example of a GUI component that receives execution of a command that generates a summary sentence corresponding to the original sentence input in the original sentence input area 21. The clear button 25 corresponds to an example of a GUI component that clears the text of the original text input in the original text input area 21.

図2に示すように、記事要約画面20の原文入力エリア21では、図示しないキーボード等の入力デバイスを介してテキストの入力を受け付けることができる。このように入力デバイスを介してテキストの入力を受け付ける他、原文入力エリア21では、ワープロソフトなどのアプリケーションにより作成された文書のファイルからテキストをインポートすることができる。   As shown in FIG. 2, in the original text input area 21 of the article summary screen 20, text input can be accepted via an input device such as a keyboard (not shown). In addition to receiving text input via the input device in this way, in the original text input area 21, text can be imported from a file of a document created by an application such as word processing software.

このように原文入力エリア21に原文のテキストが入力されることにより、記事要約画面20は、図2の上段に示された状態から図2の中段に示された状態へ遷移する(ステップS1)。例えば、原文入力エリア21に原文のテキストが入力された場合、要約ボタン24に対する操作を介して要約文を生成するコマンドの実行を受け付けることができる。また、クリアボタン25に対する操作を介して原文入力エリア21に入力されたテキストをクリアすることもできる。この他、プルダウンメニュー23を介して、複数の上限文字数の中からメディア事業者の関係者が希望する上限文字数の指定を受け付けることもできる。ここでは、新聞やニュースの記事の原文から電光掲示板の速報を要約文として生成する場面の一例として、電光掲示板に表示可能な上限文字数の一例に対応する80文字が指定された例が示されている。これはあくまで一例であり、新聞やWebサイトの記事から見出しを生成する場合、見出しに対応する上限文字数を選択することができる。   By inputting the original text in the original text input area 21 in this way, the article summary screen 20 transitions from the state shown in the upper part of FIG. 2 to the state shown in the middle part of FIG. 2 (step S1). .. For example, when the text of the original text is input to the original text input area 21, it is possible to accept the execution of the command for generating the abstract text through the operation on the abstract button 24. In addition, the text entered in the original text input area 21 can be cleared by operating the clear button 25. In addition, via the pull-down menu 23, it is also possible to accept the specification of the upper limit number of characters desired by a person involved in the media business from a plurality of upper limit number of characters. Here, as an example of a scene in which the bulletin board of the electronic bulletin board is generated as a summary sentence from the original text of a newspaper or a news article, an example in which 80 characters corresponding to an example of the maximum number of characters that can be displayed on the electronic bulletin board is designated is shown. There is. This is just an example, and when a headline is generated from an article on a newspaper or a website, the maximum number of characters corresponding to the headline can be selected.

そして、原文入力エリア21に原文のテキストが入力された状態で要約ボタン24に対する操作が行われた場合、記事要約画面20は、図2の中段に示された状態から図2の下段に示された状態へ遷移する(ステップS2)。この場合、原文入力エリア21に入力された原文のテキストが入力文として学習済みモデルに入力されることによりその要約文が生成される。この要約文の生成は、メディア事業者の関係者の端末装置上で実行されることとしてもよいし、あるいはバックエンドのサーバ装置で実行されることとしてもかまわない。この結果、図2の下段に示すように、記事要約画面20の要約表示エリア22には、学習済みモデルにより生成された要約文が表示される。   Then, when the summary button 24 is operated while the original text is input in the original text input area 21, the article summary screen 20 is changed from the state shown in the middle of FIG. 2 to the lower of FIG. To the closed state (step S2). In this case, the text of the original text input to the original text input area 21 is input as an input text to the learned model to generate the summary text. The generation of this summary may be executed on the terminal device of a person involved in the media business, or may be executed on the back-end server device. As a result, as shown in the lower part of FIG. 2, the summary display area 22 of the article summary screen 20 displays the summary sentence generated by the learned model.

このように記事要約画面20の要約表示エリア22に表示された要約文のテキストには、図示しない入力デバイス等を介して編集を行うことができる。   As described above, the text of the summary sentence displayed in the summary display area 22 of the article summary screen 20 can be edited through an input device (not shown) or the like.

以上のような記事要約ツールが提供されることで、記者や編集者等により行われる記事要約の作業を軽減することが可能になる。すなわち、記事要約の作業は、メディアにニュースを配信するプロセス、例えば「配信記事の選定」や「メディア編集システムへの送信」、「記事要約」、「見出し作成」、「校閲」などの中でも最も労力が大きいという側面がある。例えば、記事要約が人手により行われる場合、記事の全体から重要な情報を選別し、文章を再構成するといった作業が必要となる。このことから、記事要約の作業が自動化または半自動化される技術的意義は高い。   By providing the article summarization tool as described above, it becomes possible to reduce the work of article summarization performed by a reporter, an editor, or the like. In other words, the work of summarizing articles is the most important in the process of distributing news to the media, such as "selection of distribution articles", "send to media editing system", "summary of articles", "creation of headlines", and "review". There is an aspect that it is labor intensive. For example, when the article summarization is performed manually, it is necessary to select important information from the entire article and reconstruct the sentence. From this, the technical significance that the work of article summarization is automated or semi-automated is high.

なお、ここでは、あくまで一例として、メディア事業者の関係者により記事要約ツールが利用されるユースケースを例に挙げたが、メディア事業者から記事の配信を受ける視聴者により記事要約ツールが利用されることとしてもかまわない。例えば、スマートスピーカ等で記事の全文を読み上げる代わりに要約文を読み上げる機能として記事要約ツールを利用することができる。   In addition, here, as an example, the use case in which the article summarization tool is used by a person involved in the media business is taken as an example, but the article summarization tool is used by the viewer who receives the article distribution from the media business. It doesn't matter. For example, an article summarization tool can be used as a function of reading out the summary text instead of reading out the entire text of the article using a smart speaker or the like.

[RNNのモデル学習の課題一側面]
上記の背景技術の欄で説明した通り、学習サンプルの入力文に対応する正解の参照要約の単語ごとにモデルのパラメータの更新に用いる損失を算出する場合、参照要約と語順が異なるが文意は類似する要約文の評価が過小評価されることがある。
[One aspect of RNN model learning]
As described in the background section above, when calculating the loss used to update the parameters of the model for each word of the correct reference summary corresponding to the input sentence of the learning sample, the word order is different from the reference summary, but the meaning is The evaluation of similar abstracts may be underestimated.

このようなモデル学習の失敗事例を図3及び図4A〜図4Cを用いて説明する。図3は、入力文の一例を示す図である。図4Aは、参照要約の一例を示す図である。図4B及び図4Cは、システム要約の一例を示す図である。以下では、学習サンプルに含まれる正解の要約文のことを「参照要約」と記載し、モデルが入力文から生成する要約文のことを「システム要約」と記載する場合がある。   Such a model learning failure case will be described with reference to FIGS. 3 and 4A to 4C. FIG. 3 is a diagram showing an example of an input sentence. FIG. 4A is a diagram illustrating an example of the reference summary. 4B and 4C are diagrams showing an example of the system summary. In the following, a correct summary sentence included in the learning sample may be referred to as a “reference summary”, and a summary sentence generated from the input sentence by the model may be referred to as a “system summary”.

ここでは、一例として、モデル学習の際に、図3に示す入力文30及び図4Aに示す参照要約40のペアが学習サンプルとして入力される事例を例に挙げる。このとき、RNN(Recurrent Neural Networks)エンコーダ及びRNNデコーダが接続されたモデルによって入力文30から図4Bに示すシステム要約40Bや図4Cに示すシステム要約40Cが生成される場合、次のような評価が行われる。   Here, as an example, a case where the pair of the input sentence 30 shown in FIG. 3 and the reference summary 40 shown in FIG. 4A is input as a learning sample during model learning will be described as an example. At this time, when the system summary 40B shown in FIG. 4B or the system summary 40C shown in FIG. 4C is generated from the input sentence 30 by the model in which the RNN (Recurrent Neural Networks) encoder and the RNN decoder are connected, the following evaluation is performed. Done.

すなわち、図4Aに示す参照要約40及び図4Bに示すシステム要約40Bの間では、先頭から末尾までの各位置で単語が一致する。図4A及び図4Bには、一例として、参照要約40及びシステム要約40Bの先頭から5番目に位置する単語が太字により示されている。例えば、システム要約40Bの先頭から5番目に位置する単語が予測される際には、図4Bに示すように、RNNデコーダが出力する入力文30の単語の確率分布のうち単語「AI」の確率が最高となる。また、先頭から5番目に位置する参照要約40の単語も、図4Aに示すように、「AI」である。このように参照要約40に含まれる単語ごとに当該単語の位置に対応する位置のシステム要約40Bの単語が一致する場合、損失は「0」となる。   That is, in the reference summary 40 shown in FIG. 4A and the system summary 40B shown in FIG. 4B, words match at each position from the beginning to the end. In FIGS. 4A and 4B, as an example, the word located at the fifth position from the beginning of the reference summary 40 and the system summary 40B is shown in bold type. For example, when the fifth word from the beginning of the system summary 40B is predicted, as shown in FIG. 4B, the probability of the word “AI” in the probability distribution of the words of the input sentence 30 output by the RNN decoder is calculated. Will be the best. The word in the reference summary 40 located at the fifth position from the beginning is also “AI”, as shown in FIG. 4A. In this way, if each word included in the reference summary 40 matches the word in the system summary 40B at the position corresponding to the position of the word, the loss is “0”.

一方、図4Aに示す参照要約40及び図4Cに示すシステム要約40Cは、文意は同一であるが、参照要約40及びシステム要約40Cの間で先頭から8番目までの単語の語順が異なる。図4A及び図4Cには、一例として、参照要約40及びシステム要約40Cの先頭から5番目の単語が太字により示されている。例えば、システム要約40Cの先頭から5番目に位置する単語が予測される際には、図4Cに示すように、RNNデコーダが出力する入力文30の単語の確率分布のうち単語「コールセンター」の確率が最高となる。その一方で、先頭から5番目に位置する参照要約40の単語は、図4Aに示すように、「AI」である。このように参照要約40及びシステム要約40Cの間で語順が入れ替わることにより単語の配置が異なる場合、システム要約40Cが参照要約40と同一の文意を有する場合であっても、損失が生じる。   On the other hand, the reference summary 40 shown in FIG. 4A and the system summary 40C shown in FIG. 4C have the same meaning, but the word order of the 8th word from the beginning differs between the reference summary 40 and the system summary 40C. In FIGS. 4A and 4C, as an example, the fifth word from the beginning of the reference summary 40 and the system summary 40C is shown in bold type. For example, when the word located at the fifth position from the beginning of the system summary 40C is predicted, as shown in FIG. 4C, the probability of the word "call center" in the probability distribution of the words of the input sentence 30 output by the RNN decoder. Will be the best. On the other hand, the word of the reference summary 40 located fifth from the beginning is “AI” as shown in FIG. 4A. In this way, when the word order is changed between the reference summary 40 and the system summary 40C so that the word arrangement is different, a loss occurs even if the system summary 40C has the same meaning as the reference summary 40.

これらのことから、システム要約40B及びシステム要約40Cの間で異なる評価がなされることになる。しかしながら、システム要約40B及びシステム要約40Cの文意は同一である。それ故、要約という側面から言えば、同一の評価がなされなければ適切とは言えず、システム要約40Cはシステム要約40Bに比べて過小評価されている。   These results in different evaluations being made between system summary 40B and system summary 40C. However, the texts of the system summary 40B and the system summary 40C are the same. Therefore, from the aspect of summary, it cannot be said that it is appropriate unless the same evaluation is made, and the system summary 40C is underestimated compared to the system summary 40B.

[現状のMRT]
このように、モデル学習時に参照要約と語順が異なるシステム要約が過小評価されるのを抑制する側面から、MRT(Minimum Risk Training)と呼ばれる技術が提案されている。例えば、MRTでは、正解の参照要約およびシステム要約の間における単語のN−gramの重複度を表すROUGEに基づいてRNNエンコーダ及びRNNデコーダのモデルのパラメータをチューニングする。
[Current MRT]
As described above, a technique called MRT (Minimum Risk Training) has been proposed from the viewpoint of suppressing underestimation of a system summary having a word order different from that of the reference summary during model learning. For example, in MRT, the parameters of the model of the RNN encoder and the RNN decoder are tuned based on ROUGE, which represents the N-gram overlap of words between the correct reference summary and the system summary.

図5は、MRTの処理内容の一例を示す図である。図5に示すように、RNNエンコーダ及びRNNデコーダのモデル学習には、入力文xおよび正解の参照要約yのペアが学習サンプルとして用いられる。これら入力文xおよび正解の参照要約yのうち入力文xがモデルへ入力される。   FIG. 5 is a diagram showing an example of the processing contents of MRT. As shown in FIG. 5, a pair of an input sentence x and a correct reference summary y is used as a learning sample for model learning of the RNN encoder and the RNN decoder. The input sentence x of the input sentence x and the correct reference summary y is input to the model.

このように入力文xが入力された場合、パラメータθを持つモデルのRNNデコーダが先頭からEOS(End of Sentence)までの各時刻に出力する単語の確率分布に従って複数のシステム要約y′〜y′がサンプリングされる。 When the input sentence x is input in this way, the RNN decoder of the model having the parameter θ outputs a plurality of system summaries y ′ 1 to y according to the probability distribution of words output at each time from the beginning to EOS (End of Sentence). ' 3 is sampled.

例えば、先頭からEOSまでの各時刻では、モデルの辞書に登録された単語、すなわち複数の学習サンプルを含む学習データ全体で入力文に出現する単語ごとに確率が計算される。このような計算で得られる各時刻における単語の確率分布に従って各時刻で単語を抽出することで、上記のサンプリングを実現できる。なお、ここでは、説明の便宜上、3つのシステム要約y′〜y′がサンプリングされる例を挙げたが、任意の個数のシステム要約y′がサンプリングされることとしてかまわない。 For example, at each time from the beginning to EOS, the probability is calculated for each word registered in the model dictionary, that is, for each word that appears in the input sentence in the entire learning data including a plurality of learning samples. The above sampling can be realized by extracting a word at each time according to the probability distribution of the word at each time obtained by such calculation. Here, for convenience of description, an example in which three system summaries y ′ 1 to y ′ 3 are sampled has been described, but an arbitrary number of system summaries y ′ may be sampled.

そして、MRTでは、システム要約y′〜y′ごとに、入力文xから当該システム要約y′が生成される生成確率と、参照要約yおよび当該システム要約y′の間の単語のn−gramの重複度を表すROUGE値とが算出される。その上で、MRTでは、システム要約y′〜y′の生成確率およびROUGE値から下記の式(1)に従って損失LMRT(θ)が算出される。 Then, in MRT, for each system summary y ′ 1 to y ′ 3 , the generation probability that the system summary y ′ is generated from the input sentence x and the word n− between the reference summary y and the system summary y ′. A ROUGE value indicating the degree of overlap of the gram is calculated. Then, in MRT, the loss L MRT (θ) is calculated from the generation probabilities of the system summaries y ′ 1 to y ′ 3 and the ROUGE value according to the following equation (1).

Figure 2020071737
Figure 2020071737

ここで、上記の式(1)における「P(y′|x;θ)」は、モデルのパラメータをθとしたとき、入力文xからシステム要約y′が生成される確率を指す。また、上記の式(1)における「D」は、入力文xおよび参照要約yを含む学習サンプルの集合である学習データを指す。さらに、上記の式(1)における「S」は、モデルのパラメータをθとしたとき、入力文xから生成されるシステム要約の集合を指す。また、上記の式(1)における「Δ(y′,y)」は、システム要約y′及び参照要約yの間で算出される単語の重複度を指し、ここでは、一例として、ROUGEなどの関数を用いることにより負の利得がROUGE値として算出されることとする。   Here, “P (y ′ | x; θ)” in the above equation (1) indicates the probability that the system summary y ′ will be generated from the input sentence x, where θ is the parameter of the model. Further, “D” in the above equation (1) indicates learning data that is a set of learning samples including the input sentence x and the reference summary y. Further, “S” in the above equation (1) indicates a set of system summaries generated from the input sentence x, where θ is a parameter of the model. Further, “Δ (y ′, y)” in the above equation (1) indicates the degree of word overlap calculated between the system summary y ′ and the reference summary y, and here, as an example, ROUGE or the like is used. It is assumed that the negative gain is calculated as the ROUGE value by using the function.

その後、MRTは、損失LMRTに基づいてモデルのパラメータθを更新する。例えば、MRTは、LMRT(θ)をθで偏微分することにより勾配、すなわち∂LMRT(θ)/∂θを求め、モデルのパラメータθの更新、すなわちθ←θ+(∂LMRT(θ)/∂θ)の計算を行う。 The MRT then updates the model parameter θ based on the loss L MRT . For example, MRT obtains a gradient, that is, ∂L MRT (θ) / ∂θ i by partially differentiating L MRT (θ) with θ i , and updates the model parameter θ i , that is, θ i ← θ + (∂ Calculate L MRT (θ) / ∂θ i ).

このように損失LMRT(θ)に基づいてモデルのパラメータθを更新することにより、ROUGE値が高いシステム要約の生成確率が上げる一方で、ROUGE値が低いシステム要約の生成確率を下げるモデルの学習が実現される。 By updating the model parameter θ i based on the loss L MRT (θ) in this way, the generation probability of the system summary having a high ROUGE value is increased, while the generation probability of the system summary having a low ROUGE value is decreased. Learning is realized.

このROUGE値を用いるパラメータ更新前後における損失LMRT(θ)の変化を図6を用いて説明する。図6は、生成確率およびROUGE値の一例を示す図である。図6の上段の表には、tラウンド目のモデル学習においてパラメータθを持つモデルが入力文xからシステム要約y′を生成する生成確率と、参照要約およびシステム要約y′の間のROUGE値とが示されている。なお、図6の表に示す薄いハッチングの箇所は、上記の式(1)に含まれるシステム要約y′の生成確率の計算式で算出されることを示す一方で、図6の表に示す濃いハッチングの箇所は、上記の式(1)に含まれるROUGEの関数で算出されることを示す。 The change in the loss L MRT (θ) before and after the parameter update using the ROUGE value will be described with reference to FIG. FIG. 6 is a diagram illustrating an example of the generation probability and the ROUGE value. In the table in the upper part of FIG. 6, the generation probability that the model having the parameter θ t generates the system summary y ′ from the input sentence x in the model learning at the t-th round, and the ROUGE value between the reference summary and the system summary y ′. And are shown. The thin hatched areas shown in the table of FIG. 6 indicate that they are calculated by the formula for calculating the generation probability of the system summary y ′ included in the above equation (1), while the dark hatched areas shown in the table of FIG. The hatched portion indicates that it is calculated by the ROUGE function included in the above equation (1).

例えば、パラメータθを持つモデルが入力文xから生成するシステム要約y′〜y′の生成確率およびROUGE値が図6の上段の表に示す値であるとしたとき、LMRT(θ)は、次のように算出することができる。すなわち、損失LMRT(θ)は、システム要約y′の生成確率及びのROUGE値と、システム要約y′の生成確率及びのROUGE値と、システム要約y′の生成確率及びのROUGE値との総和から求めることができる。つまり、損失LMRT(θ)は、0.2×(−0.3)+0.6×(−0.1)+0.2×(−0.6)の計算により、−0.24と算出される。 For example, if the generation probability and the ROUGE value of the system summaries y ′ 1 to y ′ 3 generated from the input sentence x by the model having the parameter θ t are the values shown in the upper table of FIG. 6, L MRTt 1 ) can be calculated as follows. That is, the loss L MRTt ) is the ROUGE value of the generation probability of the system summary y ′ 1 , and the ROUGE value of the generation probability of the system summary y ′ 2 and the ROUGE value of the system summary y ′ 3. It can be calculated from the sum of the values. That is, the loss L MRTt ) is −0.24 by the calculation of 0.2 × (−0.3) + 0.6 × (−0.1) + 0.2 × (−0.6). Is calculated.

このような損失LMRT(θ)に基づいてパラメータがθからθt+1へ更新されたモデルが入力文xから生成するシステム要約y′〜y′の生成確率およびROUGE値が図6の下段の表の通りであるとする。 The generation probabilities and ROUGE values of the system summaries y ′ 1 to y ′ 3 generated from the input sentence x by the model in which the parameter is updated from θ t to θ t + 1 based on the loss L MRTt ) are shown in FIG. It is assumed that the table in the lower row is.

その一方で、図6に示す下段の表には、t+1ラウンド目のモデル学習においてパラメータθt+1を持つモデルが入力文xからシステム要約y′を生成する生成確率と、参照要約およびシステム要約y′の間のROUGE値とが示されている。この場合にも、損失LMRT(θt+1)は、システム要約y′の生成確率及びのROUGE値と、システム要約y′の生成確率及びのROUGE値と、システム要約y′の生成確率及びのROUGE値との総和から求めることができる。つまり、損失LMRT(θt+1)は、0.3×(−0.3)+0.1×(−0.1)+0.6×(−0.6)の計算により、−0.46と算出される。 On the other hand, in the lower table shown in FIG. 6, in the model learning of the t + 1th round, the model having the parameter θ t + 1 generates the system summary y ′ from the input sentence x, the reference summary and the system summary y ′. And the ROUGE values between. Also in this case, the loss L MRTt + 1 ) is equal to the generation probability and the ROUGE value of the system summary y ′ 1 , the generation probability and the ROUGE value of the system summary y ′ 2 , and the generation probability of the system summary y ′ 3 . It can be calculated from the sum of and and the ROUGE value. That is, the loss L MRTt + 1 ) is −0.46 by the calculation of 0.3 × (−0.3) + 0.1 × (−0.1) + 0.6 × (−0.6). Is calculated.

このようにモデルのパラメータがθからθt+1へ更新されることにより、tラウンド目の損失LMRT(θ)よりもt+1ラウンド目の損失LMRT(θt+1)を減少させるモデル学習が実現されていることがわかる。 By updating the parameter of the model from θ t to θ t + 1 in this way, model learning that reduces the loss L MRTt + 1 ) of the t + 1 th round from the loss L MRTt ) of the t th round is realized. You can see that it is done.

[現状のMRTの課題の一側面]
しかしながら、上記の背景技術の欄で説明した通り、MRTのように、語順の違いを不問とし、単語の重複度によりモデルのパラメータを更新する場合、正解の参照要約と語順が異なる全てのシステム要約のROUGE値が高評価を受ける。それ故、正解の参照要約との間で語順が異なるシステム要約の中に非文法的な表現が含まれる場合でも、システム要約の損失を過小評価してモデルのパラメータが学習される。この結果、可読性が低いシステム要約を生成するモデルが学習されてしまうことがある。
[One aspect of current MRT issues]
However, as described in the section of the background art above, when the parameter of the model is updated according to the degree of overlap of words without regard to the difference in the word order as in MRT, all system summaries whose word order is different from the correct reference summary The ROUGE value of is highly evaluated. Therefore, even if a non-grammatical expression is included in the system summary whose word order differs from that of the correct reference summary, the parameters of the model are learned by underestimating the loss of the system summary. As a result, a model that produces a less readable system summary may be trained.

このようなモデル学習の失敗事例を図7A〜図7Dを用いて説明する。図7Aは、参照要約の一例を示す図である。図7B〜図7Dは、システム要約の一例を示す図である。ここでは、一例として、モデルの学習の際に、図3に示す入力文30及び図7Aに示す参照要約70のペアが学習サンプルとして入力される事例を例に挙げる。このとき、RNNエンコーダ及びRNNデコーダが接続されたモデルによって入力文30から図7B〜図7Dに示すROUGE値が同一であるシステム要約70B〜70Dが生成される場合、次のような評価が行われる。   Such a model learning failure case will be described with reference to FIGS. 7A to 7D. FIG. 7A is a diagram showing an example of a reference summary. 7B to 7D are diagrams showing an example of the system summary. Here, as an example, a case where a pair of the input sentence 30 shown in FIG. 3 and the reference summary 70 shown in FIG. 7A is input as a learning sample when learning the model will be described. At this time, when the system summaries 70B to 70D having the same ROUGE values shown in FIGS. 7B to 7D are generated from the input sentence 30 according to the model in which the RNN encoder and the RNN decoder are connected, the following evaluation is performed. ..

すなわち、図7Aに示す参照要約70及び図7Bに示すシステム要約70Bの間では、語順が一致し、かつ単語の集合も一致する。このように参照要約70及びシステム要約70Bの間で単語の集合が一致するので、損失は「0」となる。また、図7Aに示す参照要約70及び図7Cに示すシステム要約70Cの間では、語順は異なるが、単語の集合が一致する。このように参照要約70及びシステム要約70Cの間で単語の集合が一致するので、損失は「0」となる。また、図7Aに示す参照要約70及び図7Dに示すシステム要約70Dの間でも、語順は異なるが、単語の集合が一致する。このように参照要約70及びシステム要約70Dの間で単語の集合が一致するので、損失は「0」となる。このように、ROUGE値が同一であるシステム要約70B〜システム要約70Dの間では、同一の評価がなされることになる。   In other words, the reference summary 70 shown in FIG. 7A and the system summary 70B shown in FIG. 7B have the same word order and the same set of words. In this way, since the set of words match between the reference summary 70 and the system summary 70B, the loss is “0”. Further, the reference summary 70 shown in FIG. 7A and the system summary 70C shown in FIG. 7C have different word orders, but the sets of words match. In this way, since the set of words match between the reference summary 70 and the system summary 70C, the loss becomes “0”. Further, the reference summaries 70 shown in FIG. 7A and the system summaries 70D shown in FIG. 7D also have the same word set, although the word order is different. In this way, since the set of words match between the reference summary 70 and the system summary 70D, the loss is “0”. In this way, the same evaluation is made among the system summaries 70B to 70D having the same ROUGE value.

しかしながら、システム要約70Dには、システム要約70Bやシステム要約70Cでは見られない非文法的な表現が含まれる。例えば、システム要約70Bやシステム要約70Cに示された「・・・チャットで・・・」のように、「チャット」には格助詞の「で」が用いられるのが正しい用法である。それにもかかわらず、システム要約70Dに示された「・・・チャットが・・・」では、「チャット」に格助詞の「が」が用いられており、文法的に誤りがある。さらに、文法的な誤りが一因となって、システム要約70Dでは、「チャットが」の修飾部が「自動応答する」の被修飾部を修飾する誤った係り受けとなっている。   However, system summary 70D includes non-grammatical expressions not found in system summary 70B or system summary 70C. For example, the correct usage is to use the case particle "de" for "chat" such as "... in chat ..." shown in the system summary 70B and the system summary 70C. Nevertheless, in "... chat ga ..." shown in the system summary 70D, the case particle "ga" is used for "chat", which is grammatically incorrect. Furthermore, due to a grammatical error, in the system summary 70D, the modified part of "chat is" is an incorrect dependency that modifies the modified part of "automatically responds".

このように、現状のMRTでは、ROUGE値が同一のレベルであれば、非文法的な表現が含まれないシステム要約70Bやシステム要約70Cと、非文法的な表現や誤った係り受けが含まれるシステム要約70Dとの間で同一の評価がなされることになる。すなわち、モデル学習時にシステム要約の中に非文法的な表現を含むシステム要約70Dが含まれる場合、システム要約70DのROUGE値の負の利得がシステム要約70Bやシステム要約70CのROUGE値の負の利得と同程度に作用する。このように、非文法的な表現を含むシステム要約70DのROUGE値の負の利得が過剰に作用する損失に基づいてモデルが更新される結果、可読性が低い要約文を生成するモデルが学習されてしまう場合がある。   As described above, in the current MRT, if the ROUGE value is at the same level, the system summary 70B or the system summary 70C that does not include the non-grammatical expression and the non-grammatical expression or the incorrect dependency are included. The same evaluation will be made with the system summary 70D. That is, when the system summary 70D including a non-grammatical expression is included in the system summary during model learning, the negative gain of the ROUGE value of the system summary 70D and the system summary 70D of the system summary 70D is negative. Works the same as. In this way, the model is updated based on the loss caused by the excessive effect of the negative gain of the ROUGE value of the system summary 70D including the non-grammatical expression, and as a result, the model that produces the unreadable summary sentence is learned. It may end up.

[課題解決のアプローチの一側面]
そこで、本実施例に係る学習装置1は、正解の参照要約に含まれる単語の語順を入れ替えて非文法的な表現が擬似的に再現された擬似文を生成し、モデルが擬似文を生成する確率よりもモデルが参照要約を生成する確率が高くなるようにモデルのパラメータを更新する。
[One aspect of approach to problem solving]
Therefore, the learning device 1 according to the present embodiment changes the word order of the words included in the correct reference summary to generate a pseudo sentence in which a non-grammatical expression is pseudo reproduced, and the model generates a pseudo sentence. Update the model parameters such that the model has a higher probability of producing a reference summary than the probability.

図8は、モデルのパラメータの更新方法の一例を示す図である。図8に示すように、RNNエンコーダ及びRNNデコーダのモデル学習には、図5に示されたMRTと同様、入力文xおよび正解の参照要約yのペアが学習サンプルとして用いられる。   FIG. 8 is a diagram showing an example of a method for updating model parameters. As shown in FIG. 8, in the model learning of the RNN encoder and the RNN decoder, as in the MRT shown in FIG. 5, a pair of the input sentence x and the correct reference summary y is used as a learning sample.

これら入力文xおよび正解の参照要約yのうち入力文xがモデルへ入力される。このように入力文xが入力された場合、学習装置1は、パラメータθを持つモデルのRNNデコーダが先頭からEOSまでの各時刻に出力する単語の確率分布に従って複数のシステム要約y′〜y′をサンプリングする。 The input sentence x of the input sentence x and the correct reference summary y is input to the model. When the input sentence x is input in this way, the learning device 1 determines a plurality of system summaries y ′ 1 to y according to the probability distribution of words output by the RNN decoder of the model having the parameter θ at each time from the beginning to EOS. ' 3 is sampled.

そして、学習装置1は、システム要約y′〜y′ごとに、入力文xから当該システム要約y′が生成される生成確率と、参照要約yおよび当該システム要約y′の間の単語のn−gramの重複度を表すROUGE値とを算出する。その上で、学習装置1は、システム要約y′〜y′の生成確率およびROUGE値から上記の式(1)に従って損失LMRT(θ)を算出する。 Then, the learning device 1 generates, for each system summary y ′ 1 to y ′ 3 , the generation probability that the system summary y ′ is generated from the input sentence x and the words between the reference summary y and the system summary y ′. A ROUGE value representing the degree of overlap of n-gram is calculated. Then, the learning device 1 calculates the loss L MRT (θ) from the generation probabilities of the system summaries y ′ 1 to y ′ 3 and the ROUGE value according to the above equation (1).

このように、本実施例においても、システム要約y′の生成確率およびROUGE値から損失LMRT(θ)が算出されるまでの過程は上記のMRTと共通するが、損失LMRT(θ)そのものを損失として用いる訳ではない。 As described above, also in this embodiment, the process until the loss L MRT (θ) is calculated from the generation probability of the system summary y ′ and the ROUGE value is common to the above MRT, but the loss L MRT (θ) itself. Is not used as a loss.

すなわち、本実施例では、上記のMRTから改良された損失を定義する点が異なる。例えば、本実施例では、システム要約y′の生成確率およびROUGE値に基づく損失LMRT(θ)の項と共に非文法的な表現を含む擬似文zにペナルティを与える損失Lorder(θ)の項が加えられた損失L(θ)を下記の式(2)の通りに定義する。なお、下記の式(2)における「α」は、重み付けの係数であり、例えば、0〜1の任意の値を採用できる。 That is, the present embodiment is different in that the improved loss is defined from the above MRT. For example, in the present embodiment, the term of loss L order (θ) that penalizes the pseudo sentence z including the non-grammatical expression together with the term of loss L MRT (θ) based on the generation probability of the system summary y ′ and the ROUGE value. The loss L (θ) added with is defined by the following equation (2). Note that “α” in the following formula (2) is a weighting coefficient, and for example, an arbitrary value of 0 to 1 can be adopted.

Figure 2020071737
Figure 2020071737

ここで、上記の損失Lorder(θ)は、下記の式(3)により算出される。下記の式(3)における「D」は、入力文xおよび参照要約yを含む学習サンプルの集合である学習データを指す。また、下記の式(3)における「S′(y)」は、正解の参照要約yから生成される擬似文zの集合を指す。また、下記の式(3)における「p(z|x;θ)」は、モデルのパラメータをθとしたとき、入力文xから擬似文zが生成される確率を指す。また、下記の式(3)における「p(y|x;θ)」は、入力文xから正解の参照要約yが生成される確率を指す。 Here, the loss L order (θ) is calculated by the following equation (3). “D” in the following Expression (3) indicates learning data which is a set of learning samples including the input sentence x and the reference summary y. Further, “S ′ (y)” in the following expression (3) indicates a set of pseudo sentences z generated from the correct reference summary y. Further, “p (z | x; θ)” in the following expression (3) indicates the probability that the pseudo sentence z is generated from the input sentence x when the parameter of the model is θ. Further, “p (y | x; θ)” in the following Expression (3) indicates the probability that the correct reference summary y is generated from the input sentence x.

Figure 2020071737
Figure 2020071737

例えば、学習装置1は、正解の参照要約yから当該参照要約yに含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文z〜zの集合S′(y)を生成する。このとき、正解の参照要約yに含まれる単語の語数を変えずに、単語の語順を入れ替えて擬似文zのサンプリングを行うことで、参照要約yとの間で計算されるROUGE値が「1」となる擬似文zを生成することができる。なお、ここでは、説明の便宜上、3つの擬似文z〜zがサンプリングされる例を挙げたが、任意の個数の擬似文zがサンプリングされることとしてかまわない。 For example, the learning device 1 replaces the correct reference summary y with the word order of the words included in the reference summary y so that a set S ′ of pseudo sentences z 1 to z 3 in which a non-grammatical expression is pseudo reproduced. (Y) is generated. At this time, by changing the word order of the words and sampling the pseudo-sentence z without changing the number of words included in the correct reference summary y, the ROUGE value calculated with the reference summary y is “1”. It is possible to generate a pseudo sentence z. Here, for convenience of description, an example in which three pseudo sentences z 1 to z 3 are sampled has been described, but an arbitrary number of pseudo sentences z may be sampled.

さらに、学習装置1は、参照要約yが入力文xから生成される生成確率p(y|x;θ)を算出すると共に、擬似文zごとに当該擬似文zが入力文xから生成される生成確率p(z|x;θ)を算出する。例えば、図8の例で言えば、参照要約yの生成確率p(y|x;θ)は、「0.2」と算出される。また、擬似文zの生成確率p(z|x;θ)は、「0.3」と算出される。さらに、擬似文zの生成確率p(z|x;θ)は、「0.4」と算出される。また、擬似文zの生成確率p(z|x;θ)は、「0.1」と算出される。 Further, the learning device 1 calculates the generation probability p (y | x; θ) that the reference summary y is generated from the input sentence x, and the pseudo sentence z is generated from the input sentence x for each pseudo sentence z. The generation probability p (z | x; θ) is calculated. For example, in the example of FIG. 8, the generation probability p (y | x; θ) of the reference summary y is calculated as “0.2”. The generation probability p (z 1 | x; θ) of the pseudo sentence z 1 is calculated as “0.3”. Furthermore, the generation probability p (z 2 | x; θ) of the pseudo sentence z 2 is calculated as “0.4”. Further, the generation probability p (z 3 | x; θ) of the pseudo sentence z 3 is calculated as “0.1”.

このような生成確率の算出結果の下、損失Lorder(θ)の計算例について説明する。例えば、Σに定義された集合S′(y)のうち擬似文zの場合、擬似文zの生成確率(p(z|x;θ)=0.3)と参照要約yの生成確率(p(y|x;θ)=0.2)とが比較される。この場合、擬似文zの生成確率が参照要約yの生成確率よりも大きい。このため、上記の式(3)において、擬似文zの生成確率および参照要約yの生成確率の差、すなわちp(z|x;θ)−p(y|x;θ)=0.1は正となる。この結果、max関数によってp(z|x;θ)−p(y|x;θ)=0.1が選択される。 A calculation example of the loss L order (θ) will be described based on the calculation result of the generation probability. For example, in the case of the pseudo sentences z 1 of the defined set S to sigma '(y), the pseudo-sentence generation probability z 1 (p (z 1 | x; θ) = 0.3) generating the reference summary y The probability (p (y | x; θ) = 0.2) is compared. In this case, the generation probability of the pseudo-sentence z 1 is larger than the generation probability of the reference summary y. Therefore, in the above formula (3), the difference between the generation probability of the pseudo sentence z 1 and the generation probability of the reference summary y, that is, p (z 1 | x; θ) −p (y | x; θ) = 0. 1 is positive. As a result, p (z 1 | x; θ) -p (y | x; θ) = 0.1 is selected by the max function.

また、擬似文zの場合、擬似文zの生成確率(p(z|x;θ)=0.4)と参照要約yの生成確率(p(y|x;θ)=0.2)とが比較される。この場合、擬似文zの生成確率が参照要約yの生成確率よりも大きい。このため、上記の式(3)において、擬似文zの生成確率および参照要約yの生成確率の差、すなわちp(z|x;θ)−p(y|x;θ)=0.2は正となる。この場合にも、max関数によってp(z|x;θ)−p(y|x;θ)=0.2が選択される。 Also, in the case of the pseudo sentences z 2, generation probability of the pseudo sentences z 2 (p (z 2 | x; θ) = 0.4) and the reference Summary y probability generation of (p (y | x; θ ) = 0. 2) is compared with. In this case, the generation probability of the pseudo sentence z 2 is larger than the generation probability of the reference summary y. Therefore, in the above formula (3), the difference between the generation probability of the pseudo sentence z 2 and the generation probability of the reference summary y, that is, p (z 2 | x; θ) −p (y | x; θ) = 0. 2 is positive. Also in this case, p (z 2 | x; θ) -p (y | x; θ) = 0.2 is selected by the max function.

また、擬似文zの場合、擬似文zの生成確率(p(z|x;θ)=0.1)と参照要約yの生成確率(p(y|x;θ)=0.2)とが比較される。この場合、擬似文zの生成確率が参照要約yの生成確率よりも小さい。このため、上記の式(3)において、擬似文zの生成確率および参照要約yの生成確率の差、すなわちp(z|x;θ)−p(y|x;θ)=−0.1は負となる。この結果、max関数によって0が選択される。 Also, in the case of the pseudo sentences z 3, generation probability of the pseudo sentences z 3 (p (z 3 | x; θ) = 0.1) and the reference Summary y probability generation of (p (y | x; θ ) = 0. 2) is compared with. In this case, the generation probability of the pseudo-sentence z 3 is smaller than the generation probability of the reference summary y. Therefore, in the above formula (3), the difference between the generation probability of the pseudo sentence z 3 and the generation probability of the reference summary y, that is, p (z 3 | x; θ) -p (y | x; θ) = − 0. 1 is negative. As a result, 0 is selected by the max function.

これら擬似文z〜zの要素ごとに算出された損失が合計されることにより、損失Lorder(θ)は、0.3(=0.1+0.2+0)と算出することができる。 The loss L order (θ) can be calculated as 0.3 (= 0.1 + 0.2 + 0) by summing up the losses calculated for each element of these pseudo sentences z 1 to z 3 .

このように、本実施例では、損失LMRT(θ)に加えて損失Lorder(θ)に基づいて損失L(θ)を算出することで、次のようなモデル学習を実現できる。例えば、損失LMRT(θ)の項によってROUGE値を向上させつつ、損失Lorder(θ)の項によって擬似文zの生成確率よりも参照要約yの生成確率が上回るようにモデルのパラメータを更新することができる。 As described above, in the present embodiment, the following model learning can be realized by calculating the loss L (θ) based on the loss L order (θ) in addition to the loss L MRT (θ). For example, while increasing the ROUGE value by the term of loss L MRT (θ), the model parameters are updated by the term of loss L order (θ) such that the generation probability of the reference summary y exceeds the generation probability of the pseudo-sentence z. can do.

このため、参照要約と単語の重複度は高く、かつ参照要約と語順が異なるシステム要約の生成確率を上げる作用を与えつつ、参照要約と単語の重複度が高い要約文の中でも非文法的な表現を含む擬似文の生成にペナルティを課す反作用を与えることができる。それ故、参照要約と単語の重複度が高い要約文の中でも非文法的な表現が含まれないシステム要約の生成確率を上げるパラメータの更新を実現できる。   For this reason, the non-grammatical expression is provided even in a summary sentence having a high degree of overlap between the reference summary and the word, while having the effect of increasing the probability of generating a system summary having a high degree of overlap between the reference summary and the word and a word order different from that of the reference summary. A reaction that imposes a penalty on the generation of pseudo sentences including Therefore, it is possible to update the parameters that increase the generation probability of a system summary that does not include a non-grammatical expression even in a summary sentence with a high degree of word duplication.

したがって、本実施例に係る学習装置1によれば、可読性が低い要約文を生成するモデルが学習されるのを抑制することができる。   Therefore, according to the learning device 1 according to the present embodiment, it is possible to suppress the learning of the model that generates the abstract sentence having low readability.

[学習装置1の機能的構成]
次に、本実施例に係る学習装置1の機能的構成の一例について説明する。図1に示すように、学習装置1は、学習データ記憶部2と、第1のモデル記憶部3と、第1の学習部5と、第2のモデル記憶部8と、第2の学習部10とを有する。なお、学習装置1は、図1に示した機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイスなどの機能部を有することとしてもかまわない。
[Functional configuration of learning device 1]
Next, an example of a functional configuration of the learning device 1 according to the present embodiment will be described. As shown in FIG. 1, the learning device 1 includes a learning data storage unit 2, a first model storage unit 3, a first learning unit 5, a second model storage unit 8, and a second learning unit. 10 and. The learning device 1 may have various functional units of a known computer other than the functional units shown in FIG. 1, such as functional units such as various input devices and audio output devices.

図1に示す第1の学習部5および第2の学習部10などの機能部は、あくまで例示として、下記のハードウェアプロセッサにより仮想的に実現される。このようなプロセッサの例として、DLU(Deep Learning Unit)やGPGPU(General-Purpose computing on Graphics Processing Units)の他、GPUクラスタなどが挙げられる。この他、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などであってもかまわない。例えば、プロセッサがRAM(Random Access Memory)等のメモリ上に上記学習プログラムをプロセスとして展開することにより、上記の機能部が仮想的に実現される。ここでは、プロセッサの一例として、DLUやGPGPU、GPUクラスタ、CPU、MPUを例示したが、汎用型および特化型を問わず、任意のプロセッサにより上記の機能部が実現されることとしてもかまわない。この他、上記の機能部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによって実現されることを妨げない。   The functional units such as the first learning unit 5 and the second learning unit 10 shown in FIG. 1 are virtually realized by the following hardware processors as an example. Examples of such processors include DLUs (Deep Learning Units) and GPGPUs (General-Purpose computing on Graphics Processing Units), as well as GPU clusters. In addition, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like may be used. For example, the processor develops the learning program as a process on a memory such as a RAM (Random Access Memory), so that the functional unit is virtually realized. Here, the DLU, GPGPU, GPU cluster, CPU, and MPU are illustrated as an example of the processor, but the functional unit may be realized by any processor regardless of general-purpose type or specialized type. .. In addition to the above, the above-mentioned functional unit is not prevented from being realized by hard-wired logic such as ASIC (Application Specific Integrated Circuit) and FPGA (Field Programmable Gate Array).

また、図1に示す学習データ記憶部2、第1のモデル記憶部3及び第2のモデル記憶部8などの機能部には、HDD(Hard Disk Drive)、光ディスクやSSD(Solid State Drive)などの記憶装置を採用できる。なお、記憶装置は、必ずしも補助記憶装置でなくともよく、各種の半導体メモリ素子、例えばRAM、EPPROMやフラッシュメモリなども採用できる。   Further, the functional units such as the learning data storage unit 2, the first model storage unit 3, and the second model storage unit 8 shown in FIG. 1 include a HDD (Hard Disk Drive), an optical disk, an SSD (Solid State Drive), and the like. The storage device of can be adopted. The storage device does not necessarily have to be the auxiliary storage device, and various semiconductor memory elements such as RAM, EPPROM, and flash memory can be adopted.

ここで、図1には、第2の学習部10におけるモデルの学習速度を向上させる側面から、第1の学習部5にモデルのパラメータを学習する前処理を実行させてから前処理後のパラメータを用いて第2の学習部10に上記のモデル学習を実行させる場合を例示する。これはあくまで一例であり、必ずしも第1の学習部5による前処理が行われずともかまわない。例えば、第1の学習部5による前処理をスキップし、第2の学習部10に初期のパラメータを用いて上記のモデル学習を実行させることとしてもかまわない。以下では、第1の学習部5により実行される前処理となるモデル学習のことを「第1のモデル学習」と記載し、第2の学習部10により実行される上記のモデル学習のことを「第2のモデル学習」と記載する場合がある。   Here, in FIG. 1, from the aspect of improving the learning speed of the model in the second learning unit 10, after the pre-processing for learning the parameters of the model is executed by the first learning unit 5, the parameters after the pre-processing are performed. The case where the second learning unit 10 is caused to execute the above model learning by using This is merely an example, and the preprocessing by the first learning unit 5 may not necessarily be performed. For example, the pre-processing by the first learning unit 5 may be skipped and the second learning unit 10 may be made to execute the model learning using the initial parameters. Hereinafter, the model learning that is the preprocessing executed by the first learning unit 5 will be referred to as “first model learning”, and the model learning executed by the second learning unit 10 will be described. It may be described as "second model learning".

学習データ記憶部2は、学習データを記憶する記憶部である。ここで、学習データには、一例として、D個の学習サンプル、いわゆる学習事例が含まれる。さらに、学習サンプルには、入力文xおよび参照要約yのペアが含まれる。なお、図1には、あくまで一例として、第1の学習部5及び第2の学習部10に同一の学習データが用いられる場合を例示するが、第1の学習部5及び第2の学習部10の間で異なる学習データがモデル学習に用いられることとしてもかまわない。   The learning data storage unit 2 is a storage unit that stores learning data. Here, the learning data includes, for example, D learning samples, so-called learning cases. Further, the learning sample includes a pair of input sentence x and reference summary y. Note that FIG. 1 illustrates, as an example, a case where the same learning data is used for the first learning unit 5 and the second learning unit 10, but the first learning unit 5 and the second learning unit are used. It does not matter if different learning data among 10 are used for model learning.

第1のモデル記憶部3及び第2のモデル記憶部8は、いずれもモデルに関する情報を記憶する記憶部である。   The first model storage unit 3 and the second model storage unit 8 are storage units that store information about models.

一実施形態として、第1のモデル記憶部3及び第2のモデル記憶部8には、次のような情報が記憶される。例えば、RNNエンコーダ及びRNNデコーダが接続されたニューラルネットワークを形成する入力層、隠れ層及び出力層の各層のニューロンやシナプスなどのモデルの層構造を始め、各層の重みやバイアスなどのモデルのパラメータを含むモデル情報が記憶される。ここで、第1の学習部5によりモデル学習が実行される前の段階では、第1のモデル記憶部3には、モデルのパラメータとして、乱数により初期設定されたパラメータが記憶される。また、第1の学習部5によりモデル学習が実行された後の段階では、第1のモデル記憶部3には、第1の学習部5により学習されたモデルのパラメータが保存される。また、第2の学習部10によりモデル学習が実行された後の段階では、第2のモデル記憶部8には、第2の学習部10により学習されたモデルのパラメータが保存される。   As one embodiment, the following information is stored in the first model storage unit 3 and the second model storage unit 8. For example, starting with the layer structure of a model such as neurons and synapses in each layer of an input layer, a hidden layer and an output layer forming a neural network to which an RNN encoder and an RNN decoder are connected, model parameters such as weight and bias of each layer are set. The model information including is stored. Here, at the stage before the model learning is executed by the first learning unit 5, the first model storage unit 3 stores the parameters initialized by random numbers as the model parameters. Further, at the stage after the model learning is performed by the first learning unit 5, the parameters of the model learned by the first learning unit 5 are stored in the first model storage unit 3. Further, at the stage after the model learning is executed by the second learning unit 10, the parameters of the model learned by the second learning unit 10 are stored in the second model storage unit 8.

第1の学習部5は、上記の前処理となる第1のモデル学習を実行する処理部である。ここでは、第1のモデル学習の一例として、対数尤度の最適化と呼ばれるモデル学習が実行される場合を例示する。   The first learning unit 5 is a processing unit that executes the first model learning that is the above-described preprocessing. Here, as an example of the first model learning, a case where model learning called optimization of log likelihood is executed is illustrated.

第1の学習部5は、図1に示すように、入力制御部5Iと、モデル実行部6と、更新部7とを有する。   As shown in FIG. 1, the first learning unit 5 includes an input control unit 5I, a model executing unit 6, and an updating unit 7.

入力制御部5Iは、モデルに対する入力を制御する処理部である。   The input control unit 5I is a processing unit that controls the input to the model.

一実施形態として、入力制御部5Iは、学習データに含まれる学習サンプルごとに、RNNエンコーダおよびRNNデコーダが接続されたニューラルネットワークのモデルに対するデータの入力制御を行う。   As one embodiment, the input control unit 5I controls the input of data to the model of the neural network to which the RNN encoder and the RNN decoder are connected, for each learning sample included in the learning data.

具体的には、入力制御部5Iは、学習サンプルをカウントするループカウンタdの値を初期化する。続いて、入力制御部5Iは、学習データ記憶部2に記憶されたD個の学習サンプルのうちループカウンタdに対応する学習サンプルを取得する。その後、入力制御部5Iは、ループカウンタdをインクリメントし、ループカウンタdの値が学習サンプルの総数Dと等しくなるまで、学習データ記憶部2から学習サンプルを取得する処理を繰り返し実行する。なお、ここでは、学習装置1内部のストレージに保存された学習データを取得する例を挙げたが、ネットワークを介して接続される外部のコンピュータ、例えばファイルサーバの他、リムーバブルメディア等から学習データが取得されることとしてもかまわない。   Specifically, the input control unit 5I initializes the value of the loop counter d that counts the learning samples. Subsequently, the input control unit 5I acquires the learning sample corresponding to the loop counter d from the D learning samples stored in the learning data storage unit 2. After that, the input control unit 5I increments the loop counter d, and repeatedly executes the process of acquiring the learning sample from the learning data storage unit 2 until the value of the loop counter d becomes equal to the total number D of learning samples. Here, an example in which the learning data saved in the storage inside the learning device 1 is acquired has been described, but the learning data is acquired from an external computer connected via a network, such as a file server, removable media, or the like. It does not matter if it is acquired.

このように学習サンプルが取得される度に、入力制御部5Iは、当該学習サンプルに含まれる入力文xをRNNエンコーダ6Aへ入力する。これによって、入力文xの単語列がベクトル化されたベクトル、いわゆる中間表現がRNNエンコーダ6AからRNNデコーダ6Bへ出力される。これと同時または前後して、入力制御部5Iは、RNNデコーダ6Bに文末記号と呼ばれるEOSを出力させるまでの残り文字数を保持するレジスタの値を所定の上限文字数、例えばユーザ入力やユーザ設定などの値に初期化する。これ以降のRNNデコーダ6Bへの入力、RNNデータからの出力、それを用いたモデルのパラメータの更新についてはその詳細を後述する。   Each time a learning sample is acquired in this way, the input control unit 5I inputs the input sentence x included in the learning sample to the RNN encoder 6A. As a result, a vector obtained by vectorizing the word string of the input sentence x, that is, a so-called intermediate representation is output from the RNN encoder 6A to the RNN decoder 6B. Simultaneously with or before this, the input control unit 5I sets the value of the register that holds the number of remaining characters until the RNN decoder 6B outputs EOS, which is called a sentence end symbol, to a predetermined upper limit number of characters, such as user input or user setting. Initialize to a value. The details of the subsequent input to the RNN decoder 6B, the output from the RNN data, and the updating of the model parameters using the same will be described later.

モデル実行部6は、RNNエンコーダ6AおよびRNNデコーダ6Bが接続されたニューラルネットワークのモデルを実行する処理部である。   The model execution unit 6 is a processing unit that executes a model of the neural network to which the RNN encoder 6A and the RNN decoder 6B are connected.

1つの側面として、モデル実行部6は、第1のモデル記憶部3に記憶されたモデル情報にしたがって、入力制御部5Iにより入力された学習サンプルの入力文の単語数Mに対応するM個のLSTM(Long Short-Term Memory)をワークエリア上に展開する。これによって、M個のLSTMをRNNエンコーダ6Aとして機能させる。このRNNエンコーダ6Aでは、入力制御部5Iによる入力制御にしたがって、学習サンプルの入力文の先頭の単語から順に、入力文の先頭からm番目の単語が当該m番目の単語に対応するLSTMへ入力されると共に、m−1番目の単語に対応するLSTMの出力がm番目の単語に対応するLSTMへ入力される。このような入力を先頭の単語に対応するLSTMから末尾であるM番目の単語に対応するLSTMまで繰り返すことにより、学習サンプルの入力文のベクトル、いわゆる中間表現が得られる。このようにRNNエンコーダ6Aにより生成された入力文の中間表現がRNNデコーダ6Bへ入力される。   As one aspect, the model execution unit 6 uses M model numbers corresponding to the number M of words in the input sentence of the learning sample input by the input control unit 5I according to the model information stored in the first model storage unit 3. Expand LSTM (Long Short-Term Memory) on the work area. As a result, the M LSTMs function as the RNN encoder 6A. In the RNN encoder 6A, the mth word from the beginning of the input sentence of the learning sample is input to the LSTM corresponding to the mth word in order from the beginning word of the input sentence of the learning sample according to the input control by the input control unit 5I. At the same time, the output of the LSTM corresponding to the m−1th word is input to the LSTM corresponding to the mth word. By repeating such input from the LSTM corresponding to the first word to the LSTM corresponding to the Mth word at the end, a vector of the input sentence of the learning sample, that is, a so-called intermediate representation is obtained. The intermediate representation of the input sentence thus generated by the RNN encoder 6A is input to the RNN decoder 6B.

更なる側面として、モデル実行部6は、第1のモデル記憶部3に記憶されたモデル情報にしたがって、入力制御部5Iにより入力された正解の参照要約の単語数Nに対応するN個のLSTMをワークエリア上に展開する。これによって、N個のLSTMをRNNデコーダ6Bとして機能させる。これらRNNデコーダ6Bには、入力制御部5Iの入力制御にしたがって、RNNエンコーダ6Aから学習サンプルの入力文の中間表現が入力されると共に、N個のLSTMごとに入力制御部5IからEOSのタグを出力させるまでの残り文字数が入力される。これらの入力にしたがってN個のLSTMを動作させることにより、RNNデコーダ6Bは、N個のLSMTごとに単語の確率分布を出力する。ここで言う「単語の確率分布」とは、学習サンプル全体で入力文に出現する単語ごとに算出された確率の分布を指す。   As a further aspect, the model execution unit 6 according to the model information stored in the first model storage unit 3 has N LSTMs corresponding to the number N of words in the correct reference summary input by the input control unit 5I. On the work area. As a result, the N LSTMs function as the RNN decoder 6B. According to the input control of the input control unit 5I, these RNN decoders 6B receive the intermediate representation of the input sentence of the learning sample from the RNN encoder 6A, and input tags of the EOS from the input control unit 5I for every N LSTMs. The number of characters remaining until output is input. By operating the N LSTMs according to these inputs, the RNN decoder 6B outputs the probability distribution of words for each of the N LSMTs. The “word probability distribution” mentioned here refers to a probability distribution calculated for each word that appears in the input sentence in the entire learning sample.

更新部7は、モデルのパラメータを更新する処理部である。   The updating unit 7 is a processing unit that updates the model parameters.

一実施形態として、更新部7は、RNNデコーダ6Bのn番目のLSTMから単語の確率分布が出力された場合、当該確率分布で確率が最大である単語をシステム要約の先頭からn番目の単語として生成する。その後、更新部7は、システム要約のn番目の単語が生成された場合、正解の参照要約に含まれる単語のうちn番目の単語と、システム要約として生成されたn番目の単語とから損失を算出する。このように、RNNデコーダ6BのN個のLSTMごとに損失が算出される。その上で、更新部7は、各LSTMの損失に基づいて対数尤度の最適化を実行することにより、RNNエンコーダ6AおよびRNNデコーダ6Bのモデルを更新するパラメータを算出する。そして、更新部7は、第1のモデル記憶部3に記憶されたモデルのパラメータを対数尤度の最適化により求められたパラメータに更新する。このパラメータの更新は、全ての学習サンプルにわたって繰り返し実行すると共に、学習データDについても所定のエポック数にわたって繰り返し実行することができる。   As one embodiment, when the probability distribution of words is output from the n-th LSTM of the RNN decoder 6B, the updating unit 7 determines the word with the highest probability in the probability distribution as the n-th word from the beginning of the system summary. To generate. After that, when the n-th word of the system summary is generated, the updating unit 7 loses a loss from the n-th word included in the correct reference summary and the n-th word generated as the system summary. calculate. In this way, the loss is calculated for each of the N LSTMs of the RNN decoder 6B. Then, the updating unit 7 calculates the parameters for updating the models of the RNN encoder 6A and the RNN decoder 6B by executing the log-likelihood optimization based on the loss of each LSTM. Then, the updating unit 7 updates the parameters of the model stored in the first model storage unit 3 to the parameters obtained by optimizing the log likelihood. This parameter update can be repeatedly executed for all learning samples and also for the learning data D over a predetermined number of epochs.

これら入力制御部5I、モデル実行部6及び更新部7の処理内容を図9〜図11を用いて説明する。図9〜図11は、第1のモデル学習の一例を示す図である。図9〜図11には、入力制御部5Iにより図3に示す入力文30および図7Aに示す参照要約70のペアが学習サンプルとして取得される場合が示されている。   Processing contents of the input control unit 5I, the model execution unit 6, and the update unit 7 will be described with reference to FIGS. 9 to 11. 9 to 11 are diagrams illustrating an example of the first model learning. 9 to 11 show a case where the input control unit 5I acquires the pair of the input sentence 30 shown in FIG. 3 and the reference summary 70 shown in FIG. 7A as a learning sample.

図9に示すように、モデル実行部6は、入力制御部5Iにより取得された入力文30に含まれる単語列をベクトル化する。すなわち、モデル実行部6は、モデル実行部6が使用するワークエリアに入力文30の単語数Mに対応するM個のLSTM6a−1〜6a−Mを展開する。これによって、M個のLSTM6a−1〜6a−MをRNNエンコーダ6Aとして機能させる。その上で、入力制御部5Iは、入力文30に含まれる先頭の単語から順に入力文30の単語を当該単語の位置に対応するLSTM6aに入力すると共に1つ前のLSTM6aの出力を入力する。このような入力を先頭の単語「当社」に対応するLSTM6a−1から末尾の単語「。」に対応するLSTM6a−Mまで繰り返すことにより、入力文30のベクトルが得られる。このようにRNNエンコーダ6Aにより生成された入力文30のベクトルがRNNデコーダ6Bへ入力される。   As shown in FIG. 9, the model execution unit 6 vectorizes the word string included in the input sentence 30 acquired by the input control unit 5I. That is, the model execution unit 6 develops M LSTMs 6a-1 to 6a-M corresponding to the number M of words of the input sentence 30 in the work area used by the model execution unit 6. This causes the M LSTMs 6a-1 to 6a-M to function as the RNN encoder 6A. Then, the input control unit 5I inputs the words of the input sentence 30 in order from the first word included in the input sentence 30 to the LSTM 6a corresponding to the position of the word, and inputs the output of the previous LSTM 6a. By repeating such input from LSTM6a-1 corresponding to the first word "our company" to LSTM6a-M corresponding to the last word ".", The vector of the input sentence 30 is obtained. The vector of the input sentence 30 thus generated by the RNN encoder 6A is input to the RNN decoder 6B.

その後、モデル実行部6は、入力文30のベクトル、1時刻前の正解の単語及びRNNデコーダ6Bが文末記号と呼ばれるEOSを出力するまでの残り文字数などを入力とし、EOSを出力するまで時刻ごとに単語の確率分布を繰り返し計算する。   After that, the model execution unit 6 inputs the vector of the input sentence 30, the correct word one hour before, and the number of remaining characters until the RNN decoder 6B outputs EOS called a sentence end symbol. Iteratively calculate the probability distribution of words.

例えば、参照要約70の先頭の単語と照合する単語の確率分布を計算する1時刻目には、図9に示す動作が行われる。すなわち、図9に示すように、入力制御部5Iは、モデル実行部6が使用するワークエリアに展開されたLSTM6b−1に対し、LSTM6a−Mの出力およびBOS(Begin Of Sentence)と呼ばれる文頭記号を入力すると共に参照要約70の文字数「37」を残り文字数として入力する。これにより、LSTM6b−1により1時刻目(t=1)における単語の確率分布が出力される。この結果、更新部7は、1時刻目における単語の確率分布と1時刻目の正解の単語「コールセンター」とから損失を算出する。この場合、1時刻目の正解の単語「コールセンター」の確率が1に近く、かつその他の単語の確率が0に近いほど小さい損失が算出される。   For example, the operation shown in FIG. 9 is performed at the first time when the probability distribution of words to be matched with the first word of the reference summary 70 is calculated. That is, as shown in FIG. 9, the input control unit 5I, with respect to the LSTM6b-1 expanded in the work area used by the model execution unit 6, outputs the LSTM6a-M and the initial symbol called BOS (Begin Of Sentence). Is input, and the number of characters “37” in the reference summary 70 is input as the number of remaining characters. As a result, the LSTM 6b-1 outputs the probability distribution of words at the first time (t = 1). As a result, the updating unit 7 calculates the loss from the word probability distribution at the first time and the correct word “call center” at the first time. In this case, a smaller loss is calculated as the probability of the correct word “call center” at the first time is closer to 1 and the probabilities of the other words are closer to 0.

また、参照要約70の先頭から2番目の単語と照合する単語の確率分布を計算する2時刻目には、図10に示す動作が行われる。すなわち、図10に示すように、入力制御部5Iは、LSTM6b−2に対し、LSTM6b−1の出力および1時刻前の正解の単語「コールセンター」を入力すると共に1時刻目の残り文字数から1時刻目の正解の単語の字数が減算された字数「30」を2時刻目の残り文字数として入力する。これにより、LSTM6b−2により2時刻目(t=2)における単語の確率分布が出力される。この結果、更新部7は、2時刻目における単語の確率分布と2時刻目の正解の単語「の」とから損失を算出する。この場合、2時刻目の正解の単語「の」の確率が1に近く、かつその他の単語の確率が0に近いほど小さい損失が算出される。   Further, at the second time when the probability distribution of the word to be matched with the second word from the beginning of the reference summary 70 is calculated, the operation shown in FIG. 10 is performed. That is, as shown in FIG. 10, the input control unit 5I inputs the output of the LSTM6b-1 and the correct word "call center" one hour before to the LSTM6b-2, and at the same time from the remaining number of characters at the first time to the first time. The number of letters "30", which is the number of letters of the correct word for the eyes, is input as the remaining number of letters at the second time. As a result, the LSTM6b-2 outputs the probability distribution of words at the second time (t = 2). As a result, the updating unit 7 calculates the loss from the probability distribution of the word at the second time and the correct word “no” at the second time. In this case, a smaller loss is calculated as the probability of the correct word "no" at the second time is closer to 1 and the probabilities of the other words are closer to 0.

さらに、参照要約70の先頭から3番目の単語と照合する単語の確率分布を計算する3時刻目には、図11に示す動作が行われる。すなわち、図11に示すように、入力制御部5Iは、LSTM6b−3に対し、LSTM6b−2の出力および1時刻前の正解の単語「の」を入力すると共に2時刻目の残り文字数から2時刻目の正解の単語の字数が減算された字数「29」を3時刻目の残り文字数として入力する。これにより、LSTM6b−3により3時刻目(t=3)における単語の確率分布が出力される。この結果、更新部7は、3時刻目における単語の確率分布と3時刻目の正解の単語「問い合わせ」とから損失を算出する。この場合、3時刻目の正解の単語「問い合わせ」の確率が1に近く、かつその他の単語の確率が0に近いほど小さい損失が算出される。   Further, at the third time when the probability distribution of the word matching the third word from the beginning of the reference summary 70 is calculated, the operation shown in FIG. 11 is performed. That is, as shown in FIG. 11, the input control unit 5I inputs the output of the LSTM6b-2 and the correct word "no" one hour before to the LSTM6b-3 and the number of remaining characters at the second time from the second time. The number of letters "29", which is the number of letters of the correct word for the eyes, is input as the remaining number of letters at the third time. As a result, the LSTM6b-3 outputs the word probability distribution at the third time (t = 3). As a result, the updating unit 7 calculates the loss from the probability distribution of the word at the third time and the correct word “inquiry” at the third time. In this case, a smaller loss is calculated as the probability of the correct word “inquiry” at the third time is closer to 1 and the probabilities of the other words are closer to 0.

このような処理をLSTM6bから文末記号「EOS」が出力されるまで繰り返し実行されることにより、更新部7は、参照要約70の単語ごとに損失を算出する。さらに、学習データに含まれる全ての学習サンプルについて参照要約の単語ごとに損失を算出する処理が実行される。このように学習データに含まれる全ての学習サンプルについて参照要約の単語ごとの損失が算出されると、更新部7は、下記の式(4)に示す目的関数Lをパラメータθについて最大化する「対数尤度の最適化」を第1のモデル学習として実行する。ここで、下記の式(4)における確率「p(y|x;θ)」は、下記の式(5)に示す通り、各時刻における損失の総積によって求まる。なお、下記の式(4)における「D」は、入力文xおよび参照要約yを含む学習サンプルの集合を指す。また、下記の式(5)における「y<t」の「t」は、参照要約における単語の位置を指し、例えば、参照要約の先頭の単語はyで表され,2番目の単語はyで表され,・・・,末尾の単語はyt−1で表される。 The updating unit 7 calculates the loss for each word of the reference summary 70 by repeatedly performing such processing until the end-of-sentence symbol “EOS” is output from the LSTM 6b. Further, the process of calculating the loss for each word of the reference summary is executed for all the learning samples included in the learning data. When the loss for each word of the reference summary is calculated for all learning samples included in the learning data in this way, the updating unit 7 maximizes the objective function L t shown in the following Expression (4) for the parameter θ. The "logarithmic likelihood optimization" is executed as the first model learning. Here, the probability “p (y | x; θ)” in the following formula (4) is obtained by the total product of the losses at each time, as shown in the following formula (5). It should be noted that “D” in the following formula (4) indicates a set of learning samples including the input sentence x and the reference summary y. In addition, “t” of “y <t ” in the following formula (5) indicates the position of a word in the reference summary. For example, the first word of the reference summary is represented by y 1 and the second word is y. 2 , the last word is represented by y t-1 .

Figure 2020071737
Figure 2020071737
Figure 2020071737
Figure 2020071737

その後、更新部7は、第1のモデル記憶部3に記憶されたモデルのパラメータを対数尤度の最適化により求められたパラメータθに更新する。このパラメータθの更新は、学習データDについて所定の回数にわたって繰り返すことができる。このように第1のモデル記憶部3に保存されたモデルのパラメータが第2の学習部10により用いられることになる。   After that, the updating unit 7 updates the parameters of the model stored in the first model storage unit 3 to the parameter θ obtained by optimizing the log likelihood. This update of the parameter θ can be repeated for the learning data D a predetermined number of times. In this way, the model parameters stored in the first model storage unit 3 are used by the second learning unit 10.

図1の説明に戻り、第2の学習部10は、上記の第2のモデル学習を実行する処理部である。図1に示すように、第2の学習部10は、入力制御部10Iと、モデル実行部11と、要約生成部12と、第1の確率算出部13と、重複度算出部14と、第1の損失算出部15と、擬似文生成部16と、第2の確率算出部17と、第2の損失算出部18と、更新部19とを有する。   Returning to the description of FIG. 1, the second learning unit 10 is a processing unit that executes the above-described second model learning. As shown in FIG. 1, the second learning unit 10 includes an input control unit 10I, a model execution unit 11, a summary generation unit 12, a first probability calculation unit 13, a duplication degree calculation unit 14, and a The first loss calculation unit 15, the pseudo sentence generation unit 16, the second probability calculation unit 17, the second loss calculation unit 18, and the update unit 19 are included.

入力制御部10Iは、モデルに対する入力を制御する処理部である。   The input control unit 10I is a processing unit that controls the input to the model.

一実施形態として、入力制御部10Iは、学習データに含まれる学習サンプルごとに、RNNエンコーダ11AおよびRNNデコーダ11Bが接続されたニューラルネットワークのモデルに対するデータの入力制御を行う。   As one embodiment, the input control unit 10I controls the input of data to the model of the neural network to which the RNN encoder 11A and the RNN decoder 11B are connected for each learning sample included in the learning data.

具体的には、入力制御部10Iは、学習サンプルをカウントするループカウンタdの値を初期化する。続いて、入力制御部10Iは、学習データ記憶部2に記憶されたD個の学習サンプルのうちループカウンタdに対応する学習サンプルを取得する。その後、入力制御部10Iは、ループカウンタdをインクリメントし、ループカウンタdの値が学習サンプルの総数Dと等しくなるまで、学習データ記憶部2から学習サンプルを取得する処理を繰り返し実行する。なお、ここでは、学習装置1内部のストレージに保存された学習データを取得する例を挙げたが、ネットワークを介して接続される外部のコンピュータ、例えばファイルサーバの他、リムーバブルメディア等から学習データが取得されることとしてもかまわない。   Specifically, the input control unit 10I initializes the value of the loop counter d that counts the learning samples. Subsequently, the input control unit 10I acquires the learning sample corresponding to the loop counter d from the D learning samples stored in the learning data storage unit 2. After that, the input control unit 10I increments the loop counter d, and repeatedly executes the process of acquiring the learning sample from the learning data storage unit 2 until the value of the loop counter d becomes equal to the total number D of learning samples. Here, an example in which the learning data saved in the storage inside the learning device 1 is acquired has been described, but the learning data is acquired from an external computer connected via a network, such as a file server, removable media, or the like. It does not matter if it is acquired.

このように学習サンプルが取得される度に、入力制御部10Iは、当該学習サンプルに含まれる入力文xをRNNエンコーダ11Aへ入力する。これによって、入力文xの単語列がベクトル化されたベクトル、いわゆる中間表現がRNNエンコーダ11AからRNNデコーダ11Bへ出力される。これと同時または前後して、入力制御部10Iは、RNNデコーダ11Bに文末記号と呼ばれるEOSを出力させるまでの残り文字数を保持するレジスタの値を所定の上限文字数、例えばユーザ入力やユーザ設定などの値に初期化する。これ以降のRNNデコーダ11Bへの入力、RNNデータからの出力、それを用いたモデルのパラメータの更新についてはその詳細を後述する。   Every time a learning sample is acquired in this way, the input control unit 10I inputs the input sentence x included in the learning sample to the RNN encoder 11A. As a result, a vector in which the word string of the input sentence x is vectorized, that is, a so-called intermediate expression is output from the RNN encoder 11A to the RNN decoder 11B. Simultaneously with or before or after this, the input control unit 10I sets the value of the register, which holds the number of remaining characters until the ENN, which is called a sentence end symbol, is output to the RNN decoder 11B to a predetermined upper limit number of characters, such as user input or user setting. Initialize to a value. The details of the subsequent input to the RNN decoder 11B, the output from the RNN data, and the update of the model parameters using the same will be described later.

モデル実行部11は、RNNエンコーダ11AおよびRNNデコーダ11Bが接続されたニューラルネットワークのモデルを実行する処理部である。   The model execution unit 11 is a processing unit that executes a model of a neural network to which the RNN encoder 11A and the RNN decoder 11B are connected.

1つの側面として、モデル実行部11は、第1のモデル記憶部3に記憶されたモデル情報にしたがって、入力制御部10Iにより入力された学習サンプルの入力文の単語数Mに対応するM個のLSTMをワークエリア上に展開する。これによって、M個のLSTMをRNNエンコーダ11Aとして機能させる。このRNNエンコーダ11Aでは、入力制御部10Iによる入力制御にしたがって、学習サンプルの入力文の先頭の単語から順に、入力文の先頭からm番目の単語が当該m番目の単語に対応するLSTMへ入力されると共に、m−1番目の単語に対応するLSTMの出力がm番目の単語に対応するLSTMへ入力される。このような入力を先頭の単語に対応するLSTMから末尾であるM番目の単語に対応するLSTMまで繰り返すことにより、学習サンプルの入力文のベクトル、いわゆる中間表現が得られる。このようにRNNエンコーダ11Aにより生成された入力文の中間表現がRNNデコーダ11Bへ入力される。   As one aspect, the model execution unit 11 uses M model numbers corresponding to the number M of words in the input sentence of the learning sample input by the input control unit 10I according to the model information stored in the first model storage unit 3. Deploy the LSTM on the work area. As a result, the M LSTMs function as the RNN encoder 11A. In the RNN encoder 11A, the m-th word from the head of the input sentence is input to the LSTM corresponding to the m-th word in order from the head word of the input sentence of the learning sample according to the input control by the input control unit 10I. At the same time, the output of the LSTM corresponding to the m−1th word is input to the LSTM corresponding to the mth word. By repeating such input from the LSTM corresponding to the first word to the LSTM corresponding to the Mth word at the end, a vector of the input sentence of the learning sample, that is, a so-called intermediate representation is obtained. The intermediate representation of the input sentence thus generated by the RNN encoder 11A is input to the RNN decoder 11B.

更なる側面として、モデル実行部11は、第1のモデル記憶部3に記憶されたモデル情報にしたがって、文末記号「EOS」が出力されるまで各時刻に対応するK個のLSTMをワークエリア上に展開する。これによって、K個のLSTMをRNNデコーダ11Bとして機能させる。これらRNNデコーダ11Bには、入力制御部10Iの入力制御にしたがって、RNNエンコーダ11Aから学習サンプルの入力文の中間表現が入力されると共に、K個のLSTMごとに入力制御部10IからEOSのタグを出力させるまでの残り文字数が入力される。これらの入力にしたがってK個のLSTMを動作させることにより、RNNデコーダ11Bは、K個のLSMTごとに単語の確率分布を出力する。   As a further aspect, the model execution unit 11 follows the model information stored in the first model storage unit 3 and outputs K LSTMs corresponding to each time on the work area until the end-of-sentence symbol “EOS” is output. Expand to. As a result, the K LSTMs function as the RNN decoder 11B. According to the input control of the input control unit 10I, the RNN encoder 11A inputs the intermediate representation of the input sentence of the learning sample to these RNN decoders 11B, and the input control unit 10I outputs an EOS tag for each K LSTMs. The number of characters remaining until output is input. By operating the K LSTMs according to these inputs, the RNN decoder 11B outputs the probability distribution of words for each of the K LSMTs.

これら入力制御部10I及びモデル実行部11の他、第2の学習部10は、更新部19がモデルのパラメータの更新に用いる損失L(θ)を算出する側面から、上記の損失LMRT(θ)を第1の損失として算出する第1の系統と、上記の損失Lorder(θ)を第2の損失として算出する第2の系統とに分類することができる。 In addition to the input control unit 10I and the model executing unit 11, the second learning unit 10 calculates the loss L (θ) used by the updating unit 19 to update the model parameters from the aspect of the above loss L MRT (θ). ) Can be classified into a first system that calculates the first loss, and a second system that calculates the loss L order (θ) as the second loss.

このうち、第1の系統には、システム要約を生成する要約生成部12と、システム要約の生成確率を算出する第1の確率算出部13と、システム要約および参照要約の重複度を算出する重複度算出部14と、上記の第1の損失を算出する第1の損失算出部15とが含まれる。   Among them, in the first system, a summary generation unit 12 that generates a system summary, a first probability calculation unit 13 that calculates the generation probability of the system summary, and an overlap that calculates the degree of overlap between the system summary and the reference summary. The degree calculation unit 14 and the first loss calculation unit 15 that calculates the first loss are included.

以下、図12を用いて、第2のモデル学習の第1の系統における処理内容について説明する。図12は、第1の系統におけるモデルへの入出力の一例を示す図である。図12には、入力制御部10Iにより図3に示す入力文30および図7Aに示す参照要約70のペアが学習サンプルとして取得される場合が示されている。   The processing contents of the first system of the second model learning will be described below with reference to FIG. FIG. 12 is a diagram showing an example of input / output to / from the model in the first system. FIG. 12 shows a case where the input control unit 10I acquires a pair of the input sentence 30 shown in FIG. 3 and the reference summary 70 shown in FIG. 7A as a learning sample.

図12に示すように、モデル実行部11は、上記のモデル実行部6と同様、入力制御部10Iにより取得された入力文30に含まれる単語列をベクトル化する。すなわち、モデル実行部11は、モデル実行部11が使用するワークエリアに入力文30の単語数Mに対応するM個のLSTM11a−1〜11a−Mを展開する。これらM個のLSTM11a−1〜11a−nをRNNエンコーダ11Aとして機能させる。その上で、入力制御部10Iは、入力文30に含まれる先頭の単語から順に入力文30の単語を当該単語の位置に対応するLSTM11aに入力すると共に1つ前のLSTM11aの出力を入力する。このような入力を先頭の単語「当社」に対応するLSTM11a−1から末尾の単語「。」に対応するLSTM11a−Mまで繰り返すことにより、入力文30のベクトルが得られる。このようにRNNエンコーダ11Aにより生成された入力文30のベクトルがRNNデコーダ11Bへ入力される。   As shown in FIG. 12, the model execution unit 11 vectorizes the word string included in the input sentence 30 acquired by the input control unit 10I, similarly to the model execution unit 6 described above. That is, the model execution unit 11 develops M LSTMs 11a-1 to 11a-M corresponding to the number M of words of the input sentence 30 in the work area used by the model execution unit 11. These M LSTMs 11a-1 to 11a-n are caused to function as the RNN encoder 11A. Then, the input control unit 10I inputs the words of the input sentence 30 in order from the first word included in the input sentence 30 to the LSTM 11a corresponding to the position of the word, and inputs the output of the previous LSTM 11a. The vector of the input sentence 30 is obtained by repeating such input from the LSTM11a-1 corresponding to the first word "our company" to the LSTM11a-M corresponding to the last word ".". The vector of the input sentence 30 thus generated by the RNN encoder 11A is input to the RNN decoder 11B.

その後、モデル実行部11は、入力文30のベクトル、1時刻前に予測された単語及びRNNデコーダ11BがEOSを出力するまでの残り文字数などを入力とし、EOSを出力するまで時刻ごとに単語の確率分布を繰り返し計算する。   After that, the model execution unit 11 inputs the vector of the input sentence 30, the word predicted before one time, and the number of remaining characters until the RNN decoder 11B outputs EOS, etc., and inputs the word at each time until EOS is output. Repeatedly calculate the probability distribution.

ここで、第2のモデル学習では、第1のモデル学習とは異なり、RNNデコーダ11Bの各時刻に1時刻前の正解の単語ではなく、1時刻前に生成された単語が入力制御部10Iにより入力される。さらに、第2のモデル学習では、参照要約に対するシステム要約の損失は、第1のモデル学習のように、RNNデコーダ6Bの各時刻ごとに算出されない。すなわち、第2のモデル学習では、図12に示すように、EOSのタグが出力されるまで各時刻に対応するLSTM11bから単語の確率分布に基づいて単語を繰り返して出力させることによりシステム要約が生成された後にシステム要約の損失が算出される。   Here, in the second model learning, unlike the first model learning, the word generated one hour before, rather than the correct word one hour before at each time of the RNN decoder 11B, is generated by the input control unit 10I. Is entered. Further, in the second model learning, the system summary loss with respect to the reference summary is not calculated for each time of the RNN decoder 6B as in the first model learning. That is, in the second model learning, as shown in FIG. 12, the system summary is generated by repeatedly outputting the words based on the probability distribution of the words from the LSTM 11b corresponding to each time until the EOS tag is output. Loss of the system summary is calculated.

例えば、システム要約の先頭の単語を予測する1時刻目には、入力制御部10Iは、モデル実行部11が使用するワークエリアに展開されたLSTM11b−1に対し、LSTM11a−Mの出力および文頭記号「BOS」と共に参照要約70の文字数「37」を残り文字数として入力する。ここでは、上限文字数の一例として、参照要約の文字数を採用する場合を例示したが、参照要約の文字数よりも短い文字数に制限してもよいし、参照要約の文字数よりも長い文字数に制限することもできる。これにより、LSTM11b−1によって1時刻目(t=1)における単語の確率分布が出力される。この単語の確率分布に基づいて、要約生成部12は、システム要約の先頭の単語を抽出する。例えば、要約生成部12は、単語の確率分布に従って抽選を実行し、抽選により当選した単語を抽出することができる。この他、要約生成部12は、確率が上位所定数、例えば上位5位までに属する単語の中から1つの単語をランダムにサンプリングする。ここで、図12に示す例では、あくまで一例として、システム要約の先頭の単語として「コールセンター」がランダムサンプリングされた場合を例に挙げて2時刻目以降の処理について説明する。   For example, at the first time when the first word of the system summary is predicted, the input control unit 10I outputs the output of the LSTM 11a-M and the initial symbol to the LSTM 11b-1 expanded in the work area used by the model execution unit 11. The number of characters "37" in the reference summary 70 is input as the number of remaining characters together with "BOS". Here, as an example of the upper limit number of characters, the case where the number of characters in the reference summary is adopted has been illustrated, but the number of characters may be limited to a number shorter than the number of characters in the reference summary, or limited to a number of characters longer than the number of characters in the reference summary. You can also As a result, the LSTM 11b-1 outputs the probability distribution of words at the first time (t = 1). Based on the probability distribution of this word, the summary generation unit 12 extracts the first word of the system summary. For example, the summary generation unit 12 can perform a lottery according to the probability distribution of words and extract the words won by the lottery. In addition to this, the summary generation unit 12 randomly samples one word from the words belonging to the top predetermined number of probabilities, for example, the top five. Here, in the example illustrated in FIG. 12, the processing after the second time will be described by way of example only when “call center” is randomly sampled as the first word of the system summary.

続いて、システム要約の先頭から2番目の単語を予測する2時刻目には、入力制御部10Iは、LSTM11b−2に対し、LSTM11b−1の出力および1時刻前の予測結果「コールセンター」と共に1時刻目の残り文字数から1時刻目に予測された単語の字数が減算された字数「30」を2時刻目の残り文字数として入力する。これにより、LSTM11b−2によって2時刻目(t=2)における単語の確率分布が出力される。この単語の確率分布に基づいて単語の抽選を実行することにより、要約生成部12は、抽選で当選した単語をサンプリングする。   Subsequently, at the second time when the second word from the beginning of the system summary is predicted, the input control unit 10I outputs 1 to the LSTM 11b-2 together with the output of the LSTM 11b-1 and the prediction result “call center” one hour before. The number of characters “30” obtained by subtracting the number of characters of the word predicted at the first time from the number of remaining characters at the time is input as the number of remaining characters at the second time. As a result, the LSTM 11b-2 outputs the probability distribution of words at the second time (t = 2). By executing the lottery of words based on the probability distribution of the words, the summary generation unit 12 samples the words won in the lottery.

その後、要約生成部12は、は、LSTM11b−KによりEOSが出力されるまで、システム要約の単語を時刻ごとにサンプリングする。このようなサンプリングによりシステム要約を生成することで、要約生成部12は、1つの入力文につき所定数、例えばS個のシステム要約y′を生成することができる。このようにS個のシステム要約が生成された場合、第1の確率算出部13は、S個のシステム要約y′ごとに当該システム要約y′の各時刻で生成された単語の確率に基づいて入力文xからシステム要約y′が生成される生成確率p(y′|x,θ)を算出する。   After that, the abstract generation unit 12 samples the words of the system abstract at each time until EOS is output by the LSTM 11b-K. By generating a system summary by such sampling, the summary generation unit 12 can generate a predetermined number, for example, S system summaries y ′ for one input sentence. When S number of system summaries are generated in this way, the first probability calculation unit 13 determines the probability of the word generated at each time of the system summarization y ′ for each of the S number of system summaries y ′. The generation probability p (y ′ | x, θ) of generating the system summary y ′ from the input sentence x is calculated.

ここで、第2のモデル学習では、第1の損失LMRT(θ)は、上記の式(1)にしたがって算出される。すなわち、第1の損失LMRT(θ)は、第1の確率算出部13により算出されるシステム要約の生成確率に加えて、後述の重複度算出部14により算出されるシステム要約および参照要約の間の単語の重複度に基づいて算出される。 Here, in the second model learning, the first loss L MRT (θ) is calculated according to the above equation (1). That is, the first loss L MRT (θ) is calculated in addition to the system summary generation probability calculated by the first probability calculation unit 13 as well as the system summary and reference summary calculated by the redundancy calculation unit 14 described later. It is calculated based on the degree of overlap between words.

このように第1の損失の算出に用いられる重複度Δ(y′,y)は、図12に示すように、必ずしもシステム要約に含まれる全ての単語を用いて算出されるとは限らない。すなわち、重複度算出部14は、要約生成部12により生成されるS個のシステム要約ごとに、当該システム要約のうち上限文字数、例えば参照要約の文字数以内の文を対象に参照要約との間で単語の重複度を算出する。これによって、システム要約のうち上限文字数を超える部分の単語、すなわち図12に示すハッチング部分を重複度の算出対象から除外することができる。   Thus, the degree of overlap Δ (y ′, y) used for calculating the first loss is not always calculated using all the words included in the system summary, as shown in FIG. That is, the degree-of-duplication calculation unit 14 sets, for each of the S system summaries generated by the summarization generator 12, between the reference summarization targeting sentences within the upper limit number of characters of the system summarization, for example, the number of characters of the reference summarization. Calculate the word overlap. As a result, the words in the part of the system summary that exceed the maximum number of characters, that is, the hatched part shown in FIG. 12, can be excluded from the calculation targets of the degree of overlap.

例えば、重複度算出部14は、下記の式(6)に示すように、システム要約の文字列の先頭から上限文字数に対応するnバイト分の文字列に対応する単語を切り取るtrim関数を含むROUGE関数にしたがってn−gramの重複度を算出できる。   For example, the duplication degree calculation unit 14 includes a ROUGE function including a trim function that cuts out a word corresponding to a character string of n bytes corresponding to the upper limit number of characters from the beginning of the character string of the system summary, as shown in the following Expression (6). The degree of overlap of n-gram can be calculated according to the function.

Figure 2020071737
Figure 2020071737

図13は、重複度の算出方法の一例を示す図である。図13には、上記の式(6)にしたがって重複度Δ(y′,y)が算出される例が示されている。図13に示すように、システム要約y′には、先頭の単語y′、先頭から2番目の単語y′、・・・、先頭からk−1番目の単語y′k−1、先頭からk番目の単語y′、・・・、末尾の単語y′|y′|が含まれる。一方、参照要約yには、先頭の単語y、先頭から2番目の単語y、・・・、末尾の単語y|y|が含まれる。この場合、trim(y′,byte(y))によってシステム要約y′から参照要約yに対応するバイト数の単語、すなわち先頭の単語y′、先頭から2番目の単語y′、・・・、先頭からk−1番目の単語y′k−1が切り取られる。その上で、ROUGE(trim(y′,byte(y)),y)により、システム要約y′の先頭の単語y′からk−1番目の単語y′k−1まで切り出されたtrim(y′,byte(y))と、参照要約yとの単語の重複度が算出される。このように上記の式(6)にしたがって重複度Δ(y′,y)を算出することで、上限文字数を超えるシステム要約y′のk番目から末尾までの単語、すなわち単語y′〜単語y′|y′|を重複率の算出対象から除外できる。この結果、上限文字数を超えるシステム要約y′のk番目から末尾までの単語、すなわち単語y′〜単語y′|y′|に参照要約yと重複する単語が含まれることが一因となって、システム要約y′が過大評価されるのを抑制できる。 FIG. 13 is a diagram showing an example of a method of calculating the degree of overlap. FIG. 13 shows an example in which the degree of overlap Δ (y ′, y) is calculated according to the above equation (6). As shown in FIG. 13, in the system summary y ′, the first word y ′ 1 , the second word y ′ 2 from the beginning, ..., The k−1th word y ′ k−1 from the beginning, the beginning From the kth word y ′ k , ..., And the last word y ′ | y ′ | . On the other hand, the reference summary y includes the first word y 1 , the second word y 2 from the beginning, ..., And the last word y | y | . In this case, a word of the number of bytes corresponding to the reference summary y from the system summary y ′ by trim (y ′, byte (y)), that is, the first word y ′ 1 , the second word y ′ 2 from the beginning, ... ·, k-1-th word y 'k-1 is cut off from the beginning. On top of that, ROUGE (trim (y ', byte (y)), y) , the system summarized y' cut out 'from 1 k-1-th word y' beginning of a word y to k-1 trim ( The degree of word overlap between y ′, byte (y)) and the reference summary y is calculated. By calculating the degree of overlap Δ (y ′, y) according to the above equation (6) in this way, the words from the k-th to the end of the system summary y ′ that exceeds the upper limit number of characters, that is, word y ′ k to word It is possible to exclude y ′ | y ′ | from the calculation target of the overlap rate. As a result, the words from the kth to the end of the system summary y ′ exceeding the upper limit number of characters, that is, the words y ′ k to y ′ | y ′ | include words that overlap with the reference summary y. Thus, it is possible to prevent the system summary y ′ from being overestimated.

このように重複度の算出対象をシステム要約の上限文字数内の単語に抑えることに加え、下記の式(7)に示す通り、重複度算出部14は、システム要約の上限文字数に足りない分の長さ、もしくは、システム要約の上限文字数を超える分の長さを、重複度にペナルティとして付与する誤差として、算出することもできる。なお、下記の式(7)に示す「C」は、上記の学習プログラムの開発者やユーザにより設定されるハイパーパラメータを指す。   Thus, in addition to limiting the calculation target of the degree of duplication to the words within the upper limit number of characters of the system summary, the degree of duplication calculation unit 14 does not exceed the upper limit number of characters of the system summary as shown in the following equation (7). The length or the length exceeding the upper limit number of characters of the system summary can be calculated as an error to be added to the degree of duplication as a penalty. In addition, "C" shown in the following formula (7) indicates a hyperparameter set by the developer or the user of the above learning program.

Figure 2020071737
Figure 2020071737

図14は、誤差付きの重複度の算出方法の一例を示す図である。図14には、上記の式(7)にしたがって誤差付きの重複度Δ(y′,y)が算出される例が示されている。図14に示す例においても、図13に示す例と同様に、ROUGE(trim(y′,byte(y)),y)により、システム要約y′の先頭の単語y′からk−1番目の単語y′k−1まで切り出されたtrim(y′,byte(y))と、参照要約yとの単語の重複度が算出される。さらに、上記の式(7)に従えば、システム要約および参照要約の間の長さの差の絶対値、例えば|byte(y′)−byte(y)|が誤差として重複度に付与される。たとえば、図14の例で言えば、システム要約の長さの方が参照要約よりも大きいので、上限文字数を超える分の長さbyte(y′)−byte(y)が重複度に加算されることにより、誤差付きの重複度Δ(y′,y)が算出される。このように上記の式(7)にしたがってROUGEにより算出される重複度に誤差|byte(y′)−byte(y)|を付与して誤差付きの重複度Δ(y′,y)を算出する。これによって、上限文字数に満たないシステム要約および上限文字数を超えるシステム要約の損失が高まる結果、文字数が上限文字数と一致するシステム要約の評価を高めるモデル学習を実現できる。 FIG. 14 is a diagram showing an example of a method of calculating the degree of overlap with an error. FIG. 14 shows an example in which the degree of overlap Δ (y ′, y) with an error is calculated according to the above equation (7). Also in the example shown in FIG. 14, as in the example shown in FIG. 13, the first word y ′ 1 to k−1 of the system summary y ′ is determined by ROUGE (trim (y ′, byte (y)), y). The word duplication degree between the trim (y ', byte (y)) cut out to the word y'k -1 and the reference summary y is calculated. Further, according to the above equation (7), the absolute value of the difference in length between the system summary and the reference summary, for example, | byte (y ')-byte (y) | is added to the degree of overlap as an error. .. For example, in the example of FIG. 14, since the length of the system summary is larger than that of the reference summary, the length byte (y ′) − byte (y) that exceeds the upper limit number of characters is added to the degree of duplication. Thus, the multiplicity Δ (y ′, y) with an error is calculated. Thus, the error | byte (y ′) − byte (y) | is added to the degree of overlap calculated by ROUGE according to the above equation (7) to calculate the degree of overlap Δ (y ′, y) with an error. To do. As a result, the loss of system summaries that do not reach the maximum number of characters and system summaries that exceed the maximum number of characters increases, and as a result, model learning that enhances the evaluation of system summaries whose number of characters matches the maximum number of characters can be realized.

また、重複度算出部14は、必ずしも上限文字数に満たないシステム要約にまで重複度に付与する誤差を算出せずともかまわない。例えば、重複度算出部14は、下記の式(8)にしたがって、システム要約が上限文字数を超える場合に絞ってシステム要約の上限文字数を超える分の長さを誤差として算出することもできる。   Further, the degree-of-overlap calculation unit 14 may not necessarily calculate the error to be added to the degree of overlap even for system summaries that do not necessarily have the maximum number of characters. For example, the degree-of-overlap calculation unit 14 can calculate the length of the amount exceeding the upper limit number of characters of the system summary as an error by narrowing down when the system summary exceeds the upper limit number of characters according to the following formula (8).

Figure 2020071737
Figure 2020071737

図15は、誤差付きの重複度の算出方法の一例を示す図である。図15には、上記の式(8)にしたがって誤差付きの重複度Δ(y′,y)が算出される例が示されている。図15に示す例においても、図13に示す例と同様に、ROUGE(trim(y′,byte(y)),y)により、システム要約y′の先頭の単語y′からk−1番目の単語y′k−1まで切り出されたtrim(y′,byte(y))と、参照要約yとの単語の重複度が算出される。さらに、システム要約が上限文字数を超える場合、max(0,byte(y′)−byte(y))によって上限文字数を超える分の長さbyte(y′)−byte(y)が重複度に加算されることにより、誤差付きの重複度Δ(y′,y)が算出される。一方、システム要約が上限文字数に満たない場合、max(0,byte(y′)−byte(y))によって「0」が選択されるので、重複度には誤差が付与されず、重複度がそのままΔ(y′,y)として算出される。これによって、上限文字数に満たないシステム要約の損失は高めずに上限文字数を超えるシステム要約の損失が高まる結果、上限文字数以内のシステム要約の評価を高めるモデル学習が実現できる。 FIG. 15 is a diagram illustrating an example of a method of calculating the degree of overlap with an error. FIG. 15 shows an example in which the degree of overlap Δ (y ′, y) with an error is calculated according to the above equation (8). Also in the example shown in FIG. 15, similarly to the example shown in FIG. 13, the first word y ′ 1 to k−1 of the system summary y ′ is determined by ROUGE (trim (y ′, byte (y)), y). The word duplication degree between the trim (y ', byte (y)) cut out to the word y'k -1 and the reference summary y is calculated. Further, when the system summary exceeds the maximum number of characters, max (0, byte (y ')-byte (y)) adds the length byte (y')-byte (y) that exceeds the maximum number of characters to the degree of duplication. By doing so, the degree of overlap Δ (y ′, y) with an error is calculated. On the other hand, when the system summary does not reach the upper limit of the number of characters, “0” is selected by max (0, byte (y ′) − byte (y)), so that no error is added to the degree of duplication and the degree of duplication is It is calculated as Δ (y ′, y) as it is. As a result, the loss of the system summary that is less than the upper limit number of characters is not increased, and the loss of the system summary that exceeds the upper limit number of characters is increased.

このような誤差付きの重複度Δ(y′,y)が算出された後、第1の損失算出部15は、要約生成部12により生成された所定数、例えばS個のシステム要約ごとに、当該システム要約が入力文から生成される生成確率の計算結果と、重複度算出部14により算出された誤差付きの重複度Δ(y′,y)とから第1の損失を算出する。さらに、第1の損失算出部15は、S個のシステム要約ごとに算出され第1の損失を合計する計算を実行することにより、S個のシステム要約y′の集合S(x,θ)に関する第1の損失の和を算出する。   After such a degree of overlap Δ (y ′, y) with an error is calculated, the first loss calculation unit 15 determines, for each predetermined number of system summaries generated by the summary generation unit 12, for example, S system summaries, The first loss is calculated from the calculation result of the generation probability in which the system summary is generated from the input sentence and the multiplicity Δ (y ′, y) with the error calculated by the multiplicity calculation unit 14. Furthermore, the first loss calculation unit 15 executes the calculation for summing the first losses calculated for each of the S system summaries, thereby relating to the set S (x, θ) of the S system summaries y ′. Calculate the sum of the first losses.

図1の説明に戻り、第2の系統には、擬似文を生成する擬似文生成部16と、参照要約の生成確率および擬似文の生成確率を算出する第2の確率算出部17と、上記の第2の損失を算出する第2の損失算出部18とが含まれる。   Returning to the description of FIG. 1, in the second system, a pseudo sentence generation unit 16 that generates a pseudo sentence, a second probability calculation unit 17 that calculates the reference summary generation probability and the pseudo sentence generation probability, and And a second loss calculating section 18 for calculating the second loss of.

例えば、擬似文生成部16は、正解の参照要約yから当該参照要約yに含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文zの集合S′(y)を生成する。このとき、擬似文生成部16は、正解の参照要約yに含まれる単語の語数を変えずに、単語の語順を入れ替えて擬似文zのサンプリングを行うことで、参照要約yとの間で計算されるROUGE値が「1」となる擬似文zを生成することができる。   For example, the pseudo-sentence generator 16 replaces the correct reference summary y with the word order of the words included in the reference summary y to reproduce a set of pseudo sentences z in which a non-grammatical expression is pseudo-reproduced. ) Is generated. At this time, the pseudo-sentence generation unit 16 performs calculation with the reference summary y by changing the word order of the words and sampling the pseudo-sentence z without changing the number of words included in the correct reference summary y. It is possible to generate a pseudo sentence z having a ROUGE value of "1".

ここで、第2の損失が算出される場合、RNNエンコーダ11Aの構成、RNNエンコーダ11Aへの入力およびRNNエンコーダ11Aからの出力は、第1の損失が算出される場合と相違点はない。その一方で、第2の損失が算出される場合、RNNエンコーダ11Aの構成、RNNエンコーダ11Aへの入力およびRNNエンコーダ11Aからの出力は、第1の損失が算出される場合と異なる。   Here, when the second loss is calculated, the configuration of the RNN encoder 11A, the input to the RNN encoder 11A, and the output from the RNN encoder 11A are the same as those when the first loss is calculated. On the other hand, when the second loss is calculated, the configuration of the RNN encoder 11A, the input to the RNN encoder 11A, and the output from the RNN encoder 11A are different from those when the first loss is calculated.

例えば、第2の損失の算出に用いる擬似文zの生成確率が算出される場合、モデル実行部11は、第1のモデル記憶部3に記憶されたモデル情報にしたがって、入力制御部10Iにより入力される擬似文zの単語数Jに対応するJ個のLSTMをワークエリア上に展開する。これによって、J個のLSTMをRNNデコーダ11Bとして機能させる。これらRNNデコーダ11Bには、入力制御部10Iの入力制御にしたがって、RNNエンコーダ11Aから学習サンプルの入力文xの中間表現が入力されると共に、J個のLSTMごとに入力制御部10IからEOSのタグを出力させるまでの残り文字数が入力される。さらに、RNNデコーダ11BのJ個のLSTMには、入力制御部10Iの入力制御にしたがって、1時刻前の擬似文zの単語が入力される。これらの入力にしたがってJ個のLSTMを動作させることにより、RNNデコーダ11Bは、J個のLSMTごとに擬似文zの各時刻における単語の確率を出力する。このようにRNNデコーダ11Bの各LSMTが出力する擬似文zの各時刻における単語の確率に基づいて、第2の確率算出部17は、入力文xから擬似文zが生成される生成確率p(z|x;θ)を算出する。   For example, when the generation probability of the pseudo sentence z used for calculating the second loss is calculated, the model execution unit 11 inputs the input by the input control unit 10I according to the model information stored in the first model storage unit 3. The J LSTMs corresponding to the number J of words of the pseudo sentence z are expanded on the work area. This causes the J LSTMs to function as the RNN decoder 11B. In accordance with the input control of the input control unit 10I, these RNN decoders 11B receive the intermediate representation of the input sentence x of the learning sample from the RNN encoder 11A, and the input control unit 10I outputs the tag of the EOS for each J LSTMs. The remaining number of characters until is output is input. Furthermore, the words of the pseudo sentence z one hour before are input to the J LSTMs of the RNN decoder 11B according to the input control of the input control unit 10I. By operating J LSTMs according to these inputs, the RNN decoder 11B outputs the probability of the word at each time of the pseudo sentence z for each J LSMT. As described above, based on the probability of the word in the pseudo sentence z output by each LSMT of the RNN decoder 11B at each time, the second probability calculator 17 causes the generation probability p (that the pseudo sentence z is generated from the input sentence x to be p ( z | x; θ) is calculated.

以下、図16を用いて、第2のモデル学習の第2の系統における処理内容について説明する。図16は、第2の系統におけるモデルへの入出力の一例を示す図である。図16には、入力制御部10Iにより図3に示す入力文30がRNNエンコーダ11Aへ入力されると共に、図7Dに示すシステム要約と同一の文である擬似文zの各時刻の単語がRNNデコーダ11Bへ入力される例が示されている。なお、RNNエンコーダ11Aの構成、RNNエンコーダ11Aへの入力およびRNNエンコーダ11Aからの出力は、図12に示す例と変わりがないので、RNNデコーダ11Bの説明から開始する。   The processing contents of the second system of the second model learning will be described below with reference to FIG. 16. FIG. 16 is a diagram showing an example of input / output to / from the model in the second system. In FIG. 16, the input control unit 10I inputs the input sentence 30 shown in FIG. 3 to the RNN encoder 11A, and the word at each time of the pseudo sentence z, which is the same sentence as the system summary shown in FIG. 7D, is RNN decoder. An example of input to 11B is shown. Note that the configuration of the RNN encoder 11A, the input to the RNN encoder 11A, and the output from the RNN encoder 11A are the same as in the example shown in FIG. 12, and therefore the description of the RNN decoder 11B will be started.

図16に示すように、モデル実行部11は、入力文30のベクトル、擬似文zの各時刻における単語及びRNNデコーダ11BがEOSを出力するまでの残り文字数などを入力とし、EOSを出力するまで時刻ごとに単語の確率分布を繰り返し計算する。   As illustrated in FIG. 16, the model execution unit 11 receives the vector of the input sentence 30, the word at each time of the pseudo sentence z, the number of remaining characters until the RNN decoder 11B outputs EOS, and the like until the EOS is output. The probability distribution of words is calculated repeatedly at each time.

ここで、擬似文zの生成確率が算出される場合、システム要約が生成される場合と異なり、RNNデコーダ11Bの各時刻のLSTM11bに1時刻前に生成された単語ではなく、擬似文zに含まれる単語のうち1時刻前の擬似文zの単語が入力制御部10Iにより入力される。   Here, unlike the case where the system summary is generated, when the generation probability of the pseudo-sentence z is calculated, the pseudo-sentence z is not included in the pseudo-sentence z, but is included in the pseudo-sentence z, not the word generated one time before in the LSTM 11b of each time of the RNN decoder 11B. The word of the pseudo sentence z one hour before is input from the input control unit 10I.

例えば、1時刻目には、入力制御部10Iは、モデル実行部11が使用するワークエリアに展開されたLSTM11b−1に対し、LSTM11a−Mの出力および文頭記号「BOS」と共に参照要約70の文字数「37」を残り文字数として入力する。ここでは、上限文字数の一例として、参照要約の文字数を採用する場合を例示したが、参照要約の文字数よりも短い文字数に制限してもよいし、参照要約の文字数よりも長い文字数に制限することもできる。これにより、LSTM11b−1によって1時刻目(t=1)における単語の確率分布が出力される。このとき、第2の確率算出部17は、1時刻目における単語の確率分布のうち擬似文zの先頭の単語「AI」に対応する確率を図示しないワークエリアに保存する。   For example, at the first time, the input control unit 10I, for the LSTM 11b-1 expanded in the work area used by the model execution unit 11, outputs the LSTM 11a-M and the prefix "BOS" together with the number of characters in the reference summary 70. Enter "37" as the number of remaining characters. Here, as an example of the upper limit number of characters, the case where the number of characters in the reference summary is adopted has been illustrated, but the number of characters may be limited to a number shorter than the number of characters in the reference summary, or limited to a number of characters longer than the number of characters in the reference summary. You can also As a result, the LSTM 11b-1 outputs the probability distribution of words at the first time (t = 1). At this time, the second probability calculating unit 17 stores the probability corresponding to the first word “AI” of the pseudo sentence z in the probability distribution of the words at the first time in a work area (not shown).

続いて、2時刻目には、入力制御部10Iは、LSTM11b−2に対し、LSTM11b−1の出力および1時刻前の擬似文zの単語「AI」と共に1時刻目の残り文字数から1時刻目の擬似文zの単語「AI」の字数が減算された字数「35」を2時刻目の残り文字数として入力する。これにより、LSTM11b−2によって2時刻目(t=2)における単語の確率分布が出力される。このとき、第2の確率算出部17は、2時刻目における単語の確率分布のうち擬似文zの先頭から2番目の単語「の」に対応する確率を図示しないワークエリアに保存する。   Then, at the second time, the input control unit 10I outputs the first time from the remaining number of characters at the first time to the LSTM11b-2 together with the output of the LSTM11b-1 and the word "AI" of the pseudo sentence z one hour before. The number of characters “35” obtained by subtracting the number of characters of the word “AI” of the pseudo sentence z is input as the number of remaining characters at the second time. As a result, the LSTM 11b-2 outputs the probability distribution of words at the second time (t = 2). At this time, the second probability calculation unit 17 saves the probability corresponding to the second word “no” from the beginning of the pseudo sentence z in the probability distribution of the words at the second time in a work area (not shown).

このようなRNNデコーダ11Bへの入力がJ−2時刻目まで繰り返された後、J−1時刻目には、入力制御部10Iは、LSTM11b−J−1に対し、LSTM11b−J−2の出力および1時刻前の擬似文zの単語「販売」と共に1時刻目の残り文字数からJ−2時刻目の擬似文zの単語「販売」の字数が減算された字数「5」をJ−1時刻目の残り文字数として入力する。これにより、LSTM11b−J−1によってJ−1時刻目(t=J−1)における単語の確率分布が出力される。このとき、第2の確率算出部17は、J−1時刻目における単語の確率分布のうち擬似文zの先頭からJ−1番目の単語「問い合わせ」に対応する確率を図示しないワークエリアに保存する。   After the input to the RNN decoder 11B is repeated until the J-2 time, the input control unit 10I outputs the LSTM11b-J-2 to the LSTM11b-J-1 at the J-1 time. And the word number "5" obtained by subtracting the word number "sales" of the pseudo sentence z at 1 hour before from the remaining character number at the first time, and the word number "5" of the word "sale" of the pseudo sentence z at time J-2. Enter as the number of remaining characters in the eye. As a result, the LSTM 11b-J-1 outputs the probability distribution of words at the J-1 time (t = J-1). At this time, the second probability calculation unit 17 saves the probability corresponding to the J−1th word “inquiry” from the beginning of the pseudo-sentence z in the work area (not shown) in the probability distribution of the words at the J−1th time. To do.

最後に、J時刻目には、入力制御部10Iは、LSTM11b−Jに対し、LSTM11b−J−1の出力および1時刻前の擬似文zの単語「問い合わせ」と共に1時刻目の残り文字数からJ−1時刻目の擬似文zの単語「問い合わせ」の字数が減算された字数「0」をJ時刻目の残り文字数として入力する。これにより、LSTM11b−JによってJ時刻目(t=J)における単語の確率分布が出力される。このとき、第2の確率算出部17は、J時刻目における単語の確率分布のうち擬似文zの先頭からJ番目の単語「EOS」に対応する確率を図示しないワークエリアに保存する。   Finally, at the J-th time, the input control unit 10I outputs to the LSTM 11b-J the output of the LSTM 11b-J-1 and the word "inquiry" of the pseudo-sentence z one hour before, from the remaining number of characters at the 1st time to the J-number. The number of characters "0" obtained by subtracting the number of characters of the word "inquiry" of the pseudo sentence z at time -1 is input as the number of remaining characters at time J. As a result, the LSTM 11b-J outputs the probability distribution of words at the J-th time (t = J). At this time, the second probability calculation unit 17 stores the probability corresponding to the Jth word “EOS” from the beginning of the pseudo sentence z in the probability distribution of the words at the Jth time in a work area (not shown).

このようにワークエリアに保存された擬似文zの各時刻における単語の確率に基づいて、第2の確率算出部17は、入力文xから擬似文zが生成される生成確率p(z|x;θ)を算出する。これによって、擬似文zごとに当該擬似文zの生成確率を求めることができる。   As described above, the second probability calculation unit 17 uses the probability of the pseudo sentence z stored in the work area at each time to generate the pseudo sentence z from the input sentence x. ; Θ) is calculated. Thereby, the generation probability of the pseudo sentence z can be obtained for each pseudo sentence z.

なお、第2の損失の算出に用いる参照要約yの生成確率が算出される場合も、擬似文zの生成確率を算出する場合と同様にして参照要約yの生成確率を算出することができる。すなわち、モデル実行部11は、第1のモデル記憶部3に記憶されたモデル情報にしたがって、入力制御部10Iにより入力される参照要約yの単語数Iに対応するI個のLSTMをワークエリア上に展開する。これによって、I個のLSTMをRNNデコーダ11Bとして機能させる。これらRNNデコーダ11Bには、入力制御部10Iの入力制御にしたがって、RNNエンコーダ11Aから学習サンプルの入力文xの中間表現が入力されると共に、I個のLSTMごとに入力制御部10IからEOSのタグを出力させるまでの残り文字数が入力される。さらに、RNNデコーダ11BのI個のLSTMには、入力制御部10Iの入力制御にしたがって、1時刻前の参照要約yの単語が入力される。これらの入力にしたがってI個のLSTMを動作させることにより、RNNデコーダ11Bは、I個のLSMTごとに参照要約yの各時刻における単語の確率を出力する。このようにRNNデコーダ11Bの各LSMTが出力する参照要約yの各時刻における単語の確率に基づいて、第2の確率算出部17は、入力文xから参照要約yが生成される生成確率p(y|x;θ)を算出する。   Even when the generation probability of the reference summary y used to calculate the second loss is calculated, the generation probability of the reference summary y can be calculated in the same manner as when calculating the generation probability of the pseudo sentence z. That is, the model execution unit 11 sets, on the work area, I LSTMs corresponding to the word number I of the reference summary y input by the input control unit 10I according to the model information stored in the first model storage unit 3. Expand to. As a result, the I LSTMs function as the RNN decoder 11B. In accordance with the input control of the input control unit 10I, the RNN decoder 11B receives the intermediate representation of the input sentence x of the learning sample from the RNN encoder 11A, and the input control unit 10I outputs the EOS tag for each I LSTM. The remaining number of characters until is output is input. Further, the word of the reference summary y one hour before is input to the I LSTMs of the RNN decoder 11B according to the input control of the input control unit 10I. By operating I LSTMs according to these inputs, the RNN decoder 11B outputs the probability of the word at each time of the reference summary y for each I LSMT. As described above, based on the word probabilities at each time of the reference summary y output by each LSMT of the RNN decoder 11B, the second probability calculation unit 17 causes the generation probability p (that the reference summary y is generated from the input sentence x. y | x; θ) is calculated.

このように擬似文zの生成確率が算出された後、第2の損失算出部18は、擬似文zの生成確率および参照要約yの生成確率を比較する。このとき、擬似文zの生成確率が参照要約yの生成確率よりも大きい場合、第2の損失算出部18は、擬似文zの生成確率および参照要約yの生成確率の差、すなわちp(z|x;θ)−p(y|x;θ)を第2の損失として算出する。一方、擬似文zの生成確率が参照要約yの生成確率よりも大きくない場合、第2の損失算出部18は、所定の設定値、例えばゼロ以上の値を第2の損失として算出する。その後、第2の損失算出部15は、擬似文zごとに算出され第2の損失を合計する計算を実行することにより、S′個の擬似文zの集合S′(y)に関する第2の損失の和を算出する。 After the generation probability of the pseudo sentence z is calculated in this way, the second loss calculation unit 18 compares the generation probability of the pseudo sentence z and the generation probability of the reference summary y. At this time, when the generation probability of the pseudo-sentence z is larger than the generation probability of the reference summary y, the second loss calculation unit 18 causes the difference between the generation probability of the pseudo-sentence z 1 and the generation probability of the reference summary y, that is, p ( z | x; θ) -p (y | x; θ) is calculated as the second loss. On the other hand, when the generation probability of the pseudo sentence z is not higher than the generation probability of the reference summary y, the second loss calculation unit 18 calculates a predetermined set value, for example, a value of zero or more as the second loss. After that, the second loss calculation unit 15 executes the calculation for summing the second losses calculated for each pseudo-sentence z, and thereby the second loss regarding the set S ′ (y) of S ′ pseudo-sentences z. Calculate the sum of the losses.

以上のように、学習データに含まれる全ての学習サンプルについて、S個のシステム要約に対する第1の損失の和およびS′個の擬似文zに対する第2の損失の和を算出する処理が繰り返し実行される。このように学習データに含まれる全ての学習サンプルについて第1の損失の和および第2の損失の和が算出されると、更新部19は、上記の式(2)に示す目的関数L(θ)が最小化されるモデルのパラメータθにモデルのパラメータを更新する。このように更新されたモデルのパラメータが第2のモデル記憶部8へ保存される。このパラメータθの更新は、学習データDについて所定の回数にわたって繰り返すことができる。この結果、第2のモデル記憶部8に保存されたモデル情報は、要約文の生成モデルとして提供することができる。   As described above, the process of calculating the sum of the first loss for S system summaries and the sum of the second loss for S ′ pseudo sentences z is repeatedly executed for all learning samples included in the learning data. To be done. When the sum of the first loss and the sum of the second loss are calculated for all the learning samples included in the learning data in this way, the updating unit 19 causes the objective function L (θ ) Updates the model parameters to the model parameter θ that is minimized. The model parameters updated in this way are stored in the second model storage unit 8. This updating of the parameter θ can be repeated for the learning data D a predetermined number of times. As a result, the model information stored in the second model storage unit 8 can be provided as a summary sentence generation model.

[処理の流れ]
図17は、実施例1に係る学習処理の手順を示すフローチャートである。図17に示す学習処理のフローチャートは、第2の学習部10により実行される第2のモデル学習の手順が図式化されたものである。図17には、あくまで一例として、上記の式(8)にしたがって誤差付きの重複度が算出される例のフローチャートが示されている。例えば、第2の学習部10におけるモデルの学習速度を向上させる側面から、第1の学習部5による第1のモデル学習を前処理として実行させてから第1の学習部5により学習されたモデルのパラメータを用いて図17に示す学習処理を開始することができる。
[Process flow]
FIG. 17 is a flowchart illustrating the procedure of the learning process according to the first embodiment. The flowchart of the learning process shown in FIG. 17 is a schematic representation of the procedure of the second model learning executed by the second learning unit 10. FIG. 17 shows, as an example only, a flowchart of an example in which the degree of overlap with error is calculated according to the above equation (8). For example, from the aspect of improving the learning speed of the model in the second learning unit 10, the model learned by the first learning unit 5 after the first model learning by the first learning unit 5 is executed as preprocessing. It is possible to start the learning process shown in FIG.

図17に示すように、学習データに含まれるD個の学習サンプルごとに、ステップS101〜ステップS103の処理が実行される。すなわち、入力制御部10Iは、学習データ記憶部2に記憶された学習データに含まれる学習サンプルのうち1つを取得する(ステップS101)。   As shown in FIG. 17, the processes of steps S101 to S103 are executed for each D learning samples included in the learning data. That is, the input control unit 10I acquires one of the learning samples included in the learning data stored in the learning data storage unit 2 (step S101).

このようにステップS101で取得された学習サンプルが第1の系統に入力されることにより、第1の損失算出処理が実行される(ステップS102)。   By inputting the learning sample acquired in step S101 to the first system in this manner, the first loss calculation process is executed (step S102).

(1)第1の損失算出処理
図18は、実施例1に係る第1の損失算出処理の手順を示すフローチャートである。この処理は、上記のステップS102の処理に対応する。図18に示すように、要約生成部12は、RNNデコーダから出力される単語の確率分布に基づいて単語を時刻ごとにサンプリングすることにより、ステップS101で取得された学習サンプルの入力文xに対するS個のシステム要約y′を生成する(ステップS301)。そして、第1の確率算出部13は、ステップS301で生成されたS個のシステム要約y′の生成確率を算出する(ステップS302)。
(1) First Loss Calculation Processing FIG. 18 is a flowchart showing the procedure of the first loss calculation processing according to the first embodiment. This process corresponds to the process of step S102 described above. As illustrated in FIG. 18, the abstraction generation unit 12 samples the words for each time based on the probability distribution of the words output from the RNN decoder, thereby performing the S for the input sentence x of the learning sample acquired in step S101. Individual system summaries y'are generated (step S301). Then, the first probability calculation unit 13 calculates the generation probability of the S system summaries y ′ generated in step S301 (step S302).

その後、ステップS301で生成されたS個のシステム要約y′ごとに、下記のステップS303〜下記のステップS306の処理が実行される。すなわち、重複度算出部14Eは、上記の式(8)に示すtrim(y′,byte(y))にしたがってシステム要約y′から上限文字数、例えば参照要約yに対応するバイト数の単語を切り出す(ステップS303)。   After that, the processing of the following step S303 to the following step S306 is executed for each of the S system summaries y'generated in step S301. That is, the degree-of-overlap calculation unit 14E cuts out a word having the maximum number of characters, for example, the number of bytes corresponding to the reference summary y, from the system summary y ′ according to trim (y ′, byte (y)) shown in the above equation (8). (Step S303).

その上で、重複度算出部14は、上記の式(8)に示すROUGE(trim(y′,byte(y)),y)にしたがってステップS303で切り出されたtrim(y′,byte(y))と、参照要約yとの単語の重複度を算出する(ステップS304)。   Then, the degree-of-overlap calculation unit 14 trim (y ', byte (y) cut out in step S303 according to ROUGE (trim (y', byte (y)), y) shown in the above equation (8). )) And the reference summary y, the degree of word overlap is calculated (step S304).

また、重複度算出部14は、上記の式(8)に示すmax(0,byte(y′)−byte(y))にしたがってシステム要約y′が上限文字数を超える分の長さbyte(y′)−byte(y)を誤差として算出する(ステップS305)。なお、システム要約が上限文字数に満たない場合、max(0,byte(y′)−byte(y))によって「0」が選択されるので、重複度に付与する誤差は「0」と算出される。   Further, the degree-of-overlap calculation unit 14 has a length byte (y) for which the system summary y ′ exceeds the upper limit number of characters according to max (0, byte (y ′) − byte (y)) shown in the above equation (8). ′) −Byte (y) is calculated as an error (step S305). If the system summary is less than the upper limit number of characters, “0” is selected by max (0, byte (y ′) − byte (y)), and thus the error to be added to the degree of duplication is calculated as “0”. It

これらステップS304で算出された重複度にステップS305で算出された誤差が付与されることにより、誤差付きの重複度Δ(y′,y)が導出される。   By adding the error calculated in step S305 to the multiplicity calculated in step S304, the multiplicity Δ (y ′, y) with an error is derived.

その後、第1の損失算出部15は、ステップS302で算出されたシステム要約y′に対する確率の計算結果と、誤差付きの重複度Δ(y′,y)とから第1の損失を算出する(ステップS306)。   After that, the first loss calculating unit 15 calculates the first loss from the calculation result of the probability for the system summary y ′ calculated in step S302 and the overlapping degree Δ (y ′, y) with an error (( Step S306).

ステップS301で生成されたS個のシステム要約y′ごとに第1の損失が算出されると、第1の損失算出部15は、S個のシステム要約ごとに算出された第1の損失を合計する計算を実行することにより、システム要約y′の集合S(x,θ)に対応する第1の損失の和を算出し(ステップS307)、図17に示されたステップS102の処理を終了する。   When the first loss is calculated for each of the S system summaries y ′ generated in step S301, the first loss calculation unit 15 totals the first losses calculated for each of the S system summaries. Is executed to calculate the first loss sum corresponding to the set S (x, θ) of the system summary y ′ (step S307), and the process of step S102 shown in FIG. 17 is ended. ..

図17の説明に戻り、ステップS101で取得された学習サンプルが第2の系統に入力されることにより、第2の損失算出処理が実行される(ステップS103)。   Returning to the description of FIG. 17, the learning sample acquired in step S101 is input to the second system, whereby the second loss calculation process is executed (step S103).

(2)第2の損失算出処理
図19は、実施例1に係る第2の損失算出処理の手順を示すフローチャートである。この処理は、上記のステップS103の処理に対応する。図19に示すように、擬似文生成部16は、正解の参照要約yから当該参照要約yに含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文zの集合S′(y)を生成する(ステップS501)。
(2) Second Loss Calculation Processing FIG. 19 is a flowchart showing the procedure of the second loss calculation processing according to the first embodiment. This process corresponds to the process of step S103 described above. As illustrated in FIG. 19, the pseudo-sentence generating unit 16 replaces the correct reference summary y with the word order of the words included in the reference summary y to reproduce the pseudo-sentence z of the pseudo-sentence z. A set S '(y) is generated (step S501).

その後、ステップS501で生成されたS′個の擬似文zごとに、下記のステップS502〜下記のステップS505の処理が実行される。すなわち、第2の確率算出部17は、入力文xから擬似文zが生成される生成確率p(z|x;θ)を算出する(ステップS502)。その上で、第2の損失算出部18は、ステップS502で算出された擬似文zの生成確率および参照要約yの生成確率を比較する(ステップS503)。   After that, the processing of the following step S502 to the following step S505 is executed for each of the S'pseudo sentences z generated in step S501. That is, the second probability calculator 17 calculates the generation probability p (z | x; θ) of generating the pseudo sentence z from the input sentence x (step S502). Then, the second loss calculation unit 18 compares the generation probability of the pseudo sentence z calculated in step S502 and the generation probability of the reference summary y (step S503).

ここで、擬似文zの生成確率が参照要約yの生成確率よりも大きい場合(ステップS503Yes)、第2の損失算出部18は、次のような処理を実行する。すなわち、第2の損失算出部18は、上記の式(3)にしたがって擬似文zの生成確率および参照要約yの生成確率の差、すなわちp(z|x;θ)−p(y|x;θ)を第2の損失として算出する(ステップS504)。 Here, when the generation probability of the pseudo sentence z is larger than the generation probability of the reference summary y (Yes in step S503), the second loss calculation unit 18 executes the following process. That is, the second loss calculating unit 18 calculates the difference between the generation probability of the pseudo-sentence z 1 and the generation probability of the reference summary y, that is, p (z | x; θ) -p (y | x; θ) is calculated as the second loss (step S504).

一方、擬似文zの生成確率が参照要約yの生成確率よりも大きくない場合(ステップS503No)、第2の損失算出部18は、上記の式(3)にしたがって所定の設定値、例えばゼロ以上の値を第2の損失として算出する(ステップS505)。   On the other hand, when the generation probability of the pseudo-sentence z is not larger than the generation probability of the reference summary y (No in step S503), the second loss calculation unit 18 sets a predetermined set value according to the above equation (3), for example, zero or more. Is calculated as the second loss (step S505).

その後、ステップS501で生成されたS′個の擬似文zごとに第2の損失が算出されると、第2の損失算出部18は、次のような処理を実行する。すなわち、第2の損失算出部18は、S′個の擬似文ごとに算出された第2の損失を合計する計算を実行することにより、擬似文zの集合S′(x,θ)に対応する第2の損失の和を算出し(ステップS506)、図17に示されたステップS103の処理を終了する。   After that, when the second loss is calculated for each of the S ′ pseudo sentences z generated in step S501, the second loss calculation unit 18 executes the following processing. That is, the second loss calculating unit 18 executes the calculation for summing the second losses calculated for each of S ′ pseudo sentences, thereby corresponding to the set S ′ (x, θ) of the pseudo sentences z. The sum of the second losses to be calculated is calculated (step S506), and the process of step S103 shown in FIG. 17 is ended.

その後、学習データに含まれる全ての学習サンプルについて、システム要約y′の集合S(x,θ)に対応する第1の損失の和と、擬似文zの集合S′(x,θ)に対応する第2の損失の和とが算出されると、更新部19は、第2のモデル記憶部8に記憶されるモデルのパラメータを上記の式(2)に示す目的関数L(θ)が最小化されるモデルのパラメータθに更新し(ステップS104)、処理を終了する。   After that, for all learning samples included in the learning data, the sum of the first loss corresponding to the set S (x, θ) of the system summary y ′ and the set S ′ (x, θ) of the pseudo sentence z are associated. When the sum of the second losses is calculated, the updating unit 19 determines the model parameter stored in the second model storage unit 8 as the minimum objective function L (θ) shown in the above equation (2). The parameter θ of the model to be converted is updated (step S104), and the process ends.

[効果の一側面]
上述してきたように、本実施例に係る学習装置1は、正解の参照要約に含まれる単語の語順を入れ替えて非文法的な表現が擬似的に再現された擬似文を生成し、モデルが擬似文を生成する確率よりもモデルが参照要約を生成する確率が高くなるようにモデルのパラメータを更新する。このため、参照要約と単語の重複度は高く、かつ参照要約と語順が異なるシステム要約の生成確率を上げる作用を与えつつ、参照要約と単語の重複度が高い要約文の中でも非文法的な表現を含む擬似文の生成にペナルティを課す反作用を与えることができる。それ故、参照要約と単語の重複度が高い要約文の中でも非文法的な表現が含まれないシステム要約の生成確率を上げるパラメータの更新を実現できる。したがって、本実施例に係る学習装置1によれば、可読性が低い要約文を生成するモデルが学習されるのを抑制することができる。
[One side of effect]
As described above, the learning device 1 according to the present exemplary embodiment generates the pseudo sentence in which the non-grammatical expressions are pseudo reproduced by changing the word order of the words included in the correct reference summary, and the model is simulated. Update the model parameters so that the model has a higher probability of generating a reference summary than a sentence generating probability. For this reason, the non-grammatical expression is provided even in a summary sentence having a high degree of overlap between the reference summary and the word, while having the effect of increasing the probability of generating a system summary having a high degree of overlap between the reference summary and the word and a word order different from that of the reference summary. A reaction that imposes a penalty on the generation of pseudo sentences including Therefore, it is possible to update the parameters that increase the generation probability of a system summary that does not include a non-grammatical expression even in a summary sentence with a high degree of word duplication. Therefore, according to the learning device 1 according to the present embodiment, it is possible to suppress the learning of the model that generates the abstract sentence having low readability.

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。   Although the embodiments of the disclosed device have been described so far, the present invention may be implemented in various different forms other than the embodiments described above. Therefore, other embodiments included in the present invention will be described below.

[分散および統合]
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、第1の学習部5または第2の学習部10を学習装置1の外部装置としてネットワーク経由で接続するようにしてもよい。また、第1の学習部5または第2の学習部10を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の学習装置1の機能を実現するようにしてもよい。また、学習データ記憶部2、第1のモデル記憶部3または第2のモデル記憶部8の全部または一部を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の学習装置1の機能を実現するようにしてもかまわない。
Distributed and integrated
In addition, each component of each illustrated device may not necessarily be physically configured as illustrated. That is, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part of the device may be functionally or physically distributed / arranged in arbitrary units according to various loads or usage conditions. It can be integrated and configured. For example, the first learning unit 5 or the second learning unit 10 may be connected as an external device of the learning device 1 via a network. Further, the functions of the learning device 1 may be realized by having the first learning unit 5 or the second learning unit 10 in another device, respectively, and connecting the devices by network to cooperate with each other. Further, another device has all or part of the learning data storage unit 2, the first model storage unit 3, or the second model storage unit 8, respectively, and is connected to a network to cooperate with each other to perform the learning described above. The function of the device 1 may be realized.

[学習プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図20を用いて、上記の実施例と同様の機能を有する学習プログラムを実行するコンピュータの一例について説明する。
[Learning program]
The various processes described in the above embodiments can be realized by executing a prepared program on a computer such as a personal computer or a workstation. Therefore, an example of a computer that executes a learning program having the same functions as those in the above-described embodiment will be described below with reference to FIG.

図20は、実施例1及び実施例2に係る学習プログラムを実行するコンピュータのハードウェア構成例を示す図である。図20に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110〜180の各部はバス140を介して接続される。   FIG. 20 is a diagram illustrating a hardware configuration example of a computer that executes a learning program according to the first and second embodiments. As shown in FIG. 20, the computer 100 includes an operation unit 110a, a speaker 110b, a camera 110c, a display 120, and a communication unit 130. Further, the computer 100 has a CPU 150, a ROM 160, an HDD 170, and a RAM 180. Each of these units 110 to 180 is connected via a bus 140.

HDD170には、図20に示すように、上記の実施例1で示した第2の学習部10と同様の機能を発揮する学習プログラム170aが記憶される。この学習プログラム170aは、図1に示した第2の学習部10の各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。   As shown in FIG. 20, the HDD 170 stores a learning program 170a having the same function as that of the second learning unit 10 described in the first embodiment. This learning program 170a may be integrated or separated similarly to each component of the second learning unit 10 shown in FIG. That is, the HDD 170 does not necessarily need to store all the data described in the first embodiment, and the data used for the processing may be stored in the HDD 170.

このような環境の下、CPU150は、HDD170から学習プログラム170aを読み出した上でRAM180へ展開する。この結果、学習プログラム170aは、図20に示すように、学習プロセス180aとして機能する。この学習プロセス180aは、RAM180が有する記憶領域のうち学習プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、学習プロセス180aが実行する処理の一例として、図17〜図19に示す処理などが含まれる。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。   Under such an environment, the CPU 150 reads out the learning program 170a from the HDD 170 and loads it on the RAM 180. As a result, the learning program 170a functions as a learning process 180a, as shown in FIG. The learning process 180a expands various data read from the HDD 170 in the area allocated to the learning process 180a in the storage area of the RAM 180, and executes various processes using the expanded various data. For example, the processing shown in FIGS. 17 to 19 is included as an example of the processing executed by the learning process 180a. In the CPU 150, not all the processing units shown in the above-described first embodiment need to operate, and the processing unit corresponding to the processing to be executed may be virtually realized.

なお、上記の学習プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に学習プログラム170aを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から学習プログラム170aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに学習プログラム170aを記憶させておき、コンピュータ100がこれらから学習プログラム170aを取得して実行するようにしてもよい。   The learning program 170a does not necessarily have to be stored in the HDD 170 or the ROM 160 from the beginning. For example, the learning program 170a is stored in a “portable physical medium” such as a flexible disk inserted into the computer 100, a so-called FD, a CD-ROM, a DVD disk, a magneto-optical disk, an IC card, or the like. Then, the computer 100 may acquire and execute the learning program 170a from these portable physical media. Further, the learning program 170a is stored in another computer or a server device connected to the computer 100 via a public line, the Internet, a LAN, a WAN, etc., and the computer 100 acquires and executes the learning program 170a from these. You may do so.

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。   The following supplementary notes will be further disclosed regarding the embodiments including the above-described examples.

(付記1)入力文から要約文を生成するモデルの機械学習を行う学習方法であって、
入力文および正解の要約文を取得し、
前記正解の要約文に含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文を生成し、
前記モデルによって前記擬似文が前記入力文から生成される前記擬似文の生成確率、および、前記モデルによって前記正解の要約文が前記入力文から生成される前記正解の要約文の生成確率に基づいて前記モデルのパラメータを更新する、
処理をコンピュータが実行することを特徴とする学習方法。
(Supplementary Note 1) A learning method for performing machine learning of a model for generating a summary sentence from an input sentence,
Get the input sentence and the summary of the correct answer,
Generating a pseudo sentence in which a non-grammatical expression is pseudo reproduced by exchanging the word order of the words included in the correct answer summary sentence,
Based on the generation probability of the pseudo sentence in which the pseudo sentence is generated from the input sentence by the model, and the generation probability of the correct summary sentence in which the correct answer summary sentence is generated from the input sentence by the model Updating the parameters of the model,
A learning method characterized in that a computer executes the processing.

(付記2)前記更新する処理は、前記正解の要約文の生成確率が前記擬似文の生成確率よりも高くなるように前記モデルのパラメータを更新することを特徴とする付記1に記載の学習方法。 (Supplementary note 2) The learning method according to Supplementary note 1, wherein in the updating process, the parameters of the model are updated so that the probability of generation of the correct summary sentence is higher than the probability of generation of the pseudo sentence. ..

(付記3)前記更新する処理は、前記擬似文の生成確率が前記正解の要約文の生成確率よりも高い場合、前記擬似文の生成確率および前記正解の要約文の生成確率の差を損失に加算して前記モデルのパラメータを更新し、前記擬似文の生成確率が前記正解の要約文の生成確率よりも高くない場合、前記擬似文の生成確率および前記正解の要約文の生成確率の差を損失に加算せずに前記モデルのパラメータを更新することを特徴とする付記2に記載の学習方法。 (Supplementary Note 3) In the updating process, if the pseudo-sentence generation probability is higher than the correct-answer summary generation probability, the difference between the pseudo-sentence generation probability and the correct-answer summary sentence generation probability is lost. If the probability of generation of the pseudo-sentence is not higher than the generation probability of the summary sentence of the correct answer, the difference between the generation probability of the pseudo-sentence and the generation probability of the summary sentence of the correct answer is added. The learning method according to appendix 2, wherein the parameters of the model are updated without being added to the loss.

(付記4)前記入力文を前記モデルへ入力することにより生成された複数の要約文ごとに、前記モデルにより前記要約文が前記入力文から生成される前記要約文の生成確率を算出し、
前記複数の要約文ごとに、前記要約文および前記正解の要約文の単語の重複度を算出する処理を前記コンピュータがさらに実行し、
前記更新する処理は、前記複数の要約文ごとに算出された前記要約文の生成確率と、前記複数の要約文ごとに算出された単語の重複度と、前記擬似文の生成確率および前記正解の要約文の生成確率とに基づいて前記モデルのパラメータを更新することを特徴とする付記1に記載の学習方法。
(Supplementary Note 4) For each of a plurality of summary sentences generated by inputting the input sentence into the model, a generation probability of the summary sentence in which the summary sentence is generated from the input sentence by the model is calculated,
For each of the plurality of summary sentences, the computer further executes a process of calculating the degree of overlap of words in the summary sentence and the correct answer summary sentence,
The updating process includes the generation probability of the summary sentence calculated for each of the plurality of summary sentences, the degree of word duplication calculated for each of the plurality of summary sentences, the generation probability of the pseudo sentence, and the correct answer. The learning method according to appendix 1, wherein the parameters of the model are updated based on the generation probability of the summary sentence.

(付記5)前記生成する処理は、前記正解の要約文に含まれる単語の語数を変えずに単語の語順を入れ替えることにより前記擬似文を生成することを特徴とする付記1に記載の学習方法。 (Supplementary note 5) The learning method according to Supplementary note 1, wherein the generating process generates the pseudo-sentence by changing the word order of words without changing the number of words included in the correct answer summary sentence. ..

(付記6)入力文から要約文を生成するモデルの機械学習を実行させる学習プログラムであって、
入力文および正解の要約文を取得し、
前記正解の要約文に含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文を生成し、
前記モデルによって前記擬似文が前記入力文から生成される前記擬似文の生成確率、および、前記モデルによって前記正解の要約文が前記入力文から生成される前記正解の要約文の生成確率に基づいて前記モデルのパラメータを更新する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
(Supplementary note 6) A learning program for executing machine learning of a model for generating a summary sentence from an input sentence,
Get the input sentence and the summary of the correct answer,
Generating a pseudo sentence in which a non-grammatical expression is pseudo reproduced by exchanging the word order of the words included in the correct answer summary sentence,
Based on the generation probability of the pseudo sentence in which the pseudo sentence is generated from the input sentence by the model, and the generation probability of the correct summary sentence in which the correct answer summary sentence is generated from the input sentence by the model Updating the parameters of the model,
A learning program characterized by causing a computer to execute processing.

(付記7)前記更新する処理は、前記正解の要約文の生成確率が前記擬似文の生成確率よりも高くなるように前記モデルのパラメータを更新することを特徴とする付記6に記載の学習プログラム。 (Supplementary note 7) The learning program according to Supplementary note 6, wherein the updating process updates the parameters of the model such that the probability of generation of the correct summary sentence is higher than the probability of generation of the pseudo sentence. ..

(付記8)前記更新する処理は、前記擬似文の生成確率が前記正解の要約文の生成確率よりも高い場合、前記擬似文の生成確率および前記正解の要約文の生成確率の差を損失に加算して前記モデルのパラメータを更新し、前記擬似文の生成確率が前記正解の要約文の生成確率よりも高くない場合、前記擬似文の生成確率および前記正解の要約文の生成確率の差を損失に加算せずに前記モデルのパラメータを更新することを特徴とする付記7に記載の学習プログラム。 (Supplementary Note 8) In the updating process, if the pseudo-sentence generation probability is higher than the correct-answer summary generation probability, the difference between the pseudo-sentence generation probability and the correct-answer summary sentence generation probability is lost. If the probability of generation of the pseudo-sentence is not higher than the generation probability of the summary sentence of the correct answer, the difference between the generation probability of the pseudo-sentence and the generation probability of the summary sentence of the correct answer is added. The learning program according to appendix 7, wherein the parameters of the model are updated without being added to the loss.

(付記9)前記入力文を前記モデルへ入力することにより生成された複数の要約文ごとに、前記モデルにより前記要約文が前記入力文から生成される前記要約文の生成確率を算出し、
前記複数の要約文ごとに、前記要約文および前記正解の要約文の単語の重複度を算出する処理を前記コンピュータにさらに実行させ、
前記更新する処理は、前記複数の要約文ごとに算出された前記要約文の生成確率と、前記複数の要約文ごとに算出された単語の重複度と、前記擬似文の生成確率および前記正解の要約文の生成確率とに基づいて前記モデルのパラメータを更新することを特徴とする付記6に記載の学習プログラム。
(Supplementary Note 9) For each of a plurality of summary sentences generated by inputting the input sentence into the model, a generation probability of the summary sentence in which the summary sentence is generated from the input sentence by the model is calculated,
For each of the plurality of summary sentences, further causes the computer to perform a process of calculating the degree of overlap of words in the summary sentence and the correct answer summary sentence,
The updating process includes the generation probability of the summary sentence calculated for each of the plurality of summary sentences, the degree of word duplication calculated for each of the plurality of summary sentences, the generation probability of the pseudo sentence, and the correct answer. 7. The learning program according to appendix 6, wherein the parameters of the model are updated based on the summary sentence generation probability.

(付記10)前記生成する処理は、前記正解の要約文に含まれる単語の語数を変えずに単語の語順を入れ替えることにより前記擬似文を生成することを特徴とする付記6に記載の学習プログラム。 (Supplementary note 10) The learning program according to supplementary note 6, wherein the generating process generates the pseudo-sentence by changing the word order of words without changing the number of words included in the correct answer summary sentence. ..

(付記11)入力文から要約文を生成するモデルの機械学習を行う学習装置であって、
入力文および正解の要約文を取得する取得部と、
前記正解の要約文に含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文を生成する擬似文生成部と、
前記モデルによって前記擬似文が前記入力文から生成される前記擬似文の生成確率、および、前記モデルによって前記正解の要約文が前記入力文から生成される前記正解の要約文の生成確率に基づいて前記モデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
(Supplementary note 11) A learning device for performing machine learning of a model for generating a summary sentence from an input sentence,
An acquisition unit that acquires the input sentence and the summary of the correct answer,
A pseudo-sentence generating unit that generates a pseudo-sentence in which a non-grammatical expression is pseudo-reproduced by changing the word order of the words included in the correct answer summary sentence,
Based on the generation probability of the pseudo sentence in which the pseudo sentence is generated from the input sentence by the model, and the generation probability of the correct answer summary sentence in which the correct answer summary sentence is generated from the input sentence by the model An updating unit for updating the parameters of the model,
A learning device having:

(付記12)前記更新部は、前記正解の要約文の生成確率が前記擬似文の生成確率よりも高くなるように前記モデルのパラメータを更新することを特徴とする付記11に記載の学習装置。 (Supplementary note 12) The learning device according to supplementary note 11, wherein the updating unit updates the parameters of the model such that the probability of generation of the correct summary sentence is higher than the probability of generation of the pseudo sentence.

(付記13)前記更新部は、前記擬似文の生成確率が前記正解の要約文の生成確率よりも高い場合、前記擬似文の生成確率および前記正解の要約文の生成確率の差を損失に加算して前記モデルのパラメータを更新し、前記擬似文の生成確率が前記正解の要約文の生成確率よりも高くない場合、前記擬似文の生成確率および前記正解の要約文の生成確率の差を損失に加算せずに前記モデルのパラメータを更新することを特徴とする付記12に記載の学習装置。 (Supplementary Note 13) The updating unit adds the difference between the generation probability of the pseudo sentence and the generation probability of the correct summary sentence to the loss when the generation probability of the pseudo sentence is higher than the generation probability of the correct summary sentence. Then, the model parameters are updated, and if the pseudo-sentence generation probability is not higher than the correct-answer summary sentence generation probability, the difference between the pseudo-sentence generation probability and the correct-answer summary sentence generation probability is lost. 13. The learning device according to appendix 12, wherein the parameters of the model are updated without being added to.

(付記14)前記入力文を前記モデルへ入力することにより生成された複数の要約文ごとに、前記モデルにより前記要約文が前記入力文から生成される前記要約文の生成確率を算出する確率算出部と、
前記複数の要約文ごとに、前記要約文および前記正解の要約文の単語の重複度を算出する重複度算出部とをさらに有し、
前記更新部は、前記複数の要約文ごとに算出された前記要約文の生成確率と、前記複数の要約文ごとに算出された単語の重複度と、前記擬似文の生成確率および前記正解の要約文の生成確率とに基づいて前記モデルのパラメータを更新することを特徴とする付記11に記載の学習装置。
(Supplementary Note 14) Probability calculation for calculating, for each of a plurality of summary sentences generated by inputting the input sentence into the model, a generation probability of the summary sentence generated by the model from the input sentence. Department,
For each of the plurality of summary sentences, further has a multiplicity calculation unit that calculates the multiplicity of words of the summary sentence and the correct summary sentence,
The update unit, the generation probability of the summary sentence calculated for each of the plurality of summary sentences, the degree of word duplication calculated for each of the plurality of summary sentences, the generation probability of the pseudo sentence and the summary of the correct answer. The learning device according to appendix 11, wherein the parameters of the model are updated based on a sentence generation probability.

(付記15)前記擬似文生成部は、前記正解の要約文に含まれる単語の語数を変えずに単語の語順を入れ替えることにより前記擬似文を生成することを特徴とする付記11に記載の学習装置。 (Supplementary note 15) The learning according to supplementary note 11, wherein the pseudo-sentence generating unit generates the pseudo-sentence by changing the word order of words without changing the number of words included in the correct answer summary sentence. apparatus.

1 学習装置
2 学習データ記憶部
3 第1のモデル記憶部
5 第1の学習部
5I 入力制御部
6 モデル実行部
7 更新部
8 第2のモデル記憶部
10 第2の学習部
10I 入力制御部
11 モデル実行部
12 要約生成部
13 第1の確率算出部
14 重複度算出部
15 第1の損失算出部
16 擬似文生成部
17 第2の確率算出部
18 第2の損失算出部
19 更新部
1 Learning Device 2 Learning Data Storage Unit 3 First Model Storage Unit 5 First Learning Unit 5I Input Control Unit 6 Model Execution Unit 7 Update Unit 8 Second Model Storage Unit 10 Second Learning Unit 10I Input Control Unit 11 Model execution unit 12 Summary generation unit 13 First probability calculation unit 14 Duplication degree calculation unit 15 First loss calculation unit 16 Pseudo-sentence generation unit 17 Second probability calculation unit 18 Second loss calculation unit 19 Update unit

Claims (7)

入力文から要約文を生成するモデルの機械学習を行う学習方法であって、
入力文および正解の要約文を取得し、
前記正解の要約文に含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文を生成し、
前記モデルによって前記擬似文が前記入力文から生成される前記擬似文の生成確率、および、前記モデルによって前記正解の要約文が前記入力文から生成される前記正解の要約文の生成確率に基づいて前記モデルのパラメータを更新する、
処理をコンピュータが実行することを特徴とする学習方法。
A learning method for performing machine learning of a model for generating a summary sentence from an input sentence,
Get the input sentence and the summary of the correct answer,
Generating a pseudo sentence in which a non-grammatical expression is pseudo reproduced by exchanging the word order of the words included in the correct answer summary sentence,
Based on the generation probability of the pseudo sentence in which the pseudo sentence is generated from the input sentence by the model, and the generation probability of the correct summary sentence in which the correct answer summary sentence is generated from the input sentence by the model Updating the parameters of the model,
A learning method characterized in that a computer executes the processing.
前記更新する処理は、前記正解の要約文の生成確率が前記擬似文の生成確率よりも高くなるように前記モデルのパラメータを更新することを特徴とする請求項1に記載の学習方法。   The learning method according to claim 1, wherein in the updating process, the parameters of the model are updated so that the probability of generating the correct summary sentence is higher than the probability of generating the pseudo sentence. 前記更新する処理は、前記擬似文の生成確率が前記正解の要約文の生成確率よりも高い場合、前記擬似文の生成確率および前記正解の要約文の生成確率の差を損失に加算して前記モデルのパラメータを更新し、前記擬似文の生成確率が前記正解の要約文の生成確率よりも高くない場合、前記擬似文の生成確率および前記正解の要約文の生成確率の差を損失に加算せずに前記モデルのパラメータを更新することを特徴とする請求項2に記載の学習方法。   In the updating process, if the pseudo-sentence generation probability is higher than the correct-answer summary generation probability, the difference between the pseudo-sentence generation probability and the correct-answer summary sentence generation probability is added to the loss. If the generation probability of the pseudo-sentence is not higher than the generation probability of the correct summary sentence, the model parameter is updated, and the difference between the pseudo sentence generation probability and the correct summary sentence generation probability is added to the loss. The learning method according to claim 2, wherein the parameters of the model are updated without being updated. 前記入力文を前記モデルへ入力することにより生成された複数の要約文ごとに、前記モデルにより前記要約文が前記入力文から生成される前記要約文の生成確率を算出し、
前記複数の要約文ごとに、前記要約文および前記正解の要約文の単語の重複度を算出する処理を前記コンピュータがさらに実行し、
前記更新する処理は、前記複数の要約文ごとに算出された前記要約文の生成確率と、前記複数の要約文ごとに算出された単語の重複度と、前記擬似文の生成確率および前記正解の要約文の生成確率とに基づいて前記モデルのパラメータを更新することを特徴とする請求項1〜3のいずれか1つに記載の学習方法。
For each of a plurality of summary sentences generated by inputting the input sentence into the model, the generation probability of the summary sentence in which the summary sentence is generated from the input sentence by the model is calculated,
For each of the plurality of summary sentences, the computer further executes a process of calculating the degree of overlap of words in the summary sentence and the correct answer summary sentence,
The updating process includes the generation probability of the summary sentence calculated for each of the plurality of summary sentences, the degree of word duplication calculated for each of the plurality of summary sentences, the generation probability of the pseudo sentence, and the correct answer. The learning method according to claim 1, wherein the parameters of the model are updated based on the generation probability of the summary sentence.
前記生成する処理は、前記正解の要約文に含まれる単語の語数を変えずに単語の語順を入れ替えることにより前記擬似文を生成することを特徴とする請求項1〜4のいずれか1つに記載の学習方法。   5. The generating process, wherein the pseudo sentence is generated by changing a word order of words without changing the number of words included in the correct answer summary sentence. The learning method described. 入力文から要約文を生成するモデルの機械学習を実行させる学習プログラムであって、
入力文および正解の要約文を取得し、
前記正解の要約文に含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文を生成し、
前記モデルによって前記擬似文が前記入力文から生成される前記擬似文の生成確率、および、前記モデルによって前記正解の要約文が前記入力文から生成される前記正解の要約文の生成確率に基づいて前記モデルのパラメータを更新する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
A learning program that executes machine learning of a model that generates a summary sentence from an input sentence,
Get the input sentence and the summary of the correct answer,
Generating a pseudo sentence in which a non-grammatical expression is pseudo reproduced by exchanging the word order of the words included in the correct answer summary sentence,
Based on the generation probability of the pseudo sentence in which the pseudo sentence is generated from the input sentence by the model, and the generation probability of the correct summary sentence in which the correct answer summary sentence is generated from the input sentence by the model Updating the parameters of the model,
A learning program characterized by causing a computer to execute processing.
入力文から要約文を生成するモデルの機械学習を行う学習装置であって、
入力文および正解の要約文を取得する取得部と、
前記正解の要約文に含まれる単語の語順を入れ替えることにより非文法的な表現が擬似的に再現された擬似文を生成する擬似文生成部と、
前記モデルによって前記擬似文が前記入力文から生成される前記擬似文の生成確率、および、前記モデルによって前記正解の要約文が前記入力文から生成される前記正解の要約文の生成確率に基づいて前記モデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
A learning device for performing machine learning of a model for generating a summary sentence from an input sentence,
An acquisition unit that acquires the input sentence and the summary of the correct answer,
A pseudo-sentence generating unit that generates a pseudo-sentence in which a non-grammatical expression is pseudo-reproduced by changing the word order of words included in the correct answer summary sentence,
Based on the generation probability of the pseudo sentence in which the pseudo sentence is generated from the input sentence by the model, and the generation probability of the correct summary sentence in which the correct answer summary sentence is generated from the input sentence by the model An updating unit for updating the parameters of the model,
A learning device having:
JP2018206012A 2018-10-31 2018-10-31 Learning methods, learning programs and learning devices Active JP7099254B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018206012A JP7099254B2 (en) 2018-10-31 2018-10-31 Learning methods, learning programs and learning devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018206012A JP7099254B2 (en) 2018-10-31 2018-10-31 Learning methods, learning programs and learning devices

Publications (2)

Publication Number Publication Date
JP2020071737A true JP2020071737A (en) 2020-05-07
JP7099254B2 JP7099254B2 (en) 2022-07-12

Family

ID=70547878

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018206012A Active JP7099254B2 (en) 2018-10-31 2018-10-31 Learning methods, learning programs and learning devices

Country Status (1)

Country Link
JP (1) JP7099254B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380855A (en) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 Method for determining statement compliance degree and method and device for determining probability prediction model

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097723A (en) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> Text summarization apparatus, method and program
JP2016189089A (en) * 2015-03-30 2016-11-04 日本電気株式会社 Extraction equipment, extraction method and program thereof, support device, and display controller
JP2017228272A (en) * 2016-06-17 2017-12-28 パナソニックIpマネジメント株式会社 Semantic generation method, semantic generation device, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097723A (en) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> Text summarization apparatus, method and program
JP2016189089A (en) * 2015-03-30 2016-11-04 日本電気株式会社 Extraction equipment, extraction method and program thereof, support device, and display controller
JP2017228272A (en) * 2016-06-17 2017-12-28 パナソニックIpマネジメント株式会社 Semantic generation method, semantic generation device, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380855A (en) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 Method for determining statement compliance degree and method and device for determining probability prediction model
CN112380855B (en) * 2020-11-20 2024-03-08 北京百度网讯科技有限公司 Method for determining statement smoothness, method and device for determining probability prediction model

Also Published As

Publication number Publication date
JP7099254B2 (en) 2022-07-12

Similar Documents

Publication Publication Date Title
CN109271521B (en) Text classification method and device
CN109446430B (en) Product recommendation method and device, computer equipment and readable storage medium
CN111859960B (en) Semantic matching method, device, computer equipment and medium based on knowledge distillation
US11379736B2 (en) Machine comprehension of unstructured text
US10592607B2 (en) Iterative alternating neural attention for machine reading
JP5744228B2 (en) Method and apparatus for blocking harmful information on the Internet
US11403532B2 (en) Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm
JP2020520492A (en) Document abstract automatic extraction method, device, computer device and storage medium
CN106774975B (en) Input method and device
US11556709B2 (en) Text autocomplete using punctuation marks
CN111753551B (en) Information generation method and device based on word vector generation model
EP3411835A1 (en) Augmenting neural networks with hierarchical external memory
CN112418320B (en) Enterprise association relation identification method, device and storage medium
CN116072098B (en) Audio signal generation method, model training method, device, equipment and medium
WO2014073206A1 (en) Information-processing device and information-processing method
JP2019016239A (en) Learning program, learning method, and learning apparatus
WO2019227629A1 (en) Text information generation method and apparatus, computer device and storage medium
US20190228310A1 (en) Generation of neural network containing middle layer background
JP2020166735A (en) Generation method, learning method, generation program, and generation device
CN113850386A (en) Model pre-training method, device, equipment, storage medium and program product
US11386272B2 (en) Learning method and generating apparatus
JP7099254B2 (en) Learning methods, learning programs and learning devices
US20220277197A1 (en) Enhanced word embedding
CN114926322A (en) Image generation method and device, electronic equipment and storage medium
WO2022015404A1 (en) Sample assessment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220613

R150 Certificate of patent or registration of utility model

Ref document number: 7099254

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150