JP2019046158A - Text generation device, text generation method and text generation program - Google Patents

Text generation device, text generation method and text generation program Download PDF

Info

Publication number
JP2019046158A
JP2019046158A JP2017168673A JP2017168673A JP2019046158A JP 2019046158 A JP2019046158 A JP 2019046158A JP 2017168673 A JP2017168673 A JP 2017168673A JP 2017168673 A JP2017168673 A JP 2017168673A JP 2019046158 A JP2019046158 A JP 2019046158A
Authority
JP
Japan
Prior art keywords
time
data
numerical data
text
numerical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017168673A
Other languages
Japanese (ja)
Other versions
JP6910061B2 (en
Inventor
聡一朗 村上
Soichiro Murakami
聡一朗 村上
亮彦 渡邉
Akihiko Watanabe
亮彦 渡邉
祐介 宮尾
Yusuke Miyao
祐介 宮尾
彬 宮澤
Akira Miyazawa
彬 宮澤
圭一 五島
Keiichi Goshima
圭一 五島
大也 高村
Daiya Takamura
大也 高村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2017168673A priority Critical patent/JP6910061B2/en
Publication of JP2019046158A publication Critical patent/JP2019046158A/en
Application granted granted Critical
Publication of JP6910061B2 publication Critical patent/JP6910061B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

To provide a text generation device, a text generation method, and a text generation program for generating a text that explains variation of time series numerical data.SOLUTION: A text generation device for generating text data for explaining fluctuation of time series numerical data including a number sequence associated with the passage of time includes: a learning unit that causes a language model to learn a language model so as to output replacement text data when the time-series numerical data is input, using replacement text data and time-series numerical data as learning data; a generation unit that inputs new time series numerical data into the language model learned by the learning unit, and generates new replacement text data that explains the new time series numerical data by an output of the language model; and a replacement unit that replaces a predetermined character string included in the new replacement text data with a numerical value related to the new time series numerical data according to a predetermined rule.SELECTED DRAWING: Figure 1

Description

本発明は、テキスト生成装置、テキスト生成方法及びテキスト生成プログラムに関する。   The present invention relates to a text generation device, a text generation method, and a text generation program.

近年、自然言語処理の分野において、リカレントニューラルネットワーク等のニューラルネットワークを用いた言語モデルが研究されている。   In recent years, in the field of natural language processing, language models using neural networks such as recurrent neural networks have been studied.

例えば下記特許文献1には、対話形式のテキストから認識された単語と、単語の時系列情報と、単語の発言者を識別する識別情報とを第1のデータベースから取得する認識結果取得部と、単語と単語の時系列情報と識別情報と要約モデルに基づいて単語を訂正し、訂正結果を第1のデータベースに出力するテキスト要約部と、を有する対話テキスト要約装置が記載されている。   For example, in Patent Document 1 below, a recognition result acquisition unit that acquires, from a first database, a word recognized from an interactive text, time series information of the word, and identification information that identifies the speaker of the word. A dialog text summarizing device is described, comprising a text summarization unit for correcting words based on words and word time-series information, identification information and a summary model, and outputting the correction result to a first database.

特開2017−111190号公報JP, 2017-111190, A

ニューラルネットワークを用いた言語モデルは、大量のテキストデータを学習用データとして、学習用データに表れる単語の統計的特徴に基づいてテキストを生成するように学習されることがある。   A language model using a neural network may be trained to generate text based on statistical features of words appearing in training data, using a large amount of text data as training data.

しかしながら、時間の経過とともに変化する数値の列を含む時系列数値データ(例えば株価等)の変動を説明するテキストを生成する場合、学習用データは時系列数値データの引用や変化量に関する説明(例えば、株価であれば、始値、終値、上げ幅等)を含むことがあり、その説明に関連付けられる数値が様々に変化するため、それぞれの数値が統計的に稀にしか現れない単語となってしまう。そのため、数値に関する記載を正しく再現するように言語モデルを学習させることが難しく、時系列数値データの変動を説明するテキストを生成することが難しかった。   However, in the case of generating a text that explains the fluctuation of time-series numerical data (for example, stock price etc.) including a series of numerical values that change with the passage of time, the learning data describes the quotation of the time-series numerical data If it is a stock price, it may include opening price, closing price, raising range, etc., and the numerical value associated with the explanation will change in various ways, so each numerical value will be a word that appears only statistically infrequently . Therefore, it was difficult to learn the language model so as to correctly reproduce the description about numerical values, and it was difficult to generate texts that explain the fluctuation of time-series numerical data.

そこで、本発明は、時系列数値データの変動を説明するテキストを生成するテキスト生成装置、テキスト生成方法及びテキスト生成プログラムを提供する。   Therefore, the present invention provides a text generation device, a text generation method, and a text generation program for generating text that explains variation of time series numerical data.

本発明の一態様に係るテキスト生成装置は、時間の経過と対応付けられた数列を含む時系列数値データの変動を説明するテキストデータを生成するテキスト生成装置であって、テキストデータのうち時系列数値データに関係する数値を所定の規則で所定の文字列に置き換えた置換テキストデータと時系列数値データとを学習用データとして、時系列数値データが入力された場合に、置換テキストデータを出力するように言語モデルを学習させる学習部と、学習部により学習された言語モデルに新たな時系列数値データを入力し、言語モデルの出力によって新たな時系列数値データを説明する新たな置換テキストデータを生成する生成部と、新たな置換テキストデータに含まれる所定の文字列を、所定の規則で新たな時系列数値データに関係する数値に置き換える置換部と、を備える。   A text generation device according to an aspect of the present invention is a text generation device that generates text data for explaining fluctuation of time series numerical data including a number sequence associated with the passage of time, and is a time series of text data. The substitution text data is output when the time-series numerical data is input, with the substitution text data in which the numerical value related to the numerical data is replaced with the predetermined character string according to the predetermined rule and the time series numerical data as the learning data. Thus, new time-series numerical data is input to the learning unit for learning the language model and the language model learned by the learning unit, and new substituted text data for explaining the new time-series numerical data by the output of the language model The generation unit to generate and a predetermined character string included in the new replacement text data are related to the new time-series numerical data according to a predetermined rule Comprising a replacement unit for replacing the numerical value, the.

この態様によれば、言語モデルの出力によって新たな時系列数値データを説明する新たな置換テキストデータを生成し、新たな置換テキストデータに含まれる所定の文字列を、所定の規則で新たな時系列数値データに関係する数値に置き換えることで、時系列数値データに関する数値を言語モデルによって直接出力する必要が無くなり、数値が様々に変化する場合であってもその数値に関する記載を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to this aspect, new substitution text data describing new time series numerical data is generated by the output of the language model, and a predetermined character string included in the new substitution text data is newly added according to a predetermined rule. By replacing the numerical values related to the series numerical data, it is not necessary to directly output the numerical values related to the time series numerical data by the language model, and even if the numerical values change variously, the description regarding the numerical values can be correctly included. Text can be generated to account for variations in time series numerical data.

上記態様において、時系列数値データに関係する数値は、時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値と、時系列数値データに含まれる数列のうち異なる時点に対応付けられた数値の差と、時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値を所定の桁で切り捨てた数値と、時系列数値データに含まれる数列のうち異なる時点に対応付けられた数値の差を所定の桁で切り捨てた数値と、時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値を所定の桁で切り上げた数値と、時系列数値データに含まれる数列のうち異なる時点に対応付けられた数値の差を所定の桁で切り上げた数値と、のうち少なくともいずれかを含み、所定の規則は、時系列数値データに関係する数値の種類と所定の文字列とを対応付ける規則であってもよい。   In the above aspect, the numerical values related to the time-series numerical data are associated with the numerical value associated with the predetermined point in time series among the numerical series included in the time-series numerical data and different time points in the numerical series included in the time series numerical data Corresponds to the difference between the numerical values obtained by subtracting the numerical value associated with a predetermined point in the time series numerical data included in the time series numerical data by a predetermined digit, and the numerical time series included in the time series numerical data A numerical value obtained by rounding off the difference between the attached numerical values by a predetermined digit, a numerical value obtained by rounding up the numerical value associated with a predetermined point in the time series numerical data included in time series numerical data by a predetermined digit, and time series numerical data The predetermined rule includes at least one of numerical values obtained by rounding up the difference between the numerical values associated with different time points among the contained sequences by a predetermined digit, and the predetermined rule is a numerical value related to time series numerical data It may be a rule for associating class and a predetermined character string.

この態様によれば、時系列数値データに関係する数値の種類と所定の文字列とを対応付けることで、時系列数値データの引用や時系列数値データを演算した結果得られる数値を含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to this aspect, by correlating the kind of numerical value related to the time series numerical data with the predetermined character string, it is possible to include the numerical value obtained as a result of quoting the time series numerical data and calculating the time series numerical data, Text can be generated to account for variations in time series numerical data.

上記態様において、時系列数値データは、第1間隔で時間の経過と対応付けられた数列を含む第1時系列数値データと、第1間隔より長い第2間隔で時間の経過と対応付けられた数列を含む第2時系列数値データとを含んでもよい。   In the above aspect, the time-series numerical data is associated with the first time-series numerical data including a number sequence associated with the passage of time at the first interval, and with the passage of time at the second interval longer than the first interval. And second time-series numerical data including a number sequence.

この態様によれば、異なる時間間隔で時間の経過と対応付けられた数列を含む時系列数値データを用いることで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to this aspect, by using time-series numerical data including a number sequence associated with the passage of time at different time intervals, time-series numerical data can be correctly included so that words depending on the history of time-series numerical data are correctly included. Text can be generated to account for variations in

上記態様において、生成部は、時系列数値データを、1又は複数の方法に一対一に対応する1又は複数の方法で変換して得られる1又は複数の数値データを、言語モデルに入力してもよい。   In the above aspect, the generation unit inputs, to the language model, one or more numerical data obtained by converting the time-series numerical data by the one or more methods corresponding to the one or more methods in a one-to-one manner. It is also good.

この態様によれば、時系列数値データを1又は複数の方法で変換して得られる1又は複数の数値データを言語モデルに入力することで、生成されるテキストが時系列数値データの絶対値に依存してぶれることが防止される。   According to this aspect, by inputting one or more numerical data obtained by converting the time-series numerical data by one or more methods into the language model, the generated text becomes an absolute value of the time-series numerical data. It is prevented from relying on it.

上記態様において、1又は複数の数値データは、時系列数値データに含まれる数列を所定の数値範囲に正規化した数値データと、時系列数値データに含まれる数列の平均値及び標準偏差を用いて時系列数値データを標準化した数値データと、時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値を基準値として、時系列数値データに含まれる数列を基準値に関して相対化した数値データと、のうち少なくともいずれかを含んでもよい。   In the above aspect, the one or more numerical data are obtained by using numerical data obtained by normalizing the numerical sequence included in the time series numerical data into a predetermined numerical range, and using the average value and the standard deviation of the numerical sequence included in the time series numerical data Numerical data obtained by standardizing time-series numerical data and numerical values associated with predetermined time points among numerical sequences contained in time-series numerical data are made relative to reference values with reference to the numerical value associated with time-series numerical data It may include at least one of numerical data.

この態様によれば、正規化した数値データ又は標準化した数値データを用いることで、生成されるテキストが時系列数値データの絶対値に依存してぶれることが防止され、相対化した数値データを用いることで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to this aspect, using the normalized numerical data or the standardized numerical data prevents the generated text from being blurred depending on the absolute value of the time series numerical data, and uses the relative numerical data. Thus, it is possible to generate text that describes the variation of time-series numerical data so as to correctly include words that depend on the history of time-series numerical data.

上記態様において、言語モデルは、第1間隔で時間の経過と対応付けられた数列を含む第1時系列数値データを1又は複数の方法で変換して得られる、1又は複数の方法に一対一に対応する1又は複数の第1数値データが入力される第1エンコーダと、第1間隔より長い第2間隔で時間の経過と対応付けられた数列を含む第2時系列数値データを1又は複数の方法で変換して得られる、1又は複数の方法に一対一に対応する1又は複数の第2数値データが入力される第2エンコーダと、第1エンコーダの出力及び第2エンコーダの出力を合成する合成部と、合成部により合成されたデータが入力され、置換テキストデータを出力するデコーダと、を含んでもよい。   In the above aspect, the language model is obtained by converting the first time series numerical data including the number sequence associated with the passage of time at the first interval by one or more methods, in one-to-one correspondence to one or more methods. , One or more second time-series numerical data including a first encoder to which first numerical data corresponding to one or more numerical data is input, and a number sequence associated with the passage of time at a second interval longer than the first interval. And combining the output of the first encoder and the output of the second encoder with the second encoder to which the one or more second numerical data corresponding to the one or more methods obtained by conversion by the method of And a decoder for receiving the data synthesized by the synthesizing unit and outputting replacement text data.

この態様によれば、異なる時間間隔で時間の経過と対応付けられた数列を含む時系列数値データをそれぞれ異なるエンコーダに入力し、出力を合成してデコーダに入力することで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to this aspect, time series numerical data including time series numerical data including numerical sequences associated with the passage of time at different time intervals are input to different encoders, and an output is synthesized and input to the decoder. Texts can be generated that account for variations in time series numerical data so as to correctly include history dependent words.

上記態様において、合成部は、第1エンコーダの出力、第2エンコーダの出力、1又は複数の第1数値データ及び1又は複数の第2数値データを合成してもよい。   In the above aspect, the combining unit may combine the output of the first encoder, the output of the second encoder, one or more first numerical data, and one or more second numerical data.

この態様によれば、デコーダに対して、エンコーダの出力のみならず、複数の数値データを入力することで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to this aspect, by inputting not only the output of the encoder but also a plurality of numerical data to the decoder, the fluctuation of the time-series numerical data so that the word depending on the history of the time-series numerical data is correctly included Can be generated to describe the

上記態様において、デコーダには、合成部により合成されたデータ及び時系列数値データの時系列に関するデータが入力されてもよい。   In the above aspect, the data combined with the data combined by the combining unit and the time series of the time series numerical data may be input to the decoder.

この態様によれば、デコーダに対して、合成部により合成されたデータのみならず、時系列数値データの時系列に関するデータを入力することで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to this aspect, not only the data combined by the combining unit but also data relating to the time series of time series numerical data is correctly input to the decoder, thereby correctly including the word depending on the history of the time series numerical data Thus, text can be generated to account for variations in time series numerical data.

本発明の他の態様に係るテキスト生成方法は、ハードウェアプロセッサ及びメモリを備えるコンピュータによって、時間の経過と対応付けられた数列を含む時系列数値データの変動を説明するテキストデータを生成するテキスト生成方法であって、テキストデータのうち時系列数値データに関係する数値を所定の規則で所定の文字列に置き換えた置換テキストデータと時系列数値データとを学習用データとして、時系列数値データが入力された場合に、置換テキストデータを出力するように言語モデルを学習させることと、学習された言語モデルに新たな時系列数値データを入力し、言語モデルの出力によって新たな時系列数値データを説明する新たな置換テキストデータを生成することと、新たな置換テキストデータに含まれる所定の文字列を、所定の規則で新たな時系列数値データに関係する数値に置き換えることと、を実行する。   According to another aspect of the present invention, there is provided a method of generating text by a computer including a hardware processor and a memory, the method generating text data that describes variation in time series numerical data including a number sequence associated with the passage of time. In the method, time series numerical data is input by using, as learning data, replacement text data in which numerical values related to time series numerical data in text data are replaced with predetermined character strings according to predetermined rules, and time series numerical data. Training the language model to output substitution text data, and inputting new time series numerical data into the learned language model, and explaining the new time series numerical data by the output of the language model Generating new replacement text data, and predetermined characters included in the new replacement text data And it executes, and replacing the numerical value related to the new time-series numerical data with a predetermined rule.

この態様によれば、言語モデルの出力によって新たな時系列数値データを説明する新たな置換テキストデータを生成し、新たな置換テキストデータに含まれる所定の文字列を、所定の規則で新たな時系列数値データに関係する数値に置き換えることで、時系列数値データに関係する数値を言語モデルによって直接出力する必要が無くなり、数値が様々に変化する場合であってもその数値に関する記載を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to this aspect, new substitution text data describing new time series numerical data is generated by the output of the language model, and a predetermined character string included in the new substitution text data is newly added according to a predetermined rule. By replacing the numerical values related to the series numerical data, it is not necessary to directly output the numerical values related to the time series numerical data by the language model, and it is possible to correctly include the description regarding the numerical values even when the numerical values change variously. In addition, text can be generated that describes the variation of time series numerical data.

本発明の他の態様に係るテキスト生成プログラムは、時間の経過と対応付けられた数列を含む時系列数値データの変動を説明するテキストデータを生成するテキスト生成装置に備えられたコンピュータを、テキストデータのうち時系列数値データに関係する数値を所定の規則で所定の文字列に置き換えた置換テキストデータと時系列数値データとを学習用データとして、時系列数値データが入力された場合に、置換テキストデータを出力するように言語モデルを学習させる学習部、学習部により学習された言語モデルに新たな時系列数値データを入力し、言語モデルの出力によって新たな時系列数値データを説明する新たな置換テキストデータを生成する生成部、及び新たな置換テキストデータに含まれる所定の文字列を、所定の規則で新たな時系列数値データに関係する数値に置き換える置換部、として機能させる。   According to another aspect of the present invention, there is provided a text generation program comprising: a computer provided in a text generation device for generating text data for explaining fluctuation of time series numerical data including a numerical sequence associated with the passage of time; When time-series numerical data is input using, as learning data, replacement text data in which a numerical value related to time-series numerical data is replaced with a predetermined character string according to a predetermined rule, and time series numerical data as learning data A learning unit for learning a language model so as to output data, a new time-series numerical data input to the language model learned by the learning unit, and a new replacement for explaining a new time-series numerical data by an output of the language model A generation unit for generating text data, and a predetermined character string included in new replacement text data are newly added according to a predetermined rule. Replacement unit for replacing the numerical value relating to the time series numeric data, to function as a.

この態様によれば、言語モデルの出力によって新たな時系列数値データを説明する新たな置換テキストデータを生成し、新たな置換テキストデータに含まれる所定の文字列を、所定の規則で新たな時系列数値データに関係する数値に置き換えることで、時系列数値データに関係する数値を言語モデルによって直接出力する必要が無くなり、数値が様々に変化する場合であってもその数値に関する記載を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to this aspect, new substitution text data describing new time series numerical data is generated by the output of the language model, and a predetermined character string included in the new substitution text data is newly added according to a predetermined rule. By replacing the numerical values related to the series numerical data, it is not necessary to directly output the numerical values related to the time series numerical data by the language model, and it is possible to correctly include the description regarding the numerical values even when the numerical values change variously. In addition, text can be generated that describes the variation of time series numerical data.

本発明によれば、時系列数値データの変動を説明するテキストを生成するテキスト生成装置、テキスト生成方法及びテキスト生成プログラムを提供することができる。   According to the present invention, it is possible to provide a text generation device, a text generation method, and a text generation program for generating text that explains variation of time series numerical data.

本発明の実施形態に係るテキスト生成装置のネットワーク構成を示す図である。It is a figure showing the network composition of the text generation device concerning the embodiment of the present invention. 本実施形態に係るテキスト生成装置の物理構成を示す図である。It is a figure showing physical composition of a text generation device concerning this embodiment. 本実施形態に係るテキスト生成装置の機能ブロックを示す図である。It is a figure which shows the functional block of the text generation apparatus which concerns on this embodiment. 言語モデルの構成を示す図である。It is a figure showing composition of a language model. 時系列数値データに関係する数値の種類と所定の文字列とを対応付ける規則を示す図である。It is a figure which shows the rule which matches the kind of numerical value related to time series numerical data, and a predetermined | prescribed character string. 本実施形態に係るテキスト生成装置で実行される処理のフローチャートである。It is a flowchart of the process performed with the text generation apparatus which concerns on this embodiment. 本実施形態に係るテキスト生成装置で生成されるテキストを示す図である。It is a figure which shows the text produced | generated by the text generation apparatus which concerns on this embodiment. 本実施形態に係るテキスト生成装置で生成されるテキストと基準となるテキストとの近さを評価した指標値を示す図である。It is a figure which shows the index value which evaluated the proximity of the text produced | generated with the text generation apparatus which concerns on this embodiment, and the text used as a reference | standard.

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。   Embodiments of the present invention will be described with reference to the accompanying drawings. In addition, what attached the same code | symbol in each figure has the same or same structure.

図1は、本発明の実施形態に係るテキスト生成装置10のネットワーク構成を示す図である。本実施形態において、テキスト生成システム100は、時間の経過と対応付けられた数列を含む時系列数値データと、その時系列数値データの変動を説明するテキストデータとを含む初期データセットを記憶するデータベースDBと、入力された時系列数値データに応じて置換テキストデータを出力する言語モデル20と、データベースDBに記憶された初期データセットを用いて、言語モデル20によって時系列数値データの変動を正しく説明するテキストが生成されるように、言語モデル20を学習させ、新たな時系列数値データを取得した場合にその時系列数値データの変動を説明するテキストデータを生成するテキスト生成装置10と、を含む。本実施形態において、時系列数値データは、株価である。もっとも、時系列数値データは、時間の経過と対応付けられた数列を含むものであって、継続的に取得される数値データであればどのようなものであってもよく、例えば心電データや血圧データ等のバイタルデータであったり、気温や湿度等の天候データであったり、交通量や乗客数等の交通データであったりしてもよい。   FIG. 1 is a diagram showing a network configuration of a text generation device 10 according to an embodiment of the present invention. In the present embodiment, the text generation system 100 stores an initial data set including time series numerical data including a number sequence associated with the passage of time, and text data describing variation of the time series numerical data. The language model 20 correctly describes the fluctuation of the time-series numerical data by using the language model 20 which outputs substitution text data according to the input time-series numerical data and the initial data set stored in the database DB. And a text generating device 10 for learning the language model 20 so that text is generated, and generating text data for explaining fluctuations of the time-series numerical data when new time-series numerical data is acquired. In the present embodiment, the time-series numerical data is a stock price. However, the time-series numerical data includes a number sequence associated with the passage of time, and may be any numerical data continuously acquired, for example, electrocardiogram data or It may be vital data such as blood pressure data, weather data such as temperature and humidity, or traffic data such as traffic volume and number of passengers.

テキスト生成システム100は、通信ネットワークNに接続され、株価配信サーバ40から所定の時間間隔で株価を取得し、データベースDBに記憶したり、テキスト生成装置10に入力したりする。また、テキスト生成システム100は、通信ネットワークNを介して、生成したテキストデータをユーザ端末30に提供する。また、テキスト生成システム100は、ユーザ端末30からの指示に基づいて、データベースDBに記憶された初期データセットの追加や編集を行ったり、言語モデル20の学習を行ったりしてもよい。ここで、通信ネットワークNは、有線又は無線の通信網であり、例えばインターネットやLAN(Local Area Network)であってよい。テキスト生成システム100は、いわゆるクラウドコンピューティングの形で全部又は一部の構成要素がリモートコンピュータによって構成されてよいが、全部又は一部の構成要素がローカルコンピュータによって構成されてもよい。   The text generation system 100 is connected to the communication network N, acquires stock prices from the stock price distribution server 40 at predetermined time intervals, stores the stock prices in the database DB, and inputs the stock prices into the text generation apparatus 10. Also, the text generation system 100 provides the generated text data to the user terminal 30 via the communication network N. In addition, the text generation system 100 may add or edit the initial data set stored in the database DB or learn the language model 20 based on an instruction from the user terminal 30. Here, the communication network N is a wired or wireless communication network, and may be, for example, the Internet or a LAN (Local Area Network). In the text generation system 100, all or some of the components may be configured by a remote computer in the form of so-called cloud computing, but all or some of the components may be configured by a local computer.

言語モデル20は、時系列数値データが入力された場合に、時系列数値データを説明するテキストデータのうち時系列数値データに関係する数値を所定の規則で所定の文字列に置き換えた置換テキストデータを出力するモデルである。ここで、時系列数値データに関係する数値は、時系列数値データに含まれる数値の引用であったり、時系列数値データに含まれる数値を演算した数値であったりする。言語モデル20は、例えばニューラルネットワークを用いたモデルであってよく、いわゆるエンコーダ‐デコーダモデルであってよい。言語モデル20は、エンコーダとして、例えばMLP(Multi-Layer Perceptron)、CNN(Convolutional Neural Network)又はRNN(Recurrent Neural Network)を含んでよく、デコーダとしてRNNを含んでよい。言語モデル20は、入力される時系列数値データの種類によって異なるモデルであってよい。言語モデル20については、後に図4を用いて詳細に説明する。   In the language model 20, when time series numerical data is input, replacement text data in which numerical values related to time series numerical data among text data describing time series numerical data are replaced with a predetermined character string according to a predetermined rule Is a model that outputs Here, the numerical value related to the time-series numerical data is citation of the numerical value included in the time-series numerical data, or a numerical value obtained by calculating the numerical value included in the time-series numerical data. The language model 20 may be, for example, a model using a neural network, and may be a so-called encoder-decoder model. The language model 20 may include, for example, a Multi-Layer Perceptron (MLP), a Convolutional Neural Network (CNN), or a Recurrent Neural Network (RNN) as an encoder, and may include an RNN as a decoder. The language model 20 may be different depending on the type of time-series numerical data to be input. The language model 20 will be described in detail later using FIG.

図2は、本実施形態に係るテキスト生成装置10の物理構成を示す図である。テキスト生成装置10は、ハードウェアプロセッサに相当するCPU(Central Processing Unit)10aと、メモリに相当するRAM(Random Access Memory)10bと、メモリに相当するROM(Read Only Memory)10cと、通信部10dと、入力部10eと、表示部10fとを有する。これら各構成は、バスを介して相互にデータ送受信可能に接続される。   FIG. 2 is a diagram showing the physical configuration of the text generation device 10 according to the present embodiment. The text generation device 10 includes a central processing unit (CPU) 10a corresponding to a hardware processor, a random access memory (RAM) 10b corresponding to a memory, a read only memory (ROM) 10c corresponding to a memory, and a communication unit 10d. , An input unit 10e, and a display unit 10f. These components are mutually connected so as to be able to transmit and receive data via a bus.

CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、言語モデル20を用いてテキストデータを生成するプログラム(テキスト生成プログラム)を実行する演算装置である。CPU10aは、入力部10eや通信部10dから種々の入力データを受け取り、入力データの演算結果を表示部10fに表示したり、RAM10bやROM10cに格納したりする。   The CPU 10a is a control unit that performs control related to the execution of a program stored in the RAM 10b or the ROM 10c, and performs calculation and processing of data. The CPU 10 a is an arithmetic device that executes a program (text generation program) that generates text data using the language model 20. The CPU 10a receives various input data from the input unit 10e and the communication unit 10d, and displays the calculation result of the input data on the display unit 10f or stores it in the RAM 10b or the ROM 10c.

RAM10bは、データの書き換えが可能な記憶部であり、例えば半導体記憶素子で構成される。RAM10bは、CPU10aが実行するアプリケーション等のプログラムやデータを記憶する。   The RAM 10 b is a storage unit capable of rewriting data, and is formed of, for example, a semiconductor storage element. The RAM 10 b stores programs and data such as applications executed by the CPU 10 a.

ROM10cは、データの読み出しのみが可能な記憶部であり、例えば半導体記憶素子で構成される。ROM10cは、例えばファームウェア等のプログラムやデータを記憶する。   The ROM 10 c is a storage unit that can only read data, and is configured of, for example, a semiconductor storage element. The ROM 10 c stores, for example, programs and data such as firmware.

通信部10dは、テキスト生成装置10を通信ネットワークNに接続する通信インタフェースである。   The communication unit 10 d is a communication interface that connects the text generation device 10 to the communication network N.

入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボードやマウス、タッチパネルで構成される。   The input unit 10 e receives an input of data from the user, and includes, for example, a keyboard, a mouse, and a touch panel.

表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えばLCD(Liquid Crystal Display)により構成される。   The display unit 10 f visually displays the calculation result by the CPU 10 a, and is configured of, for example, an LCD (Liquid Crystal Display).

テキスト生成プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークNを介して提供されてもよい。テキスト生成装置10では、CPU10aがテキスト生成プログラムを実行することにより、次図を用いて説明する様々な機能が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、テキスト生成装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。また、テキスト生成装置10は、GPU(Graphics Processing Unit)やFPGA(Field-Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等の演算回路を備えてもよい。   The text generation program may be stored in a computer-readable storage medium such as the RAM 10 b or the ROM 10 c and provided, or may be provided via the communication network N connected by the communication unit 10 d. In the text generation device 10, the CPU 10a executes the text generation program to realize various functions described with reference to the following drawings. Note that these physical configurations are exemplifications and may not necessarily be independent configurations. For example, the text generation device 10 may include an LSI (Large-Scale Integration) in which the CPU 10a, the RAM 10b, and the ROM 10c are integrated. The text generation device 10 may also include an arithmetic circuit such as a graphics processing unit (GPU), a field-programmable gate array (FPGA), or an application specific integrated circuit (ASIC).

図3は、本実施形態に係るテキスト生成装置10の機能ブロックを示す図である。テキスト生成装置10は、学習部11、取得部12、生成部13、置換部14及び規則記憶部15を備える。   FIG. 3 is a diagram showing functional blocks of the text generation device 10 according to the present embodiment. The text generation device 10 includes a learning unit 11, an acquisition unit 12, a generation unit 13, a replacement unit 14, and a rule storage unit 15.

学習部11は、時系列数値データの変動を説明するテキストデータのうち時系列数値データに関係する数値を所定の規則で所定の文字列に置き換えた置換テキストデータD1及び時系列数値データD2を学習用データとして、時系列数値データが入力された場合に、置換テキストデータを出力するように言語モデル20を学習させる。学習部11によって言語モデル20の学習に用いられる置換テキストデータD1及び時系列数値データD2は、データベースDBに初期データセットとして記憶されているものであってよい。   The learning unit 11 learns replacement text data D1 and time-series numerical data D2 in which numerical values relating to time-series numerical data among text data describing fluctuations in time-series numerical data are replaced with predetermined character strings according to predetermined rules. The language model 20 is trained so as to output replacement text data when time-series numerical data is input as the input data. The replacement text data D1 and the time-series numerical data D2 used for learning the language model 20 by the learning unit 11 may be stored in the database DB as an initial data set.

ここで、時系列数値データに関係する数値は、時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値と、時系列数値データに含まれる数列のうち異なる時点に対応付けられた数値の差と、時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値を所定の桁で切り捨てた数値と、時系列数値データに含まれる数列のうち異なる時点に対応付けられた数値の差を所定の桁で切り捨てた数値と、時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値を所定の桁で切り上げた数値と、時系列数値データに含まれる数列のうち異なる時点に対応付けられた数値の差を所定の桁で切り上げた数値と、のうち少なくともいずれかを含んでよい。また、数値の所定の桁での切り捨てや切り上げは、10の位、100の位、1000の位及び10000の位等、任意の位について行ってよい。また、所定の規則は、時系列数値データに関係する数値の種類と所定の文字列とを対応付ける規則であってよい。ここで、所定の文字列は、通常のテキストデータと区別可能な文字列であれば任意のものであってよく、例えば<price1>や<price2>等の所定の記号(本例の場合「<」と「>」)で先頭と末尾が示された文字列であってよい。   Here, the numerical values related to the time series numerical data are related to the numerical value associated with a predetermined point in time among the series included in the time series numerical data and the different point in time among the series included in the time series numerical data The difference between the numerical values and the numerical value obtained by rounding off the numerical value associated with the predetermined time point among the numerical sequences included in the time series numerical data to a predetermined digit, and the different time point among the numerical sequences included in the time series numerical data Included in the time-series numerical data is the numerical value obtained by rounding off the difference between the numerical values to the predetermined digit, the numerical value obtained by rounding up the numerical value associated with the predetermined time in the time series numerical data included in the time series numerical data At least one of numerical values obtained by rounding up the difference between the numerical values associated with different time points in the number series may be included. In addition, rounding off or rounding up in a predetermined digit of a numerical value may be performed for any digit, such as the tens digit, the hundreds digit, the thousands digit and the 10000 digits. Also, the predetermined rule may be a rule that associates the type of numerical value related to time series numerical data with a predetermined character string. Here, the predetermined character string may be any character string as long as it is a character string distinguishable from normal text data, and for example, a predetermined symbol such as <price1> or <price2> (in this example, “<< It may be a character string whose beginning and end are indicated by "" and ">".

また、時系列数値データは、第1間隔で時間の経過と対応付けられた数列を含む第1時系列数値データと、第1間隔より長い第2間隔で時間の経過と対応付けられた数列を含む第2時系列数値データとを含んでよい。本実施形態の場合、第1時系列数値データXshortは、1営業日の寄り付きから大引けまでに5分間隔で取得された株価に関係する時系列数値データであり、第2時系列数値データXlongは、7営業日について営業日間隔で取得された株価の終値に関する時系列数値データである。すなわち、第1時系列数値データXshortは、5分間隔で時間の経過と対応付けられた数列を含む時系列数値データであり、第2時系列数値データXlongは、1営業日間隔で時間の経過と対応付けられた数列を含む時系列数値データである。日本の東京証券取引所の場合、1営業日における売買立会い時間は5時間(300分)であり、5分間隔で取得された第1時系列数値データは、62個のデータを含む。これをXshort,i(i=1〜62)と表す。また、第2時系列数値データXlongは、7個のデータを含み、これをXlong,j(j=1〜7)と表す。 Further, the time series numerical data includes first time series numerical data including a number sequence associated with the passage of time at a first interval, and a number sequence associated with the passage of time at a second interval longer than the first interval. And second time-series numerical data may be included. In the case of the present embodiment, the first time-series numerical data X short is time-series numerical data related to stock prices acquired at intervals of 5 minutes from a close of one business day to a large closing, and the second time-series numerical data X long is time-series numerical data on the closing price of stock prices acquired at intervals of business days for seven business days. That is, the first time series numerical data X short is time series numerical data including a number sequence associated with the passage of time at five-minute intervals, and the second time series numerical data X long is time at one business day interval Time series numerical data including a number sequence associated with the passage of In the case of the Tokyo Stock Exchange of Japan, the trading attendance time in one business day is 5 hours (300 minutes), and the first time-series numerical data acquired at 5-minute intervals includes 62 pieces of data. This is represented as X short, i (i = 1 to 62). Also, the second time series numerical data X long includes seven data, which are expressed as X long, j (j = 1 to 7).

取得部12は、株価配信サーバ40から、新たな時系列数値データを取得する。取得部12は、例えば5分間隔で、株価配信サーバ40から株価に関する新たな時系列数値データを取得してよい。   The acquisition unit 12 acquires new time-series numerical data from the stock price distribution server 40. The acquiring unit 12 may acquire new time-series numerical data on the stock price from the stock price distribution server 40, for example, every five minutes.

生成部13は、学習部11により学習された言語モデル20に新たな時系列数値データを入力し、言語モデル20の出力によって新たな時系列数値データを説明する新たな置換テキストデータを生成する。生成部13は、時系列数値データを1又は複数の方法で変換して得られる、1又は複数の方法に一対一に対応する1又は複数の数値データを、言語モデル20に入力してもよい。ここで、1又は複数の数値データは、時系列数値データに含まれる数列を所定の数値範囲に正規化した数値データと、時系列数値データに含まれる数列の平均値及び標準偏差を用いて時系列数値データを標準化した数値データと、時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値を基準値として、時系列数値データに含まれる数列を基準値に関して相対化した数値データと、のうち少なくともいずれかを含んでよい。   The generation unit 13 inputs new time series numerical data to the language model 20 learned by the learning unit 11, and generates new replacement text data describing the new time series numerical data by the output of the language model 20. The generation unit 13 may input, to the language model 20, one or a plurality of numerical data corresponding to the one or a plurality of methods, which are obtained by converting the time-series numerical data by the one or a plurality of methods. . Here, when one or more numerical data are numerical data obtained by normalizing a numerical sequence included in time series numerical data into a predetermined numerical range, and an average value and a standard deviation of the numerical sequence included in time series numerical data, A numerical value obtained by standardizing serial numerical data and a numerical value corresponding to a predetermined time point among numerical sequences contained in time series numerical data as a reference value, a numerical value obtained by relativizing a numerical sequence contained in time series numerical data with respect to the reference value And / or data may be included.

より具体的には、時系列数値データに含まれる数列Xi(i=1〜N)を所定の数値範囲に正規化した数値データXnorm,iは、Xnorm,i=(2Xi−(Xmax+Xmin))/(Xmax−Xmin)によって定義される数値データであってよい。ここで、Xmax=maxi(Xi)、Xmin=mini(Xi)である。この場合、正規化した数値データXnorm,iは、−1から1の数値範囲に正規化された数値データとなる。 More specifically, numerical data X norm, i obtained by normalizing a numerical sequence X i (i = 1 to N) included in time series numerical data into a predetermined numerical range is X norm, i = (2X i − ( It may be numerical data defined by X max + X min )) / (X max −X min ). Here, X max = max i (X i ) and X min = min i (X i ). In this case, the normalized numerical data X norm, i is numerical data normalized to a numerical range of -1 to 1.

また、時系列数値データに含まれる数列Xi(i=1〜N)を標準化した数値データXstd,iは、Xstd,i=(Xi−μ)/σによって定義される数値データであってよい。ここで、μ=E[Xi]、σ=(var[Xi])1/2である。 Also, numerical data X std, i obtained by standardizing a numerical sequence X i (i = 1 to N) included in time-series numerical data is numerical data defined by X std, i = (X i- μ) / σ May be there. Here, μ = E [X i ], σ = (var [X i ]) 1/2 .

また、時系列数値データに含まれる数列Xi(i=1〜N)を基準値riに関して相対化した数値データXmove,iは、Xmove,i=Xi−riによって定義される数値データであってよい。時系列数値データが株価である場合、基準値riは、前日の終値であってよい。すなわち、5分間隔で時間の経過と対応付けられた数列を含む第1時系列数値データXshortについては、前日の終値をrとするとき、全てのiに対して(Xshort,i−r)によって相対化した数値データを算出してよい。また。営業日間隔で時間の経過と対応付けられた数列を含む第2時系列数値データXlongについては、(Xlong,j−Xlong,j-1)によって相対化した数値データを算出してよい。 Moreover, when the sequence X i included in the numerical data at (i = 1 to N) numerically and relative with respect to the reference value r i of the data X move, i is defined by X move, i = X i -r i It may be numerical data. When the time-series numerical data is a stock price, the reference value r i may be the closing price of the previous day. That is, for the first time-series numerical data X short containing a series of numbers associated with the passage of time at 5-minute intervals, let r be the final value of the previous day and let (X short, i − r The numerical data relativized by) may be calculated. Also. For the second time series numerical data X long including a number sequence associated with the passage of time at business day intervals, the numerical data relativized by (X long, j − X long, j−1 ) may be calculated .

正規化した数値データ又は標準化した数値データを用いることで、生成されるテキストが時系列数値データの絶対値に依存してぶれることが防止され、相対化した数値データを用いることで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   By using normalized numerical data or standardized numerical data, the generated text is prevented from being dependent on the absolute value of time series numerical data, and by using relative numerical data, time series numerical values can be obtained. Texts can be generated that account for variations in time series numerical data so as to correctly include words that depend on the history of the data.

置換部14は、新たな置換テキストデータに含まれる所定の文字列を、所定の規則で新たな時系列数値データに関係する数値に置き換える。置換部14は、規則記憶部15に記憶された所定の規則を参照して、新たな置換テキストデータに含まれる所定の文字列を、新たな時系列数値データに関係する数値に置き換える。置換部14は、例えば、<price1>という所定の文字列を、Xlongの最後の値(Xlong,7、前日の終値)とXshortの最後の値(Xshort,62、当日の終値)の差に置き換えたり、<price2>という所定の文字列を、Xlongの最後の値(Xlong,7、前日の終値)とXshortの最後の値(Xshort,62、当日の終値)の差を10の位で切り捨てた値に置き換えたりする。 The substitution unit 14 replaces a predetermined character string included in the new substitution text data with a numerical value related to the new time series numerical data according to a predetermined rule. The substitution unit 14 refers to the predetermined rule stored in the rule storage unit 15 and replaces the predetermined character string included in the new substitution text data with the numerical value related to the new time series numerical data. Replacement unit 14, for example, a predetermined string <price1>, the last value of X long (X long, 7, the day before the closing price) last value of the X short (X short, 62, the day closing price) or replaced with a difference, a predetermined character string of <price2>, the last value of X long (X long, 7, the day before the closing price) last value of the X short of (X short, 62, of the day closing price) Replace the difference with a value rounded to the nearest tenth.

図4は、言語モデル20の構成を示す図である。言語モデル20は、第1間隔で時間の経過と対応付けられた数列を含む第1時系列数値データXshortを第1前処理部21aによって1又は複数の方法で変換して得られる、1又は複数の方法に一対一に対応する1又は複数の第1数値データlsが入力される第1エンコーダ22aと、第1間隔より長い第2間隔で時間の経過と対応付けられた数列を含む第2時系列数値データXlongを第2前処理部21bによって1又は複数の方法で変換して得られる、1又は複数の方法に一対一に対応する1又は複数の第2数値データllが入力される第2エンコーダ22bと、第1エンコーダ22aの出力hs及び第2エンコーダ22bの出力hlを合成する合成部23と、合成部23により合成されたデータmが入力され、置換テキストデータを出力するデコーダ24と、を含む。 FIG. 4 is a diagram showing the configuration of the language model 20. As shown in FIG. The language model 20 is obtained by converting the first time-series numerical data X short including the number sequence associated with the passage of time at the first interval by the first pre-processing unit 21 a in one or more methods, 1 or A first encoder 22a into which one or more first numerical data items l s corresponding one-to-one to a plurality of methods is input, and a number sequence including a number sequence associated with the passage of time at a second interval longer than the first interval obtain a 2:00 series numerical data X long converted in one or more ways by the second pre-processing section 21b, one or more one-to-one correspondence to the method one or more second numerical data l l input a second encoder 22b which is an output h s and a second combining unit 23 for combining the outputs h l of the encoder 22b of the first encoder 22a, the data m, which is combined by the combining unit 23 is input, the replacement text data Output And the coder 24.

本例では、第1時系列数値データXshortは、「12167.29」や「12278.83」等の数値を含む62次元のベクトルとして与えられる。また、第2時系列数値データXlongは、「12116.57」や「12120.94」等の数値を含む7次元のベクトルとして与えられる。第1前処理部21aは、入力された第1時系列数値データXshortを3種類の方法で変換して、変換して得られた3種類のベクトルの直和によって第1数値データlsを出力する。ここで、3種類の方法は、入力された第1時系列数値データXshortを所定の数値範囲に正規化した数値データを算出することと、標準化した数値データを算出することと、基準値に関して相対化した数値データを算出することである。本例の場合、第1前処理部21aから出力される第1数値データlsは、186次元のベクトルとなる。 In this example, the first time-series numerical data X short is given as a 62-dimensional vector including numerical values such as “12167.29” and “12275.83”. The second time-series numerical data X long is given as a seven-dimensional vector including numerical values such as "12116.57" and "12120.94". The first pre-processing unit 21a converts the input first time-series numerical data X short by three methods, and converts the first numerical data l s by the direct sum of three vectors obtained by conversion. Output. Here, regarding the three types of methods, calculation of numerical data obtained by normalizing the input first time-series numerical data X short into a predetermined numerical range, calculation of standardized numerical data, and a reference value It is to calculate relative numerical data. In the case of this example, the first numerical data l s output from the first preprocessing unit 21 a is a 186-dimensional vector.

このように、異なる時間間隔で時間の経過と対応付けられた数列を含む時系列数値データを用いることで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。また、時系列数値データを1又は複数の方法で変換して得られる1又は複数の数値データを言語モデルに入力することで、生成されるテキストが時系列数値データの絶対値に依存してぶれることが防止される。   As described above, by using time-series numerical data including a number sequence associated with the passage of time at different time intervals, fluctuation of time-series numerical data is made to correctly include a word depending on the history of time-series numerical data. Can be generated to describe the In addition, when one or more numerical data obtained by converting time series numerical data by one or more methods is input to the language model, the generated text may be blurred depending on the absolute value of the time series numerical data. Is prevented.

同様に、第2前処理部21bは、入力された第2時系列数値データXlongを3種類の方法で変換して、変換して得られた3種類のベクトルの直和によって第2数値データllを出力する。ここで、3種類の方法は、入力された第2時系列数値データXlongを所定の数値範囲に正規化した数値データを算出することと、標準化した数値データを算出することと、基準値に関して相対化した数値データを算出することである。本例の場合、第2前処理部21bから出力される第2数値データllは、21次元のベクトルとなる。 Similarly, the second pre-processing unit 21b converts the input second time-series numerical data X long by three methods, and generates second numerical data by the direct sum of three vectors obtained by conversion. l Output l Here, regarding the three types of methods, calculation of numerical data obtained by normalizing the input second time-series numerical data X long into a predetermined numerical range, calculation of standardized numerical data, and a reference value It is to calculate relative numerical data. In this example, the second numerical data l l output from the second pre-processing section 21b is a 21-dimensional vector.

第1エンコーダ22aには、第1前処理部21aから出力される第1数値データlsが入力され、ベクトルhsを出力する。ここで、ベクトルhsの次元は、第1エンコーダ22aの出力層に含まれる出力ノードの数となる。同様に、第2エンコーダ22bには、第2前処理部21bから出力される第2数値データllが入力され、ベクトルhlを出力する。ここで、ベクトルhlの次元は、第2エンコーダ22bの出力層に含まれる出力ノードの数となる。第1エンコーダ22a及び第2エンコーダ22bは、MLP、CNN及びRNNのうちいずれかであってよく、その他のモデルであってもよい。 The first numerical data l s output from the first pre-processing unit 21 a is input to the first encoder 22 a, and the vector h s is output. Here, the dimension of the vector h s is the number of output nodes included in the output layer of the first encoder 22 a. Similarly, the second numerical value data l l output from the second preprocessing unit 21 b is input to the second encoder 22 b, and a vector h l is output. Here, the dimension of the vector hl is the number of output nodes included in the output layer of the second encoder 22b. The first encoder 22a and the second encoder 22b may be any of MLP, CNN and RNN, and may be other models.

合成部23は、第1エンコーダ22aの出力hs、第2エンコーダ22bの出力hl、第1前処理部21aから出力される第1数値データls及び第2前処理部21bから出力される第2数値データllの直和によってこれらのデータを合成する。 The combining unit 23 outputs the output h s of the first encoder 22a, the output h l of the second encoder 22b, the first numerical data l s output from the first preprocessing unit 21a, and the output from the second preprocessing unit 21b. These data are synthesized by the direct sum of the second numerical data l l .

デコーダ24には、合成部23により合成されたデータm及び時系列数値データの時系列に関するデータTが入力される。時系列に関するデータTは、第1時系列数値データXshortに含まれる数列が対応付けられた時刻のうち最新の時刻に関するデータであったり、第2時系列数値データXlongに含まれる数列が対応付けられた営業日の範囲に関するデータであったりしてよい。 The data m combined by the combining unit 23 and data T regarding the time series of time series numerical data are input to the decoder 24. The data T related to the time series corresponds to the latest time of the times associated with the series included in the first time series numerical data X short , or the series included in the second time series numerical data X long corresponds It may be data on the range of attached business days.

本例では、デコーダ24は、「日経」、「平均」、「、」、「上げ幅」、「<price1>」、「円」、「超える」、「</s>」という置換テキストデータを出力している。ここで、5番目に出力された文字列「<price1>」は、テキスト生成装置10の置換部14によって時系列数値データに関係する数値に置き換えられる所定の文字列である。また、最後に出力された文字列「</s>」は、テキストデータの終わりを示す所定の文字列である。テキスト生成装置10は、デコーダ24から出力されたこれらの文字列によって新たな置換テキストデータを「日経平均、上げ幅<price1>円超える」と生成する。そして、置換部14によって、「<price1>」という所定の文字列を、Xlongの最後の値(Xlong,7、前日の終値)とXshortの最後の値(Xshort,62、当日の終値)の差に置き換えて、株価の変動を説明するテキストデータを生成する。 In this example, the decoder 24 outputs replacement text data of "Nikkei", "average", ",", "up width", "<price 1>", "yen", "over", "</ s>" doing. Here, the character string “<price1>” output fifth is a predetermined character string to be replaced by the numerical value related to the time-series numerical data by the substitution unit 14 of the text generation device 10. Also, the last output character string “</ s>” is a predetermined character string indicating the end of the text data. The text generation device 10 generates new replacement text data as “Nikkei average, increase width <price1> yen exceeds” by these character strings output from the decoder 24. Then, the replacing unit 14, the predetermined character string "<price1>", the last value of X long (X long, 7, the day before the closing price) last value of the X short (X short, 62, the day Replace with the difference of the closing price) to generate text data that explains the fluctuation of stock prices.

本例の言語モデル20のように、異なる時間間隔で時間の経過と対応付けられた数列を含む時系列数値データをそれぞれ異なるエンコーダに入力し、出力を合成してデコーダに入力することで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。また、デコーダに対して、エンコーダの出力のみならず、複数の数値データを入力することで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。さらに、デコーダに対して、合成部により合成されたデータのみならず、時系列数値データの時系列に関するデータを入力することで、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   As in the language model 20 of this example, time series numerical data including a number sequence associated with the passage of time at different time intervals is input to different encoders, and the output is synthesized and input to the decoder. Texts can be generated to account for variations in time series numerical data, so as to correctly include words that are dependent on the series numerical data history. In addition, a text that explains the fluctuation of time-series numerical data so that a word depending on the history of time-series numerical data is correctly included by inputting not only the output of the encoder but also a plurality of numerical data to the decoder Can be generated. Furthermore, by inputting not only the data synthesized by the synthesis unit but also data relating to the time series of time series numerical data to the decoder, it is possible to correctly include words dependent on the history of time series numerical data. Text can be generated to account for variations in series numerical data.

本実施形態に係るテキスト生成装置10によれば、時系列数値データの履歴に依存する単語を正しく含むように、時系列数値データの変動を説明するテキストを生成することで、例えば、「上げ幅」、「続落」、「反発」といった単語のように過去の株価の履歴を参照する表現を正しく生成したり、「始まる」、「寄り付き」、「前引け」、「午後」、「大引け」といった単語のように、時間帯に依存する表現を正しく生成したりすることができる。   According to the text generation device 10 according to the present embodiment, for example, “increase width” can be generated by generating a text that describes the variation of time-series numerical data so as to correctly include a word that depends on the history of time-series numerical data. Correctly generate expressions that refer to the history of past stock prices, such as “following,” “rebound,” or words such as “begin,” “near,” “forward,” “afternoon,” “large,” Can correctly generate time zone-dependent expressions.

図5は、時系列数値データに関係する数値の種類と所定の文字列とを対応付ける規則D3を示す図である。規則D3は、規則記憶部15に記憶され、置換部14によって参照される所定の規則の一例である。   FIG. 5 is a diagram showing a rule D3 for associating types of numerical values related to time-series numerical data with a predetermined character string. The rule D3 is an example of a predetermined rule stored in the rule storage unit 15 and referred to by the replacement unit 14.

規則D3は、12種類の文字列について、時系列数値データに関係する12種類の数値を対応付ける規則である。各文字列は、時系列数値データに関係する数値に1対1に対応する。本例では、<price1>という文字列は、Xlongの最後の値(Xlong,7)とXshortの最後の値(Xshort,62)の差と対応付けられる。また、<price2>という文字列は、Xlongの最後の値とXshortの最後の値の差を10の位で切り捨てた値と対応付けられる。 The rule D3 is a rule to associate 12 types of numerical values related to time series numerical data with 12 types of character strings. Each string corresponds one-to-one to the numerical value related to time series numerical data. In this example, the string <price1> is associated with the difference between the last value (X long, 7) and the last value of X short of X long (X short, 62) . Also, the string <price2> is associated with a value obtained by rounding off the difference between the last value of X long and the last value of X short to the nearest tenth.

また、<price3>という文字列は、Xlongの最後の値とXshortの最後の値の差を100の位で切り捨てた値と対応付けられ、<price4>という文字列は、Xlongの最後の値とXshortの最後の値の差を10の位で切り上げた値と対応付けられ、<price5>という文字列は、Xlongの最後の値とXshortの最後の値の差を100の位で切り上げた値と対応付けられる。 Also, the string <price3> is associated with the value obtained by rounding off the difference between the last value of X long and the last value of X short to the nearest hundred, and the string <price4> is the last of X long The difference between the value of X and the last value of X short is rounded up to the nearest tenth, and the string <price5> is the difference between the last value of X long and the last value of X short by 100. It is associated with the rounded up value.

さらに、<price6>という文字列は、Xshortの最後の値に対応付けられ、<price7>という文字列は、Xshortの最後の値を100の位で切り捨てた値に対応付けられ、<price8>という文字列は、Xshortの最後の値を1000の位で切り捨てた値に対応付けられ、<price9>という文字列は、Xshortの最後の値を10000の位で切り捨てた値に対応付けられる。同様に、<price10>という文字列は、Xshortの最後の値を100の位で切り上げた値に対応付けられ、<price11>という文字列は、Xshortの最後の値を1000の位で切り上げた値に対応付けられ、<price12>という文字列は、Xshortの最後の値を10000の位で切り上げた値に対応付けられる。 Furthermore, the string <price6> is associated with the last value of X short , the string <price7> is associated with the value of the last value of X short rounded down to the nearest hundred, and <price8 The string> is associated with the last value of X short truncated to 1000; the string <price 9> maps the last value of X short to the truncated value of 10000 Be Similarly, the string <price10> is associated with the last value of X short rounded up to the nearest hundred, and the string <price11> rounds the last value of X short to the nearest 1000. The string <price12> is associated with the value obtained by rounding up the last value of X short to the nearest 10000.

このように、時系列数値データに関係する数値の種類と所定の文字列とを対応付けることで、時系列数値データの引用や時系列数値データを演算した結果得られる数値を含むように、時系列数値データの変動を説明するテキストを生成することができる。   As described above, by associating the type of numeric value related to time-series numeric data with a predetermined character string, the time-series numeric data can be cited so that it includes the numeric value obtained as a result of computing time-series numeric data. Text can be generated to account for variations in numerical data.

図6は、本実施形態に係るテキスト生成装置10で実行される処理のフローチャートである。はじめに、取得部12によって、5分間隔で記録された株価を第1時系列数値データとして取得し(S10)、1営業日間隔で記録された株価を第2時系列数値データとして取得する(S11)。   FIG. 6 is a flowchart of processing executed by the text generation device 10 according to the present embodiment. First, the acquisition unit 12 acquires stock prices recorded at 5-minute intervals as first time-series numerical data (S10), and acquires stock prices recorded at one-business-day intervals as second time-series numerical data (S11) ).

その後、生成部13によって、第1時系列数値データ及び第2時系列数値データを言語モデル20に入力する。言語モデル20は、第1前処理部21aによって、第1時系列数値データを、正規化した数値データ、標準化した数値データ及び相対化した数値データに変換し(S12)、第2前処理部21bによって、第2時系列数値データを、正規化した数値データ、標準化した数値データ及び相対化した数値データに変換する(S13)。そして、第1時系列数値データを変換して得られた複数の第1数値データを第1エンコーダ22aに入力し(S14)、第2時系列数値データを変換して得られた複数の第2数値データを第2エンコーダ22bに入力する(S15)。   Thereafter, the generation unit 13 inputs the first time series numerical data and the second time series numerical data to the language model 20. The language model 20 converts the first time-series numerical data into normalized numerical data, standardized numerical data, and relativized numerical data by the first preprocessing unit 21a (S12), and the second preprocessing unit 21b. The second time series numerical data is converted into normalized numerical data, standardized numerical data and relative numerical data (S13). Then, a plurality of first numerical data obtained by converting the first time series numerical data is input to the first encoder 22a (S14), and a plurality of second numerical data obtained by converting the second time series numerical data Numerical data is input to the second encoder 22b (S15).

さらに、合成部23によって、複数の第1数値データ、複数の第2数値データ、第1エンコーダ22aの出力及び第2エンコーダ22bの出力を合成する(S16)。その後、合成されたデータ及び時系列に関するデータをデコーダ24に入力する(S17)。   Furthermore, the combining unit 23 combines the plurality of first numerical data, the plurality of second numerical data, the output of the first encoder 22a, and the output of the second encoder 22b (S16). Thereafter, the synthesized data and data relating to time series are input to the decoder 24 (S17).

置換部14は、デコーダ24から出力される置換テキストデータのうち、所定の文字列を所定の規則で数値に置き換え(S18)、時系列数値データの変動を説明するテキストデータを生成する。以上により、処理が終了する。   The substitution unit 14 replaces a predetermined character string of the substitution text data output from the decoder 24 with a numerical value according to a predetermined rule (S18), and generates text data for explaining the fluctuation of time series numerical data. Thus, the process ends.

本実施形態に係るテキスト生成装置10によれば、言語モデルの出力によって新たな時系列数値データを説明する新たな置換テキストデータを生成し、新たな置換テキストデータに含まれる所定の文字列を、所定の規則で新たな時系列数値データに関係する数値に置き換えることで、時系列数値データに関係する数値を言語モデルによって直接出力する必要が無くなり、数値が様々に変化する場合であってもその数値に関する記載を正しく含むように、時系列数値データの変動を説明するテキストを生成することができる。   According to the text generation device 10 according to the present embodiment, new substitution text data describing new time series numerical data is generated by the output of the language model, and a predetermined character string included in the new substitution text data is By replacing the time series numerical data with the numerical values related to the new time series numerical data according to a predetermined rule, it is not necessary to directly output the numerical values related to the time series numerical data by the language model, and even if the numerical values change variously Texts can be generated to account for variations in time series numerical data, so as to correctly include numerical references.

図7は、本実施形態に係るテキスト生成装置10で生成されるテキストを示す図である。同図では、言語モデルとして従来のモデルを用いた場合と、本実施形態に係る言語モデル20又は本実施形態に係る言語モデル20の一部を変更したモデルを用いた場合とについて、生成されるテキストをまとめた第1表R1を示している。本実施形態に係る言語モデル20は、図4を用いて説明した言語モデル20であって、第1エンコーダ22a及び第2エンコーダ22bをMLPとしたモデルである。また、本実施形態に係る言語モデル20の一部を変更したモデルの第1例は、図4を用いて説明した言語モデル20のうち標準化したデータを用いないモデル、すなわち第1前処理部21a及び第2前処理部21bによって正規化したデータ及び相対化したデータの2種類を算出するモデルである。また、本実施形態に係る言語モデル20の一部を変更したモデルの第2例は、図4を用いて説明した言語モデル20のうち置換テキストデータを用いないモデル、すなわち言語モデルによって時系列数値データに関係する数値を直接生成するモデルである。また、本実施形態に係る言語モデル20の一部を変更したモデルの第3例は、図4を用いて説明した言語モデル20のうちデコーダ24に時系列数値データの時系列に関するデータを入力しないモデルである。   FIG. 7 is a diagram showing text generated by the text generation device 10 according to the present embodiment. In the figure, a case where a conventional model is used as a language model and a case where a language model 20 according to the present embodiment or a model obtained by changing a part of the language model 20 according to the present embodiment is used are generated. It shows Table 1 R1 in which the text is summarized. The language model 20 according to the present embodiment is the language model 20 described with reference to FIG. 4 and is a model in which the first encoder 22a and the second encoder 22b are MLP. In addition, a first example of a model obtained by modifying a part of the language model 20 according to the present embodiment is a model that does not use standardized data in the language model 20 described with reference to FIG. 4, that is, the first pre-processing unit 21 a The second pre-processing unit 21 b calculates two types of data normalized by the second pre-processing unit 21 b and relativized data. In addition, a second example of a model in which a part of the language model 20 according to the present embodiment is modified is a model that does not use replacement text data in the language model 20 described with reference to FIG. It is a model that directly generates numerical values related to data. Further, in the third example of the model in which a part of the language model 20 according to the present embodiment is modified, the data relating to the time series of time series numerical data is not input to the decoder 24 of the language model 20 described using FIG. It is a model.

同図では、第1表R1の他に、正確なテキストデータの例Eを示している。正確なテキストデータの例Eは、「日経平均大引け、続伸終値は32円高の16906円」である。   The figure shows an example E of accurate text data in addition to the first table R1. An example E of accurate text data is "Nikkei average closing, next extension closing price is 16,906 yen, which is 32 yen high".

これに対して、言語モデルとして従来のモデルを用いた場合に生成されるテキストの例は、「日経平均、反落前引けは57円安の20606円」であり、テキストデータの配信時間帯を誤って「前引け」としている点、前日との株価の差を誤って「反落」と表現している点、前日終値との差を誤って「57円安」としている点、現在の株価を誤って「20606円」としている点で、正確性を欠いている。   On the other hand, an example of the text generated when the conventional model is used as the language model is “Nikkei average, ¥ 20,606 at the end of the fall before the end of the fall”, and the text data delivery time zone is incorrect. That the difference between the previous day's stock and the previous day is incorrectly described as "back", the difference between the previous day's close and the previous day's closing price is incorrectly "57 yen", and the current stock is incorrect It is lacking in accuracy in that it is “20,606 yen”.

一方、第1表R1の上から2番目に記載された、本実施形態に係る言語モデル20を用いた場合に生成されるテキストの例は、「日経平均、続伸大引けは32円高の16906円」であり、テキストデータの配信時間帯を「大引け」と正しく表現し、前日との株価の差を「続伸」と正しく表現し、前日終値との差を「32円高」と正しく算出しており、現在の株価を「16906円」と正しく引用しており、全ての表現が正確である。   On the other hand, an example of the text generated when using the language model 20 according to the present embodiment described second from the top of Table 1 R1 The text data delivery time zone is correctly described as "large closing", the difference between the stock prices from the previous day is correctly expressed as "seizun", and the difference from the previous day's closing price is correctly calculated as "32 yen high". The present stock price is correctly quoted as "16,906 yen", and all expressions are accurate.

第1表R1の上から3番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第1例を用いた場合に生成されるテキストの例は、「日経平均、続伸大引けは32円高の16906円」であり、テキストデータの配信時間帯を「大引け」と正しく表現し、前日との株価の差を「続伸」と正しく表現し、前日終値との差を「32円高」と正しく算出しており、現在の株価を「16906円」と正しく引用しており、全ての表現が正確である。このことから、第1前処理部21a及び第2前処理部21bによって正規化したデータ及び相対化したデータの2種類を算出するモデルであっても、第1前処理部21a及び第2前処理部21bによって、標準化したデータ、正規化したデータ及び相対化したデータの3種類を算出するモデルと同等以上の精度で時系列数値データを説明するテキストデータを生成できることがわかる。   An example of the text generated when using the first example of the model in which a part of the language model 20 according to the present embodiment is changed, which is described in the third table from the top of Table 1 R1, is “Nikkei average, The next year's large closing is ¥ 16,906 at ¥ 32, and the delivery time zone of the text data is correctly described as “large closing”, the difference between the stock prices from the previous day is correctly expressed as “second opening”, and the difference from the previous day's closing price is “ It is correctly calculated as “32 yen high”, the current stock price is correctly quoted as “16,906 yen”, and all expressions are correct. From this, even in a model that calculates two types of data normalized by the first pre-processing unit 21a and the second pre-processing unit 21 b and relative data, the first pre-processing unit 21 a and the second pre-processing It can be understood that the text data describing the time-series numerical data can be generated with the same or higher accuracy as a model that calculates three types of standardized data, normalized data, and relativized data by the part 21b.

第1表R1の上から4番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第2例を用いた場合に生成されるテキストの例は、「日経平均、続伸大引けは28円高の<unk>円」であり、テキストデータの配信時間帯を「大引け」と正しく表現し、前日との株価の差を「続伸」と正しく表現し、前日終値との差を誤って「28円高」と算出しており、現在の株価が引用できず「<unk>円」となっている。ここで、<unk>は、unknownを表す文字列であり、適当な単語が生成できなかったことを示す。このことから、言語モデルによって時系列数値データに関係する数値を直接生成するのでは、時系列数値データに関係する数値を正しく生成することが難しく、時系列数値データの演算を伴う表現のみならず、時系列数値データの引用を含めることも困難であることがわかる。   An example of the text generated in the case of using the second example of the model in which a part of the language model 20 according to the embodiment described in the fourth table from the top of Table 1 R1 is changed is “Nikkei average, continued to grow close of a can of 28 yen <unk> circle ", the delivery time zone of the text data is correctly described as" the close ", the difference between the share price of the previous day correctly described as" firmer ", the difference between the previous day closing price the mistake has been calculated as "28 yen", it has become a can not be the current stock price quotation "<unk> circle". Here, <unk> is a string representing the unknown unknown, it indicates that the appropriate word could not be produced. From this, it is difficult to correctly generate numerical values related to time-series numerical data by directly generating numerical values related to time-series numerical data using a language model, and not only expressions involving computation of time-series numerical data. It also proves difficult to include the citation of time series numerical data.

第1表R1の上から5番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第3例を用いた場合に生成されるテキストの例は、「日経平均、続伸前引けは32円高の16906円」であり、テキストデータの配信時間帯を誤って「前引け」と表現し、前日との株価の差を「続伸」と正しく表現し、前日終値との差を「32円高」と正しく算出しており、現在の株価を「16906円」と正しく引用している。このことから、デコーダ24に時系列数値データの時系列に関するデータを入力しないモデルでは、時系列数値データが取得された時間帯について正しく言及することが難しいことがわかる。   An example of the text generated when the third example of the model in which a part of the language model 20 according to the present embodiment is changed, which is described in the fifth from the top of Table 1 R1 is “Nikkei average, The second closing advance closing price is ¥ 16,906 at ¥ 32, and the delivery time zone of the text data is mistakenly described as “front closing”, and the difference between the stock prices from the previous day is correctly described as “second extension” and the previous day closing price The difference is correctly calculated as "32 yen high", and the current stock price is correctly quoted as "16,906 yen". From this, it can be understood that it is difficult to correctly refer to the time zone in which the time-series numerical data is acquired, in a model in which no data relating to the time-series of time-series numerical data is input to the decoder 24.

図8は、本実施形態に係るテキスト生成装置10で生成されるテキストと基準となるテキストとの近さを評価した指標値を示す図である。同図では、言語モデルとして従来のモデルを用いた場合と、本実施形態に係る言語モデル20又は本実施形態に係る言語モデル20の一部を変更したモデルを用いた場合とについて、生成されるテキストと基準となるテキストとの近さを評価した指標値をまとめた第2表R2を示している。なお、指標値は、BLEU(BiLingual Evaluation Understudy)と呼ばれる値であり、0から1までの値を取り、1に近いほど基準となるテキスト(正確なテキスト)に近いことを表す。この指標値は、テキストの評価を行うために用いられるものの一例であり、他の指標値を用いてテキストの評価を行うこともできる。   FIG. 8 is a diagram showing index values obtained by evaluating the closeness between the text generated by the text generation device 10 according to the present embodiment and the text serving as a reference. In the figure, a case where a conventional model is used as a language model and a case where a language model 20 according to the present embodiment or a model obtained by changing a part of the language model 20 according to the present embodiment is used are generated. It shows Table 2 R2 in which index values that evaluate the closeness of the text and the reference text are summarized. The index value is a value called BLEU (BiLingual Evaluation Understudy), takes a value from 0 to 1, and indicates that the closer to 1 the closer to the reference text (the correct text). This index value is an example of one used to evaluate text, and other index values can be used to evaluate text.

本実施形態に係る言語モデル20は、図4を用いて説明した言語モデル20であって、第1エンコーダ22a及び第2エンコーダ22bをMLPとしたモデルと、第1エンコーダ22a及び第2エンコーダ22bをCNNとしたモデルと、第1エンコーダ22a及び第2エンコーダ22bをRNNとしたモデルである。   The language model 20 according to the present embodiment is the language model 20 described with reference to FIG. 4 and is a model in which the first encoder 22a and the second encoder 22b are MLP, and the first encoder 22a and the second encoder 22b. A model with CNN and a model with RNN as the first encoder 22a and the second encoder 22b.

また、本実施形態に係る言語モデル20の一部を変更したモデルの第1例は、図4を用いて説明した言語モデル20のうち第1時系列数値データを用いないモデル、すなわち第2時系列数値データのみを用いるモデルである。本実施形態に係る言語モデル20の一部を変更したモデルの第2例は、図4を用いて説明した言語モデル20のうち第2時系列数値データを用いないモデル、すなわち第1時系列数値データのみを用いるモデルである。   Further, a first example of a model in which a part of the language model 20 according to the present embodiment is modified is a model not using the first time-series numerical data in the language model 20 described with reference to FIG. It is a model using only series numerical data. The second example of the model in which a part of the language model 20 according to the present embodiment is modified is a model that does not use the second time-series numerical data in the language model 20 described with reference to FIG. It is a model using only data.

また、本実施形態に係る言語モデル20の一部を変更したモデルの第3例は、図4を用いて説明した言語モデル20のうち正規化したデータを用いないモデル、すなわち第1前処理部21a及び第2前処理部21bによって標準化したデータ及び相対化したデータの2種類を算出するモデルである。本実施形態に係る言語モデル20の一部を変更したモデルの第4例は、図4を用いて説明した言語モデル20のうち標準化したデータを用いないモデル、すなわち第1前処理部21a及び第2前処理部21bによって正規化したデータ及び相対化したデータの2種類を算出するモデルである。本実施形態に係る言語モデル20の一部を変更したモデルの第5例は、図4を用いて説明した言語モデル20のうち相対化したデータを用いないモデル、すなわち第1前処理部21a及び第2前処理部21bによって標準化したデータ及び正規化したデータの2種類を算出するモデルである。   In addition, a third example of a model in which a part of the language model 20 according to the present embodiment is modified is a model that does not use normalized data in the language model 20 described with reference to FIG. It is a model which calculates two types of data standardized by 21a and the 2nd pretreatment part 21b, and relativized data. A fourth example of a model in which a part of the language model 20 according to the present embodiment is modified is a model that does not use standardized data in the language model 20 described with reference to FIG. 4, that is, the first preprocessing unit 21a and the first preprocessing unit 21a. 2 A model for calculating two types of data normalized by the pre-processing unit 21 b and relativized data. The fifth example of the model in which part of the language model 20 according to the present embodiment is modified is a model that does not use relativized data in the language model 20 described with reference to FIG. 4, that is, the first preprocessing unit 21 a and This is a model for calculating two types of data standardized by the second pre-processing unit 21 b and normalized data.

また、本実施形態に係る言語モデル20の一部を変更したモデルの第6例は、図4を用いて説明した言語モデル20のうちデコーダ24に時系列数値データを1又は複数の方法で変換して得られる1又は複数の数値データを入力しないモデル、すなわちデコーダ24に第1エンコーダ22aの出力及び第2エンコーダ22bの出力のみを入力するモデルである。本実施形態に係る言語モデル20の一部を変更したモデルの第7例は、図4を用いて説明した言語モデル20のうち置換テキストデータを用いないモデル、すなわち言語モデルによって時系列数値データに関係する数値を直接生成するモデルである。また、本実施形態に係る言語モデル20の一部を変更したモデルの第8例は、図4を用いて説明した言語モデル20のうちデコーダ24に時系列数値データの時系列に関するデータを入力しないモデルである。   Further, the sixth example of a model in which a part of the language model 20 according to the present embodiment has been modified converts time series numerical data to the decoder 24 of the language model 20 described using FIG. 4 by one or more methods. , Or a model in which only the output of the first encoder 22a and the output of the second encoder 22b are input to the decoder 24. A seventh example of a model in which a part of the language model 20 according to the present embodiment has been modified is a model not using replacement text data in the language model 20 described with reference to FIG. It is a model that directly generates related numerical values. Further, in the eighth example of a model in which a part of the language model 20 according to the present embodiment is modified, the data relating to the time series of time series numerical data is not input to the decoder 24 of the language model 20 described using FIG. It is a model.

言語モデルとして従来のモデルを用いた場合に生成されるテキストの評価値は、「0.244」であるのに対して、本実施形態に係る言語モデル20を用いてテキスト生成装置10により生成されるテキストの評価値は、エンコーダにMLPを用いる場合「0.415」、エンコーダにCNNを用いる場合「0.414」、エンコーダにRNNを用いる場合「0.415」である。いずれの場合、従来よりも評価値が大幅に改善しており、正確なテキストデータが生成できていることがわかる。   While the evaluation value of the text generated when the conventional model is used as the language model is “0.244”, the text generation device 10 generates the evaluation value using the language model 20 according to the present embodiment. The evaluation value of the text is “0.415” when using MLP for the encoder, “0.414” when using CNN for the encoder, and “0.415” when using RNN for the encoder. In either case, the evaluation value is significantly improved over the conventional case, and it can be seen that accurate text data can be generated.

第2表R2の上から5番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第1例を用いて生成されるテキストの評価値は「0.356」、第2表R2の上から6番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第2例を用いて生成されるテキストの評価値は「0.397」であり、異なる時間間隔で取得された2種類の時系列数値データを用いることで、評価値が改善することがわかる。これは、本実施形態に係るテキスト生成装置10によれば、時系列数値データの履歴に依存する単語を正しく生成できることによると考えられる。   The evaluation value of the text generated using the first example of the model in which a part of the language model 20 according to the present embodiment described in the fifth from the top of Table 2 R2 is "0.356", The evaluation value of the text generated using the second example of the model in which a part of the language model 20 according to the present embodiment described in the sixth from the top of Table 2 R2 is changed to "0.397" It can be seen that the evaluation value is improved by using two types of time-series numerical data acquired at different time intervals. It is considered that this is because, according to the text generation device 10 according to the present embodiment, a word depending on the history of time series numerical data can be correctly generated.

また、第2表R2の上から7番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第3例を用いて生成されるテキストの評価値は「0.424」、第2表R2の上から8番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第4例を用いて生成されるテキストの評価値は「0.424」、第2表R2の上から9番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第5例を用いて生成されるテキストの評価値は「0.408」である。これらのことから、正規化されたデータ及び標準化されたデータのいずれか一方と、相対化されたデータとを用いると、正規化されたデータ、標準化されたデータ及び相対化されたデータ全てを用いる場合よりもより適切なテキストデータが生成できることがわかる。また、相対化されたデータを用いないと、評価値が悪化することがわかる。   In addition, the evaluation value of the text generated using the third example of the model in which a part of the language model 20 according to the present embodiment has been described seventh from the top in Table 2 R2 is “0.424 The evaluation value of the text generated using the fourth example of the model in which a part of the language model 20 according to the present embodiment is modified described in the eighth from the top of Table 2 R2 is “0.424”. The evaluation value of the text generated using the fifth example of the model in which a part of the language model 20 according to the present embodiment has been described ninth from the top in Table 2 R2 is “0.408 ". From these facts, using either normalized data or normalized data and relativized data, all normalized data, normalized data and relativized data are used. It turns out that text data more appropriate than in the case can be generated. In addition, it is understood that the evaluation value is deteriorated if the relativized data is not used.

また、第2表R2の上から10番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第6例を用いて生成されるテキストの評価値は「0.397」、第2表R2の上から11番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第7例を用いて生成されるテキストの評価値は「0.313」、第2表R2の上から12番目に記載された、本実施形態に係る言語モデル20の一部を変更したモデルの第8例を用いて生成されるテキストの評価値は「0.358」である。これらのことから、デコーダ24に第1エンコーダ22aの出力及び第2エンコーダ22bの出力のみを入力するモデルや、言語モデルによって時系列数値データに関係する数値を直接生成するモデル、時系列数値データの時系列に関するデータを入力しないモデルを用いる場合には、本実施形態に係る言語モデル20を用いる場合よりも指標値が悪化することがわかる。   In addition, the evaluation value of the text generated using the sixth example of the model in which a part of the language model 20 according to the present embodiment has been described tenth from the top of Table 2 R2 is “0.397 The evaluation value of the text generated using the seventh example of the model in which a part of the language model 20 according to the present embodiment has been described from the top of the second table R2 in the second table R2 is “0.313 The evaluation value of the text generated using the eighth example of the model in which a part of the language model 20 according to the present embodiment is modified, described in the twelfth table from the top of Table 2 R2, is “0.358 ". From these facts, a model which inputs only the output of the first encoder 22a and the output of the second encoder 22b to the decoder 24, a model which directly generates numerical values related to time series numerical data by the language model, time series numerical data It can be seen that, when using a model that does not input data regarding time series, the index value is worse than when using the language model 20 according to the present embodiment.

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。   The embodiments described above are for the purpose of facilitating the understanding of the present invention, and are not for the purpose of limiting the present invention. The elements included in the embodiment and the arrangement, the material, the conditions, the shape, the size, and the like of the elements are not limited to those illustrated, and can be changed as appropriate. In addition, configurations shown in different embodiments can be partially substituted or combined with each other.

10…テキスト生成装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…学習部、12…取得部、13…生成部、14…置換部、15…規則記憶部、20…言語モデル、21a…第1前処理部、21b…第2前処理部、22a…第1エンコーダ、22b…第2エンコーダ、23…合成部、24…デコーダ、30…ユーザ端末、40…株価配信サーバ、100…テキスト生成システム、D1…置換テキストデータ、D2…時系列数値データ、D3…規則、E…正確なテキストデータの例、N…通信ネットワーク、R1…第1表、R2…第2表   DESCRIPTION OF SYMBOLS 10 ... Text generation apparatus, 10a ... CPU, 10b ... RAM, 10c ... ROM, 10d ... Communications part, 10e ... Input part, 10f ... Display part, 11 ... Learning part, 12 ... Acquisition part, 13 ... Generation part, 14 ... Replacement unit 15 Rule storage unit 20 Language model 21a First pre-processing unit 21b Second pre-processing unit 22a First encoder 22b Second encoder 23 Combining unit 24 Decoder , 30: user terminal, 40: stock price distribution server, 100: text generation system, D1: substitution text data, D2: time series numerical data, D3: rule, E: example of accurate text data, N: communication network, R1 ... Table 1, R2 ... Table 2

Claims (10)

時間の経過と対応付けられた数列を含む時系列数値データの変動を説明するテキストデータを生成するテキスト生成装置であって、
前記テキストデータのうち前記時系列数値データに関係する数値を所定の規則で所定の文字列に置き換えた置換テキストデータと前記時系列数値データとを学習用データとして、前記時系列数値データが入力された場合に、前記置換テキストデータを出力するように言語モデルを学習させる学習部と、
前記学習部により学習された前記言語モデルに新たな時系列数値データを入力し、前記言語モデルの出力によって新たな置換テキストデータを生成する生成部と、
前記新たな置換テキストデータに含まれる前記所定の文字列を、前記所定の規則で前記新たな時系列数値データに関係する数値に置き換える置換部と、
を備えるテキスト生成装置。
A text generation apparatus for generating text data for explaining fluctuation of time series numerical data including a number sequence associated with the passage of time, wherein
The time-series numerical data is input using, as learning data, replacement text data in which a numerical value related to the time-series numerical data in the text data is replaced with a predetermined character string according to a predetermined rule, and the time-series numerical data A learning unit for learning a language model so as to output the substitution text data
A generation unit which inputs new time-series numerical data to the language model learned by the learning unit, and generates new replacement text data by an output of the language model;
A replacement unit that replaces the predetermined character string included in the new replacement text data with a numerical value related to the new time-series numerical data according to the predetermined rule;
A text generator comprising:
前記時系列数値データに関係する数値は、
前記時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値と、
前記時系列数値データに含まれる数列のうち異なる時点に対応付けられた数値の差と、
前記時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値を所定の桁で切り捨てた数値と、
前記時系列数値データに含まれる数列のうち異なる時点に対応付けられた数値の差を所定の桁で切り捨てた数値と、
前記時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値を所定の桁で切り上げた数値と、
前記時系列数値データに含まれる数列のうち異なる時点に対応付けられた数値の差を所定の桁で切り上げた数値と、のうち少なくともいずれかを含み、
前記所定の規則は、前記時系列数値データに関係する数値の種類と前記所定の文字列とを対応付ける規則である、
請求項1に記載のテキスト生成装置。
The numerical values related to the time series numerical data are
Among the numerical sequences included in the time series numerical data, a numerical value associated with a predetermined time point, and
Among the numerical sequences included in the time-series numerical data, the difference between the numerical values associated with different points in time, and
A numerical value obtained by rounding off a numerical value associated with a predetermined time point in the numerical sequence included in the time series numerical data to a predetermined digit;
A numerical value obtained by rounding off the difference between the numerical values associated with different time points among the numerical sequences included in the time-series numerical data by a predetermined digit,
A numerical value obtained by rounding up a numerical value associated with a predetermined time point in the numerical sequence included in the time series numerical data by a predetermined digit,
At least one of numerical values obtained by rounding up the difference between the numerical values associated with different time points among the numerical sequences included in the time-series numerical data by a predetermined digit,
The predetermined rule is a rule that associates the type of numerical value related to the time-series numerical data with the predetermined character string.
The text generator according to claim 1.
前記時系列数値データは、第1間隔で時間の経過と対応付けられた数列を含む第1時系列数値データと、前記第1間隔より長い第2間隔で時間の経過と対応付けられた数列を含む第2時系列数値データとを含む、
請求項1又は2に記載のテキスト生成装置。
The time-series numerical data includes first time-series numerical data including a number sequence associated with the passage of time at a first interval, and a number sequence associated with the passage of time at a second interval longer than the first interval. Including second time series numerical data including
The text generator according to claim 1 or 2.
前記生成部は、前記時系列数値データを1又は複数の方法で変換して得られる、前記1又は複数の方法に一対一に対応する1又は複数の数値データを、前記言語モデルに入力する、
請求項1から3のいずれか一項に記載のテキスト生成装置。
The generation unit inputs, to the language model, one or more numerical data corresponding to the one or more methods, which is obtained by converting the time series numerical data by one or more methods.
The text generator according to any one of claims 1 to 3.
前記1又は複数の数値データは、
前記時系列数値データに含まれる数列を所定の数値範囲に正規化した数値データと、
前記時系列数値データに含まれる数列の平均値及び標準偏差を用いて前記時系列数値データを標準化した数値データと、
前記時系列数値データに含まれる数列のうち所定の時点に対応付けられた数値を基準値として、前記時系列数値データに含まれる数列を前記基準値に関して相対化した数値データと、
のうち少なくともいずれかを含む、
請求項4に記載のテキスト生成装置。
The one or more numerical data are
Numerical data obtained by normalizing a number sequence included in the time series numerical data into a predetermined numerical range;
Numerical data in which the time series numerical data is standardized using the average value and the standard deviation of the numerical sequence included in the time series numerical data;
Numerical data obtained by relativizing a numerical sequence included in the time-series numerical data with respect to the reference value using a numerical value associated with a predetermined point in time among the numerical sequences included in the time-series numerical data as the reference value;
At least one of
The text generator according to claim 4.
前記言語モデルは、
第1間隔で時間の経過と対応付けられた数列を含む第1時系列数値データを1又は複数の方法で変換して得られる、前記1又は複数の方法に一対一に対応する1又は複数の第1数値データが入力される第1エンコーダと、
前記第1間隔より長い第2間隔で時間の経過と対応付けられた数列を含む第2時系列数値データを前記1又は複数の方法で変換して得られる、前記1又は複数の方法に一対一に対応する1又は複数の第2数値データが入力される第2エンコーダと、
前記第1エンコーダの出力及び前記第2エンコーダの出力を合成する合成部と、
前記合成部により合成されたデータが入力され、前記置換テキストデータを出力するデコーダと、を含む、
請求項1から5のいずれか一項に記載のテキスト生成装置。
The language model is
One or more one-to-one corresponding to the one or more methods obtained by converting the first time-series numerical data including the number sequence associated with the passage of time at the first interval by one or more methods A first encoder to which first numerical data is input;
One or more of the one or more methods are obtained by converting second time-series numerical data including a number sequence associated with the passage of time at a second interval longer than the first interval. A second encoder to which one or more second numerical data corresponding to
A combining unit that combines the output of the first encoder and the output of the second encoder;
A decoder for receiving the data synthesized by the synthesis unit and outputting the replacement text data;
The text generator according to any one of claims 1 to 5.
前記合成部は、前記第1エンコーダの出力、前記第2エンコーダの出力、前記1又は複数の第1数値データ及び前記1又は複数の第2数値データを合成する、
請求項6に記載のテキスト生成装置。
The combining unit combines the output of the first encoder, the output of the second encoder, the one or more first numerical data, and the one or more second numerical data.
The text generator according to claim 6.
前記デコーダには、前記合成部により合成されたデータ及び前記時系列数値データの時系列に関するデータが入力される、
請求項6又は7に記載のテキスト生成装置。
The data combined by the combining unit and data related to a time series of the time-series numerical data are input to the decoder.
The text generator according to claim 6 or 7.
ハードウェアプロセッサ及びメモリを備えるコンピュータによって、時間の経過と対応付けられた数列を含む時系列数値データの変動を説明するテキストデータを生成するテキスト生成方法であって、
前記テキストデータのうち前記時系列数値データに関係する数値を所定の規則で所定の文字列に置き換えた置換テキストデータと前記時系列数値データとを学習用データとして、前記時系列数値データが入力された場合に、前記置換テキストデータを出力するように言語モデルを学習させることと、
学習された前記言語モデルに新たな時系列数値データを入力し、前記言語モデルの出力によって前記新たな時系列数値データを説明する新たな置換テキストデータを生成することと、
前記新たな置換テキストデータに含まれる前記所定の文字列を、前記所定の規則で前記新たな時系列数値データに関係する数値に置き換えることと、
を実行するテキスト生成方法。
A text generation method for generating text data that describes, by a computer comprising a hardware processor and a memory, fluctuations in time series numerical data including a number sequence associated with the passage of time, comprising:
The time-series numerical data is input using, as learning data, replacement text data in which a numerical value related to the time-series numerical data in the text data is replaced with a predetermined character string according to a predetermined rule, and the time-series numerical data Training the language model so as to output the substitution text data,
Inputting new time series numerical data into the learned language model, and generating new substitution text data describing the new time series numerical data by the output of the language model;
Replacing the predetermined character string included in the new replacement text data with a numerical value related to the new time-series numerical data according to the predetermined rule;
How to generate text to execute
時間の経過と対応付けられた数列を含む時系列数値データの変動を説明するテキストデータを生成するテキスト生成装置に備えられたコンピュータを、
前記テキストデータのうち前記時系列数値データに関係する数値を所定の規則で所定の文字列に置き換えた置換テキストデータと前記時系列数値データとを学習用データとして、前記時系列数値データが入力された場合に、前記置換テキストデータを出力するように言語モデルを学習させる学習部、
前記学習部により学習された前記言語モデルに新たな時系列数値データを入力し、前記言語モデルの出力によって前記新たな時系列数値データを説明する新たな置換テキストデータを生成する生成部、及び
前記新たな置換テキストデータに含まれる前記所定の文字列を、前記所定の規則で前記新たな時系列数値データに関係する数値に置き換える置換部、
として機能させるテキスト生成プログラム。
A computer provided in a text generation device for generating text data that describes variation in time series numerical data including a number sequence associated with the passage of time,
The time-series numerical data is input using, as learning data, replacement text data in which a numerical value related to the time-series numerical data in the text data is replaced with a predetermined character string according to a predetermined rule, and the time-series numerical data A learning unit that learns a language model to output the substitution text data
A generation unit for inputting new time series numerical data to the language model learned by the learning unit, and generating new replacement text data describing the new time series numerical data by an output of the language model; A substitution unit that replaces the predetermined character string included in new substitution text data with a numerical value related to the new time series numerical data according to the predetermined rule;
Text generator to act as.
JP2017168673A 2017-09-01 2017-09-01 Text generator, text generator and text generator Active JP6910061B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017168673A JP6910061B2 (en) 2017-09-01 2017-09-01 Text generator, text generator and text generator

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017168673A JP6910061B2 (en) 2017-09-01 2017-09-01 Text generator, text generator and text generator

Publications (2)

Publication Number Publication Date
JP2019046158A true JP2019046158A (en) 2019-03-22
JP6910061B2 JP6910061B2 (en) 2021-07-28

Family

ID=65812819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017168673A Active JP6910061B2 (en) 2017-09-01 2017-09-01 Text generator, text generator and text generator

Country Status (1)

Country Link
JP (1) JP6910061B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069777A (en) * 2020-06-15 2020-12-11 北京理工大学 Two-stage data-to-text generation method based on skeleton

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259409A (en) * 1993-03-09 1994-09-16 Nippon Telegr & Teleph Corp <Ntt> Numerical data explanatory sentence generating method
JP2001351011A (en) * 2000-06-08 2001-12-21 Kentex Kk Method, device, and system for automatically generating stock name analysis information
US20170075884A1 (en) * 2013-09-16 2017-03-16 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
JP2019016181A (en) * 2017-07-07 2019-01-31 株式会社野村総合研究所 Text summarization system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259409A (en) * 1993-03-09 1994-09-16 Nippon Telegr & Teleph Corp <Ntt> Numerical data explanatory sentence generating method
JP2001351011A (en) * 2000-06-08 2001-12-21 Kentex Kk Method, device, and system for automatically generating stock name analysis information
US20170075884A1 (en) * 2013-09-16 2017-03-16 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
JP2019016181A (en) * 2017-07-07 2019-01-31 株式会社野村総合研究所 Text summarization system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
村上 聡一朗 外3名: "数値予報マップからの天気予報コメントの自動生成", 言語処理学会第23回年次大会 発表論文集 [ONLINE], JPN6021021093, 6 March 2017 (2017-03-06), JP, pages 1121 - 1124, ISSN: 0004522551 *
青木 花純、小林 一郎: "時系列データの類似度に基づき重み付けされた言語モデルを用いた文生成", 言語処理学会第22回年次大会 発表論文集 [ONLINE], JPN6021021098, 29 February 2016 (2016-02-29), JP, pages 28 - 30, ISSN: 0004522552 *
青木 花純、小林 一郎: "言語モデルを用いた株価の動向を記述するテキスト生成への取組み", 言語処理学会第21回年次大会 発表論文集 [ONLINE], JPN6021021092, 9 March 2015 (2015-03-09), JP, pages 1000 - 1003, ISSN: 0004522550 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069777A (en) * 2020-06-15 2020-12-11 北京理工大学 Two-stage data-to-text generation method based on skeleton
CN112069777B (en) * 2020-06-15 2022-09-30 北京理工大学 Two-stage data-to-text generation method based on skeleton

Also Published As

Publication number Publication date
JP6910061B2 (en) 2021-07-28

Similar Documents

Publication Publication Date Title
EP3819827A1 (en) Machine learning device and method
US11151328B2 (en) Using neural network and score weighing to incorporate contextual data in sentiment analysis
EP3901788A2 (en) Conversation-based recommending method, conversation-based recommending apparatus, and device
JP7007027B2 (en) Prediction system, model generation system, method and program
CN112528634A (en) Text error correction model training and recognition method, device, equipment and storage medium
Asongu et al. The incremental effect of education on corruption: evidence of synergy from lifelong learning
US20180365594A1 (en) Systems and methods for generative learning
Weber et al. Predicting default probabilities in emerging markets by new conic generalized partial linear models and their optimization
CN112699215B (en) Grading prediction method and system based on capsule network and interactive attention mechanism
CN109726331B (en) Object preference prediction method, device and computer readable medium
CN109242323A (en) A kind of Automobile Service Factory&#39;s methods of marking and relevant apparatus
CN110175469A (en) A kind of social media privacy of user leakage detection method, system, equipment and medium
CN111291175A (en) Method for automatically generating submitted demand abstract based on strategy gradient algorithm
CN112463989A (en) Knowledge graph-based information acquisition method and system
Fu et al. A Unified Framework for Multi-Domain CTR Prediction via Large Language Models
CN114118570A (en) Service data prediction method and device, electronic equipment and storage medium
JP2019046158A (en) Text generation device, text generation method and text generation program
Vizuete-Luciano et al. Decision making in the assignment process by using the Hungarian algorithm with OWA operators
Nasios et al. Blending gradient boosted trees and neural networks for point and probabilistic forecasting of hierarchical time series
Van Oest et al. Weighting schemes and incomplete data: A generalized Bayesian framework for chance-corrected interrater agreement.
CN116843410A (en) Commodity recommendation method and system based on size data fusion
CN107644042A (en) Software program clicking rate estimates sort method and server
Zandi et al. Exploring User Interactions in AR/VR Interfaces: A Simulation-Based Study
Esfahani et al. Rash Credit Injection, Hasty Job Creation, and Firm Bifurcation in Iran’s Manufacturing.”
CN113688232B (en) Method and device for classifying bid-inviting text, storage medium and terminal

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20170922

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200622

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210528

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210629

R150 Certificate of patent or registration of utility model

Ref document number: 6910061

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150