JP2021033994A - Text processing method, apparatus, device and computer readable storage medium - Google Patents

Text processing method, apparatus, device and computer readable storage medium Download PDF

Info

Publication number
JP2021033994A
JP2021033994A JP2019209171A JP2019209171A JP2021033994A JP 2021033994 A JP2021033994 A JP 2021033994A JP 2019209171 A JP2019209171 A JP 2019209171A JP 2019209171 A JP2019209171 A JP 2019209171A JP 2021033994 A JP2021033994 A JP 2021033994A
Authority
JP
Japan
Prior art keywords
probability distribution
vector
word
sentence
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019209171A
Other languages
Japanese (ja)
Other versions
JP7414357B2 (en
Inventor
シーホン グオ
Xihong Guo
シーホン グオ
シンユ グオ
xin yu Guo
シンユ グオ
アンシン リー
Anxin Li
アンシン リー
ラン チン
Lan Chen
ラン チン
大志 池田
Hiroshi Ikeda
大志 池田
吉村 健
Takeshi Yoshimura
健 吉村
拓 藤本
Hiroshi Fujimoto
拓 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2021033994A publication Critical patent/JP2021033994A/en
Application granted granted Critical
Publication of JP7414357B2 publication Critical patent/JP7414357B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a text processing method, apparatus, device and computer readable storage medium that extract a summary from text efficiently and can generate the summary.SOLUTION: A text processing device 400 comprises: a pre-processing unit that is arranged so as to perform pre-processing to source text, and generate a plurality of word vectors for a plurality of words; a sentence vector determination unit that is arranged so as to determine a plurality of sentence vectors on the basis of a plurality of initial recommendation weight vectors and the plurality of word vectors; a recommendation probability determination unit that is arranged so as to adjust the plurality of initial recommendation weight vectors on the basis of relevancy of each sentence vector with other sentence vector of the plurality of sentence vectors, and determine a recommendation probability distribution for the plurality of words; and an output unit that is arranged so as to determine the word to be output based on the recommendation probability distribution.SELECTED DRAWING: Figure 4

Description

本開示は、テキスト処理分野に関し、具体的に、テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体に関する。 The present disclosure relates to the field of text processing, specifically to text processing methods, devices, devices and computer readable storage media.

従来のテキストの生成過程において、テキストを生成するネットワークの出力コンテンツは、訓練データを学習した結果である。例えば、要約のようなテキストを生成するシーンでは、多くの訓練データの正解がテキストのコンテンツにおける前のいくつかの文に集中しているため、このような訓練データを用いて訓練されたネットワークも、テキストのコンテンツにおける前の文について新たなテキストコンテンツを生成する傾向にある。したがって、現在のテキスト処理方法では、テキストのコンテンツに対して要約及び抽出をする効率的な手段がない。 In the conventional text generation process, the output content of the network that generates the text is the result of learning the training data. For example, in a text-generating scene such as a summary, many training data correct answers are concentrated in the previous few sentences in the text content, so networks trained with such training data are also available. , Tends to generate new text content for previous sentences in text content. Therefore, current text processing methods do not have an efficient means of summarizing and extracting text content.

本開示は、テキストから要約を効率的に抽出し生成するためのテキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体を提供する。 The present disclosure provides text processing methods, devices, devices and computer-readable storage media for efficiently extracting and generating summaries from text.

本開示の1つの局面において、ソーステキストに対し前処理を行って、複数の単語のための複数の単語ベクトルを生成するように配置される前処理ユニットと、複数の初期推奨重みベクトルと前記複数の単語ベクトルに基づいて、複数の文ベクトルを確定するように配置される文ベクトル確定ユニットと、各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性に基づいて前記複数の初期推奨重みベクトルを調整して、前記複数の単語のための推奨確率分布を確定するように配置される推奨確率確定ユニットと、前記推奨確率分布に基づいて出力すべき単語を確定するように配置される出力ユニットと、を備えるテキスト処理装置が提供されている。 In one aspect of the present disclosure, a preprocessing unit arranged to preprocess the source text to generate a plurality of word vectors for a plurality of words, a plurality of initial recommended weight vectors, and the plurality. Based on the word vector of, the sentence vector confirmation unit arranged so as to determine the plurality of sentence vectors, and the plurality of sentence vectors based on the relationship between each sentence vector and the other sentence vector among the plurality of sentence vectors. Adjust the initial recommended weight vector of to determine the recommended probability determination unit arranged to determine the recommended probability distribution for the plurality of words and the word to be output based on the recommended probability distribution. A text processing device comprising an output unit to be arranged is provided.

いくつかの実施例において、前記文ベクトル確定ユニットは、符号化ニューラルネットワークを利用して前記複数の単語ベクトルを処理して、各単語ベクトルにそれぞれ対応する現在の符号化隠れ状態ベクトルを確定し、各初期推奨重みベクトルと前記現在の符号化隠れ状態ベクトルに基づいて、当該初期推奨重みベクトルに対応する文ベクトルを確定するように配置される。 In some embodiments, the sentence vector determination unit processes the plurality of word vectors using a coded neural network to determine the current coded hidden state vector corresponding to each word vector. Based on each initial recommended weight vector and the current coded hidden state vector, the sentence vector corresponding to the initial recommended weight vector is arranged so as to be determined.

いくつかの実施例において、前記出力ユニットは、前記現在の符号化隠れ状態ベクトルに基づいて、復号化ニューラルネットワークを利用して現在の復号化隠れ状態ベクトルを確定し、前記現在の符号化隠れ状態ベクトルと前記現在の復号化隠れ状態ベクトルを利用して現在の単語確率分布を確定し、前記現在の単語確率分布と前記推奨確率分布に基づいて、出力すべき単語を確定するように配置される。 In some embodiments, the output unit utilizes a decoding neural network to determine the current decoding hidden state vector based on the current coded hidden state vector, and the current coded hidden state vector. The current word probability distribution is determined using the vector and the current decoding hidden state vector, and the word to be output is determined based on the current word probability distribution and the recommended probability distribution. ..

いくつかの実施例において、前記現在の単語確率分布は、生成確率分布及び注意確率分布を含み、前記出力ユニットは、前記推奨確率分布を利用して前記注意確率分布を調整し、調整後の注意確率分布を確定し、前記生成確率分布と前記調整後の注意確率分布を重み付け加算して出力単語確率分布を確定し、出力単語確率分布内の確率の最大である単語を出力すべき単語として確定するように配置される。 In some embodiments, the current word probability distribution includes a generation probability distribution and an attention probability distribution, and the output unit adjusts the attention probability distribution using the recommended probability distribution, and the adjusted attention. The probability distribution is determined, the generated probability distribution and the adjusted attention probability distribution are weighted and added to determine the output word probability distribution, and the word with the maximum probability in the output word probability distribution is determined as the word to be output. Arranged to do.

いくつかの実施例において、前記現在の単語確率分布は、生成確率分布及び注意確率分布を含み、前記出力ユニットは、前記生成確率分布、前記注意確率分布及び前記推奨確率分布に用いられる重みを確定して、前記重みに基づいて前記出力単語確率分布を確定し、出力単語確率分布の確率の最大である単語を出力すべき単語として確定するように配置される。 In some embodiments, the current word probability distribution includes a generation probability distribution and an attention probability distribution, and the output unit determines the weights used for the generation probability distribution, the attention probability distribution, and the recommended probability distribution. Then, the output word probability distribution is determined based on the weight, and the word having the maximum probability of the output word probability distribution is determined as the word to be output.

いくつかの実施例において、推奨確率確定ユニットは、関連性確定サブユニットをさらに含み、前記関連性確定サブユニットは、各文ベクトルに対し、当該文ベクトルを他の文ベクトルと組み合わせて、組合せ文ベクトルを生成し、関連性行列を利用して前記組合せ文ベクトルを処理することにより、当該文ベクトルと当該他の文ベクトルとの関連性を確定するように配置される。 In some embodiments, the recommended probability-determining unit further comprises a relevance-determining subsystem, wherein the relevance-determining subsystem, for each sentence vector, combines the statement vector with another statement vector to form a combination statement. By generating a vector and processing the combination sentence vector using the relationship matrix, the vector is arranged so as to determine the relationship between the sentence vector and the other sentence vector.

いくつかの実施例において、推奨確率確定ユニットは、調整サブユニットをさらに含み、前記調整サブユニットは、当該文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルの夫々との関連性に基づいて、当該文ベクトルの推奨係数を確定し、前記初期推奨重みベクトルの夫々に対し、当該初期推奨重みベクトルに対応する文ベクトルの推奨係数を利用して当該初期推奨重みベクトルを調整し、調整後の単語確率ベクトルを取得し、調整後の単語確率ベクトルに基づいて前記複数の単語の推奨確率分布を確定するように配置される。 In some embodiments, the recommended probability determination unit further comprises an adjustment subsystem, which is based on the association of the statement vector with each of the other statement vectors of the plurality of statement vectors. Then, the recommended coefficient of the sentence vector is determined, and for each of the initial recommended weight vectors, the recommended coefficient of the sentence vector corresponding to the initial recommended weight vector is used to adjust the initial recommended weight vector, and after the adjustment. The word probability vector of the above is acquired, and the recommended probability distribution of the plurality of words is determined based on the adjusted word probability vector.

本開示の他の態様において、ソーステキストに対し前処理を行って、複数の単語のための複数の単語ベクトルを生成することと、複数の初期推奨重みベクトルと前記複数の単語ベクトルに基づいて、複数の文ベクトルを確定することと、各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性に基づいて前記複数の初期推奨重みベクトルを調整して、前記複数の単語のための推奨確率分布を確定することと、前記推奨確率分布に基づいて出力すべき単語を確定することとを含むテキスト処理方法が提供されている。 In another aspect of the present disclosure, the source text is preprocessed to generate a plurality of word vectors for the plurality of words, and based on the plurality of initial recommended weight vectors and the plurality of word vectors. The plurality of initial recommended weight vectors are adjusted based on the determination of the plurality of sentence vectors and the relationship between each sentence vector and the other sentence vector among the plurality of sentence vectors, and the plurality of words of the plurality of words. A text processing method including determining a recommended probability distribution for the purpose and determining a word to be output based on the recommended probability distribution is provided.

いくつかの実施例において、複数の初期推奨重みベクトルと前記複数の単語ベクトルに基づいて、複数の文ベクトルを確定することは、符号化ニューラルネットワークを利用して前記複数の単語ベクトルを処理して、各単語ベクトルにそれぞれ対応する現在の符号化隠れ状態ベクトルを確定し、各初期推奨重みベクトルと前記現在の符号化隠れ状態ベクトルに基づいて、当該初期推奨重みベクトルに対応する文ベクトルを確定することを含む。 In some embodiments, determining a plurality of sentence vectors based on a plurality of initial recommended weight vectors and said plurality of word vectors is performed by processing the plurality of word vectors using a coded neural network. , Determine the current coded hidden state vector corresponding to each word vector, and determine the sentence vector corresponding to the initial recommended weight vector based on each initial recommended weight vector and the current coded hidden state vector. Including that.

いくつかの実施例において、前記推奨確率分布に基づいて出力すべき単語を確定することは、前記現在の符号化隠れ状態ベクトルに基づいて、復号化ニューラルネットワークを利用して現在の復号化隠れ状態ベクトルを確定し、前記現在の符号化隠れ状態ベクトルと前記現在の復号化隠れ状態ベクトルを利用して現在の単語確率分布を確定し、前記現在の単語確率分布と前記推奨確率分布に基づいて、出力すべき単語を確定することを含む。 In some embodiments, determining the word to output based on the recommended probability distribution is based on the current coded hidden state vector and utilizes a decoding neural network to determine the current decoded hidden state. The vector is determined, the current word probability distribution is determined using the current coded hidden state vector and the current decoded hidden state vector, and based on the current word probability distribution and the recommended probability distribution, Includes determining the word to be output.

いくつかの実施例において、前記現在の単語確率分布は、生成確率分布及び注意確率分布を含み、ここで、前記現在の単語確率分布と前記推奨確率分布に基づいて、出力すべき単語を確定することは、前記推奨確率分布を利用して前記注意確率分布を調整し、調整後の注意確率分布を確定し、前記生成確率分布と前記調整後の注意確率分布を重み付け加算して出力単語確率分布を確定し、出力単語確率分布内の確率の最大である単語を出力すべき単語として確定することを含む。 In some embodiments, the current word probability distribution includes a generation probability distribution and an attention probability distribution, where the words to be output are determined based on the current word probability distribution and the recommended probability distribution. That is, the attention probability distribution is adjusted by using the recommended probability distribution, the adjusted attention probability distribution is determined, and the generation probability distribution and the adjusted attention probability distribution are weighted and added to output the word probability distribution. Is included, and the word having the maximum probability in the output word probability distribution is determined as the word to be output.

いくつかの実施例において、前記現在の単語確率分布は、生成確率分布及び注意確率分布を含み、ここで、前記現在の単語確率分布と前記推奨確率分布に基づいて、出力すべき単語を確定することは、前記生成確率分布、前記注意確率分布及び前記推奨確率分布に用いられる重みを確定して、前記重みに基づいて前記出力単語確率分布を確定し、出力単語確率分布の確率の最大である単語を出力すべき単語として確定することを含む。 In some embodiments, the current word probability distribution includes a generation probability distribution and an attention probability distribution, where the words to be output are determined based on the current word probability distribution and the recommended probability distribution. That is, the weights used for the generation probability distribution, the attention probability distribution, and the recommended probability distribution are determined, the output word probability distribution is determined based on the weights, and the probability of the output word probability distribution is the maximum. Includes confirming a word as a word to be output.

いくつかの実施例において、各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性は、以下のように確定される。つまり、各文ベクトルに対し、当該文ベクトルを他の文ベクトルと組み合わせて、組合せ文ベクトルを生成し、関連性行列を利用して前記組合せ文ベクトルを処理することにより、当該文ベクトルと当該他の文ベクトルとの関連性を確定する。 In some embodiments, the association between each sentence vector and the other sentence vector of the plurality of sentence vectors is determined as follows. That is, for each sentence vector, the sentence vector is combined with another sentence vector to generate a combination sentence vector, and the combination sentence vector is processed by using the relevance matrix to obtain the sentence vector and the other. Determine the relevance of the sentence vector.

いくつかの実施例において、各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性に基づいて前記複数の初期推奨重みベクトルを調整して、前記複数の単語のための推奨確率分布を確定することは、推奨確率確定ユニットは、調整サブユニットをさらに含み、前記調整サブユニットは、当該文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルの夫々との関連性に基づいて、当該文ベクトルの推奨係数を確定し、前記初期推奨重みベクトルの夫々に対し、当該初期推奨重みベクトルに対応する文ベクトルの推奨係数を利用して当該初期推奨重みベクトルを調整し、調整後の単語確率ベクトルを取得し、調整後の単語確率ベクトルに基づいて前記複数の単語の推奨確率分布を確定することを含む。 In some embodiments, the plurality of initial recommended weight vectors are adjusted based on the association of each sentence vector with the other sentence vector of the plurality of sentence vectors to make recommendations for the plurality of words. Determining the probability distribution is recommended. The probabilistic determination unit further includes an adjustment subunit, and the adjustment subunit relates to each of the sentence vector and the other sentence vector among the plurality of sentence vectors. Based on this, the recommended coefficient of the sentence vector is determined, and for each of the initial recommended weight vectors, the recommended coefficient of the sentence vector corresponding to the initial recommended weight vector is used to adjust and adjust the initial recommended weight vector. This includes acquiring the subsequent word probability vector and determining the recommended probability distribution of the plurality of words based on the adjusted word probability vector.

本開示のさらに他の態様において、プロセッサと、コンピュータ読み取り可能なプログラム命令が記憶されるメモリと、を含み、前記コンピュータ読み取り可能なプログラム命令が前記プロセッサにより実行されるとき、上述したようなテキスト処理方法を実行するテキスト処理デバイスが提供されている。 In yet another aspect of the present disclosure, text processing as described above, including a processor and a memory in which computer-readable program instructions are stored, when the computer-readable program instructions are executed by the processor. A text processing device is provided to perform the method.

本開示のさらに他の態様において、コンピュータ読み取り可能な命令が記憶されるコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な命令がコンピュータにより実行されるとき、前記コンピュータに上述したようなテキスト処理方法を実行させるコンピュータ読み取り可能な記憶媒体が提供されている。 In yet another aspect of the present disclosure, a computer-readable storage medium in which computer-readable instructions are stored, the text as described above in the computer when the computer-readable instructions are executed by the computer. A computer-readable storage medium that executes the processing method is provided.

本開示に係るテキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体をよれば、テキストにおける各単語と各単語からなる文との関連性に基づいて、テキストの要約の抽出方法によるテキストのコンテンツに対する理解力を向上させ、テキストのコンテンツをより好適に抽象化させ、要約し、テキストの要約を生成することができる。 According to the text processing methods, devices, devices and computer-readable storage media according to the present disclosure, the content of the text by the method of extracting the abstract of the text based on the relationship between each word in the text and the sentence consisting of each word. It is possible to improve the comprehension of the text, abstract the content of the text more favorably, summarize it, and generate a summary of the text.

本発明の上記及び他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。図面は、本開示の実施例のさらなる理解を提供するために使用され、本明細書の一部を構成し、本開示の実施例と共に本開示を説明するために使用され、本開示を限定するものではない。なお、図面において、同一の符号は同一の構成要素又はステップを示す。
本開示による、テキスト処理方法の模式的なフローチャートを示す。 本開示の実施例による、各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性を確定する模式図を示す。 本開示の実施例による、出力単語確率分布の確定の模式図を示す。 本開示の実施例による、生成確率分布と調整後の注意確率分布を利用して出力単語確率分布を確定する模式図を示す。 本開示の実施例による、生成確率分布、注意確率分布及び推奨確率分布を利用して出力単語確率分布を確定する模式図を示す。 本開示の実施例による、テキスト処理装置の模式的なブロック図を示す。 本開示の実施例による、演算デバイスの模式図である。
The above and other objects, features and advantages of the present invention will be clarified by more detailed description based on the examples of the present invention described later and the accompanying drawings. The drawings are used to provide a further understanding of the embodiments of the present disclosure, form part of this specification, and are used in conjunction with the embodiments of the present disclosure to illustrate the present disclosure and limit the present disclosure. It's not a thing. In the drawings, the same reference numerals indicate the same components or steps.
A schematic flowchart of the text processing method according to the present disclosure is shown. A schematic diagram for determining the relationship between each sentence vector and another sentence vector among the plurality of sentence vectors according to the embodiment of the present disclosure is shown. A schematic diagram of the determination of the output word probability distribution according to the embodiment of the present disclosure is shown. A schematic diagram for determining the output word probability distribution using the generated probability distribution and the adjusted attention probability distribution according to the embodiment of the present disclosure is shown. A schematic diagram for determining the output word probability distribution using the generation probability distribution, the attention probability distribution, and the recommended probability distribution according to the embodiment of the present disclosure is shown. A schematic block diagram of the text processing apparatus according to the embodiment of the present disclosure is shown. It is a schematic diagram of the arithmetic device according to the Example of this disclosure.

以下、本開示の実施例における技術的解決策を、本開示の実施例における添付図面と併せて、明確かつ完全に説明する。もちろん、説明された実施例は、本開示の一部の実施例にすぎず、全ての実施例ではない。本開示の実施例に基づいて、当業者が創造的な労力を要することなく得られる全ての他の実施例は、本開示の保護範囲に属する。 Hereinafter, the technical solutions in the embodiments of the present disclosure will be clearly and completely described together with the accompanying drawings in the embodiments of the present disclosure. Of course, the examples described are only some of the examples of the present disclosure, not all of them. All other embodiments obtained by those skilled in the art based on the embodiments of the present disclosure without the need for creative effort belong to the scope of protection of the present disclosure.

特に定義されない限り、本明細書で使用される技術的または科学的用語は、本発明が属する技術分野における通常の技能を有する者によって理解される通常の意味である。本明細書で使用される「第1の」、「第2の」及び類似の用語は、いかなる順序、数、又は重要性も示すものではなく、異なる構成要素を区別するために使用されるだけである。同様に、「含む」または「備える」などの類似の単語は、その単語の前に存在する要素または物品が、その単語の後に存在する要素または物品およびその均等物を包含することを意味し、他の要素または物品を排除するものではない。「接続され」または「に接され」などの類似の用語は、物理的または機械的接続に限定されず、直接的または間接的のいずれであっても、電気的接続を含み得る。「上」、「下」、「左」、「右」などは、相対的な位置関係を示すためのものであり、記述されたオブジェクトの絶対的な位置が変化すると、相対的な位置関係も変化する可能性がある。 Unless otherwise defined, the technical or scientific terms used herein are the usual meanings understood by those of ordinary skill in the art to which the present invention belongs. The terms "first," "second," and similar as used herein do not indicate any order, number, or significance, but are only used to distinguish between different components. Is. Similarly, similar words such as "contain" or "provide" mean that the element or article that precedes the word includes the element or article that exists after the word and its equivalents. It does not exclude other elements or articles. Similar terms such as "connected" or "contacted" are not limited to physical or mechanical connections and may include electrical connections, either direct or indirect. "Upper", "lower", "left", "right", etc. are for indicating the relative positional relationship, and when the absolute position of the described object changes, the relative positional relationship also changes. May change.

図1は、本開示によるテキスト処理方法の模式的なフローチャートを示す。図1に示すように、ステップS102において、ソーステキストに対して前処理を行って、前記複数の単語のための複数の単語ベクトルを生成する。 FIG. 1 shows a schematic flowchart of the text processing method according to the present disclosure. As shown in FIG. 1, in step S102, the source text is preprocessed to generate a plurality of word vectors for the plurality of words.

テキスト処理方法がコンピュータによって実行される場合、コンピュータはテキストデータを直接に処理できないため、ソーステキストを処理する際には、ソーステキストを数値型のデータに変換しておく必要がある。例えば、ソーステキストのコンテンツは、1つ又は複数の文であってもよい。前記前処理は、文を複数の単語に分割するように各文に対して単語分割処理を実行し、、複数の単語をそれぞれ所定次元の単語ベクトルに変換することを含む。例えば、ワード埋め込み(word embedding)の方式によって、この変換を行うことができる。 When the text processing method is executed by the computer, the computer cannot process the text data directly, so when processing the source text, it is necessary to convert the source text into numeric type data. For example, the content of the source text may be one or more sentences. The preprocessing includes executing a word division process for each sentence so as to divide the sentence into a plurality of words, and converting the plurality of words into word vectors having a predetermined dimension. For example, this conversion can be performed by a word embedding method.

ステップS104において、複数の初期推奨重みベクトルと前記複数の単語ベクトルに基づいて、複数の文ベクトルSを確定する。 In step S104, a plurality of sentence vectors S are determined based on the plurality of initial recommended weight vectors and the plurality of word vectors.

いくつかの実施例において、各時間ステップ(time step)について、符号化ニューラルネットワークを用いてステップS102において生成された複数の単語ベクトルを処理することにより、各単語ベクトルにそれぞれ対応する現在の符号化隠れ状態ベクトルを確定し得る。いくつかの実現形態において、符号化ニューラルネットワークは、長期や短期記憶(lstm、long and short−term memory)ネットワークとして実現され得る。符号化ニューラルネットワークは、単語ベクトルを符号化することができる任意の機械学習モデルとしても実現され得ることが理解されようである。 In some embodiments, for each time step, the current coding corresponding to each word vector is processed by processing the plurality of word vectors generated in step S102 using a coding neural network. The hidden state vector can be determined. In some implementations, the coded neural network can be implemented as a long-term or short-term memory (lstm, long short-term memory) network. It will be appreciated that a coded neural network can also be implemented as any machine learning model capable of coding a word vector.

ステップS102で生成された単語ベクトルを入力として、符号化ニューラルネットワークは、現在の時間ステップが各単語ベクトルx、x、x…のそれぞれに対応する現在の符号化隠れ状態ベクトルh、h、h…を出力することができる。符号化隠れ状態ベクトルの数と単語ベクトルの数は、同じであってもよいし、異なっていてもよい。例えば、ソーステキストからk個の単語ベクトルが生成される場合、符号化ニューラルネットワークは、このk個の単語ベクトルを処理することにより、k個の対応する符号化隠れ状態ベクトルを生成することができる。kは1より大きい整数である。 Taking the word vector generated in step S102 as an input, the coded neural network has a current coded hidden state vector h 1 , whose current time step corresponds to each word vector x 1 , x 2 , x 3 ... It is possible to output h 2 , h 3 ... The number of coded hidden state vectors and the number of word vectors may be the same or different. For example, if k word vectors are generated from the source text, the coded neural network can generate k corresponding coded hidden state vectors by processing the k word vectors. .. k is an integer greater than 1.

次に、各初期推奨重みベクトルと前記現在の符号化隠れ状態ベクトルに基づいて、当該初期推奨重みベクトルに対応する文ベクトルを確定する。 Next, the sentence vector corresponding to the initial recommended weight vector is determined based on each initial recommended weight vector and the current coded hidden state vector.

いくつかの実施例では、初期推奨重みベクトルWは、ベクトル[W、W…、w]として表され得る。ここで、Wの要素の数は、符号化隠れ状態ベクトルの数と同じである。ここで、初期推奨重みベクトルWの各元素は、現在の符号化隠れ状態ベクトルを用いて文ベクトルを確定する際に用いる各符号化隠れ状態ベクトルの重み係数を表す。これらの重み係数を用いて、符号化ニューラルネットワークが入力する各単語ベクトルに対応する符号化隠れ状態ベクトルを組み合せて、各単語ベクトルの情報を含む文ベクトルを形成することができる。なお、ここで言う文ベクトルは、抽象的な文ベクトルであってもよい。抽象的な文ベクトルは、入力テキストに含まれる文の情報と一対一に対応しないものであってもよい。文ベクトルSは、S102で生成された複数の単語ベクトルのうちの一部又は全部の単語ベクトルの情報を含んでもよい。 In some embodiments, the initial recommended weight vector W can be represented as the vector [W 1 , W 2 ..., W k]. Here, the number of elements of W is the same as the number of coded hidden state vectors. Here, each element of the initial recommended weight vector W represents the weighting coefficient of each coded hidden state vector used when determining the sentence vector using the current coded hidden state vector. Using these weighting coefficients, it is possible to combine the coded hidden state vectors corresponding to each word vector input by the coded neural network to form a sentence vector containing the information of each word vector. The sentence vector referred to here may be an abstract sentence vector. The abstract sentence vector may not have a one-to-one correspondence with the sentence information contained in the input text. The sentence vector S may include information on a part or all of the word vectors generated in S102.

いくつかの実現形態において、文ベクトルSは、現在の符号化隠れ状態ベクトルh、h…hの重み平均値として表されてもよい。例えば、文ベクトルSは、W*hとして表され、ここで、W=[w、w…、w]、h=[h、h…、hであってもよい。したがって、予め訓練された所定数の初期推奨重みベクトルW、W…、Wを利用して、所定数の文ベクトルS、S…、Sを得ることができる。ここで、n、mは、1より大きい整数である。 In some implementations, the sentence vector S may be represented as a weighted mean of the current coded hidden state vectors h 1 , h 2 ... h k. For example, the sentence vector S is represented as W * h, where W = [w 1 , w 2 ..., w k ], h = [h 1 , h 2 ..., h k ] T. .. Thus, pre-initial trained predetermined number recommended weight vector W 1, W 2 ..., by using the W n, sentence vector S 1 of a predetermined number, S 2 ..., it can be obtained S n. Here, n and m are integers larger than 1.

ステップS106において、各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性に基づいて前記複数の初期推奨重みベクトルを調整して、前記複数の単語のための推奨確率分布を確定する。 In step S106, the plurality of initial recommended weight vectors are adjusted based on the relationship between each sentence vector and the other sentence vector among the plurality of sentence vectors to obtain a recommended probability distribution for the plurality of words. Determine.

図2は、本開示の実施例による、各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性を確定する模式図を示す。図2には、5つの単語ベクトルを例として本開示の原理が記述されるが、本開示の範囲は、これに限定されなく、他の任意の数の単語ベクトルを利用して本開示によるテキスト処理方法を実現しても良い。 FIG. 2 shows a schematic diagram for determining the relationship between each sentence vector and another sentence vector among the plurality of sentence vectors according to the embodiment of the present disclosure. Although the principle of the present disclosure is described in FIG. 2 by taking five word vectors as an example, the scope of the present disclosure is not limited to this, and the text according to the present disclosure using any number of other word vectors. A processing method may be realized.

図2に示すように、x、x、x、x、xは、ソーステキストから生成された、ソーステキストにおける単語に対応する単語ベクトルである。符号化ニューラルネットワークを利用して、x、x、x、x、xにそれぞれ対応する符号化隠れ状態ベクトルh、h、h、h、hを生成する。 As shown in FIG. 2, x 1 , x 2 , x 3 , x 4 , and x 5 are word vectors generated from the source text and corresponding to the words in the source text. A coded neural network is used to generate coded hidden state vectors h 1 , h 2 , h 3 , h 4 , h 5 corresponding to x 1 , x 2 , x 3 , x 4 , and x 5, respectively.

図2には、3つの初期推奨重みベクトルW、W、Wを示す。なお、本開示はこれに限定されなく、他の任意の数の初期推奨重みベクトルを利用して本開示によるテキスト処理方法を実現しても良い。図2に示すように、初期推奨重みベクトルW、W、Wを利用して文ベクトルS、S及びSを確定する。 FIG. 2 shows three initial recommended weight vectors W 1 , W 2 , and W 3 . The present disclosure is not limited to this, and the text processing method according to the present disclosure may be realized by using any number of other initial recommended weight vectors. As shown in FIG. 2, the sentence vectors S 1 , S 2 and S 3 are determined by using the initial recommended weight vectors W 1 , W 2 and W 3.

文ベクトルS、S、Sの各文ベクトルに対し、当該文ベクトルを他の文ベクトルとを組み合わせて、組合せ文ベクトルを生成する。ここで、組合せ文ベクトルには組み合わせた少なくとも2つの文ベクトルの情報が含まれる。以下、2つの文ベクトルの間の関連性を確定することを例として本開示の原理を説明するが、当業者は、3つの以上の文ベクトルを組み合わせて組み合わせた文ベクトルの間の関連性を確定してもい。 For each sentence vector S 1 , S 2 , and S 3 , the sentence vector is combined with another sentence vector to generate a combined sentence vector. Here, the combination sentence vector includes the information of at least two sentence vectors combined. Hereinafter, the principle of the present disclosure will be described by taking as an example the determination of the relationship between two sentence vectors, but those skilled in the art will describe the relationship between sentence vectors obtained by combining three or more sentence vectors. You can confirm it.

例えば、図2に示すように、文ベクトルSとSとの関連性λ1,2、文ベクトルSとSとの関連性λ1,3、及び文ベクトルSとSとの関連性λ2、3を計算することができる。 For example, as shown in FIG. 2, the sentence vector S 1 and relevance lambda 1, 2 and S 2, sentence vector S 1 and related lambda 1, 3, and sentence vector S 2 and S 3 and S 3 The relevance λ 2 and 3 of can be calculated.

いくつかの実現形態において、当該文ベクトルを他の文ベクトルと接続して、より次元の高い組合せ文ベクトルを得ることができる。例えば、文ベクトルSの次元がdである場合、文ベクトルS1とS2とを接続することにより、次元2dである組合せ文ベクトルS1,2が得られる。ただし、dは1より大きい整数である。 In some implementations, the sentence vector can be connected to other sentence vectors to obtain a higher dimensional combination sentence vector. For example, the dimension of the sentence vector S be a d, by connecting the sentence vectors S1 and S2, a combination sentence vector S 1, 2 is the dimension 2d obtained. However, d is an integer greater than 1.

なお、Sに対しSとSとの関連性を計算する時、Sを前、Sを後で文ベクトルSとSを接続する。Sに対しSとSとの関連性を計算する時、Sを前、Sを後で文ベクトルSとSを接続する。そして、この場合、組合せ文ベクトルS1,2と組合せ文ベクトルS2,1とは異なる。 Incidentally, when the relative S 1 to calculate the relationship between S 1 and S 2, before the S 1, connects later sentence vector S 1 and S 2 to S 2. When to S 2 to calculate the relationship between S 2 and S 1, before the S 2, it connects later sentence vector S 2 and S 1 to S 1. Then, in this case, the combination sentence vector S1,2 and the combination sentence vector S2,1 are different.

他の実現形態において、2つの文ベクトルに対しベクトル間の演算を行って(例えば、加算、減算、ベクトル積など)組合せ文ベクトルを生成する。この場合、組合せ文ベクトルS1,2と組合せ文ベクトルS2,1とは同じであっても良い。 In another embodiment, operations between the vectors are performed on the two sentence vectors (for example, addition, subtraction, cross product, etc.) to generate a combination sentence vector. In this case, the combination statement vectors S1 and 2 and the combination statement vectors S2 and 1 may be the same.

実際には、当業者は、任意の方式で、少なくとも2つの文ベクトルの情報を組み合わせた組合せ文ベクトルを生成することができる。 In practice, one of ordinary skill in the art can generate a combination sentence vector by combining the information of at least two sentence vectors by an arbitrary method.

そして、関連性行列を利用して前記組合せ文ベクトルを処理することにより、当該文ベクトルと当該他の文ベクトルとの関連性を確定することができる。いくつかの実施例において、文ベクトルSとSとの関連性λ1,2λ=S1,2*Zとして表されてもよい。ここで、S1,2が文ベクトルSとSの組合せ文ベクトルを示し、Zが訓練された関連性行列を示す。Zを利用してSとSとの関連性係数λ1,2を算出することができる。いくつかの実施例において、関連性行列Zは、組合せ文ベクトルS1,2を実数としての関連性係数に投影することができる。 Then, by processing the combination sentence vector using the relevance matrix, the relevance between the sentence vector and the other sentence vector can be determined. In some embodiments, association lambda 1, 2 and sentence vector S 1 and S 2 may be expressed as λ = S 1,2 * Z. Here, S 1, 2 indicates a combination sentence vectors of the sentence vector S 1 and S 2, showing the relevance matrix Z is trained. Z can be used to calculate the relevance coefficients λ 1 and 2 between S 1 and S 2. In some embodiments, the relevance matrix Z can project the combinatorial statement vectors S1, 2 onto the relevance coefficient as a real number.

上記の方法によって、文ベクトルS、S…、Snのうちの任意の2つの文ベクトルの間の関連性を計算することができる。 By the above method, sentence vector S 1, S 2 ..., it is possible to calculate the relationship between any two statements vectors of Sn.

上記の任意の1つの文ベクトルに対して、当該文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルの夫々との関連性に基づいて、当該文ベクトルの推奨係数を確定することができる。いくつかの実現形態において、当該文ベクトルの推奨係数は、当該文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルの夫々との関連性の合計として表されてもよい。 For any one sentence vector described above, the recommended coefficient of the sentence vector can be determined based on the relationship between the sentence vector and each of the other sentence vectors among the plurality of sentence vectors. .. In some implementations, the recommended coefficient of the sentence vector may be expressed as the sum of the relationships between the sentence vector and each of the other sentence vectors of the plurality of sentence vectors.

例えば、文ベクトルSの推奨係数は、Σλ=λ1,2+λ1,3+…λ1,mとして表され、文ベクトルSの推奨係数は、Σλ=λ2,1+λ2,3+…λ2,mとして表され、このように、各文ベクトルの推奨係数を確定することができる。 For example, the recommended coefficient of the sentence vector S 1 is expressed as Σλ 1 = λ 1,2 + λ 1,3 + ... λ 1, m , and the recommended coefficient of the sentence vector S 2 is Σλ 2 = λ 2,1 + λ 2. , 3 + ... λ 2, m , and thus the recommended coefficient of each sentence vector can be determined.

他の実現形態において、文ベクトルの推奨係数は、当該文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルの夫々との関連性の加重和として表されても良い。予め確定された重み係数を利用して各文ベクトルとの他の文ベクトルとの関連性に対して重み付け加算を行ってもよい。 In other implementations, the recommended coefficients of the sentence vector may be expressed as a weighted sum of the relationships between the sentence vector and each of the other sentence vectors of the plurality of sentence vectors. Weighting addition may be performed on the relationship between each sentence vector and other sentence vectors using a predetermined weighting coefficient.

上記の推奨係数は、調整後の単語確率ベクトルを取得するために、対応する文ベクトルを生成するための初期推奨重みベクトルの調整に用いられることができる。例えば、図2に示すように、文ベクトルS、S及びSに対応する推奨係数Σλ、Σλ及びΣλを利用して初期推奨重みベクトルW、W、Wを処理することができる。 The above recommended coefficients can be used to adjust the initial recommended weight vector to generate the corresponding sentence vector in order to obtain the adjusted word probability vector. For example, as shown in FIG. 2, the initial recommended weight vectors W 1 , W 2 , and W 3 are processed by using the recommended coefficients Σ λ 1 , Σ λ 2 and Σ λ 3 corresponding to the sentence vectors S 1 , S 2 and S 3. can do.

前述したように、推奨係数は、文ベクトルと他の文ベクトルとの関連性に基づいて確定されるものである。テキストの要約の生成過程でテキストのコンテンツを要約する必要があるため、他の文ベクトルとの関連性が高いほど、当該文ベクトルに含まれる単語ベクトルの情報がテキストのコンテンツの中で重要度が高く、その結果、テキストの要約の内容になる可能性が高いと考えられる。 As mentioned above, the recommended coefficient is determined based on the relationship between the sentence vector and other sentence vectors. Since it is necessary to summarize the content of the text in the process of generating the summary of the text, the higher the relevance to other sentence vectors, the more important the information of the word vector contained in the sentence vector is in the content of the text. High, and as a result, is likely to be the content of a text summary.

いくつかの実施例では、各文ベクトルの推奨係数を、当該文ベクトルに対応する単語確率ベクトルに掛けることにより、その単語確率ベクトルに含まれる、各単語ベクトルの符号化隠れ状態ベクトルに対する重み係数を調整することができる。例えば、調整後のi番目の単語確率ベクトルW’は、W’=Σλ*Wとして表され得る。 In some embodiments, the recommended coefficient of each sentence vector is multiplied by the word probability vector corresponding to the sentence vector to obtain the weighting coefficient for the coded hidden state vector of each word vector contained in the word probability vector. Can be adjusted. For example, i-th word probability vector W i 'after control is, W i' can be expressed as = Σλ i * W i.

各文ベクトルの推奨係数を利用して当該文ベクトルの単語確率ベクトルを調整した後、上記の方法により得た調整後の複数の単語確率ベクトルW’を利用して前記複数の単語の推奨確率分布を確定してもよい。 After adjusting the word probability vector of the sentence vector using the recommended coefficient of each sentence vector, the recommended probability distribution of the plurality of words is used by using the adjusted multiple word probability vectors W'obtained by the above method. May be confirmed.

いくつかの実施例において、推奨確率分布Pは、上記の方法により得た調整後の複数の単語確率ベクトルW’の和であるP=ΣW’として表されてもよい。いくつかの実現形態において、推奨確率分布Pは、調整後の複数の単語確率ベクトルW’の加重和として表されてもよい。 In some embodiments, the recommended probability distribution P V may be represented as 'P V = ΣW i is the sum of' the above plurality of word probability vector W after adjustment obtained by the method. In some implementations, the recommended probability distribution P V may be represented as a weighted sum of a plurality of word probability vector W i 'after adjustment.

図1を参照し、ステップS108において、前記推奨確率分布に基づいて、出力すべき単語を確定してもよい。 With reference to FIG. 1, in step S108, the word to be output may be determined based on the recommended probability distribution.

ステップS106で出力する推奨確率分布は、入力したソーステキスト内の各単語のソーステキストの中で重要度を示すことができ、ここで、推奨確率分布内の確率が大きいほど、現在の時間ステップについて、当該単語のソーステキスト内の重要度が高いと考える。そして、いくつかの例において、推奨確率分布内の確率の最大である単語を現在の時間ステップに出力すべき単語として確定してもよい。 The recommended probability distribution output in step S106 can indicate the importance in the source text of each word in the input source text. Here, the larger the probability in the recommended probability distribution, the more about the current time step. , Consider the word to be of high importance in the source text. Then, in some examples, the word with the highest probability in the recommended probability distribution may be determined as the word to be output in the current time step.

いくつかの実施例において、推奨確率基づいて、現在の生成式のネットワーク(Generative Networks)によって生成された単語確率分布を調整することにより、出力単語確率分布を確定してもよい。 In some embodiments, the output word probability distribution may be determined by adjusting the word probability distribution generated by the current generative network (Generative Networks) based on the recommended probabilities.

各時間ステップについて、前記現在の符号化隠れ状態ベクトルに基づいて、復号化ニューラルネットワークを利用して現在の復号化隠れ状態ベクトルを確定することができる。前記現在の符号化隠れ状態ベクトルと現在の復号化隠れ状態ベクトルを利用して現在の単語確率分布を確定することができる。前記現在の単語確率分布と前記推奨確率分布に基づいて、現在の時間ステップについての出力単語確率分布を確定し、出力単語確率分布から最大の確率を有する単語ベクトルに対応する単語を、現在の時間ステップに出力すべき単語として選定することができる。 For each time step, the current decoded hidden state vector can be determined using the decoding neural network based on the current coded hidden state vector. The current word probability distribution can be determined by using the current coded hidden state vector and the current decoded hidden state vector. Based on the current word probability distribution and the recommended probability distribution, the output word probability distribution for the current time step is determined, and the word corresponding to the word vector having the maximum probability from the output word probability distribution is obtained from the output word probability distribution at the current time. It can be selected as a word to be output to the step.

ここで、前記現在の単語確率分布は、注意(Attention)確率分布であってもよい。前記注意確率分布は、前記入力テキストにおける単語がテキストの要約における単語となる確率分布を示す。 Here, the current word probability distribution may be an Attention probability distribution. The attention probability distribution indicates a probability distribution in which a word in the input text becomes a word in a text summary.

図3Aは、本開示の実施例による、出力単語確率分布の確定の模式図を示す。図3Aに示すように、推奨確率分布Pを利用して前記注意確率分布を調整することで、調整後の注意確率分布を形成することができる。 FIG. 3A shows a schematic diagram of determining the output word probability distribution according to the embodiment of the present disclosure. As shown in FIG. 3A, by adjusting the attention probability distribution by using the recommended probability distribution P V, it is possible to form the attention probability distribution after adjustment.

一実現形態において、現在の時間ステップについての符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意確率分布を確定することができる。例えば、式(1)を利用して上記の注意確率分布を確定することができる。
ここで、tは現在の時間ステップを示し、aは現在の時間ステップについての注意確率分布を示し、softmaxは正規化指数関数であり、eは、式(2)により以下のように確定される。
ここで、v、W、W、battnは、ポインター生成ネットワーク(Pointer−Generator Networks)にける学習パラメータであり、hは現在の符号化隠れ状態ベクトルであり、sは現在の復号化隠れ状態ベクトルである。
In one implementation, the attention probability distribution can be determined based on the coded hidden state vector and the decoded hidden state vector for the current time step. For example, the above attention probability distribution can be determined by using the equation (1).
Here, t represents the current time step, a t represents the attention probability distribution for the current time step, softmax is normalized exponential, e t is determined as follows by equation (2) Will be done.
Here, v T, W h, W S, b attn are learning parameter takes a pointer generation network (Pointer-Generator Networks), h i is the current coding hidden state vector, s t is the current Decryption hidden state vector.

いくつかの実施例において、前記推奨確率分布を利用して前記注意確率分布を調整し、調整後の注意確率分布を確定する。 In some embodiments, the recommended probability distribution is used to adjust the attention probability distribution and determine the adjusted attention probability distribution.

例えば、式(3)を利用して調整後の注意確率分布a’を確定することができる。
ここで、tは現在の時間ステップであり、a’は現在の時間ステップについての調整後の注意確率分布を示し、eは式(2)により確定されたパラメータである。
For example, the adjusted attention probability distribution a'can be determined using Eq. (3).
Here, t is the current time step, a 't represents an attention probability distribution after adjustment for the current time step, e t is a parameter which is determined by equation (2).

調整後の注意確率分布を利用して、前記入力テキストにおける単語がテキストの要約における単語となる確率分布を確定することができる。例えば、入力テキストから確率の最大である単語を出力すべき単語として選定する。 The adjusted attention probability distribution can be used to determine the probability distribution in which a word in the input text becomes a word in a text summary. For example, the word with the maximum probability is selected from the input text as the word to be output.

いくつかの実施例において、前記現在の単語確率分布は、生成確率分布Pvocabをさらに含む。前記生成単語確率分布は、前記文字エンティティ辞書(text entity dictionary)における単語がテキストの要約における単語となる確率分布を示す。 In some embodiments, the current word probability distribution further comprises a generation probability distribution P vocab. The generated word probability distribution indicates a probability distribution in which a word in the character entity dictionary becomes a word in a text summary.

図3Bは、本開示の実施例による、生成確率分布と調整後の注意確率分布を利用して出力単語確率分布を確定する模式図を示す。 FIG. 3B shows a schematic diagram for determining the output word probability distribution using the generation probability distribution and the adjusted attention probability distribution according to the embodiment of the present disclosure.

いくつかの実施例において、コンテキストベクトルと現在の時間ステップについての復号化隠れ状態ベクトルに基づいて、上記の生成確率分布を確定することができる。例えば、さらに、式(4)と式(5)を利用して上記の生成確率分布Pvocabを確定することができる。
ここで、V’、V、b、b’は、ポインター生成ネットワークにおける学習パラメータであり、h *は注意確率分布に基づいて確定されたコンテキストベクトルである。例えば、式(4)を利用して確定h *を確定することができる。
ここで、a は式(1)で確定された注意確率分布aにおけるi番目の元素であり、hは現在のi番目の符号化隠れ状態ベクトルである。
In some embodiments, the above generation probability distribution can be determined based on the context vector and the decoding hidden state vector for the current time step. For example, the above-mentioned generation probability distribution P vocab can be further determined by using the equations (4) and (5).
Here, V', V, b, b'are learning parameters in the pointer generation network, and ht * is a context vector determined based on the attention probability distribution. For example, the determination ht * can be determined using the equation (4).
Here, a i t is the i-th element in the attention probability distribution a t that is determined by equation (1), h i is the current i-th coding hidden state vector.

そして、前記生成確率分布と前記調整後の注意確率分布を重み付け加算することにより、出力単語確率分布を確定することができる。 Then, the output word probability distribution can be determined by weighting and adding the generation probability distribution and the adjusted attention probability distribution.

いくつかの実施例において、現在の時間ステップについての符号化隠れ状態ベクトル、復号化隠れ状態ベクトル、注意確率分布及び1つ前の時間ステップでの復号化ニューラルネットワークの出力に基づいて、生成確率分布及び調整後の注意確率分布の第1の重みPgenを確定することができる。 In some embodiments, the generated probability distribution is based on the coded hidden state vector for the current time step, the decoded hidden state vector, the attention probability distribution, and the output of the decoding neural network at the previous time step. And the first weight P gen of the adjusted attention probability distribution can be determined.

例えば、前記生成確率分布と前記調整後の注意確率分布に対して加重和を計算するための第1の重みPgenは、式(6)として表され得る。
ここで、σは、活性化関数、例えばsigmoid関数を示し、w 、w 、w 及びbptrは訓練パラメータであり、h *は時間ステップtに式(4)により確定したパラメータであり、sは時間ステップtでの復号化隠れ状態ベクトルであり、xは時間ステップtでの復号化ニューラルネットワークの入力、つまり、1つ前の時間ステップt−1での復号化ニューラルネットワークの出力である。式(6)により確定された第1の重みPgenはスカラーとして実現されてもよい。第1の重みPgenを利用して生成確率分布Pvocabと調整後の注意確率分布a’を重み平均して出力単語確率分布を取得することができる。
For example, the first weight P gen for calculating the weighted sum with respect to the generated probability distribution and the adjusted attention probability distribution can be expressed by Eq. (6).
Here, sigma is the activation function, for example, shows a sigmoid function, w h T, w s T , w x T and b ptr are trained parameter, determined by equation (4) to h t * is the time step t St is the decoding hidden state vector in the time step t, and x t is the input of the decoding neural network in the time step t, that is, the decoding in the previous time step t-1. This is the output of the sigmoid neural network. The first weight P gen determined by the formula (6) may be realized as a scalar. Can be the first weight P gen probabilities generated using distributed P vocab and attention probability distribution a 't the adjusted average weighted to get an output word probability distributions.

図3Cは、本開示の実施例による、生成確率分布、注意確率分布及び推奨確率分布を利用して出力単語確率分布を確定する模式図を示す。 FIG. 3C shows a schematic diagram for determining the output word probability distribution using the generation probability distribution, the attention probability distribution, and the recommended probability distribution according to the embodiment of the present disclosure.

図3Cに示すように、前記生成確率分布、前記注意確率分布及び前記推奨確率分布を重み付け加算して出力単語確率分布を確定することができる。一実現形態において、現在の時間ステップについての符号化隠れ状態ベクトル、復号化隠れ状態ベクトル、注意確率分布、推奨確率分布及び1つ前の時間ステップでの復号化ニューラルネットワークの出力に基づいて、前記生成確率分布、前記注意確率分布及び前記推奨確率分布を重み付け加算するための第2の重みPgen2を確定することができる。 As shown in FIG. 3C, the output word probability distribution can be determined by weighting and adding the generation probability distribution, the attention probability distribution, and the recommended probability distribution. In one implementation, the above, based on the coded hidden state vector for the current time step, the decoded hidden state vector, the attention probability distribution, the recommended probability distribution, and the output of the decoding neural network in the previous time step. It is possible to determine the second weight P gen2 for weighting and adding the generation probability distribution, the attention probability distribution, and the recommended probability distribution.

式(7)と利用して前記生成確率分布、前記注意確率分布及び前記推奨確率分布を重み付け加算するための第2の重みPgen2を確定することができる。
ここで、σは活性化関数、例えばsigmoid関数を示し、w 、w 、w 、w 及びbptrは訓練パラメータであり、h *は時間ステップtに式(4)により確定されたパラメータであり、sは時間ステップtでの復号化隠れ状態ベクトルであり、xは時間ステップtでの復号化ニューラルネットワークの入力であり、つまり、1つ前の時間ステップt−1での復号化ニューラルネットワークの出力であり、Pは時間ステップtでの推奨確率分布である。
The second weight P gen2 for weighting and adding the generation probability distribution, the attention probability distribution, and the recommended probability distribution can be determined by using the equation (7).
Here, sigma activation function, for example, shows a sigmoid function, w h T, w s T , w x T, a w V T and b ptr training parameters, h t * is the formula in the time step t (4 ), St is the decoding hidden state vector at time step t, and x t is the input of the decoding neural network at time step t, that is, the previous time step. the output of the decoding neural networks in t-1, P V is the recommended probability distribution at time step t.

式(7)により確定された重みPgen2は、3次元のベクトルとして実現し、ここで、当該3次元のベクトルにおける元素は、生成確率分布Pgen、それぞれ注意確率分布a及び推奨確率分布Pの重み係数を示す。 Weight P gen2 which is determined by the equation (7) is implemented as a three-dimensional vector, where the elements in the three-dimensional vectors, generation probability distribution P gen, respectively Note probability distribution a t and recommended probability distribution P The weighting coefficient of V is shown.

上記のテキスト処理で用いられるモデルの訓練パラメータは、予め定められた訓練データセットを用いて訓練されるものである。例えば、訓練データを上記のテキスト処理モデルに入力し、符号化ニューラルネットワーク、復号化ニューラルネットワーク、及び文ベクトル間の関連性を確定するための初期推奨重みベクトルを用いて、ソーステキストの単語ベクトルを処理することにより、上記のように訓練された出力単語確率分布を得ることができる。上記のテキスト処理モデルにおける訓練パラメータは、訓練された出力単語確率分布における正解の単語の確率損失を算出することにより調整されることができる。ここで、本開示に係るテキスト生成ネットワークの損失関数は、以下のように表され得る。
ここで、w *は時間ステップtについての正解単語の時間ステップtでの訓練の出力単語確率分布の確率値であり、Tは生成シーケンス全体にわたる合計時間ステップである。テキスト生成ネットワークの全体的な損失は、生成シーケンス全体にわたるすべての時間ステップでの損失値を統計することによって確定されることができる。
The training parameters of the model used in the above text processing are those trained using a predetermined training data set. For example, input training data into the text processing model above and use the coded neural network, the decoded neural network, and the initial recommended weight vector to determine the association between the sentence vectors to get the word vector of the source text. By processing, the output word probability distribution trained as described above can be obtained. The training parameters in the above text processing model can be adjusted by calculating the probability loss of the correct word in the trained output word probability distribution. Here, the loss function of the text generation network according to the present disclosure can be expressed as follows.
Here, w t * is the probability value of the output word probability distribution of the training in the time step t of the correct word for the time step t, and T is the total time step over the entire generation sequence. The overall loss of the text generation network can be determined by statistics on the loss values at all time steps throughout the generation sequence.

上記のテキスト処理モデルのパラメータに対する訓練は、上記の損失が最小になるようにテキスト処理モデルの訓練パラメータを調整することによって実現できる。 Training on the parameters of the text processing model described above can be achieved by adjusting the training parameters of the text processing model so that the above loss is minimized.

本開示に係るテキスト処理方法によれば、例えば、テキストの要約のコンテンツを生成する際に、入力されたテキストにおける各単語からなる文ベクトルの間の相関性に基づいて、入力されたテキストにおける単語の当該テキストのコンテンツにおける重要度を確定することができ、テキストのコンテンツに対する単語の重要度に基づいて、生成されたテキストのコンテンツを確定するといった技術的効果を奏する。本開示では、要約を生成する場合を例に挙げて原理を説明したが、本開示の内容はこれに限定されない。本開示の原理から逸脱することなく、本開示に係るテキスト処理方法を、テキスト拡張、テキスト書き換え等の他の応用シーンに適用することもできる。 According to the text processing method according to the present disclosure, for example, when generating the content of the text summary, the words in the input text are based on the correlation between the sentence vectors consisting of each word in the input text. It is possible to determine the importance of the text in the content of the text, and it has a technical effect of determining the content of the generated text based on the importance of the word to the content of the text. In the present disclosure, the principle has been described by taking the case of generating a summary as an example, but the content of the present disclosure is not limited to this. The text processing method according to the present disclosure can be applied to other application scenes such as text extension and text rewriting without departing from the principle of the present disclosure.

図4は本開示の実施例によるテキスト処理装置の模式的なブロック図を示す。図4に示すように、テキスト処理装置400は、前処理ユニット410と、文ベクトル確定ユニット420と、推奨確率確定ユニット430と、出力ユニット440とを含む。 FIG. 4 shows a schematic block diagram of the text processing apparatus according to the embodiment of the present disclosure. As shown in FIG. 4, the text processing apparatus 400 includes a preprocessing unit 410, a sentence vector determination unit 420, a recommended probability determination unit 430, and an output unit 440.

前処理ユニット410は、ソーステキストに対して前処理を行って、前記複数の単語のための複数の単語ベクトルを生成するように配置される。例えば、ワード埋め込み(word embedding)によりこの前処理を実現することができる。 The pre-processing unit 410 is arranged to perform pre-processing on the source text to generate a plurality of word vectors for the plurality of words. For example, this preprocessing can be realized by word embedding.

文ベクトル確定ユニット420は、複数の初期推奨重みベクトルと前記複数の単語ベクトルに基づいて、複数の文ベクトルSを確定するように配置される。 The sentence vector determination unit 420 is arranged so as to determine the plurality of sentence vectors S based on the plurality of initial recommended weight vectors and the plurality of word vectors.

いくつかの実施例において、各時間ステップについて、符号化ニューラルネットワークを利用して前処理ユニット410により生成された複数の単語ベクトルを処理して、各単語ベクトルにそれぞれ対応する現在の符号化隠れ状態ベクトルを確定することができる。 In some embodiments, for each time step, a coded neural network is used to process multiple word vectors generated by the preprocessing unit 410, and the current coded hidden states corresponding to each word vector are respectively. The vector can be fixed.

前処理ユニット410により生成された単語ベクトルを入力とし、符号化ニューラルネットワークは、現在の時間ステップに各単語ベクトルx、x、x…にそれぞれ対応する現在の符号化隠れ状態ベクトルh、h、h…を出力することができる。符号化隠れ状態ベクトルの数と単語ベクトルの数は、同じであってもよいし、異なってもよい。例えば、ソーステキストに基づいてk個の単語ベクトルを生成する場合、符号化ニューラルネットワークは、これらk個の単語ベクトルを処理して対応するk個の符号化隠れ状態ベクトルを生成する。kは1より大きい整数である。 Taking the word vector generated by the preprocessing unit 410 as an input, the coded neural network takes the current coded hidden state vector h 1 corresponding to each word vector x 1 , x 2 , x 3 ... In the current time step. , H 2 , h 3 ... Can be output. The number of coded hidden state vectors and the number of word vectors may be the same or different. For example, when generating k word vectors based on the source text, the coded neural network processes these k word vectors to generate the corresponding k coded hidden state vectors. k is an integer greater than 1.

次に、各初期推奨重みベクトルと前記現在の符号化隠れ状態ベクトルに基づいて、当該初期推奨重みベクトルに対応する文ベクトルを確定することができる。 Next, the sentence vector corresponding to the initial recommended weight vector can be determined based on each initial recommended weight vector and the current coded hidden state vector.

いくつかの実施例において、初期推奨重みベクトルWは、ベクトル[w、w…、w]として表され得る。ここで、Wの元素の数は符号化隠れ状態ベクトルの数と同じである。ここで、初期推奨重みベクトルWにおける各元素は、現在の符号化隠れ状態ベクトルを利用して文ベクトルを確定する際の各符号化隠れ状態ベクトルための重み係数を示す。これらの重み係数を利用して、符号化ニューラルネットワーク入力から入力された各単語ベクトルの符号化隠れ状態ベクトルの情報を組み合わせることで、各単語ベクトル情報が含まれる文ベクトルを形成する。いくつかの実現形態において、文ベクトルSは、現在の符号化隠れ状態ベクトルh、h…hの重み平均値として表され得る。そして、予め訓練された所定数の初期推奨重みベクトルW、W…、Wを利用して所定数の文ベクトルS、S…、Sを得る。 In some embodiments, the initial recommended weight vector W can be represented as a vector [w 1 , w 2 ..., W k]. Here, the number of elements of W is the same as the number of coded hidden state vectors. Here, each element in the initial recommended weight vector W indicates a weighting coefficient for each coded hidden state vector when the sentence vector is determined by using the current coded hidden state vector. By using these weighting coefficients and combining the information of the coded hidden state vector of each word vector input from the coded neural network input, a sentence vector including each word vector information is formed. In some implementations, the sentence vector S can be represented as the weighted mean of the current coded hidden state vectors h 1 , h 2 ... h n. Then, a predetermined number of sentence vectors S 1 , S 2 ..., Sn are obtained by using a predetermined number of pre-trained initial recommended weight vectors W 1 , W 2 ..., W n.

推奨確率処理ユニット430は、各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性に基づいて前記複数の初期推奨重みベクトルを調整することにより、前記複数の単語のための推奨確率分布を確定するように配置される。 The recommended probability processing unit 430 for the plurality of words by adjusting the plurality of initial recommended weight vectors based on the relationship between each sentence vector and the other sentence vector among the plurality of sentence vectors. Arranged to establish the recommended probability distribution.

図4に示すように、推奨確率処理ユニット430は、関連性確定サブユニット431及び調整サブユニット432を含む。 As shown in FIG. 4, the recommended probability processing unit 430 includes the association determination subunit 431 and the adjustment subunit 432.

関連性確定サブユニット431は、文ベクトルの間の関連性を確定するように配置される。例えば、各文ベクトルを他の文ベクトルと組み合わせて、組合せ文ベクトルを生成することができる。 The association determination subunit 431 is arranged so as to establish the association between the sentence vectors. For example, each sentence vector can be combined with another sentence vector to generate a combination sentence vector.

いくつかの実現形態において、当該文ベクトルを他の文ベクトルと接続して、より次元の高い組合せ文ベクトルを得ることができる。例えば、文ベクトルSの次元がdである場合、文ベクトルSとSを接続して2d次元の組合せ文ベクトルS1,2を取得する。ここで、dは1より大きい整数である。 In some implementations, the sentence vector can be connected to other sentence vectors to obtain a higher dimensional combination sentence vector. For example, the dimension of the sentence vector S be a d, it acquires the sentence vector S 1 and S 2 to connect the 2d-dimensional combined sentence vector S 1, 2. Here, d is an integer greater than 1.

他の実現形態において、2つの文ベクトルのベクトル間の演算(例えば、加算、減算、ベクトル積等である)を行って組合せ文ベクトルを生成する。この場合、組合せ文ベクトルS1,2と組合せ文ベクトルS2,1とは、同じであってもよい。 In other implementations, operations between the vectors of two sentence vectors (eg, addition, subtraction, cross product, etc.) are performed to generate a combined sentence vector. In this case, the combination statement vectors S1 and 2 and the combination statement vectors S2 and 1 may be the same.

次に、関連性行列を利用して前記組合せ文ベクトルを処理することにより、当該文ベクトルと当該他の文ベクトルとの関連性を確定する。いくつかの実施例において、文ベクトルSとSとの関連性λ1,2は、λ=S1,2*Zとして表され得る。ここで、S1,2は文ベクトルSとSとの組合せ文ベクトルであり、Zは訓練済みの関連性行列を示す。Zを利用してSとSとの関連性係数λ1,2を算出することができる。いくつかの実施例において、関連性行列Zは、組合せ文ベクトルS1,2を実数としての関連性係数に投影することができる。 Next, the relation between the sentence vector and the other sentence vector is determined by processing the combination sentence vector using the relation matrix. In some embodiments, the relationship λ 1,2 between the sentence vectors S 1 and S 2 can be expressed as λ = S 1, 2 * Z. Here, S 1, 2 are combined sentence vectors of the sentence vector S 1 and S 2, Z represents a trained relevance matrix. Z can be used to calculate the relevance coefficients λ 1 and 2 between S 1 and S 2. In some embodiments, the relevance matrix Z can project the combinatorial statement vectors S1, 2 onto the relevance coefficient as a real number.

上記の方法により、文ベクトルS、S…、Sのうちの任意の2つの文ベクトルの間の関連性を算出することができる。 By the above method, sentence vector S 1, S 2 ..., it is possible to calculate the relationship between any two statements vectors of S n.

調整サブユニット432は、上述した任意の文ベクトルに対し、当該文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルの夫々との関連性に基づいて、当該文ベクトルの推奨係数を確定するように配置される。いくつかの実現形態において、当該文ベクトルの推奨係数は、当該文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルの夫々との関連性の合計として表されてもよい。 The adjustment subsystem 432 determines the recommended coefficient of the sentence vector for any of the above-mentioned sentence vectors, based on the relationship between the sentence vector and each of the other sentence vectors among the plurality of sentence vectors. Arranged like this. In some implementations, the recommended coefficient of the sentence vector may be expressed as the sum of the relationships between the sentence vector and each of the other sentence vectors of the plurality of sentence vectors.

他の実施例において、文ベクトルの推奨係数は、当該文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルの夫々との関連性の加重和として表されてもよい。予め確定された重み係数を利用して、各文ベクトルと他の文ベクトルとの関連性を重み付け加算してもよい。 In another embodiment, the recommended coefficient of the sentence vector may be expressed as a weighted sum of the relationships between the sentence vector and each of the other sentence vectors among the plurality of sentence vectors. The relationship between each sentence vector and another sentence vector may be weighted and added by using a predetermined weighting coefficient.

上記推奨係数は、調整後の単語確率ベクトルを得るために、対応する文ベクトルを生成するための初期推奨重みベクトルの調整に用いられることができる。 The above recommended coefficients can be used to adjust the initial recommended weight vector to generate the corresponding sentence vector in order to obtain the adjusted word probability vector.

前述したように、推奨係数は、文ベクトルと他の文ベクトルとの関連性に基づいて確定されるものである。テキストの要約の生成過程でテキストのコンテンツを要約する必要があるため、他の文ベクトルとの関連性が高いほど、当該文ベクトルに含まれる単語ベクトルの情報がテキストのコンテンツの中で重要度が高く、その結果、テキストの要約の内容にる可能性が高いと考えられる。 As mentioned above, the recommended coefficient is determined based on the relationship between the sentence vector and other sentence vectors. Since it is necessary to summarize the content of the text in the process of generating the summary of the text, the higher the relevance to other sentence vectors, the more important the information of the word vector contained in the sentence vector is in the content of the text. High, and as a result, is likely to be the content of the text summary.

いくつかの実施例において、調整サブユニット432は、各文ベクトルの推奨係数を当該文ベクトルに対応する単語確率ベクトルに掛けることにより、その単語確率ベクトルに含まれる、各単語ベクトルの符号化隠れ状態ベクトルに対する重み係数を調整することができる。例えば、調整後のi番目の単語確率ベクトルW’は、W’=Σλ*Wとして表され得る。 In some embodiments, the adjustment subsystem 432 multiplies the recommended coefficient of each sentence vector by the word probability vector corresponding to that sentence vector so that the coded hidden state of each word vector contained in that word probability vector is hidden. The weighting factor for the vector can be adjusted. For example, i-th word probability vector W i 'after control is, W i' can be expressed as = Σλ i * W i.

各文ベクトルの推奨係数を利用して当該文ベクトルの単語確率ベクトルを調整した後、調整サブユニット432は、以上のように得た調整された複数の単語確率ベクトルW’に基づいて前記複数の単語の推奨確率分布を確定することができる。 After adjusting the word probability vector of the sentence vector using the recommended coefficient of each sentence vector, the adjustment subsystem 432 is based on the plurality of adjusted word probability vectors W'obtained as described above. The recommended probability distribution of words can be determined.

いくつかの実施例において、推奨確率分布Pは、上記の方法により得た調整後の複数の単語確率ベクトルW’の和であるP=ΣW’として表されてもよく、即ち、を利用する。いくつかの実現形態において、推奨確率分布Pは、調整後の複数の単語確率ベクトルW’の加重和として表されてもよい。 In some embodiments, the recommended probability distribution P V may be represented as 'P V = ΣW i is the sum of' the above plurality of word probability vector W after adjustment obtained by the method, i.e., the Use. In some implementations, the recommended probability distribution P V may be represented as a weighted sum of a plurality of word probability vector W i 'after adjustment.

出力ユニット440は、前記推奨確率分布に基づいて出力すべき単語を確定するように構成される。 The output unit 440 is configured to determine the words to be output based on the recommended probability distribution.

いくつかの実施例において、推奨確率基づいて、現在の生成式のネットワークによって生成された単語確率分布を調整することにより、出力単語確率分布を確定してもよい。 In some embodiments, the output word probability distribution may be determined by adjusting the word probability distribution generated by the network of current generation formulas based on the recommended probabilities.

各時間ステップについて、前記現在の符号化隠れ状態ベクトルに基づいて、復号化ニューラルネットワークを利用して現在の復号化隠れ状態ベクトルを確定することができる。前記現在の符号化隠れ状態ベクトルと現在の復号化隠れ状態ベクトルを利用して現在の単語確率分布を確定することができる。前記現在の単語確率分布と前記推奨確率分布に基づいて、現在の時間ステップについての出力単語確率分布を確定し、出力単語確率分布から最大の確率を有する単語ベクトルに対応する単語を、現在の時間ステップに出力すべき単語として選定することができる。 For each time step, the current decoded hidden state vector can be determined using the decoding neural network based on the current coded hidden state vector. The current word probability distribution can be determined by using the current coded hidden state vector and the current decoded hidden state vector. Based on the current word probability distribution and the recommended probability distribution, the output word probability distribution for the current time step is determined, and the word corresponding to the word vector having the maximum probability from the output word probability distribution is obtained from the output word probability distribution at the current time. It can be selected as a word to be output to the step.

ここで、前記現在の単語確率分布は、注意確率分布aであってもよい。前記注意確率分布は、前記入力テキストおける単語がテキストの要約における単語となる確率分布を示す。一実現形態において、現在の時間ステップについての符号化隠れ状態ベクトルと復号化隠れ状態ベクトルに基づいて注意確率分布を確定することができる。 Here, the current word probability distribution may be a note probability distribution a t. The attention probability distribution indicates a probability distribution in which a word in the input text becomes a word in a text summary. In one implementation, the attention probability distribution can be determined based on the coded hidden state vector and the decoded hidden state vector for the current time step.

いくつかの実施例において、前記推奨確率分布を利用して前記注意確率分布を調整することで、調整後の注意確率分布a’を確定することができる。調整後の注意確率分布を利用して、前記入力テキストにおける単語がテキストの要約における単語となる確率分布を確定することができる。例えば、入力テキストから確率の最大である単語を出力すべき単語として選定することができる。 In some embodiments, by adjusting the attention probability distribution by using the recommended probability distribution, it is possible to determine the note probability distribution a 't after adjustment. The adjusted attention probability distribution can be used to determine the probability distribution in which a word in the input text becomes a word in a text summary. For example, the word with the maximum probability can be selected as the word to be output from the input text.

いくつかの実施例において、前記現在の単語確率分布は、生成確率分布Pvocabをさらに含む。前記生成単語確率分布は、前記文字エンティティ辞書における単語がテキストの要約における単語となる確率分布を示す。上記のコンテキストベクトルと現在の時間ステップについての復号化隠れ状態ベクトルに基づいて上記の生成確率分布を確定することができる。そして、前記生成確率分布と前記調整後の注意確率分布を重み付け加算することにより、出力単語確率分布を確定することができる。 In some embodiments, the current word probability distribution further comprises a generation probability distribution P vocab. The generated word probability distribution indicates a probability distribution in which a word in the character entity dictionary becomes a word in a text summary. The above generation probability distribution can be determined based on the above context vector and the decoding hidden state vector for the current time step. Then, the output word probability distribution can be determined by weighting and adding the generation probability distribution and the adjusted attention probability distribution.

いくつかの実施例において、現在の時間ステップについての符号化隠れ状態ベクトル、復号化隠れ状態ベクトル、注意確率分布及び1つ前の時間ステップでの復号化ニューラルネットワークの出力に基づいて、生成確率分布及び調整後の注意確率分布の第1の重みPgenを確定することができる。 In some embodiments, the generated probability distribution is based on the coded hidden state vector for the current time step, the decoded hidden state vector, the attention probability distribution, and the output of the decoding neural network at the previous time step. And the first weight P gen of the adjusted attention probability distribution can be determined.

いくつかの実施例において、前記生成確率分布、前記注意確率分布及び前記推奨確率分布を重み付け加算して出力単語確率分布を確定することができる。一実現形態において、現在の時間ステップについての符号化隠れ状態ベクトル、復号化隠れ状態ベクトル、注意確率分布、推奨確率分布及び1つ前の時間ステップでの復号化ニューラルネットワークの出力に基づいて、前記生成確率分布、前記注意確率分布及び前記推奨確率分布を重み付け加算するための第2の重みPgen2を確定することができる。第2の重みPgen2は、3次元のベクトルとして実現し、ここで、当該3次元のベクトルにおける元素は、それぞれ生成確率分布Pgen、注意確率分布a及び推奨確率分布Pの重み係数を示す。 In some embodiments, the output word probability distribution can be determined by weighting and adding the generation probability distribution, the attention probability distribution, and the recommended probability distribution. In one implementation, the above, based on the coded hidden state vector for the current time step, the decoded hidden state vector, the attention probability distribution, the recommended probability distribution, and the output of the decoding neural network in the previous time step. It is possible to determine the second weight P gen2 for weighting and adding the generation probability distribution, the attention probability distribution, and the recommended probability distribution. Second weight P gen2 is implemented as a three-dimensional vector, where elements in the three-dimensional vectors, respectively generates probability distribution P gen, the weighting factor of attention probability distribution a t and recommended probability distribution P V Shown.

上記のテキスト処理装置で用いられる訓練パラメータは、予め定められた訓練データセットを用いて訓練されるものである。例えば、訓練データを上記のテキスト処理装置に入力し、符号化ニューラルネットワーク、復号化ニューラルネットワーク、及び文ベクトル間の関連性を確定するための初期推奨重みベクトルを用いて、ソーステキストの単語ベクトルを処理することにより、上記のように訓練された出力単語確率分布を得ることができる。上記のテキスト処理モデルにおける訓練パラメータは、訓練された出力単語確率分布における正解の単語の確率損失を算出することにより調整されることができる。ここで、本開示に係るテキスト生成ネットワークの損失関数は、式(8)により示され得る。 The training parameters used in the text processing apparatus described above are those trained using a predetermined training data set. For example, the training data is input to the text processor described above, and the word vector of the source text is obtained using the coded neural network, the decoded neural network, and the initial recommended weight vector for establishing the relationship between the sentence vectors. By processing, the output word probability distribution trained as described above can be obtained. The training parameters in the above text processing model can be adjusted by calculating the probability loss of the correct word in the trained output word probability distribution. Here, the loss function of the text generation network according to the present disclosure can be expressed by the equation (8).

ここで、w *は時間ステップtについての正解単語の時間ステップtでの訓練後の出力単語確率分布の確率値であり、Tは生成シーケンス全体にわたる合計時間ステップである。テキスト生成ネットワークの全体的な損失は、生成シーケンス全体にわたるすべての時間ステップでの損失値を統計することによって確定されることができる。 Here, w t * is the probability value of the output word probability distribution after training in the time step t of the correct word for the time step t, and T is the total time step over the entire generation sequence. The overall loss of the text generation network can be determined by statistics on the loss values at all time steps throughout the generation sequence.

上記のテキスト処理装置のパラメータに対する訓練は、上記の損失が最小になるようにテキスト処理装置の訓練パラメータを調整することによって実現できる。 The training for the parameters of the text processing device can be realized by adjusting the training parameters of the text processing device so that the above loss is minimized.

本開示に係るテキスト処理装置によれば、例えば、テキストの要約のコンテンツを生成する際に、入力されたテキストにおける各単語からなる文ベクトルの間の相関性に基づいて、入力されたテキストにおける単語の当該テキストのコンテンツにおける重要度を確定することができ、テキストのコンテンツに対する単語の重要度に基づいて、生成されたテキストのコンテンツを確定するといった技術的効果を奏する。本開示では、要約を生成する場合を例に挙げて原理を説明したが、本開示の内容はこれに限定されない。本開示の原理から逸脱することなく、本開示に係るテキスト処理方法を、テキスト拡張、テキスト書き換え等の他の応用シーンに適用することもできる。 According to the text processing apparatus according to the present disclosure, for example, when generating the content of the text summary, the words in the input text are based on the correlation between the sentence vectors consisting of each word in the input text. It is possible to determine the importance of the text in the content of the text, and it has a technical effect of determining the content of the generated text based on the importance of the word to the content of the text. In the present disclosure, the principle has been described by taking the case of generating a summary as an example, but the content of the present disclosure is not limited to this. The text processing method according to the present disclosure can be applied to other application scenes such as text extension and text rewriting without departing from the principle of the present disclosure.

なお、本開示の実施例による方法または装置は、図5に示されるコンピューティングデバイスのアーキテクチャによって実現されてもよい。図5は、コンピューティングデバイスのアーキテクチャを示す。図5に示されるように、コンピューティングデバイス500は、バス510、1つまたは少なくとも2つのCPU520、読み取り専用メモリ(ROM)530、ランダムアクセスメモリ(RAM) 540、ネットワークに接続された通信ポート550、入力/出力コンポーネント560、ハードディスク570などを含んでもよい。コンピューティングデバイス500での記憶デバイス、例えば、ROM530またはハードディスク570には、ビデオにおいてターゲットを検出するための方法の処理および/または通信に利用される、本開示による様々なデータまたはファイル、ならびにCPUによって実行されるプログラム命令が記憶されていることができる。コンピューティング装置500は、ユーザインターフェース580も含んでもよい。もちろん、図5に示されるアーキテクチャは、単なる例示的なものであり、異なるデバイスを実現する場合、実際の必要に応じて、図5に示されるコンピューティングデバイスの1つまたは少なくとも2つの構成要素は省略されてもよい。 The method or apparatus according to the embodiment of the present disclosure may be realized by the architecture of the computing device shown in FIG. FIG. 5 shows the architecture of a computing device. As shown in FIG. 5, the computing device 500 includes a bus 510, one or at least two CPU 520s, a read-only memory (ROM) 530, a random access memory (RAM) 540, and a networked communication port 550. It may include input / output components 560, hard disk 570, and the like. The storage device in the computing device 500, such as the ROM 530 or the hard disk 570, is provided by the various data or files according to the present disclosure, as well as by the CPU, which are used to process and / or communicate methods for detecting targets in video. The program instruction to be executed can be stored. The computing device 500 may also include a user interface 580. Of course, the architecture shown in FIG. 5 is merely exemplary, and when implementing different devices, one or at least two components of the computing device shown in FIG. 5 may, depending on the actual need. It may be omitted.

本願の実施例は、コンピュータ読み取り可能な記憶媒体としても実装されてもよい。本願の実施例によるコンピュータ読み取り可能な記憶媒体は、コンピュータ可読命令を記憶している。コンピュータ読み取り可能な命令がプロセッサによって実行されるとき、上記の図面を参照して説明した本願の実施例による方法が実行されることができる。コンピュータ読み取り可能な記憶媒体は、例えば、揮発性メモリ及び/又は不揮発性メモリを含むが、これらに限定されない。揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュメモリ(cache)などを含んでもよい。不揮発性メモリは、例えば、読み取り専用メモリ(ROM)、ハードディスク、フラッシュメモリなどを含んでもよい。 The embodiments of the present application may also be implemented as a computer-readable storage medium. The computer-readable storage medium according to the embodiment of the present application stores computer-readable instructions. When a computer-readable instruction is executed by the processor, the method according to the embodiment of the present application described with reference to the above drawings can be performed. Computer-readable storage media include, but are not limited to, volatile and / or non-volatile memory, for example. Volatile memory may include, for example, random access memory (RAM) and / or cache memory (cache). The non-volatile memory may include, for example, a read-only memory (ROM), a hard disk, a flash memory, and the like.

本明細書で開示された内容に対して、様々な変更および改良が行われ得ることは、当業者によって理解されるべきであろう。例えば、上記の様々な装置又は構成要素は、ハードウェアで、又はソフトウェア、ファームウェア、又はこれらの一部又は全部の組み合わせで実現されてもよい。 It should be understood by those skilled in the art that various changes and improvements may be made to the content disclosed herein. For example, the various devices or components described above may be implemented in hardware or in software, firmware, or a combination of some or all of them.

また、本出願及び特許請求の範囲に示されるように、「1」、「1個」、及び/又は「1種類」及び/又は「当該」などの用語は、文脈上明らかにそうでないことを示しない限り、単数形のものではなく、複数形のものも含むことができる。一般に、「含む」及び「有する」という用語は、明示的に特定されたステップ及び要素を含むことを単に示唆するものであり、これらのステップ及び要素は排他的な羅列を構成するものではなく、方法又は装置は他のステップ又は要素を含むこともある。 Also, as shown in the scope of this application and claims, terms such as "1", "1 piece", and / or "1 type" and / or "corresponding" are clearly not the case in the context. Unless otherwise indicated, it may include plurals rather than singulars. In general, the terms "include" and "have" merely suggest that they include explicitly specified steps and elements, and these steps and elements do not constitute an exclusive enumeration. The method or device may also include other steps or elements.

さらに、本明細書は、本開示の実施例によるシステムのいくつかのユニットに対する様々な参照を行うが、任意の数の異なるユニットが使用され、クライアント及び/又はサーバ上で実行されてもよい。前記ユニットは、単に例示的なものであり、そして前記システム及び方法の異なる態様には、異なるユニットを使用してもよい。 Further, although this specification makes various references to some units of the system according to the embodiments of the present disclosure, any number of different units may be used and run on the client and / or server. The units are merely exemplary, and different units may be used in different aspects of the system and method.

また、本発明の実施例に係るシステムが実行する動作を説明するために、本発明の開示においてフローチャートを用いる。なお、前述又は後述した動作は、必ずしも順序通りに正確に実行されなくてもよい。逆に、様々なステップは、逆の順序にまたは同時に実行され得る。同時に、他の操作もこれらのプロセスに加えられ、またはこれらのプロセスから一つ又は複数のステップの動作が除去されてもよい。 Further, in order to explain the operation executed by the system according to the embodiment of the present invention, a flowchart is used in the disclosure of the present invention. The operations described above or described later do not necessarily have to be executed accurately in order. Conversely, the various steps can be performed in reverse order or at the same time. At the same time, other operations may be added to or removed from these processes in one or more steps.

本明細書で使用される全ての用語(技術的及び科学的な用語を含み)は、特に定義されない限り、本発明が属する技術分野の当業者によって共通に理解されるのと同じ意味を持つ。一般的な辞書に定義されているような用語は、関連技術の文脈上の意味と一致する意味を持つものと解釈されるべきであり、本明細書で明らかに定義しない限り、理想的または極端な形式で解釈されるべきではない。 All terms used herein, including technical and scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs, unless otherwise defined. Terms such as those defined in general dictionaries should be construed to have meaning consistent with the contextual meaning of the relevant technology and are ideal or extreme unless expressly defined herein. Should not be interpreted in any form.

以上、本発明を説明したが、本発明はこれらに限定されるものではない。本発明のいくつかの例示的な実施例を説明したが、本発明の新規な教示および利点から逸脱することなく、例示的な実施例に多くの変更を行うことができることは当業者には容易に理解されるべきである。したがって、このような全ての変更は特許請求で限定されている本発明の範囲に含まれることが意図される。上記は、本発明に対する説明であり、本発明が開示された特定の実施例に限定されるものと理解されるべきではなく、開示された実施例および他の実施例に対する変更は、添付の特許請求の範囲内に含まれることが意図されることを理解されたい。本発明は、特許請求の範囲およびそれと同等なものによって限定される。 Although the present invention has been described above, the present invention is not limited thereto. Although some exemplary embodiments of the invention have been described, it will be readily appreciated by those skilled in the art that many modifications can be made to the exemplary embodiments without departing from the novel teachings and advantages of the invention. Should be understood. Therefore, all such modifications are intended to be included in the scope of the invention, which is limited by the claims. The above is a description of the present invention and should not be understood to be limited to the particular embodiments in which the present invention has been disclosed. Please understand that it is intended to be included in the claims. The present invention is limited by the scope of claims and equivalents.

Claims (10)

ソーステキストに対し前処理を行って、複数の単語のための複数の単語ベクトルを生成するように配置される前処理ユニットと、
複数の初期推奨重みベクトルと前記複数の単語ベクトルに基づいて、複数の文ベクトルを確定するように配置される文ベクトル確定ユニットと、
各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性に基づいて前記複数の初期推奨重みベクトルを調整して、前記複数の単語のための推奨確率分布を確定するように配置される推奨確率確定ユニットと、
前記推奨確率分布に基づいて出力すべき単語を確定するように配置される出力ユニットと、を備える、
テキスト処理装置。
A preprocessing unit that preprocesses the source text and is arranged to generate multiple word vectors for multiple words,
A sentence vector determination unit arranged so as to determine a plurality of sentence vectors based on a plurality of initial recommended weight vectors and the plurality of word vectors.
Adjust the plurality of initial recommended weight vectors based on the relationship between each sentence vector and the other sentence vector of the plurality of sentence vectors to determine the recommended probability distribution for the plurality of words. The recommended probability determination unit to be placed and
It comprises an output unit arranged so as to determine a word to be output based on the recommended probability distribution.
Text processing device.
前記文ベクトル確定ユニットは、
符号化ニューラルネットワークを利用して前記複数の単語ベクトルを処理して、各単語ベクトルにそれぞれ対応する現在の符号化隠れ状態ベクトルを確定し、
各初期推奨重みベクトルと前記現在の符号化隠れ状態ベクトルに基づいて、当該初期推奨重みベクトルに対応する文ベクトルを確定するように配置される、
請求項1に記載のテキスト処理装置。
The sentence vector determination unit is
The plurality of word vectors are processed using a coded neural network to determine the current coded hidden state vector corresponding to each word vector.
Based on each initial recommended weight vector and the current coded hidden state vector, the statement vector corresponding to the initial recommended weight vector is arranged so as to be determined.
The text processing device according to claim 1.
前記出力ユニットは、
前記現在の符号化隠れ状態ベクトルに基づいて、復号化ニューラルネットワークを利用して現在の復号化隠れ状態ベクトルを確定し、
前記現在の符号化隠れ状態ベクトルと前記現在の復号化隠れ状態ベクトルを利用して現在の単語確率分布を確定し、
前記現在の単語確率分布と前記推奨確率分布に基づいて、出力すべき単語を確定するように配置される、
請求項2に記載のテキスト処理装置。
The output unit is
Based on the current coded hidden state vector, the decoding neural network is used to determine the current decoded hidden state vector.
The current coded hidden state vector and the current decoded hidden state vector are used to determine the current word probability distribution.
It is arranged so as to determine the word to be output based on the current word probability distribution and the recommended probability distribution.
The text processing apparatus according to claim 2.
前記現在の単語確率分布は、生成確率分布及び注意確率分布を含み、
前記出力ユニットは、
前記推奨確率分布を利用して前記注意確率分布を調整し、調整後の注意確率分布を確定し、
前記生成確率分布と前記調整後の注意確率分布を重み付け加算して出力単語確率分布を確定し、
出力単語確率分布内の確率の最大である単語を出力すべき単語として確定するように配置される、
請求項3に記載のテキスト処理装置。
The current word probability distribution includes a generation probability distribution and an attention probability distribution.
The output unit is
The attention probability distribution is adjusted by using the recommended probability distribution, and the adjusted attention probability distribution is determined.
The output word probability distribution is determined by weighting and adding the generated probability distribution and the adjusted attention probability distribution.
Output word Arranged to determine the word with the highest probability in the probability distribution as the word to be output,
The text processing apparatus according to claim 3.
前記現在の単語確率分布は、生成確率分布及び注意確率分布を含み、
前記出力ユニットは、
前記生成確率分布、前記注意確率分布及び前記推奨確率分布に用いられる重みを確定して、前記重みに基づいて前記出力単語確率分布を確定し、
出力単語確率分布の確率の最大である単語を出力すべき単語として確定するように配置される、
請求項3に記載のテキスト処理装置。
The current word probability distribution includes a generation probability distribution and an attention probability distribution.
The output unit is
The weights used for the generation probability distribution, the attention probability distribution, and the recommended probability distribution are determined, and the output word probability distribution is determined based on the weights.
The word with the maximum probability of the output word probability distribution is arranged so as to be determined as the word to be output.
The text processing apparatus according to claim 3.
推奨確率確定ユニットは、関連性確定サブユニットをさらに含み、
前記関連性確定サブユニットは、
各文ベクトルに対し、当該文ベクトルを他の文ベクトルと組み合わせて、組合せ文ベクトルを生成し、
関連性行列を利用して前記組合せ文ベクトルを処理することにより、当該文ベクトルと当該他の文ベクトルとの関連性を確定するように配置される、
請求項1〜5のいずれか1項に記載のテキスト処理装置。
The recommended probability determination subunit further includes a relevance determination subunit.
The association-determining subunit
For each sentence vector, the sentence vector is combined with another sentence vector to generate a combination sentence vector.
By processing the combination sentence vector using the relevance matrix, it is arranged so as to determine the relevance between the sentence vector and the other sentence vector.
The text processing apparatus according to any one of claims 1 to 5.
推奨確率確定ユニットは、調整サブユニットをさらに含み、
前記調整サブユニットは、
当該文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルの夫々との関連性に基づいて、当該文ベクトルの推奨係数を確定し、
前記初期推奨重みベクトルの夫々に対し、当該初期推奨重みベクトルに対応する文ベクトルの推奨係数を利用して当該初期推奨重みベクトルを調整し、調整後の単語確率ベクトルを取得し、
調整後の単語確率ベクトルに基づいて前記複数の単語の推奨確率分布を確定するように配置される、
請求項6に記載のテキスト処理装置。
The recommended probability determination unit further includes the adjustment subunit and
The adjustment subunit
Based on the relationship between the sentence vector and each of the other sentence vectors among the plurality of sentence vectors, the recommended coefficient of the sentence vector is determined.
For each of the initial recommended weight vectors, the initial recommended weight vector is adjusted by using the recommended coefficient of the sentence vector corresponding to the initial recommended weight vector, and the adjusted word probability vector is obtained.
Arranged so as to determine the recommended probability distribution of the plurality of words based on the adjusted word probability vector.
The text processing apparatus according to claim 6.
ソーステキストに対し前処理を行って、複数の単語のための複数の単語ベクトルを生成することと、
複数の初期推奨重みベクトルと前記複数の単語ベクトルに基づいて、複数の文ベクトルを確定することと、
各文ベクトルと前記複数の文ベクトルのうちの他の文ベクトルとの関連性に基づいて前記複数の初期推奨重みベクトルを調整して、前記複数の単語のための推奨確率分布を確定することと、
前記推奨確率分布に基づいて出力すべき単語を確定することと、を含む、
テキスト処理方法。
Preprocessing the source text to generate multiple word vectors for multiple words,
Determining multiple sentence vectors based on multiple initial recommended weight vectors and the multiple word vectors.
To determine the recommended probability distribution for the plurality of words by adjusting the plurality of initial recommended weight vectors based on the relationship between each sentence vector and the other sentence vector among the plurality of sentence vectors. ,
Including determining the words to be output based on the recommended probability distribution.
Text processing method.
プロセッサと、
コンピュータ読み取り可能なプログラム命令が記憶されるメモリと、を含み、
前記コンピュータ読み取り可能なプログラム命令が前記プロセッサにより実行されるとき、請求項8に記載のテキスト処理方法を実行する、
テキスト処理デバイス。
With the processor
Includes memory for storing computer-readable program instructions,
When the computer-readable program instruction is executed by the processor, the text processing method according to claim 8 is executed.
Text processing device.
コンピュータ読み取り可能な命令が記憶されるコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ読み取り可能な命令がコンピュータにより実行されるとき、前記コンピュータに請求項8に記載のテキスト処理方法を実行させる、
コンピュータ読み取り可能な記憶媒体。
A computer-readable storage medium that stores computer-readable instructions.
When the computer-readable instruction is executed by the computer, the computer is made to execute the text processing method according to claim 8.
A computer-readable storage medium.
JP2019209171A 2019-08-20 2019-11-19 Text processing methods, apparatus, devices and computer readable storage media Active JP7414357B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910768816.1 2019-08-20
CN201910768816.1A CN112487136A (en) 2019-08-20 2019-08-20 Text processing method, device, equipment and computer readable storage medium

Publications (2)

Publication Number Publication Date
JP2021033994A true JP2021033994A (en) 2021-03-01
JP7414357B2 JP7414357B2 (en) 2024-01-16

Family

ID=74675964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019209171A Active JP7414357B2 (en) 2019-08-20 2019-11-19 Text processing methods, apparatus, devices and computer readable storage media

Country Status (2)

Country Link
JP (1) JP7414357B2 (en)
CN (1) CN112487136A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569559A (en) * 2021-07-23 2021-10-29 北京智慧星光信息技术有限公司 Short text entity emotion analysis method and system, electronic equipment and storage medium
CN113990473A (en) * 2021-10-28 2022-01-28 上海昆亚医疗器械股份有限公司 Medical equipment operation and maintenance information collecting and analyzing system and using method thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016207141A (en) * 2015-04-28 2016-12-08 ヤフー株式会社 Summary generation device, summary generation method, and summary generation program
JP2018181343A (en) * 2017-04-14 2018-11-15 セールスフォース ドット コム インコーポレイティッド Deep reinforced model for abstractive summarization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016207141A (en) * 2015-04-28 2016-12-08 ヤフー株式会社 Summary generation device, summary generation method, and summary generation program
JP2018181343A (en) * 2017-04-14 2018-11-15 セールスフォース ドット コム インコーポレイティッド Deep reinforced model for abstractive summarization

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ABIGAIL SEE 他2名: "Get To The Point: Summarization with Pointer-Generator Networks[online]", ARXIV:1704.04368V2, JPN6023031373, 25 April 2017 (2017-04-25), ISSN: 0005118479 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569559A (en) * 2021-07-23 2021-10-29 北京智慧星光信息技术有限公司 Short text entity emotion analysis method and system, electronic equipment and storage medium
CN113569559B (en) * 2021-07-23 2024-02-02 北京智慧星光信息技术有限公司 Short text entity emotion analysis method, system, electronic equipment and storage medium
CN113990473A (en) * 2021-10-28 2022-01-28 上海昆亚医疗器械股份有限公司 Medical equipment operation and maintenance information collecting and analyzing system and using method thereof
CN113990473B (en) * 2021-10-28 2022-09-30 上海昆亚医疗器械股份有限公司 Medical equipment operation and maintenance information collecting and analyzing system and using method thereof

Also Published As

Publication number Publication date
JP7414357B2 (en) 2024-01-16
CN112487136A (en) 2021-03-12

Similar Documents

Publication Publication Date Title
CN111460807B (en) Sequence labeling method, device, computer equipment and storage medium
WO2020244065A1 (en) Character vector definition method, apparatus and device based on artificial intelligence, and storage medium
WO2022007438A1 (en) Emotional voice data conversion method, apparatus, computer device, and storage medium
CN111461301B (en) Serialized data processing method and device, and text processing method and device
CN110489622B (en) Sharing method and device of object information, computer equipment and storage medium
CN112069302A (en) Training method of conversation intention recognition model, conversation intention recognition method and device
CN111581926A (en) Method, device and equipment for generating file and computer readable storage medium
JP2022169743A (en) Information extraction method and device, electronic equipment, and storage medium
JP7414357B2 (en) Text processing methods, apparatus, devices and computer readable storage media
CN114612996A (en) Method for operating neural network model, medium, program product, and electronic device
CN116684330A (en) Traffic prediction method, device, equipment and storage medium based on artificial intelligence
CN109902273B (en) Modeling method and device for keyword generation model
US20210150154A1 (en) Chapter-level text translation method and device
CN112561050B (en) Neural network model training method and device
JP2021051709A (en) Text processing apparatus, method, device, and computer-readable recording medium
CN116127925A (en) Text data enhancement method and device based on destruction processing of text
CN116108810A (en) Text data enhancement method and device
CN112506423B (en) Method and device for dynamically accessing storage equipment in cloud storage system
CN110442706B (en) Text abstract generation method, system, equipment and storage medium
CN112100453B (en) Character string distribution statistical method, system, equipment and computer storage medium
CN112614197A (en) Image generation method and device, computer equipment and storage medium
CN112148902A (en) Data processing method, device, server and storage medium
CN113535887B (en) Formula similarity detection method and device
US20190197084A1 (en) Data compression apparatus and data compression method and storage medium
CN112446461A (en) Neural network model training method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230926

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20230926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231222

R150 Certificate of patent or registration of utility model

Ref document number: 7414357

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150