JP2020184313A - Text processing method, apparatus, device, and storage medium - Google Patents

Text processing method, apparatus, device, and storage medium Download PDF

Info

Publication number
JP2020184313A
JP2020184313A JP2020033282A JP2020033282A JP2020184313A JP 2020184313 A JP2020184313 A JP 2020184313A JP 2020033282 A JP2020033282 A JP 2020033282A JP 2020033282 A JP2020033282 A JP 2020033282A JP 2020184313 A JP2020184313 A JP 2020184313A
Authority
JP
Japan
Prior art keywords
parts
text
constituent
input text
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020033282A
Other languages
Japanese (ja)
Inventor
シーホン グオ
Xihong Guo
シーホン グオ
アンシン リー
Anxin Li
アンシン リー
シンユ グオ
xin yu Guo
シンユ グオ
ラン チェン
Lan Chen
ラン チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2020184313A publication Critical patent/JP2020184313A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

To provide a method, an apparatus, a device, and a storage medium, which allow for efficiently generating a desired text by processing a dynamically changing text processing request.SOLUTION: A text processing method is provided, comprising: acquiring an input text; dividing the input text into multiple parts using the clustering technique; analyzing the multiple parts to produce an analysis result for each of the multiple parts; and combining the analysis results for respective parts to generate an output text.SELECTED DRAWING: Figure 1

Description

本開示は、テキスト処理分野に関するものであり、具体的には、テキスト処理方法、テキスト処理装置、テキスト処理デバイス及びコンピュータ読取可能な記憶媒体に関するものである。 The present disclosure relates to the field of text processing, and specifically to text processing methods, text processing devices, text processing devices and computer-readable storage media.

深層ニューラルネットワークは、大規模なマルチパラメーター最適化ツールである。深層ニューラルネットワークは、大量のトレーニングデータによって、まとめ難い隠された特徴をデータから学習できるため、顔検出、画像セマンティックセグメンテーション、テキスト要約抽出、物体検出、モーショントラッキング、自然言語翻訳などの複数の複雑なタスクを完了できる。 Deep neural networks are large-scale multi-parameter optimization tools. Deep neural networks can learn hidden features that are difficult to summarize from the data with a large amount of training data, so multiple complexities such as face detection, image semantic segmentation, text summary extraction, object detection, motion tracking, natural language translation, etc. You can complete the task.

テキスト要約抽出とは、明確な意味を持つテキスト内容を高レベルで概括化/抽象化してテキスト要約を生成することを意味する。従来のテキスト要約抽出方法によって生成された要約は、長さが異なる。従って、単語数が指定される要約を求める時に、現在の技術案は、ニューラルネットワークモデルをトレーニングし、入力テキストを処理する時、ニューラルネットワークモデルが単語ずつに要約を生成させ、指定の単語数に達した後に生成を停止することによって、単語数が指定される要約を生成する。しかしながら、このような処理方法を利用したら、最後に生成された要約には、切られた文が存在する恐れがある。あるいは、複数の指定の単語数を求めるときに、異なる長さの要約に対してそれぞれのニューラルネットワークモデルをトレーニングする必要があり、実現の複雑さが高くなる恐れがある。 Text summary extraction means generating a text summary by high-level summarization / abstraction of well-defined text content. The summaries generated by traditional text summarization extraction methods vary in length. Therefore, when seeking a summary with a specified number of words, the current technology is to train the neural network model, and when processing the input text, the neural network model will generate a summary word by word to reach the specified number of words. Generates a summary with a specified number of words by stopping the generation after it is reached. However, if such a processing method is used, there may be a cut sentence in the last generated summary. Alternatively, when finding a plurality of specified number of words, it is necessary to train each neural network model for summaries of different lengths, which may increase the complexity of implementation.

上記の問題に鑑みて、本開示は、テキスト処理方法、テキスト処理装置、テキスト処理デバイス、及びコンピュータ読取可能な記憶媒体を提供する。 In view of the above problems, the present disclosure provides text processing methods, text processing devices, text processing devices, and computer-readable storage media.

本開示の一態様によれば、入力テキストを取得することと、クラスタリングを利用して前記入力テキストを複数の部分に分割することと、前記複数の部分を分析して、前記複数の部分のうちの各部分に対応する分析結果を生成することと、前記各部分に対応する分析結果を結合して、出力テキストを生成することとを具備するテキスト処理方法が提供される。 According to one aspect of the present disclosure, the input text is acquired, the input text is divided into a plurality of parts by using clustering, and the plurality of parts are analyzed to be among the plurality of parts. A text processing method comprising generating an analysis result corresponding to each part of the above and combining the analysis result corresponding to each part to generate an output text is provided.

本開示の一態様によれば、クラスタリングを利用して前記入力テキストを複数の部分に分割することは、前記複数の部分に対応する複数のトピック文を初期化することと、前記入力テキストにおける構成文と前記複数のトピック文の間の類似度を算出することによって、類似度に基づいて前記入力テキストにおける構成文をそれぞれに前記複数のトピック文に対応する部分に区分し、前記複数の部分に含まれる構成文を更新することと、前記複数の部分において、各構成文の間の類似度を算出することによって、全体の類似度が一番高い構成文を新しいトピック文として特定することと、前記新しいトピック文が変わらなくなるまで上記工程を繰り返すことと、を具備する。 According to one aspect of the present disclosure, dividing the input text into a plurality of parts by utilizing clustering is to initialize a plurality of topic sentences corresponding to the plurality of parts and to configure the input text. By calculating the similarity between the sentence and the plurality of topic sentences, the constituent sentences in the input text are divided into the parts corresponding to the plurality of topic sentences based on the similarity, and the plurality of parts are divided into the parts. By updating the included constituent sentences and calculating the similarity between each constituent sentence in the plurality of parts, the constituent sentence having the highest overall similarity is identified as a new topic sentence. It comprises repeating the above steps until the new topic statement does not change.

本開示の一態様によれば、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数は、前記出力テキストの予定する目標単語数に基づいて特定される。 According to one aspect of the present disclosure, the number of plurality of portions obtained by dividing the input text using clustering is specified based on the planned target number of words in the output text.

本開示の一態様によれば、前記各部分に対応する分析結果を結合することは、前記分析結果の各構成文と前記入力テキストの全ての構成文の間の類似度を算出することと、前記分析結果の各構成文に対応する、類似度が一番高い前記入力テキストの各構成文の前記入力テキストにおける位置をそれぞれに探し出すことと、前記位置の前記入力テキストにおける出現順序に基づいて、前記分析結果の各構成文に対して並べ替えを行い、前記並べ替えに従って前記分析結果の各構成文を結合することと、を具備する。 According to one aspect of the present disclosure, combining the analysis results corresponding to the respective parts is to calculate the similarity between each constituent sentence of the analysis result and all the constituent sentences of the input text. Based on finding the position of each constituent sentence of the input text having the highest similarity in the input text corresponding to each constituent sentence of the analysis result, and the order of appearance in the input text of the position. Each constituent sentence of the analysis result is rearranged, and each constituent sentence of the analysis result is combined according to the rearrangement.

本開示の一態様によれば、前記複数の部分に対して同じ単語数の分析結果を生成する。 According to one aspect of the present disclosure, an analysis result of the same number of words is generated for the plurality of parts.

本開示の一態様によれば、前記複数の部分の構成文のウェイトに基づいて、前記複数の部分に対して異なる単語数の分析結果を生成する。 According to one aspect of the present disclosure, analysis results of different numbers of words for the plurality of parts are generated based on the weights of the constituent sentences of the plurality of parts.

本開示の一態様によれば、入力テキストを取得する取得部と、クラスタリングを利用して前記入力テキストを複数の部分に分割する分割部と、前記複数の部分を分析して、前記複数の部分のうちの各部分に対応する分析結果を生成する分析部と、前記各部分に対応する分析結果を結合して、出力テキストを生成する結合部と、を具備するテキスト処理装置が提供される。 According to one aspect of the present disclosure, an acquisition unit for acquiring an input text, a division unit for dividing the input text into a plurality of parts by using clustering, and the plurality of parts are analyzed to analyze the plurality of parts. Provided is a text processing apparatus including an analysis unit that generates an analysis result corresponding to each portion of the above, and a coupling unit that combines the analysis results corresponding to the respective portions to generate an output text.

本開示の一態様によれば、前記分割部は、前記複数の部分に対応する複数のトピック文を初期化し、前記入力テキストにおける構成文と前記複数のトピック文の間の類似度を算出することによって、類似度に基づいて前記入力テキストにおける構成文をそれぞれに前記複数のトピック文に対応する部分に区分し、前記複数の部分に含まれる構成文を更新し、前記複数の部分において、各構成文の間の類似度を算出することによって、全体の類似度が一番高い構成文を新しいトピック文として特定し、前記新しいトピック文が変わらなくなるまで上記工程を繰り返す。 According to one aspect of the present disclosure, the division portion initializes a plurality of topic sentences corresponding to the plurality of parts, and calculates the degree of similarity between the constituent sentence in the input text and the plurality of topic sentences. Based on the degree of similarity, the constituent sentences in the input text are divided into parts corresponding to the plurality of topic sentences, the constituent sentences included in the plurality of parts are updated, and each configuration in the plurality of parts. By calculating the similarity between sentences, the constituent sentence having the highest overall similarity is specified as a new topic sentence, and the above step is repeated until the new topic sentence does not change.

本開示の一態様によれば、前記分割部は、前記出力テキストの予定する目標単語数に基づいて、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数を特定する。 According to one aspect of the present disclosure, the split section specifies the number of plurality of portions obtained by splitting the input text using clustering based on the planned number of target words in the output text.

本開示の一態様によれば、前記結合部は、前記分析結果の各構成文と前記入力テキストの全ての構成文の間の類似度を算出し、前記分析結果の各構成文に対応する、全体の類似度が一番高い前記入力テキストの各構成文の前記入力テキストにおける位置をそれぞれに探し出し、前記位置の前記入力テキストにおける出現順序に基づいて、前記分析結果の各構成文に対して並べ替えを行い、前記並べ替えに従って前記分析結果の各構成文を結合する。 According to one aspect of the present disclosure, the connecting portion calculates the similarity between each constituent sentence of the analysis result and all the constituent sentences of the input text, and corresponds to each constituent sentence of the analysis result. The position of each constituent sentence of the input text having the highest overall similarity in the input text is searched for, and the positions are arranged for each constituent sentence of the analysis result based on the order of appearance in the input text. The rearrangement is performed, and each constituent sentence of the analysis result is combined according to the rearrangement.

本開示の一態様によれば、前記結合部は、前記複数の部分に対して同じ単語数の分析結果を生成する。 According to one aspect of the present disclosure, the connecting portion produces an analysis result of the same number of words for the plurality of portions.

本開示の一態様によれば、前記結合部は、前記複数の部分の構成文のウェイトに基づいて、前記複数の部分に対して異なる単語数の分析結果を生成する。 According to one aspect of the present disclosure, the connecting portion generates analysis results of different numbers of words for the plurality of parts based on the weights of the constituent sentences of the plurality of parts.

本開示の一態様によれば、コンピュータ読取可能な指示を格納するように配置されるメモリと、及び前記メモリに格納される前記コンピュータ読取可能な指示を実行するように配置されるプロセッサと、を具備し、前記コンピュータ読取可能な指示を実行する時に、前記プロセッサは、入力テキストを取得することと、クラスタリングを利用して前記入力テキストを複数の部分に分割することと、前記複数の部分を分析して、前記複数の部分のうちの各部分に対応する分析結果を生成することと、前記各部分に対応する分析結果を結合して、出力テキストを生成するテキスト処理デバイスが提供される。 According to one aspect of the present disclosure, a memory arranged to store computer-readable instructions and a processor stored in the memory arranged to execute the computer-readable instructions. When the processor executes the computer-readable instruction, the processor obtains the input text, divides the input text into a plurality of parts by utilizing clustering, and analyzes the plurality of parts. Then, a text processing device for generating an analysis result corresponding to each part of the plurality of parts and combining the analysis result corresponding to each part to generate an output text is provided.

本開示の一態様によれば、コンピュータ読取可能な指示を格納し、コンピュータによって前記コンピュータ読取可能な指示を実行する時に、前記コンピュータは、入力テキストを取得することと、クラスタリングを利用して前記入力テキストを複数の部分に分割することと、前記複数の部分を分析して、前記複数の部分のうちの各部分に対応する分析結果を生成することと、前記各部分に対応する分析結果を結合して、出力テキストを生成することと、を具備するテキスト処理方法を実行するコンピュータ読取可能な記憶媒体が提供される。 According to one aspect of the present disclosure, when storing a computer-readable instruction and executing the computer-readable instruction by the computer, the computer obtains input text and utilizes clustering to perform the input. Dividing the text into a plurality of parts, analyzing the plurality of parts to generate an analysis result corresponding to each part of the plurality of parts, and combining the analysis results corresponding to the respective parts. A computer-readable storage medium is provided that produces output text and performs a text processing method comprising:

本開示の上記の態様では、クラスタリングによって入力テキストを複数の部分に分割し、複数の部分に対してそれぞれに処理して所望の長さの出力テキストを生成することによって、動的に変化するテキスト要求を処理し、所望のテキストを効率的に正確に生成することができる。 In the above aspect of the present disclosure, dynamically changing text by dividing the input text into a plurality of parts by clustering and processing each of the plurality of parts to generate an output text of a desired length. It can process requests and generate the desired text efficiently and accurately.

本開示の上記ならびにその他の目的、特徴および利点は、添付の図面を参照しながらより詳細に説明されると、より明らかになるであろう。添付図面は、本開示の実施形態の理解を容易にするためのものであり、本明細書の一部を構成するものであり、本開示の技術的な範囲を限定するものではない。図面において、同一の参照符号は、通常、同一の部品または手順を表す。 The above and other objectives, features and advantages of the present disclosure will become more apparent when described in more detail with reference to the accompanying drawings. The accompanying drawings are for facilitating understanding of the embodiments of the present disclosure, constitute a part of the present specification, and do not limit the technical scope of the present disclosure. In the drawings, the same reference numerals usually represent the same parts or procedures.

本開示の実施例に係るテキスト処理の方法のフローチャートである。It is a flowchart of the text processing method which concerns on embodiment of this disclosure. 本開示の実施例に係るクラスタリングを利用して入力テキストを分割する方法のフローチャートである。It is a flowchart of the method of dividing an input text by using the clustering which concerns on embodiment of this disclosure. 本開示の実施例に係るクラスタリングを利用して入力テキストを分割する模式図である。It is a schematic diagram which divides an input text by using the clustering which concerns on the Example of this disclosure. 本開示の実施例に係る分析結果を結合する方法のフローチャートである。It is a flowchart of the method of combining the analysis result which concerns on Example of this disclosure. 本開示の実施例に係るテキスト処理方法の模式図である。It is a schematic diagram of the text processing method which concerns on embodiment of this disclosure. 本開示の実施例に係るテキスト処理装置の模式図である。It is a schematic diagram of the text processing apparatus which concerns on embodiment of this disclosure. 本開示の実施例に係るテキスト処理デバイスの模式図である。It is a schematic diagram of the text processing device which concerns on embodiment of this disclosure. 本開示の実施例に係るコンピュータ読取可能な記憶媒体的模式図である。It is a computer-readable schematic diagram of the storage medium which concerns on embodiment of this disclosure.

本開示の実施例に係る技術案は、以下、本開示の実施例における図面と併せて明確かつ完全に説明する。説明する実施例は、本開示の実施例の一部に過ぎず、すべてではないことは明らかである。創造的な作業なしに本開示の実施例に基づいて当業者によって得られる他のすべての実施例は、いずれも本開示の範囲内に属す。 The technical proposal according to the embodiment of the present disclosure will be clearly and completely described below together with the drawings in the embodiment of the present disclosure. It is clear that the examples described are only, but not all, of the examples of the present disclosure. All other embodiments obtained by one of ordinary skill in the art based on the embodiments of the present disclosure without creative work fall within the scope of the present disclosure.

まず、図1を参照して、本開示の実施例を実現するためのテキスト処理方法100を説明する。当該方法において、まずトレーニングで一定の短い単語数の要約モデルを取得し、入力テキストに対して、当該モデルによって一定の単語数の要約を生成することができる。当該処理方法によれば、動的に変化するテキスト要求を処理し、所望のテキストを効率的に正確に生成することができる。 First, with reference to FIG. 1, a text processing method 100 for realizing the embodiment of the present disclosure will be described. In this method, training can first obtain a summary model of a certain number of short words, and the model can generate a summary of a certain number of words for input text. According to the processing method, it is possible to process a dynamically changing text request and efficiently and accurately generate a desired text.

図1に示すように、ステップS101において、入力テキストを取得する。
当該入力テキストは処理するためのオリジナルテキストであり、当該オリジナルテキストに基づいて所望の単語数の要約を生成する。
As shown in FIG. 1, in step S101, the input text is acquired.
The input text is the original text for processing and generates a summary of the desired number of words based on the original text.

ステップS102において、クラスタリングを利用して当該入力テキストを複数の部分に分割する。
ここで、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数は、当該出力テキストの予定する目標単語数に基づいて特定される。例えば、所望の出力テキストの予定する目標単語数はNであり、現在の一定の短い単語数の要約モデルが出力できる要約数はnである時に、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数はM=N/nである。
In step S102, the input text is divided into a plurality of parts by using clustering.
Here, the number of the plurality of parts obtained by dividing the input text by using clustering is specified based on the planned target number of words of the output text. For example, when the planned target number of words in the desired output text is N and the number of summaries that can be output by the current summary model of a fixed number of short words is n, the input text is divided and obtained by using clustering. The number of the plurality of parts obtained is M = N / n.

クラスタリングを利用して入力テキストを分割して得られた複数の部分の数を取得した後、クラスタリングを利用して入力テキストを分割する動作を行う。 After acquiring the number of a plurality of parts obtained by dividing the input text by using clustering, the operation of dividing the input text is performed by using clustering.

図2は、本開示の実施例に係るクラスタリングを利用して入力テキストを分割する方法200のフローチャートである。 FIG. 2 is a flowchart of the method 200 for dividing the input text by using the clustering according to the embodiment of the present disclosure.

図2に示すように、ステップS201において、複数の部分に対応する複数のトピック文を初期化する。
複数の部分の数はMである時に、各部分に対してトピック文を選択する必要があるため、M個のトピック文を選択する必要がある。例えば、初期化するトピック文として入力テキストの前のM個の文を選択してもよく、あるいは初期化するトピック文として入力テキストからM個の文をランダムに選択してもよい。トピック文を初期化する方法はこれに限らず、他の適切な方法を利用してトピック文を初期化してもよいと認識すべきだろう。
As shown in FIG. 2, in step S201, a plurality of topic sentences corresponding to a plurality of parts are initialized.
When the number of a plurality of parts is M, it is necessary to select a topic sentence for each part, so it is necessary to select M topic sentences. For example, M sentences before the input text may be selected as the topic sentence to be initialized, or M sentences may be randomly selected from the input text as the topic sentence to be initialized. It should be recognized that the method of initializing a topic statement is not limited to this, and the topic statement may be initialized using other appropriate methods.

ステップS202において、入力テキストにおける構成文と複数のトピック文の間の類似度を算出することによって、類似度に基づいて入力テキストにおける構成文をそれぞれに複数のトピック文に対応する部分に区分し、当該複数の部分に含まれる構成文を更新する。 In step S202, by calculating the similarity between the constituent sentence in the input text and the plurality of topic sentences, the constituent sentence in the input text is divided into the parts corresponding to the plurality of topic sentences based on the similarity. Update the constituent statements included in the plurality of parts.

例えば、Rouge−1の方式に基づいて類似度(又は距離)を算出してもよい。例えば、i番目の文とj番目の文の間の類似度fijは以下のように示してもよい。
ij=Rij/S
ここで、Sはi番目の文におけるpトークン(例えば、p=2表示2トークン、p=3表示3トークン)の数を示し、Rijはi番目の文とj番目の文において重複するpトークンの数を示す。fijが大きいほど、i番目の文とj番目の文の類似度が高いと示す。類似度を算出する方法はこれに限らず、他の適切な方法を利用して類似度を算出してもよいと認識すべきだろう。
For example, the similarity (or distance) may be calculated based on the Rouge-1 method. For example, the similarity f ij between the i-th sentence and the j-th sentence may indicate as follows.
f ij = R ij / S i
Here, S i indicates the number of p tokens (for example, p = 2 display 2 tokens, p = 3 display 3 tokens) in the i-th sentence, and R ij overlaps in the i-th sentence and the j-th sentence. Indicates the number of p-tokens. The larger f ij, the higher the similarity between the i-th sentence and the j-th sentence. It should be recognized that the method of calculating the similarity is not limited to this, and the similarity may be calculated using other appropriate methods.

そして、入力テキストにおける構成文と複数のトピック文の間の類似度を算出することによって、類似度が高い入力テキストの構成文をトピック文に対応する部分に区分する。
例えば、入力テキストの構成文はT={t,t,t,…,t}であり、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数はM=2(即ち第一の部分と第二の部分)であり、分割された二つの部分のトピック文として前の二つの文t、tを選択すると想定する。そして、入力テキストの残された構成文{t,t,…,t}とトピック文tの間の類似度{f31,f41,…,fz1}、及び{t,t,…,t}とトピック文tの間の類似度{f32,f42,…,fz2}を算出し、f31とf32を比較することによって構成文tを類似度が高いトピック文に対応する部分に区分し(例えば、f31>f32時に、構成文tを第一の部分に区分し、f31<f32時に、構成文tを第二の部分に区分し)、f41とf42を比較することによって構成文tを類似度が高いトピック文に対応する部分に区分し、これをもって類推してもよい。
Then, by calculating the similarity between the constituent sentence in the input text and the plurality of topic sentences, the constituent sentence of the input text having a high degree of similarity is divided into the parts corresponding to the topic sentences.
For example, the constituent sentence of the input text is T = {t 1 , t 2 , t 3 , ..., T z }, and the number of multiple parts obtained by dividing the input text using clustering is M =. It is assumed that 2 (that is, the first part and the second part), and the previous two sentences t 1 and t 2 are selected as the topic sentences of the two divided parts. Then, the similarity between the remaining constituent sentences {t 3 , t 4 , ..., T z } of the input text and the topic sentence t 1 {f 31 , f 41 , ..., f z 1 }, and {t 3 , ,. t 4, ..., t z} and similarity between topic sentence t 2 {f 32, f 42 , ..., similar configuration statement t 3 by calculating the f z2}, compares f 31 and f 32 Divide into the part corresponding to the topic sentence with a high degree (for example, when f 31 > f 32 , the constituent sentence t 3 is divided into the first part, and when f 31 <f 32 , the constituent sentence t 3 is divided into the second. By comparing f 41 and f 42 , the constituent sentence t 4 may be divided into the parts corresponding to the topic sentences having a high degree of similarity, and the analogy may be made by this.

全ての構成文を区分した後、複数の部分に含まれる構成文を更新する。
そして、ステップS203において、複数の部分内において、各構成文の間の類似度を算出することによって、全体の類似度が一番高い構成文を新しいトピック文として特定する。
After classifying all the constituent sentences, the constituent sentences included in multiple parts are updated.
Then, in step S203, the constituent sentence having the highest overall similarity is specified as a new topic sentence by calculating the similarity between the constituent sentences in the plurality of parts.

例えば、第一の部分に含まれる構成文は{t,t,t}であると想定すると、各構成文{t,t,t}の間の類似度{f35,f36,f56}を算出することによって、全体の類似度(例えば、tの全体の類似度は(f35+f36)であり、tの全体の類似度は(f53+f56)であり、tの全体の類似度は(f65+f63)である)が一番高い構成文を当該部分における新しいトピック文として選択する。 For example, assuming that the construct contained in the first part is {t 3 , t 5 , t 6 }, the similarity between each construct {t 3 , t 5 , t 6 } is {f 35 , By calculating f 36 , f 56 }, the overall similarity (eg, the overall similarity of t 3 is (f 35 + f 36 ), and the overall similarity of t 5 is (f 53 + f 56 )). The overall similarity of t 6 is (f 65 + f 63 )), and the constituent sentence with the highest value is selected as the new topic sentence in the relevant part.

そして、ステップS204において、新しいトピック文が変わらなくなる、又は反復の回数が予定の閾値に達する、即ち複数の部分の各部分が安定になるまで、上記工程を繰り返す。このように、各部分における構成文を特定し、即ちクラスタリングを完了する。クラスタリングの方法はこれに限らず、他の適切な方法を利用してクラスタリングを行ってもよいと認識すべきだろう。 Then, in step S204, the above step is repeated until the new topic sentence does not change or the number of repetitions reaches the planned threshold value, that is, each part of the plurality of parts becomes stable. In this way, the constituent statements in each part are specified, that is, the clustering is completed. It should be recognized that the clustering method is not limited to this, and clustering may be performed using other appropriate methods.

図3は、本開示の実施例に係るクラスタリングを利用して入力テキストを分割する模式図である。図3に示すように、入力テキストの構成文21はT={t1,t2,t3,…,t7}であり、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数はM=3(第一の部分22、第二の部分23及び第三の部分24)であり、三つの部分を初期化するために選択されたトピック文は、それぞれt1、t2、t3であると想定する。そして、入力テキストの残された構成文{t4,t5,t6,t7}と各トピック文{t1,t2,t3}の間の類似度を算出することによって、類似度に基づいて入力テキストの構成文{t4,t5,t6,t7}をそれぞれトピック文{t1,t2,t3}に対応する部分に区分してもよい。例えば、図3に示すように、t4を第一の部分25に区分し、t6とt7を第二の部分26に区分し、t5を第三の部分27に区分する。そして、各部分において、各構成文の間の類似度を算出し、全体の類似度が一番高い構成文を新しいトピック文として特定する。例えば、第二の部分26において、t2、t6、t7の間の類似度を算出し、全体の類似度が一番高いt6を新しいトピック文(図面に円で示す)として特定する。トピック文が変わらなくなるまで、当該工程を繰り返す。 FIG. 3 is a schematic diagram for dividing the input text by utilizing the clustering according to the embodiment of the present disclosure. As shown in FIG. 3, the constituent sentence 21 of the input text is T = {t1, t2, t3, ..., T7}, and the number of a plurality of parts obtained by dividing the input text by using clustering is M = 3 (first part 22, second part 23 and third part 24), and the topic sentences selected to initialize the three parts are t1, t2, t3, respectively. Suppose. Then, by calculating the similarity between the remaining constituent sentences {t4, t5, t6, t7} of the input text and each topic sentence {t1, t2, t3}, the composition of the input text is constructed based on the similarity. The sentence {t4, t5, t6, t7} may be divided into the parts corresponding to the topic sentences {t1, t2, t3}, respectively. For example, as shown in FIG. 3, t4 is divided into the first part 25, t6 and t7 are divided into the second part 26, and t5 is divided into the third part 27. Then, in each part, the similarity between each constituent sentence is calculated, and the constituent sentence having the highest overall similarity is specified as a new topic sentence. For example, in the second part 26, the similarity between t2, t6, and t7 is calculated, and t6 having the highest overall similarity is specified as a new topic sentence (circled in the drawing). The process is repeated until the topic sentence does not change.

クラスタリングを利用して入力テキストを複数の部分に分割する後、入力テキストにおける類似度が高い構成文は、一つの部分と呼ばれる。そして、区分された複数の部分に対して処理を行って、出力テキストを取得する。 After dividing the input text into a plurality of parts by using clustering, the constituent sentences having a high degree of similarity in the input text are called one part. Then, processing is performed on the divided plurality of parts to acquire the output text.

図1に戻り、ステップS103において、複数の部分を分析して、当該複数の部分のうちの各部分に対応する分析結果を生成する。
例えば、当該部分は、上述した一定の短い単語数の要約モデルによって完了してもよい。一定の短い単語数の要約モデルは、複数の部分に対して同じの単語数の分析結果を生成してもよい。
Returning to FIG. 1, in step S103, a plurality of parts are analyzed to generate an analysis result corresponding to each part of the plurality of parts.
For example, the part may be completed by the fixed short word number summarization model described above. A fixed short word number summarization model may generate analysis results for the same number of words for multiple parts.

代わりに、当該部分は、上述した一定の短い単語数の要約モデルと調整モデルからなる要約モデルによって完成してもよい。例えば、一定の短い単語数の要約モデルと調整モデルは、当該複数の部分の構成文のウェイトに基づいて、複数の部分に対して異なる単語数の分析結果を生成してもよい。 Alternatively, the part may be completed by a summary model consisting of a summary model and an adjustment model with a fixed number of short words described above. For example, a fixed short word number summarization model and an adjustment model may generate analysis results of different word numbers for a plurality of parts based on the weights of the constituent sentences of the plurality of parts.

例えば、クラスタリングによって分割された複数の部分が一定の短い単語数の要約モデルに入力された後、一定の短い単語数の要約モデルは、複数の部分における各構成文に対して点数を付けて、複数の部分の各部分における構成文の点数を加算することによって、複数の部分のうちの各部分の点数を取得して、各部分の点数を標準化して各部分のウェイトを取得する。そして、一定の短い単語数の要約モデルが同じ単語数の分析結果を出力する後、調整モデルによって上述した各部分のウェイトに基づいて各部分の単語数を調整して、複数の部分に対して異なる単語数の分析結果を生成する。
各部分に対応する分析結果を取得した後、ステップS104において、当該各部分に対応する分析結果を結合して、出力テキストを生成する。
For example, after multiple parts divided by clustering are input to a summary model with a certain number of short words, the summary model with a certain number of short words scores each constituent sentence in the multiple parts. By adding the points of the constituent sentences in each part of the plurality of parts, the points of each part of the plurality of parts are obtained, the points of each part are standardized, and the weight of each part is obtained. Then, after the summary model of a certain short number of words outputs the analysis result of the same number of words, the adjustment model adjusts the number of words of each part based on the weight of each part described above, and for a plurality of parts. Generate analysis results with different word numbers.
After acquiring the analysis results corresponding to each part, in step S104, the analysis results corresponding to the respective parts are combined to generate an output text.

図4は、本開示の実施例に係る分析結果を結合する方法400のフローチャートである。
図4に示すように、ステップS401において、分析結果の各構成文と入力テキストの全ての構成文の間の類似度を算出する。当該算出の方法は、上述した類似度を算出する方法と同じであるので、ここでは重複して説明しない。
FIG. 4 is a flowchart of the method 400 for combining the analysis results according to the embodiment of the present disclosure.
As shown in FIG. 4, in step S401, the degree of similarity between each constituent sentence of the analysis result and all the constituent sentences of the input text is calculated. Since the calculation method is the same as the above-mentioned method for calculating the similarity, the description will not be duplicated here.

ステップS402において、分析結果の各構成文に対応する、類似度が一番高い入力テキストの各構成文の入力テキストにおける位置をそれぞれに探し出す。 In step S402, the position of the input text having the highest similarity in the input text corresponding to each constituent sentence of the analysis result is searched for.

ステップS403において、位置の入力テキストにおける出現順序に基づいて、分析結果の各構成文に対して並べ替えを行い、当該並べ替えに従って分析結果の各構成文を結合する。 In step S403, each constituent sentence of the analysis result is rearranged based on the appearance order in the position input text, and each constituent sentence of the analysis result is combined according to the rearrangement.

例えば、入力テキストの構成文はT={t,t,t,…,t}であり、分析結果の構成文はL={l,l,l}であると想定すると、分析結果を結合することは、下記のステップを含む。まず、分析結果の各構成文L={l,l,l}と入力テキストの全ての構成文T={t,t,t,…,t}の間の類似度を算出する。そして、分析結果の各構成文L={l,l,l}に対応する、全体の類似度が一番高い入力テキストの各構成文の入力テキストにおける位置をそれぞれに探し出す。そして、位置の入力テキストにおける出現順序に基づいて、分析結果の各構成文に対して並べ替えを行い、並べ替えに従って分析結果の各構成文を結合する。例えば、lは構成文tに対応し、lは構成文tに対応し、lは構成文tに対応すると想定すると、t、t、tの入力テキストにおける並べ替えに基づいて、分析結果の各構成文{l,l,l}を{l,l,l}に並べ替えて、当該並べ替え後の分析結果を出力テキストとして入力する。 For example, it is assumed that the constituent sentence of the input text is T = {t 1 , t 2 , t 3 , ..., t z }, and the constituent sentence of the analysis result is L = {l 1 , l 2 , l 3 }. Combining the analysis results then includes the following steps: First, the degree of similarity between each constituent sentence L = {l 1 , l 2 , l 3 } of the analysis result and all constituent sentences T = {t 1 , t 2 , t 3 , ..., T z } of the input text. Is calculated. Then, the position of the input text having the highest overall similarity in the input text corresponding to each constituent sentence L = {l 1 , l 2 , l 3 } of the analysis result is searched for. Then, each constituent sentence of the analysis result is rearranged based on the appearance order in the input text of the position, and each constituent sentence of the analysis result is combined according to the rearrangement. For example, assuming that l 1 corresponds to the constituent sentence t 3 , l 2 corresponds to the constituent sentence t 5 , and l 3 corresponds to the constituent sentence t 1 , the arrangement of t 3 , t 5 , and t 1 in the input text. Based on the rearrangement, each constituent sentence {l 1 , l 2 , l 3 } of the analysis result is rearranged into {l 3 , l 1 , l 2 }, and the analysis result after the rearrangement is input as an output text. ..

次は、図5を参照して本開示の実施例に係るテキスト処理方法を説明する。図5に示すように、まず、入力テキスト51を取得する。当該オリジナルテキストに基づいて所望の単語数の要約を生成できる。そして、入力テキストの構成文の間の類似度に従って、クラスタリングを利用して入力テキストを複数の部分52に分割する。ここで、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数は、当該出力テキストの予定する目標単語数に基づいて特定される。例えば、図5に示すように、クラスタリングを利用して入力テキストを三つの部分53に分割してもよい。そして、分割された複数の部分を要約モデル54に入力してもよい。要約モデルは、複数の部分を分析して、複数の部分のうちの各部分に対応する分析結果(例えば、入力された三つの部分53に対応する三つの結果55)を生成する。ここで、要約モデルは複数の部分に対して同じ単語数の分析結果を生成してもよく、あるいは複数の部分の構成文のウェイトに基づいて、複数の部分に対して異なる単語数の分析結果を生成する。そして、各部分に対応する分析結果に対して並べ替え及び結合56を行って、所望の単語数の要約を生成する。それにより、上述したテキスト処理方法によれば、任意の所望の単語数の要約を効率的に正確に生成し、処理の複雑さを低下することができる。 Next, the text processing method according to the embodiment of the present disclosure will be described with reference to FIG. As shown in FIG. 5, first, the input text 51 is acquired. A summary of the desired number of words can be generated based on the original text. Then, the input text is divided into a plurality of portions 52 by using clustering according to the similarity between the constituent sentences of the input text. Here, the number of the plurality of parts obtained by dividing the input text by using clustering is specified based on the planned target number of words of the output text. For example, as shown in FIG. 5, the input text may be divided into three parts 53 by using clustering. Then, the plurality of divided parts may be input to the summary model 54. The summary model analyzes a plurality of parts and generates an analysis result corresponding to each part of the plurality of parts (for example, three results 55 corresponding to three input parts 53). Here, the summary model may generate analysis results of the same number of words for a plurality of parts, or analysis results of different number of words for a plurality of parts based on the weights of the constituent sentences of the plurality of parts. To generate. Then, the analysis result corresponding to each part is rearranged and combined 56 to generate a summary of a desired number of words. Thereby, according to the text processing method described above, it is possible to efficiently and accurately generate a summary of an arbitrary desired number of words and reduce the processing complexity.

以下、図6を参照して本開示の実施例に係るテキスト処理装置1000について説明する。図6は、本開示の実施例に係るテキスト処理装置1000の模式図である。本実施例に係るテキスト処理装置の機能は、図1を参照して説明した方法の詳細と同じであるため、便宜上、同じ内容についての詳細な説明はここでは省略する。 Hereinafter, the text processing apparatus 1000 according to the embodiment of the present disclosure will be described with reference to FIG. FIG. 6 is a schematic view of the text processing device 1000 according to the embodiment of the present disclosure. Since the function of the text processing apparatus according to the present embodiment is the same as the details of the method described with reference to FIG. 1, detailed description of the same contents will be omitted here for convenience.

図6に示すように、本開示の実施例に係るテキスト処理装置1000は、取得部1001、分割部1002、分析部1003及び結合部1004を具備する。テキスト処理装置1000は、図6において4つの部のみを備えるように示されているが、これは単なる例示であり、テキスト処理装置1000は、1つ以上の他の部を備えることもできることに留意されたい。これらのユニットは本発明の思想と関係がないため、ここでは省略する。 As shown in FIG. 6, the text processing apparatus 1000 according to the embodiment of the present disclosure includes an acquisition unit 1001, a division unit 1002, an analysis unit 1003, and a coupling unit 1004. Note that the text processor 1000 is shown in FIG. 6 to include only four parts, but this is merely an example and the text processor 1000 may also include one or more other parts. I want to be. Since these units have nothing to do with the idea of the present invention, they are omitted here.

取得部1001は、入力テキストを取得する。
当該入力テキストは処理するためのオリジナルテキストであり、当該オリジナルテキストに基づいて所望の単語数の要約を生成する。
The acquisition unit 1001 acquires the input text.
The input text is the original text for processing and generates a summary of the desired number of words based on the original text.

分割部1002は、クラスタリングを利用して当該入力テキストを複数の部分に分割する。
ここで、分割部1002は、出力テキストの予定する目標単語数に基づいてクラスタリングを利用して入力テキストを分割して得られた複数の部分の数を特定する。例えば、所望の出力テキストの予定する目標単語数はNであり、現在の一定の短い単語数の要約モデルが出力できる要約数はnである時に、分割部1002がクラスタリングを利用して入力テキストを分割して得られた複数の部分の数はM=N/nである。
The division unit 1002 divides the input text into a plurality of parts by using clustering.
Here, the division unit 1002 specifies the number of a plurality of parts obtained by dividing the input text by using clustering based on the planned target number of words in the output text. For example, when the planned target number of words of the desired output text is N and the number of summaries that can be output by the current summary model of a fixed number of short words is n, the division unit 1002 uses clustering to input the input text. The number of the plurality of portions obtained by the division is M = N / n.

クラスタリングを利用して入力テキストを分割して得られた複数の部分の数を取得した後、分割部1002によるクラスタリングを利用して入力テキストを分割する動作を行う。 After acquiring the number of a plurality of parts obtained by dividing the input text by using clustering, the operation of dividing the input text by using the clustering by the dividing unit 1002 is performed.

ここで、まず、当該分割部1002は、複数の部分に対応する複数のトピック文を初期化する。
例えば、初期化するトピック文として入力テキストの前のM個の文を選択してもよく、あるいは入力テキストから、初期化するトピック文としてM個の文をランダムに選択してもよい。トピック文を初期化する方法はこれに限らず、他の適切な方法を利用してトピック文を初期化してもよいと認識すべきだろう。
Here, first, the division unit 1002 initializes a plurality of topic sentences corresponding to the plurality of parts.
For example, M sentences before the input text may be selected as the topic sentences to be initialized, or M sentences may be randomly selected as the topic sentences to be initialized from the input text. It should be recognized that the method of initializing a topic statement is not limited to this, and the topic statement may be initialized using other appropriate methods.

そして、分割部1002は、入力テキストにおける構成文と複数のトピック文の間の類似度を算出することによって、類似度に基づいて入力テキストにおける構成文をそれぞれに複数のトピック文に対応する部分に区分し、当該複数の部分に含まれる構成文を更新する。 Then, the division unit 1002 calculates the similarity between the constituent sentence in the input text and the plurality of topic sentences, and makes the constituent sentence in the input text correspond to the plurality of topic sentences based on the similarity. Divide and update the constituent sentences included in the plurality of parts.

例えば、Rouge−1の方式に基づいて類似度(又は距離)を算出してもよい。例えば、i番目の文とj番目の文の間の類似度fijは以下のように示してもよい。
ij=Rij/S
ここで、Sはi番目の文におけるpトークン(例えば、p=2表示2トークン、p=3表示3トークン)の数を示し、Rijはi番目の文とj番目の文において重複するpトークンの数を示す。fijが大きいほど、i番目の文とj番目の文の類似度が高いと示す。類似度を算出する方法はこれに限らず、他の適切な方法を利用して類似度を算出してもよいと認識すべきだろう。
For example, the similarity (or distance) may be calculated based on the Rouge-1 method. For example, the similarity f ij between the i-th sentence and the j-th sentence may indicate as follows.
f ij = R ij / S i
Here, S i indicates the number of p tokens (for example, p = 2 display 2 tokens, p = 3 display 3 tokens) in the i-th sentence, and R ij overlaps in the i-th sentence and the j-th sentence. Indicates the number of p-tokens. The larger f ij, the higher the similarity between the i-th sentence and the j-th sentence. It should be recognized that the method of calculating the similarity is not limited to this, and the similarity may be calculated using other appropriate methods.

そして、分割部1002は、入力テキストにおける構成文と複数のトピック文の間の類似度を算出することによって、類似度が高い入力テキストの構成文をトピック文に対応する部分に区分する。 Then, the division unit 1002 divides the constituent sentences of the input text having a high degree of similarity into the portions corresponding to the topic sentences by calculating the similarity between the constituent sentences in the input text and the plurality of topic sentences.

例えば、入力テキストの構成文はT={t,t,t,…,t}であり、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数はM=2(即ち第一の部分と第二の部分)であり、分割された二つの部分のトピック文として前の二つの文t、tを選択すると想定する。そして、入力テキストの残された構成文{t,t,…,t}とトピック文tの間の類似度{f31,t41,…,tz1}、及び{t,t,…,t}とトピック文tの間の類似度{f32,t42,…,tz2}を算出し、f31とf32を比較することによって構成文tを類似度が高いトピック文に対応する部分に区分し(例えば、f31>f32時に、構成文tを第一の部分に区分し、f31<f32時に、構成文tを第二の部分に区分し)、f41と42を比較することによって構成文tを類似度が高いトピック文に対応する部分に区分し、これをもって類推してもよい。 For example, the constituent sentence of the input text is T = {t 1 , t 2 , t 3 , ..., T z }, and the number of multiple parts obtained by dividing the input text using clustering is M =. It is assumed that 2 (that is, the first part and the second part), and the previous two sentences t 1 and t 2 are selected as the topic sentences of the two divided parts. Then, the similarity between the remaining constituent sentences {t 3 , t 4 , ..., T z } of the input text and the topic sentence t 1 {f 31 , t 41 , ..., t z 1 }, and {t 3 , ,. t 4, ..., t z} and similarity between topic sentence t 2 {f 32, t 42 , ..., and calculates the t z2}, similar configuration statement t 3 by comparing f 31 and f 32 Divide into the part corresponding to the topic sentence with a high degree (for example, when f 31 > f 32 , the constituent sentence t 3 is divided into the first part, and when f 31 <f 32 , the constituent sentence t 3 is divided into the second. By comparing f 41 and f 42 , the constituent sentence t 4 may be divided into the parts corresponding to the topic sentences having a high degree of similarity, and the analogy may be made by this.

全ての構成文を区分した後、複数の部分に含まれる構成文を更新する。
そして、分割部1002は、複数の部分内において、各構成文の間の類似度を算出することによって、全体の類似度が一番高い構成文を新しいトピック文として特定する。
After classifying all the constituent sentences, the constituent sentences included in multiple parts are updated.
Then, the division unit 1002 identifies the constituent sentence having the highest overall similarity as a new topic sentence by calculating the similarity between the constituent sentences in the plurality of parts.

例えば、第一の部分に含まれる構成文は{t,t,t}であると想定すると、各構成文{t,t,t}の間の類似度{f35,f36,f56}を算出することによって、全体の類似度(例えば、tの全体の類似度は(f35+f36)であり、tの全体の類似度は(f53+f56)であり、tの全体の類似度は(f65+f63)である)が一番高い構成文を当該部分における新しいトピック文として選択する。 For example, assuming that the construct contained in the first part is {t 3 , t 5 , t 6 }, the similarity between each construct {t 3 , t 5 , t 6 } is {f 35 , By calculating f 36 , f 56 }, the overall similarity (eg, the overall similarity of t 3 is (f 35 + f 36 )) and the overall similarity of t 5 is (f 53 + f 56 ). The overall similarity of t 6 is (f 65 + f 63 )), and the constituent sentence with the highest value is selected as the new topic sentence in the relevant part.

新しいトピック文が変わらなくなる、又は反復の回数が予定の閾値に達するまで、上記工程を繰り返す。このように、各部分における構成文を特定し、即ちクラスタリングを完了する。クラスタリングの方法はこれに限らず、他の適切な方法を利用してクラスタリングを行ってもよいと認識すべきだろう。 Repeat the above steps until the new topic statement remains unchanged or the number of iterations reaches the expected threshold. In this way, the constituent statements in each part are specified, that is, the clustering is completed. It should be recognized that the clustering method is not limited to this, and clustering may be performed using other appropriate methods.

分割部1002がクラスタリングを利用して入力テキストを複数の部分に分割する後、分析部1003は区分された複数の部分に対して処理を行って、出力テキストを取得する。 After the division unit 1002 divides the input text into a plurality of parts by using clustering, the analysis unit 1003 performs processing on the divided plurality of parts to acquire the output text.

分析部1003は、複数の部分を分析して、当該複数の部分のうちの各部分に対応する分析結果を生成してもよい。
例えば、当該部分は、上述した一定の短い単語数の要約モデルによって完了してもよい。一定の短い単語数の要約モデルは、複数の部分に対して同じの単語数の分析結果を生成してもよい。
The analysis unit 1003 may analyze a plurality of parts and generate an analysis result corresponding to each part of the plurality of parts.
For example, the part may be completed by the fixed short word number summarization model described above. A fixed short word number summarization model may generate analysis results for the same number of words for multiple parts.

代わりに、当該部分は、上述した一定の短い単語数の要約モデルと調整モデルからなる要約モデルによって完了してもよい。例えば、一定の短い単語数の要約モデルと調整モデルは、当該複数の部分の構成文のウェイトに基づいて、複数の部分に対して異なる単語数の分析結果を生成してもよい。例えば、クラスタリングによって分割された複数の部分が一定の短い単語数の要約モデルに入力された後、一定の短い単語数の要約モデルは、複数の部分における各構成文に対して点数を付けて、複数の部分の各部分における構成文の点数を加算することによって、複数の部分のうちの各部分の点数を取得して、各部分の点数を標準化して各部分のウェイトを取得する。そして、一定の短い単語数の要約モデルが同じ単語数の分析結果を出力する後、調整モデルによって上述した各部分のウェイトに基づいて各部分の単語数を調整して、複数の部分に対して異なる単語数の分析結果を生成する。 Alternatively, the part may be completed by a summary model consisting of a summary model and an adjustment model with a fixed number of short words described above. For example, a fixed short word number summarization model and an adjustment model may generate analysis results of different word numbers for a plurality of parts based on the weights of the constituent sentences of the plurality of parts. For example, after multiple parts divided by clustering are input to a summary model with a certain number of short words, the summary model with a certain number of short words scores each constituent sentence in the multiple parts. By adding the points of the constituent sentences in each part of the plurality of parts, the points of each part of the plurality of parts are obtained, the points of each part are standardized, and the weight of each part is obtained. Then, after the summary model of a certain short number of words outputs the analysis result of the same number of words, the adjustment model adjusts the number of words of each part based on the weight of each part described above, and for a plurality of parts. Generate analysis results with different word numbers.

各部分に対応する分析結果を取得した後、結合部1004は、当該各部分に対応する分析結果を結合して、出力テキストを生成してもよい。 After acquiring the analysis results corresponding to each part, the joining unit 1004 may combine the analysis results corresponding to the respective parts to generate an output text.

ここで、結合部1004は、分析結果の各構成文と入力テキストの全ての構成文の間の類似度を算出して、分析結果の各構成文に対応する、類似度が一番高い入力テキストの各構成文の入力テキストにおける位置をそれぞれに探し出し、位置の入力テキストにおける出現順序に基づいて、分析結果の各構成文に対して並べ替えを行い、当該並べ替えに従って分析結果の各構成文を結合してもよい。 Here, the connecting unit 1004 calculates the similarity between each constituent sentence of the analysis result and all the constituent sentences of the input text, and corresponds to each constituent sentence of the analysis result, the input text having the highest degree of similarity. Find the position of each constituent sentence in the input text, sort each constituent sentence of the analysis result based on the order of appearance in the input text of the position, and sort each constituent sentence of the analysis result according to the sorting. May be combined.

例えば、入力テキストの構成文はT={t,t,t,…,t}であり、分析結果の構成文はL={l,l,l}であると想定すると、分析結果を結合することは、下記のステップを含む。まず、分析結果の各構成文L={l,l,l}と入力テキストの全ての構成文T={t,t,t,…,t}の間の類似度を算出する。そして、分析結果の各構成文L={l,l,l}に対応する、全体の類似度が一番高い入力テキストの各構成文の入力テキストにおける位置をそれぞれに探し出す。そして、位置の入力テキストにおける出現順序に基づいて、分析結果の各構成文に対して並べ替えを行い、並べ替えに従って分析結果の各構成文を結合する。例えば、lは構成文tに対応し、lは構成文tに対応し、lは構成文tに対応すると想定すると、t、t、tの入力テキストにおける並べ替えに基づいて、分析結果の各構成文{l,l,l}を{l,l,l}に並べ替えて、当該並べ替え後の分析結果を出力テキストとして入力する。 For example, it is assumed that the constituent sentence of the input text is T = {t 1 , t 2 , t 3 , ..., t z }, and the constituent sentence of the analysis result is L = {l 1 , l 2 , l 3 }. Combining the analysis results then includes the following steps: First, the degree of similarity between each constituent sentence L = {l 1 , l 2 , l 3 } of the analysis result and all constituent sentences T = {t 1 , t 2 , t 3 , ..., T z } of the input text. Is calculated. Then, the position of the input text having the highest overall similarity in the input text corresponding to each constituent sentence L = {l 1 , l 2 , l 3 } of the analysis result is searched for. Then, each constituent sentence of the analysis result is rearranged based on the appearance order in the input text of the position, and each constituent sentence of the analysis result is combined according to the rearrangement. For example, assuming that l 1 corresponds to the constituent sentence t 3 , l 2 corresponds to the constituent sentence t 5 , and l 3 corresponds to the constituent sentence t 1 , the arrangement of t 3 , t 5 , and t 1 in the input text. Based on the rearrangement, each constituent sentence {l 1 , l 2 , l 3 } of the analysis result is rearranged into {l 3 , l 1 , l 2 }, and the analysis result after the rearrangement is input as an output text. ..

図5は、本開示の実施例に係るテキスト処理方法を示す。図5に示すように、まず、取得部1001は、入力テキスト51を取得し、当該オリジナルテキストに基づいて所望の単語数の要約を生成できる。そして、分割部1002は、入力テキストの構成文の間の類似度に従って、クラスタリングを利用して入力テキストを複数の部分52に分割する。ここで、分割部1002がクラスタリングを利用して入力テキストを分割して得られた複数の部分の数は、当該出力テキストの予定する目標単語数に基づいて特定される。例えば、図5に示すように、分割部1002はクラスタリングを利用して入力テキストを三つの部分53に分割してもよい。そして、分割された複数の部分を要約モデル54に入力してもよい。要約モデルは、複数の部分を分析して、分析部1003で複数の部分のうちの各部分に対応する分析結果(例えば、入力された三つの部分53に対応する三つの結果55)を生成する。ここで、要約モデルは複数の部分に対して同じ単語数の分析結果を生成してもよく、あるいは複数の部分の構成文のウェイトに基づいて、複数の部分に対して異なる単語数の分析結果を生成してもよい。そして、結合部1004は各部分に対応する分析結果に対して並べ替え及び結合56を行って、所望の単語数の要約を生成する。それにより、上述したテキスト処理方法によれば、任意の所望の単語数の要約を効率的に正確に生成し、処理の複雑さを低下することができる。 FIG. 5 shows a text processing method according to an embodiment of the present disclosure. As shown in FIG. 5, first, the acquisition unit 1001 can acquire the input text 51 and generate a summary of a desired number of words based on the original text. Then, the division unit 1002 divides the input text into a plurality of portions 52 by using clustering according to the similarity between the constituent sentences of the input text. Here, the number of a plurality of portions obtained by dividing the input text by the dividing unit 1002 using clustering is specified based on the planned number of target words of the output text. For example, as shown in FIG. 5, the division unit 1002 may divide the input text into three parts 53 by using clustering. Then, the plurality of divided parts may be input to the summary model 54. The summary model analyzes a plurality of parts, and the analysis unit 1003 generates an analysis result corresponding to each part of the plurality of parts (for example, three results 55 corresponding to the three input parts 53). .. Here, the summary model may generate analysis results of the same number of words for a plurality of parts, or analysis results of different number of words for a plurality of parts based on the weights of the constituent sentences of the plurality of parts. May be generated. Then, the connecting portion 1004 sorts and joins 56 with respect to the analysis result corresponding to each portion to generate a summary of a desired number of words. Thereby, according to the text processing method described above, it is possible to efficiently and accurately generate a summary of an arbitrary desired number of words and reduce the processing complexity.

以下、図7を参照し、本開示の実施例に係るテキスト処理デバイスについて説明する。図7は、本開示の実施例に係るテキスト処理デバイスの模式図である。本実施例のテキスト処理デバイスの機能は、図1を参照して説明した方法の詳細と同じであるため、便宜上、同じ内容に対する詳細な説明はここでは省略する。 Hereinafter, the text processing device according to the embodiment of the present disclosure will be described with reference to FIG. 7. FIG. 7 is a schematic diagram of the text processing device according to the embodiment of the present disclosure. Since the function of the text processing device of this embodiment is the same as the details of the method described with reference to FIG. 1, detailed description of the same contents will be omitted here for convenience.

図7に示すように、テキスト処理装置1100は、メモリ1101とプロセッサ1102を備える。図7では、テキスト処理デバイス1100は、2つのデバイスのみを備えるように示されるが、これは単なる例示であり、テキスト処理デバイス1100は、1つ以上の他のデバイスを備えることもできることに留意されたい。これらのデバイスは、本発明の思想と関係がないため、ここでは省略する。 As shown in FIG. 7, the text processing device 1100 includes a memory 1101 and a processor 1102. Note that in FIG. 7, the text processing device 1100 is shown to include only two devices, but this is merely an example and the text processing device 1100 may also include one or more other devices. I want to. Since these devices have nothing to do with the idea of the present invention, they are omitted here.

本開示のテキスト処理デバイス1100は、コンピュータ読取可能な指示を格納するように配置されたメモリ1101と、当該メモリに格納された当該コンピュータ読取可能な指示を実行するように配置されたプロセッサ1102を具備する。ここで、当該プロセッサ1102が当該コンピュータ読取可能な指示を実行する時に、以下のステップを実行する。入力テキストを取得し、クラスタリングを利用して当該入力テキストを複数の部分に分割し、当該複数の部分を分析して、当該複数の部分のうちの各部分に対応する分析結果を生成し、当該各部分に対応する分析結果を結合して、出力テキストを生成する。 The text processing device 1100 of the present disclosure includes a memory 1101 arranged to store computer-readable instructions and a processor 1102 arranged to execute the computer-readable instructions stored in the memory. To do. Here, when the processor 1102 executes the computer-readable instruction, the following steps are executed. The input text is acquired, the input text is divided into a plurality of parts by using clustering, the plurality of parts are analyzed, and the analysis result corresponding to each part of the plurality of parts is generated. The output text is generated by combining the analysis results corresponding to each part.

ここで、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数は、当該出力テキストの予定する目標単語数に基づいて特定される。 Here, the number of the plurality of parts obtained by dividing the input text by using clustering is specified based on the planned target number of words of the output text.

ここで、前記クラスタリングを利用して当該入力テキストを複数の部分に分割することは、複数の部分に対応する複数のトピック文を初期化することと、入力テキストにおける構成文と複数のトピック文の間の類似度を算出することによって、類似度に基づいて入力テキストにおける構成文をそれぞれに複数のトピック文に対応する部分に区分し、当該複数の部分に含まれる構成文を更新することと、複数の部分において、各構成文の間の類似度を算出することによって、全体の類似度が一番高い構成文を新しいトピック文として特定することと、新しいトピック文が変わらなくなるまで、上記工程を繰り返すことと、を含む。 Here, dividing the input text into a plurality of parts by using the clustering means initializing a plurality of topic sentences corresponding to the plurality of parts, and of the constituent sentences in the input text and the plurality of topic sentences. By calculating the similarity between, the constituent sentences in the input text are divided into the parts corresponding to a plurality of topic sentences based on the similarity, and the constituent sentences included in the plurality of parts are updated. By calculating the similarity between each constituent sentence in multiple parts, the constituent sentence with the highest overall similarity is identified as a new topic sentence, and the above steps are repeated until the new topic sentence does not change. Including repeating.

ここで、前記当該各部分に対応する分析結果を結合することは、当該分析結果の各構成文と当該入力テキストの全ての構成文の間の類似度を計算することと、当該分析結果の各構成文に対応する、全体の類似度が一番高い当該入力テキストの各構成文の当該入力テキストにおける位置をそれぞれに探し出すことと、基于当該位置の当該入力テキストにおける出現順序に基づいて、当該分析結果の各構成文に対して並べ替えを行い、当該並べ替えに従って当該分析結果の各構成文を結合することと、を含む。 Here, combining the analysis results corresponding to the respective parts is to calculate the similarity between each constituent sentence of the analysis result and all the constituent sentences of the input text, and each of the analysis results. The analysis is based on finding the position of each constituent sentence of the input text having the highest overall similarity corresponding to the constituent sentence in the input text, and the order of appearance of the position in the input text. This includes sorting each constituent sentence of the result and combining each constituent sentence of the analysis result according to the sorting.

ここで、当該複数の部分に対して同じ単語数の分析結果を生成してもよい。
代わりに、当該複数の部分の構成文のウェイトに基づいて、当該複数の部分に対して異なる単語数の分析結果を生成してもよい。
Here, the analysis result of the same number of words may be generated for the plurality of parts.
Alternatively, analysis results of different numbers of words for the plurality of parts may be generated based on the weights of the constituent sentences of the plurality of parts.

図8は、本開示の実施例に係るコンピュータ読取可能な記憶媒体の模式図である。
図8に示すように、本開示は、コンピュータ読取可能な指示1201を格納したコンピュータ読取可能な記憶媒体1200を提供する。当該コンピュータ読取可能な指示がコンピュータによって実行されるとき、当該コンピュータは、以下のステップを実行する。入力テキストを取得し、クラスタリングを利用して当該入力テキストを複数の部分に分割し、当該複数の部分を分析して、当該複数の部分のうちの各部分に対応する分析結果を生成し、当該各部分に対応する分析結果を結合して、出力テキストを生成する。
FIG. 8 is a schematic diagram of a computer-readable storage medium according to the embodiment of the present disclosure.
As shown in FIG. 8, the present disclosure provides a computer-readable storage medium 1200 containing computer-readable instructions 1201. When the computer-readable instructions are executed by the computer, the computer performs the following steps. The input text is acquired, the input text is divided into a plurality of parts by using clustering, the plurality of parts are analyzed, and the analysis result corresponding to each part of the plurality of parts is generated. The output text is generated by combining the analysis results corresponding to each part.

ここで、前記クラスタリングを利用して当該入力テキストを複数の部分に分割することは、複数の部分に対応する複数のトピック文を初期化することと、入力テキストにおける構成文と複数のトピック文の間の類似度を算出することによって、類似度に基づいて入力テキストにおける構成文をそれぞれに複数のトピック文に対応する部分に区分し、当該複数の部分に含まれる構成文を更新することと、複数の部分において、各構成文の間の類似度を算出することによって、全体の類似度が一番高い構成文を新しいトピック文として特定することと、新しいトピック文が変わらなくなるまで、上記工程を繰り返すことと、を含む。 Here, dividing the input text into a plurality of parts by using the clustering means initializing a plurality of topic sentences corresponding to the plurality of parts, and of the constituent sentences in the input text and the plurality of topic sentences. By calculating the similarity between, the constituent sentences in the input text are divided into the parts corresponding to a plurality of topic sentences based on the similarity, and the constituent sentences included in the plurality of parts are updated. By calculating the similarity between each constituent sentence in multiple parts, the constituent sentence with the highest overall similarity is identified as a new topic sentence, and the above steps are repeated until the new topic sentence does not change. Including repeating.

<ハードウェア構成>
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線で)接続し、これら複数の装置により実現されてもよい。
<Hardware configuration>
The block diagram used in the description of the above embodiment shows a block of functional units. These functional blocks (components) are realized by any combination of hardware and / or software. Further, the means for realizing each functional block is not particularly limited. That is, each functional block may be realized by one physically and / or logically coupled device, or directly and / or indirectly by two or more physically and / or logically separated devices. (For example, wired and / or wirelessly) may be connected and realized by these plurality of devices.

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。例えば、プロセッサは1つだけ図示されているが、複数のプロセッサがあってもよい。また、処理は、1のプロセッサで実行されてもよいし、処理が同時に、逐次に、又はその他の手法で、1以上のプロセッサで実行されてもよい。なお、プロセッサは、1以上のチップで実装されてもよい。 In the following description, the word "device" can be read as a circuit, device, unit, or the like. For example, although only one processor is shown, there may be multiple processors. Further, the processing may be executed by one processor, or the processing may be executed simultaneously, sequentially, or by other methods on one or more processors. The processor may be mounted on one or more chips.

プロセッサは、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサは、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。 The processor, for example, runs an operating system to control the entire computer. The processor may be composed of a central processing unit (CPU: Central Processing Unit) including an interface with peripheral devices, a control device, an arithmetic unit, a register, and the like.

また、プロセッサは、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ及び/又は通信装置からメモリに読み出し、これらに従って各種の処理を実行する。プログラムとしては、上記の実施形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、制御ユニットは、メモリに格納され、プロセッサで動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。メモリは、コンピュータ読取可能な記憶媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)、RAM(Random Access Memory)、その他の適切な記憶媒体の少なくとも1つで構成されてもよい。メモリは、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリは、本開示の一実施形態に係る方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。 In addition, the processor reads a program (program code), software module, data, etc. from the storage and / or communication device into a memory, and executes various processes according to these. As the program, a program that causes a computer to execute at least a part of the operations described in the above embodiment is used. For example, the control unit may be realized by a control program stored in memory and running on a processor, and may be realized for other functional blocks as well. The memory is a computer-readable storage medium, such as ROM (Read Only Memory), EPROM (Erasable Program ROM), EPROM (Electrically EPROM), RAM (Random Access Memory), or at least one of other suitable storage media. It may be composed of one. The memory may be called a register, a cache, a main memory (main storage device), or the like. The memory can store a program (program code), a software module, or the like that can be executed to carry out the method according to the embodiment of the present disclosure.

ストレージは、コンピュータ読取可能な記憶媒体であり、例えば、フレキシブルディスク、フロッピー(登録商標)ディスク、光磁気ディスク(例えば、コンパクトディスク(CD−ROM(Compact Disc ROM)など)、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、リムーバブルディスク、ハードディスクドライブ、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、磁気ストライプ、データベース、サーバ、その他の適切な記憶媒体の少なくとも1つで構成されてもよい。ストレージは、補助記憶装置と呼ばれてもよい。 The storage is a computer-readable storage medium, such as a flexible disk, a floppy (registered trademark) disk, a magneto-optical disk (for example, a compact disk (CD-ROM (Compact Disk ROM))), a digital versatile disk, or a Blu. -At least one of ray® disks), removable disks, hard disk drives, smart cards, flash memory devices (eg cards, sticks, key drives), magnetic stripes, databases, servers, and other suitable storage media. It may be configured. The storage may be referred to as auxiliary storage.

入力装置は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LED(Light Emitting Diode)ランプなど)である。なお、入力装置及び出力装置は、一体となった構成(例えば、タッチパネル)であってもよい。 The input device is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that receives an input from the outside. The output device is an output device (for example, a display, a speaker, an LED (Light Emitting Diode) lamp, etc.) that outputs to the outside. The input device and the output device may have an integrated configuration (for example, a touch panel).

また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。例えば、無線リソースは、所定のインデックスで指示されるものであってもよい。さらに、これらのパラメータを使用する数式などは、本明細書で明示的に開示したものと異なってもよい。
本明細書においてパラメータなどに使用する名称は、いかなる点においても限定的なものではない。
Further, the information, parameters, etc. described in the present specification may be represented by an absolute value, a relative value from a predetermined value, or another corresponding information. .. For example, the radio resource may be indicated by a predetermined index. Further, mathematical formulas and the like using these parameters may differ from those expressly disclosed herein.
The names used for parameters and the like in the present specification are not limited in any respect.

入出力された情報、信号などは、特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報、信号などは、上書き、更新又は追記をされ得る。出力された情報、信号などは、削除されてもよい。入力された情報、信号などは、他の装置へ送信されてもよい。 The input / output information, signals, etc. may be stored in a specific location (for example, a memory) or may be managed by a management table. Input / output information, signals, etc. can be overwritten, updated, or added. The output information, signals, etc. may be deleted. The input information, signals, etc. may be transmitted to other devices.

情報の通知は、本明細書で説明した態様/実施形態に限られず、他の方法で行われてもよい。例えば、情報の通知は、物理レイヤシグナリング(例えば、下り制御情報(DCI:Downlink Control Information)、上り制御情報(UCI:Uplink Control Information))、上位レイヤシグナリング(例えば、RRC(Radio Resource Control)シグナリング、ブロードキャスト情報(マスタ情報ブロック(MIB:Master Information Block)、システム情報ブロック(SIB:System Information Block)など)、媒体アクセス制御(MAC:Medium Access Control)シグナリング)、その他の信号又はこれらの組み合わせによって実施されてもよい。 The notification of information is not limited to the embodiments / embodiments described herein, and may be made by other methods. For example, information notification includes physical layer signaling (for example, downlink control information (DCI), uplink control information (UCI)), upper layer signaling (eg, RRC (Radio Resource Control) signaling, etc.). It is implemented by broadcast information (Master Information Block (MIB), System Information Block (SIB), Media Access Control (MAC: Medium Access Control) signaling), other signals, or a combination thereof. You may.

また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗示的に(例えば、当該所定の情報の通知を行わないことによって又は別の情報の通知によって)行われてもよい。 In addition, the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit notification, but implicitly (for example, by not notifying the predetermined information or another). It may be done (by notification of information).

判定は、1ビットで表される値(0か1か)によって行われてもよいし、真(true)又は偽(false)で表される真偽値(boolean)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 The determination may be made by a value represented by 1 bit (0 or 1), or by a boolean value represented by true (true) or false (false). , May be done by numerical comparison (eg, comparison with a given value).

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software is an instruction, instruction set, code, code segment, program code, program, subprogram, software module, whether called software, firmware, middleware, microcode, hardware description language, or another name. , Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, functions, etc. should be broadly interpreted to mean.

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び/又は無線技術(赤外線、マイクロ波など)を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。 Further, software, instructions, information and the like may be transmitted and received via a transmission medium. For example, the software uses wired technology (coaxial cable, fiber optic cable, twist pair, digital subscriber line (DSL: Digital Subscriber Line), etc.) and / or wireless technology (infrared, microwave, etc.) to create a website, server. , Or when transmitted from other remote sources, these wired and / or wireless technologies are included within the definition of transmission medium.

本明細書で使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
The terms "system" and "network" as used herein are used interchangeably.
Each aspect / embodiment described in the present specification may be used alone, in combination, or may be switched and used according to the execution. Further, the order of the processing procedures, sequences, flowcharts, etc. of each aspect / embodiment described in the present specification may be changed as long as there is no contradiction. For example, the methods described herein present elements of various steps in an exemplary order, and are not limited to the particular order presented.

本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE−A(LTE−Advanced)、LTE−B(LTE−Beyond)、SUPER 3G、IMT−Advanced、4G(4th generation mobile communication system)、5G(5th generation mobile communication system)、FRA(Future Radio Access)、New−RAT(Radio Access Technology)、NR(New Radio)、NX(New radio access)、FX(Future generation radio access)、GSM(登録商標)(Global System for Mobile communications)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi(登録商標))、IEEE 802.16(WiMAX(登録商標))、IEEE 802.20、UWB(Ultra−WideBand)、Bluetooth(登録商標)、その他の適切な無線通信方法を利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 Each aspect / embodiment described herein includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), LTE-B (LTE-Beyond), SUPER 3G, IMT-Advanced, 4G (4th generation mobile). communication system, 5G (5th generation mobile communication system), FRA (Future Radio Access), New-RAT (Radio Access Technology, Radio Access Technology), NR (New LTE), NR (New LTE) GSM® (Global System for Mobile communications), CDMA2000, UMB (Ultra Mobile Broadband), LTE 802.11 (Wi-Fi®), LTE 802.16 (WiMAX), LTE 802.16 (WiMAX) .20, UWB (Ultra-WideBand), Bluetooth®, and other systems that utilize suitable wireless communication methods and / or extended next-generation systems based on them.

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 The phrase "based on" as used herein does not mean "based on" unless otherwise stated. In other words, the statement "based on" means both "based only" and "at least based on".

本明細書で使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1及び第2の要素の参照は、2つの要素のみが採用され得ること又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 Any reference to elements using designations such as "first", "second" as used herein does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted or that the first element must somehow precede the second element.

本明細書で使用する「判断(決定)(determining)」という用語は、多種多様な動作を包含する場合がある。例えば、「判断(決定)」は、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)などを「判断(決定)」することであるとみなされてもよい。また、「判断(決定)」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)などを「判断(決定)」することであるとみなされてもよい。また、「判断(決定)」は、解決(resolving)、選択(selecting)、選定(choosing)、建立(establishing)、比較(Comparing)などを「判断(決定)」することであるとみなされてもよい。つまり、「判断(決定)」は、何らかの動作を「判断(決定)」することであるとみなされてもよい。 The term "determining" as used herein may include a wide variety of actions. For example, a "decision" is a calculation, computing, processing, deriving, investigating, searching up (eg, a table, database or another data). It may be regarded as "judgment (decision)" of search in structure, ascertaining, and the like. Further, "judgment (decision)" includes receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), and access (for example). It may be regarded as "decision" (for example, accessing data in memory) (accessing) or the like. In addition, "judgment (decision)" is regarded as "judgment (decision)" of solving, selecting, selecting, erection, comparing, and the like. May be good. That is, "judgment (decision)" may be regarded as "judgment (decision)" of some action.

本明細書で使用する「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」と読み替えられてもよい。本明細書で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及び/又はプリント電気接続を使用することにより、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び/又は光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを使用することにより、互いに「接続」又は「結合」されると考えることができる。 As used herein, the terms "connected", "coupled", or any variation thereof, may be any direct or indirect connection between two or more elements or. It means a bond and can include the presence of one or more intermediate elements between two elements that are "connected" or "bonded" to each other. The connection or connection between the elements may be physical, logical, or a combination thereof. For example, "connection" may be read as "access." As used herein, the two elements are by using one or more wires, cables and / or printed electrical connections, and, as some non-limiting and non-comprehensive examples, radio frequencies. It can be considered to be "connected" or "coupled" to each other by using electromagnetic energy or the like having wavelengths in the region, microwave region and / or light (both visible and invisible) regions.

本明細書又は請求の範囲で「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が使用されている場合、これらの用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。 As used herein or in the claims, "inclusion," "comprising," and variations thereof, these terms are as comprehensive as the term "comprising." Is intended to be. Furthermore, the term "or" as used herein or in the claims is intended not to be an exclusive OR.

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本開示は、特許請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく校正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。 Although the present disclosure has been described in detail above, it will be apparent to those skilled in the art that the present disclosure is not limited to the embodiments described herein. The present disclosure can be implemented as a calibration and modification mode without departing from the spirit and scope of the present disclosure, which is determined by the description of the claims. Therefore, the description herein is for purposes of illustration only and has no limiting implications for the present disclosure.

Claims (14)

入力テキストを取得することと、
クラスタリングを利用して前記入力テキストを複数の部分に分割することと、
前記複数の部分を分析して、前記複数の部分のうちの各部分に対応する分析結果を生成することと、
前記各部分に対応する分析結果を結合して、出力テキストを生成することと、を含むテキスト処理方法。
To get the input text and
Using clustering to divide the input text into multiple parts
Analyzing the plurality of parts to generate an analysis result corresponding to each part of the plurality of parts.
A text processing method that includes combining the analysis results corresponding to each of the above parts to generate output text.
前記クラスタリングを利用して前記入力テキストを複数の部分に分割することは、
前記複数の部分に対応する複数のトピック文を初期化することと、
前記入力テキストにおける構成文と前記複数のトピック文の間の類似度を算出することによって、類似度に基づいて前記入力テキストにおける構成文をそれぞれに前記複数のトピック文に対応する部分に区分し、前記複数の部分に含まれる構成文を更新することと、
前記複数の部分において、各構成文の間の類似度を算出することによって、全体の類似度が一番高い構成文を新しいトピック文として特定することと、
前記新しいトピック文が変わらなくなるまで上記工程を繰り返すことと、を含む請求項1に記載のテキスト処理方法。
Dividing the input text into a plurality of parts by utilizing the clustering
Initializing multiple topic sentences corresponding to the multiple parts,
By calculating the similarity between the constituent sentences in the input text and the plurality of topic sentences, the constituent sentences in the input text are divided into parts corresponding to the plurality of topic sentences based on the similarity. Updating the constituent statements contained in the multiple parts and
By calculating the similarity between each constituent sentence in the plurality of parts, the constituent sentence having the highest overall similarity is identified as a new topic sentence.
The text processing method according to claim 1, wherein the process is repeated until the new topic sentence does not change.
クラスタリングを利用して入力テキストを分割して得られた複数の部分の数は、前記出力テキストの予定する目標単語数に基づいて特定される請求項1又は請求項2に記載のテキスト処理方法。 The text processing method according to claim 1 or 2, wherein the number of the plurality of parts obtained by dividing the input text by using clustering is specified based on the planned target number of words of the output text. 前記各部分に対応する分析結果を結合することは、
前記分析結果の各構成文と前記入力テキストの全ての構成文の間の類似度を算出することと、
前記入力テキストにおける前記入力テキストの各構成文の位置をそれぞれに探し出し、前記入力テキストの各構成文は前記分析結果の各構成文に対応し、類似度が一番高いものであることと、
前記入力テキストにおける前記位置の出現順序に基づいて、前記分析結果の各構成文に対して並べ替えを行い、前記並べ替えに従って前記分析結果の各構成文を結合することと、を含む請求項3に記載のテキスト処理方法。
Combining the analysis results corresponding to each of the above parts
To calculate the similarity between each constituent sentence of the analysis result and all the constituent sentences of the input text.
The position of each constituent sentence of the input text in the input text is searched for, and each constituent sentence of the input text corresponds to each constituent sentence of the analysis result and has the highest degree of similarity.
3. Claim 3 including sorting each constituent sentence of the analysis result based on the appearance order of the position in the input text, and combining the constituent sentences of the analysis result according to the sorting. The text processing method described in.
前記複数の部分に対して同じ単語数の分析結果を生成する請求項1ないし4のいずれか一項に記載のテキスト処理方法。 The text processing method according to any one of claims 1 to 4, wherein an analysis result of the same number of words is generated for the plurality of parts. 前記複数の部分の構成文のウェイトに基づいて、前記複数の部分に対して異なる単語数の分析結果を生成する請求項1ないし4のいずれか一項に記載のテキスト処理方法。 The text processing method according to any one of claims 1 to 4, which generates analysis results of different numbers of words for the plurality of parts based on the weights of the constituent sentences of the plurality of parts. 入力テキストを取得する取得部と、
クラスタリングを利用して前記入力テキストを複数の部分に分割する分割部と、
前記複数の部分を分析して、前記複数の部分のうちの各部分に対応する分析結果を生成する分析部と、
前記各部分に対応する分析結果を結合して、出力テキストを生成する結合部と、を具備するテキスト処理装置。
The acquisition part that acquires the input text, and
A division part that divides the input text into a plurality of parts by using clustering,
An analysis unit that analyzes the plurality of parts and generates an analysis result corresponding to each part of the plurality of parts.
A text processing apparatus including a connecting portion that combines analysis results corresponding to the respective portions to generate output text.
前記分割部は、前記複数の部分に対応する複数のトピック文を初期化し、
前記入力テキストにおける構成文と前記複数のトピック文の間の類似度を算出することによって、類似度に基づいて前記入力テキストにおける構成文をそれぞれに前記複数のトピック文に対応する部分に区分し、前記複数の部分に含まれる構成文を更新し、
前記複数の部分において、各構成文の間の類似度を算出することによって、全体の類似度が一番高い構成文を新しいトピック文として特定し、
前記新しいトピック文が変わらなくなるまで上記工程を繰り返す請求項7に記載のテキスト処理装置。
The division portion initializes a plurality of topic sentences corresponding to the plurality of parts, and forms a plurality of topic sentences.
By calculating the similarity between the constituent sentences in the input text and the plurality of topic sentences, the constituent sentences in the input text are divided into parts corresponding to the plurality of topic sentences based on the similarity. Update the constituent statements contained in the plurality of parts,
By calculating the similarity between each constituent sentence in the plurality of parts, the constituent sentence having the highest overall similarity is identified as a new topic sentence.
The text processing apparatus according to claim 7, wherein the process is repeated until the new topic sentence does not change.
前記分割部は、前記出力テキストの予定する目標単語数に基づいて、クラスタリングを利用して入力テキストを分割して得られた複数の部分の数を特定する請求項7又は請求項8に記載のテキスト処理装置。 The division unit according to claim 7 or 8, wherein the division portion specifies the number of a plurality of portions obtained by dividing the input text by using clustering based on the planned target number of words of the output text. Text processor. 前記結合部は、前記分析結果の各構成文と前記入力テキストの全ての構成文の間の類似度を算出し、
前記入力テキストにおける前記入力テキストの各構成文の位置をそれぞれに探し出し、前記入力テキストの各構成文は前記分析結果の各構成文に対応し、類似度が一番高いものであり、
前記入力テキストにおける前記位置の出現順序に基づいて、前記分析結果の各構成文に対して並べ替えを行い、前記並べ替えに従って前記分析結果の各構成文を結合する請求項9に記載のテキスト処理装置。
The connecting portion calculates the similarity between each constituent sentence of the analysis result and all the constituent sentences of the input text.
The position of each constituent sentence of the input text in the input text is searched for, and each constituent sentence of the input text corresponds to each constituent sentence of the analysis result, and has the highest degree of similarity.
The text processing according to claim 9, wherein each constituent sentence of the analysis result is rearranged based on the appearance order of the position in the input text, and each constituent sentence of the analysis result is combined according to the rearrangement. apparatus.
前記結合部は、前記複数の部分に対して同じ単語数の分析結果を生成する請求項7ないし10のいずれか一項に記載のテキスト処理装置。 The text processing apparatus according to any one of claims 7 to 10, wherein the connecting portion generates an analysis result of the same number of words for the plurality of portions. 前記結合部は、前記複数の部分の構成文のウェイトに基づいて、前記複数の部分に対して異なる単語数の分析結果を生成する請求項7ないし10のいずれか一項に記載のテキスト処理装置。 The text processing apparatus according to any one of claims 7 to 10, wherein the connecting portion generates analysis results of different numbers of words for the plurality of parts based on the weights of the constituent sentences of the plurality of parts. .. コンピュータ読取可能な指示を格納するように配置されるメモリと、
前記メモリに格納される前記コンピュータ読取可能な指示を実行するように配置されるプロセッサと、を具備し、
前記コンピュータ読取可能な指示を実行する時に、前記プロセッサは、
入力テキストを取得するステップと、
クラスタリングを利用して前記入力テキストを複数の部分に分割するステップと、
前記複数の部分を分析して、前記複数の部分のうちの各部分に対応する分析結果を生成するステップと、
前記各部分に対応する分析結果を結合して、出力テキストを生成するステップと、を実行するテキスト処理デバイス。
With memory arranged to store computer-readable instructions,
A processor, which is stored in the memory and is arranged to execute the computer-readable instruction, is provided.
When executing the computer-readable instruction, the processor
Steps to get the input text and
A step of dividing the input text into multiple parts using clustering, and
A step of analyzing the plurality of parts and generating an analysis result corresponding to each part of the plurality of parts.
A text processing device that performs the steps of combining the analysis results corresponding to each of the above parts to generate output text.
コンピュータ読取可能な指示を格納するコンピュータ読取可能な記憶媒体であって、
前記コンピュータ読取可能な指示がコンピュータによって実行される場合に、前記コンピュータは、
入力テキストを取得することと、
クラスタリングを利用して前記入力テキストを複数の部分に分割することと、
前記複数の部分を分析して、前記複数の部分のうちの各部分に対応する分析結果を生成することと、
前記各部分に対応する分析結果を結合して、出力テキストを生成することと、を含むテキスト処理方法を実行するコンピュータ読取可能な記憶媒体。
A computer-readable storage medium that stores computer-readable instructions.
When the computer-readable instructions are performed by the computer, the computer
To get the input text and
Using clustering to divide the input text into multiple parts
Analyzing the plurality of parts to generate an analysis result corresponding to each part of the plurality of parts.
A computer-readable storage medium that performs text processing methods, including combining the analysis results corresponding to each portion to generate output text.
JP2020033282A 2019-04-28 2020-02-28 Text processing method, apparatus, device, and storage medium Pending JP2020184313A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910349092.7A CN111858907A (en) 2019-04-28 2019-04-28 Text processing method, device, equipment and storage medium
CN201910349092.7 2019-04-28

Publications (1)

Publication Number Publication Date
JP2020184313A true JP2020184313A (en) 2020-11-12

Family

ID=72964999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020033282A Pending JP2020184313A (en) 2019-04-28 2020-02-28 Text processing method, apparatus, device, and storage medium

Country Status (2)

Country Link
JP (1) JP2020184313A (en)
CN (1) CN111858907A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756661B (en) * 2022-06-14 2022-08-23 湖南正宇软件技术开发有限公司 Text processing method and text processing system

Also Published As

Publication number Publication date
CN111858907A (en) 2020-10-30

Similar Documents

Publication Publication Date Title
US10073840B2 (en) Unsupervised relation detection model training
US20180329918A1 (en) Translating Natural Language Utterances to Keyword Search Queries
US20230031591A1 (en) Methods and apparatus to facilitate generation of database queries
US11455306B2 (en) Query classification and processing using neural network based machine learning
WO2016045567A1 (en) Webpage data analysis method and device
US8538984B1 (en) Synonym identification based on co-occurring terms
CN111898379B (en) Slot filling model training method, electronic equipment and storage medium
JP2022024102A (en) Method for training search model, method for searching target object and device therefor
KR102490712B1 (en) Method for generating question answering robot and computer device
CN112541362B (en) Generalization processing method, device, equipment and computer storage medium
US11048612B2 (en) Automatic behavior detection and characterization in software systems
CN110502520A (en) A kind of method of data loading, system, equipment and computer readable storage medium
CN111666372B (en) Method, device, electronic equipment and readable storage medium for analyzing query word query
US20230096325A1 (en) Deep parameter learning for code synthesis
CN113924560A (en) Understanding query intent for medical artificial intelligence systems using semi-supervised deep learning
JP2020184313A (en) Text processing method, apparatus, device, and storage medium
CN111930891B (en) Knowledge graph-based search text expansion method and related device
JP2021124913A (en) Retrieval device
EP3486800B1 (en) Internet of things search and discovery
US9547701B2 (en) Method of discovering and exploring feature knowledge
CN112970011A (en) Recording pedigrees in query optimization
JP2020187729A (en) Text processing method, apparatus, device, and storage medium
CN102855278A (en) Simulation method and system
KR101091135B1 (en) System and Method for providing patent information
US11914601B2 (en) Re-ranking device