JP2016189089A - Extraction equipment, extraction method and program thereof, support device, and display controller - Google Patents
Extraction equipment, extraction method and program thereof, support device, and display controller Download PDFInfo
- Publication number
- JP2016189089A JP2016189089A JP2015068461A JP2015068461A JP2016189089A JP 2016189089 A JP2016189089 A JP 2016189089A JP 2015068461 A JP2015068461 A JP 2015068461A JP 2015068461 A JP2015068461 A JP 2015068461A JP 2016189089 A JP2016189089 A JP 2016189089A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- evaluation value
- extraction
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置に関し、テキストからの要約文の抽出に関する。 The present invention relates to an extraction device, an extraction method and a program thereof, a support device, and a display control device, and relates to extraction of a summary sentence from text.
昨今のビッグデータの分析需要の増加により、様々な情報分析を目的とした機械学習の教師ラベル付与の必要性が高まっている。教師ラベルは、機械学習装置に対して未知のデータを学習させる際に、そのデータがどの分類に属するか、又は、どの程度のスコアなのかを機械学習装置に教示するための情報である。ただし、教師ラベルは、装置によって自動的に判定されるのではなく、人がデータの内容を理解して教師ラベルを判定し付与する必要がある。 With the recent increase in demand for big data analysis, there is a growing need for teacher labels for machine learning for various information analysis purposes. The teacher label is information for instructing the machine learning device to which class the data belongs, or how much the score is when the machine learning device learns unknown data. However, the teacher label is not automatically determined by the apparatus, but it is necessary for a person to understand the contents of data and determine and assign the teacher label.
テキストデータは、数値、又は、画像/映像などのデータに比べ、テキストを書いた筆者の個性、及び、意思、を表現する情報(筆者の語彙、又は、語順/使用頻度の癖、および感情表現など)を豊富に含んでいるため、分析の対象として非常に有用なデータである。しかし、テキストデータは画像/映像データと違って一目眺めれば内容を理解できるものではなく、「読む」ことによって初めて理解することができるため、内容の理解に大きな時間を要する。また、「読む」という作業は、テキストの複雑さや長さによって作業コストが大きく上昇することから、テキストの内容理解を支援する技術が数多く発明されている。 Text data is information that expresses the personality and intention of the writer who wrote the text compared to numerical values or data such as images / videos (the vocabulary of the writer or the habit of word order / frequency of use and emotional expression) It is very useful data for analysis. However, unlike image / video data, text data cannot be understood at a glance, but it can be understood only by “reading”, so it takes a long time to understand the contents. In addition, since the work of “reading” greatly increases the work cost due to the complexity and length of the text, many techniques for supporting the understanding of the text content have been invented.
特許文献1の技術は、速読したい文書に対して文書のジャンルを特定し、ジャンルに対応する決定木を選択する。一方、与えられた文書の本文中の各文について特徴を抽出する。選択された決定木と各文の特徴を照し合せ、それぞれの文について要約文か否かを決定する。要約文を強調色、非要約文を背景色で表示する。また与えられた文書の各段落の第一文目を要約文とは異なる色で表示することにより、重要箇所の抽出と表示による文書の速読支援を実現している。 The technique of Patent Document 1 specifies the genre of a document for a document to be read quickly, and selects a decision tree corresponding to the genre. On the other hand, features are extracted for each sentence in the body of a given document. The selected decision tree is compared with the characteristics of each sentence to determine whether each sentence is a summary sentence. The summary sentence is displayed in highlighted color and the non-summary sentence is displayed in background color. In addition, the first sentence of each paragraph of a given document is displayed in a color different from that of the summary sentence, thereby realizing fast reading support of the document by extracting and displaying important parts.
特許文献1では、単語の出現頻度による特徴を表すTF−IDF(Term Frequency−Inverse Document Frequency)、又は、文字数の統計的特徴を算出し、算出した単語が持つ総合的な特徴によってテキスト内の各文が要約らしいか否かを判定している。このため、単語の語順に伴う文意を反映して要約文を抽出することができない。例えば、「重要」という単語に対し、後続の単語が「である」なのか、「でない」なのかによって、文意が大きく変わる場合があり、所望の要約文の抽出ができなくなる。 In Patent Document 1, TF-IDF (Term Frequency-Inverse Document Frequency) representing characteristics based on the appearance frequency of words, or statistical characteristics of the number of characters is calculated, and each characteristic in the text is calculated based on comprehensive characteristics of the calculated words. It is judged whether the sentence seems to be a summary. For this reason, a summary sentence cannot be extracted reflecting the meaning of the words in the word order. For example, with respect to the word “important”, the meaning of the sentence may change greatly depending on whether the subsequent word is “is” or “not”, and a desired summary sentence cannot be extracted.
本発明の目的は、単語の語順に伴う文意を反映した要約文を抽出することが可能な技術を提供することにある。 The objective of this invention is providing the technique which can extract the summary sentence reflecting the meaning of the sentence accompanying the word order of a word.
本発明の抽出装置は、複数の文を含むテキストから前記文を抽出し、前記文ごとに1以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出する要約文抽出部を備える。 The extraction device of the present invention extracts the sentence from a text including a plurality of sentences, generates a word set including one or more words for each sentence, and evaluates the generated word set using a learning model. A summary sentence extracting unit that calculates an evaluation value to be extracted and extracts a summary sentence from the sentence based on the calculated evaluation value.
本発明の抽出方法は、複数の文を含むテキストから前記文を抽出し、前記文ごとに1以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出する。 The extraction method of the present invention extracts the sentence from text including a plurality of sentences, generates a word set including one or more words for each sentence, and evaluates the generated word set using a learning model. An evaluation value to be calculated is calculated, and a summary sentence is extracted from the sentence based on the calculated evaluation value.
本発明の抽出プログラムは、コンピュータに、複数の文を含むテキストから前記文を抽出し、前記文ごとに1以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出することを実行させる。 The extraction program of the present invention extracts a sentence from a text including a plurality of sentences to a computer, generates a word set including one or more words for each sentence, and applies a learning model to the generated word set. An evaluation value to be evaluated is calculated, and a summary sentence is extracted from the sentence based on the calculated evaluation value.
本発明の支援装置は、上記の抽出装置と、を備え、
前記抽出装置から出力された前記要約文ごとにその文中で、前記教師単語集合らしいか否かに応じて表示を変化させる。
The support device of the present invention includes the above-described extraction device,
For each summary sentence output from the extraction device, the display is changed depending on whether or not it seems to be the teacher word set in the sentence.
本発明の表示制御装置は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する表示制御部を備える。 The display control apparatus of the present invention extracts a summary sentence from the sentence based on an evaluation value calculated from a text including a plurality of sentences using a learning model, and displays the summary sentence in an order based on the evaluation value The display control part to control is provided.
本発明の表示制御方法は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する。 The display control method of the present invention extracts a summary sentence from the sentence based on an evaluation value calculated from a text including a plurality of sentences using a learning model, and displays the summary sentence in an order based on the evaluation value. Control.
本発明の抽出装置は、単語の語順に伴う文意を反映した要約文を抽出することができる。 The extraction device of the present invention can extract a summary sentence reflecting the meaning of words accompanying the word order.
<第1の実施形態>
本発明の第1の実施形態である抽出装置について、図面を用いて説明する。第1の実施系形態の抽出装置10は、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援する支援装置の一つの機能を提供する装置である。
<First Embodiment>
An extraction apparatus according to a first embodiment of the present invention will be described with reference to the drawings. The
図1は、第1の実施形態による抽出装置10の構成を示すブロック図である。図1に示すように、抽出装置10は、要約文抽出部40を備える。要約文抽出部40は、複数の文を含むテキストから文を抽出し、文ごとに1以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、算出された評価値に基づいて文から要約文を抽出する。
FIG. 1 is a block diagram illustrating a configuration of an
複数の文を含むテキストから文を抽出することの一例として、要約文抽出部40は、教師ラベルを付与するテキストである対象テキストに対し、対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割する。さらに、生成された単語集合に対し学習モデルを用いて評価する評価値を算出することの一例として、要約文抽出部40は、分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成する。続いて要約文抽出部40は、生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出する。さらに、算出された評価値に基づいて文から要約文を抽出することの一例として、要約文抽出部40は、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度を算出し、教師ラベル判定寄与度に応じて要約文を抽出する。教師ラベル判定寄与度については後に説明する。
As an example of extracting a sentence from a text including a plurality of sentences, the summary
次に、本発明の第1の実施形態による抽出装置の動作について、図面を用いて説明する。図2は、第1の実施形態による抽出装置10の動作を示すフローチャートである。図2に示すように、抽出装置10は、複数の文を含むテキストから文を抽出する(S101)。具体的には、抽出装置10は、教師ラベルを付与するテキストである対象テキストに対し、対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割する。
Next, the operation of the extraction device according to the first embodiment of the present invention will be described with reference to the drawings. FIG. 2 is a flowchart showing the operation of the
ここで、単語区切りのテキストとは、分かち書きで表現されたテキストを意味する。例えば、日本語のテキストが「お店は自宅から遠いですが、料理はとても美味しい。」である場合は、「お店 は 自宅 から 遠い です が 、料理 は とても 美味しい 。」のように単語ごとに区切られたテキストとなる。また、文単位に分割するとは、テキスト内に付された約物(句読点等)の存在及びその位置に応じて文を分けることである。例えば、前例の「お店 は 自宅 から 遠い です が 、料理 は とても 美味しい 。」という文は、読点の位置によって「お店 は 自宅 から 遠い です が 、」と、「料理 は とても 美味しい 。」という2つの文に分かれる。なお、文単位へ分割は、約物の位置以外に、次に示す単位で処理することもできる。
・「単語N-Gramよりも単語区切りが多い単語M−Gram(M>N:M、Nは2以上の自然数)の単位」
・「K文字ごと(Kは1以上の自然数)」
・「行単位(改行文字)」
・「ページ単位(改ページコード)」
・「節、段落単位」
次に、抽出装置10は、文ごとに1以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出する(S102)。具体的には、教師ラベルらしさを表す確信度を算出し、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度(以下、寄与度と示す。)を算出する。なお、教師ラベル判定寄与度とは、教師ラベルの付与の際に、付与する者の判定に寄与できる程度を示す値である。
Here, the word-delimited text means text that is expressed in split text. For example, if the Japanese text is “The shop is far from home, but the food is very delicious.” For each word, “The shop is far from home, but the food is very delicious.” This is delimited text. Further, to divide into sentences means to divide sentences according to the existence and position of punctuation marks (such as punctuation marks) added in the text. For example, the sentence “The shop is far from home but the food is very delicious” in the previous example is “The shop is far from home,” depending on the position of the reading, “The food is very delicious.” Divided into two sentences. Note that the division into sentence units can be processed in the following units in addition to the positions of the punctuation objects.
・ "Unit of word M-Gram (M> N: M, N is a natural number of 2 or more) with more word breaks than word N-Gram"
・ "Every K characters (K is a natural number of 1 or more)"
・ "Line unit (line feed character)"
・ "Page unit (page break code)"
・ "Section, paragraph unit"
Next, the
図3は、文ごとに評価値を算出するサブルーチンの動作を示すフローチャートである。図3に示すように、抽出装置10は、文ごとに単語集合を生成する(S1021)。具体的には、抽出装置10は、分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成する。
FIG. 3 is a flowchart showing the operation of a subroutine for calculating an evaluation value for each sentence. As illustrated in FIG. 3, the
図4は、3個の単語をつなげた単語N−Gram(N=3)の例を説明する図である。図4に示すように、「私 が 先週 予約 した お店 は 大変 好評 で した 。」という単語区切りされた1つの文を、単語ごとに3個の連続する単語を含む文字列に変換したものである。図4の例では、10個の単語N-Gram(N=3)が生成されている。 FIG. 4 is a diagram illustrating an example of a word N-Gram (N = 3) in which three words are connected. As shown in Fig. 4, one sentence separated by words, "The shop I booked last week was very popular" was converted into a string containing three consecutive words for each word. is there. In the example of FIG. 4, ten words N-Gram (N = 3) are generated.
ここで、評価値の一例である確信度とは、生成された各単語N−Gramに対して算出される教師ラベルのスコアである。よって、単語N-Gram(N=3)の教師ラベルのスコアとは3個の連続する単語を含む文字列が、P(ポジティブ)なのか、N(ネガティブ)なのか、その程度を表すスコアである。
当該学習モデルは、以下のように構築される。まず、学習用の教師データとして、P/N情報(ポジディブ/ネガティブ情報)が既知であるテキストが用いられる。続いて、学習モデルを生成する学習部(図示せず)は、教師データとなるテキストの単語N−Gramを作成した後、単語N-Gramごとに単語に紐づく特徴ベクトルに置換し、学習モデルに特徴ベクトルとP/N情報(スコア)を教え込む。これにより、学習モデルがテキストからP/N情報(スコア)を判断する能力を得る。学習モデルは、例えば、サポートベクタマシン、ニューラルネットワーク、又は、ベイズ分類器のように、任意の教師あり機械学習分類器を用いて生成することができる。なお、第1の実施形態において、確信度を算出するための学習モデルは、確信度の算出前に予め準備されているものとする。学習モデルは、複数の教師単語集合を用いて、所定の単語集合が教師単語集合らしいか否かを評価可能に学習されたモデルであるとも言える。
Here, the certainty factor, which is an example of an evaluation value, is a teacher label score calculated for each generated word N-Gram. Therefore, the score of the teacher label of the word N-Gram (N = 3) is a score indicating the degree of whether a character string including three consecutive words is P (positive) or N (negative). is there.
The learning model is constructed as follows. First, text for which P / N information (positive / negative information) is known is used as teaching data for learning. Subsequently, a learning unit (not shown) that generates a learning model creates a word N-Gram of text serving as teacher data, and then replaces each word N-Gram with a feature vector associated with the word, thereby learning model A feature vector and P / N information (score) are taught. This gives the learning model the ability to determine P / N information (score) from the text. The learning model can be generated using any supervised machine learning classifier, such as, for example, a support vector machine, a neural network, or a Bayes classifier. In the first embodiment, it is assumed that a learning model for calculating a certainty factor is prepared in advance before calculating the certainty factor. It can be said that the learning model is a model learned by using a plurality of teacher word sets so that it can be evaluated whether or not the predetermined word set seems to be a teacher word set.
次に、抽出装置10は、生成された単語集合に対し学習モデルを用いて評価する評価値を算出する(S1022)。
Next, the
図5は、ニューラルネットワークを用いて生成した学習モデルと、生成された各単語N-Gramとを用いた抽出装置10による確信度の算出を説明するための図である。抽出装置10は、P/N情報が不明なテストデータ(教師ラベルを付与する対象テキスト)として、生成された各単語N-Gramに対し学習モデルを用いて確信度を算出する。教師ラベルを付与する対象テキストとして図4に示す例を用いる。
FIG. 5 is a diagram for explaining calculation of certainty by the
図5に示すように、抽出装置10は、生成された単語N−Gram(N=3)ごとに単語に紐づく特徴ベクトルに置換する。次に、抽出装置10は、各単語N-Gram(N=3)ごとに置換された単語に紐づいた特徴ベクトルを、ニューラルネットワークを用いて生成した学習モデルに入力する。続いて、抽出装置10は、単語N-Gram(N=3)ごとのP/N(ポジティブ/ネガディブ)情報のスコアを推定する。なお、確信度のスコアの範囲は、−1から1まで(0.1単位)とする。P(ポジティブ)、N(ネガティブ)の双方で現れそうなN−Gramは、「0」付近、ポジティブな文章に現れそうなN−Gramは「1」付近、ネガティブな文章に現れそうなN-Gramは「−1」付近となるように設定されている。図5の例では、10個の単語N-Gram(N=3)ごとに、確信度(教師ラベルのスコア)が算出される。
As illustrated in FIG. 5, the
抽出装置10は、算出された評価値に基づいて文から要約文を抽出する(S103)。図6は、要約文を抽出するサブルーチンの動作を示すフローチャートである。図6に示すように、抽出装置10は、算出された評価値に基づいて文ごとに教師ラベル判定寄与度を算出する(S1031)。具体的には、抽出装置10は、単語N-Gramごとに算出された確信度に基づいて、分割された文ごとに寄与度を算出する。
抽出装置10による寄与度の算出の一例として、次に示すバリエーションが考えられる。
・各単語N-Gramにおける算出された確信度の分散値又は標準偏差値
・各単語N-Gramにおける算出された確信度の最大絶対値
・各単語N-Gramにおける算出された確信度のノルム値
・単語N-Gramにおける算出された確信度の平均値
ここで、算出された各確信度の総和によって生じる問題について説明する。図7は、確信度の総和によって算出される値の一例を示す図である。図7に示すように、上段は、算出された8個の単語N-Gram(N=3)ごとの確信度における、ポジティブ/ネガティブ(P/N)を表し、下段は、そのスコアを表す。図7に示す確信度に基づき、確信度を総和だけを用いて文ごとの寄与度を算出すると、総和の合計値は、0.00となる。すなわち、図6に示すように確信度としてポジティブ/ネガティブの値が極端に大きな数値であるにも関わらず、総和により、文ごとの寄与度が0.00となるため、後段の要約文の抽出において、その文が、重要な要約文として抽出できなくなる可能性がある。
The
As an example of the calculation of the contribution degree by the
-The variance value or standard deviation value of the certainty factor calculated for each word N-Gram-The maximum absolute value of the certainty factor calculated for each word N-Gram-The norm value of the certainty factor calculated for each word N-Gram -Average value of calculated certainty factor in word N-Gram Here, a problem caused by the total sum of calculated certainty factors will be described. FIG. 7 is a diagram illustrating an example of values calculated by the sum of certainty factors. As shown in FIG. 7, the upper part represents positive / negative (P / N) in the certainty factor for each of the calculated eight words N-Gram (N = 3), and the lower part represents the score. When the contribution for each sentence is calculated using only the sum of the certainty based on the certainty shown in FIG. 7, the total value of the sum is 0.00. That is, as shown in FIG. 6, although the positive / negative value as the certainty is an extremely large numerical value, the contribution for each sentence becomes 0.00 due to the sum, so that the summary sentence in the latter stage is extracted. In this case, the sentence may not be extracted as an important summary sentence.
この問題に対し、第1の実施形態では、寄与度の算出に、各単語N-Gramにおける算出された確信度の分散値又は標準偏差を用いる。これにより、図7に示すように、分散値が0.9、標準偏差値が0.95となり、重要な要約文を抽出することが可能となる。 To solve this problem, in the first embodiment, a variance value or a standard deviation of the calculated certainty factor in each word N-Gram is used for calculating the contribution. As a result, as shown in FIG. 7, the variance value becomes 0.9 and the standard deviation value becomes 0.95, and an important summary sentence can be extracted.
なお、「確信度の最大絶対値」を寄与度として採用することで、確信度が高い(学習モデルが自信を持って推定した)単語N−Gramが1つ以上含まれている要約文抽出も考えらえる。また、これらのバリエーションの組合せによって要約文を抽出することも可能である。 In addition, by adopting the “maximum absolute value of certainty” as a contribution, summary sentence extraction including one or more words N-Gram having high certainty (estimated by the learning model with confidence) is also possible. I can think of it. It is also possible to extract a summary sentence by combining these variations.
最後に、抽出装置10は、文ごとに算出された寄与度から要約文を抽出する(S1032)。要約文の抽出条件は、算出された寄与度が、所定の閾値以上である文、あるいは、算出された寄与度を降順に整列したうちの上位数十パーセントとなる文を抽出する。上記の要約文の抽出条件は一例であり、他の抽出条件でも適用可能である。
Finally, the
また、第1の実施形態は、教師ラベルを付与するテキストとして、日本語の例を示したが、これに限られるものではなく、英語の対象テキストでも適用可能である。図8は、英語の対象テキストを単語N−Gram(N=3)で処理する例を示す図である。英語など通常、分かち書きとなっている対象テキストの場合、対象テキストを単語単位に区切る処理は不要となる。図8に示すように、抽出装置10により、文ごとに生成された単語N-Gram(N=3)ごとの確信度を算出し、算出された確信度に基づき、文ごとに教師ラベル判定寄与度を算出する。これにより、英語のテキストでも、単語の語順に伴う文意を反映した要約文を抽出することができる。
Moreover, although 1st Embodiment showed the example of Japanese as a text which assign | provides a teacher label, it is not restricted to this, It can apply also to English object text. FIG. 8 is a diagram illustrating an example of processing an English target text with a word N-Gram (N = 3). In the case of a target text that is usually divided, such as English, there is no need to divide the target text into words. As illustrated in FIG. 8, the
第1の実施形態の抽出装置によれば、単語の語順に伴う文意を反映した要約文を抽出することが可能になる。例えば、「お店 は きれい で 雰囲気 は 悪く ない。」というテキストと、「雰囲気 は 悪く お店 は きれい で ない。」というテキストでは、テキストを構成する単語は、双方とも同じになる。このため、特許文献1のように単語単位で抽出し、単語の出現頻度を用いる例では、単語の組合せで文意が変わる場合に、順序による文意を考慮することができず、所望の要約文を抽出することができない。これに対し、第1の実施形態による抽出装置10によれば、「は きれい で」、「は 悪く ない」のようなN−Gramごとに算出するため、単語の組合せで文意が変わる場合でも所望の要約文の抽出が可能となる。すなわち、単語の順序による文意を反映した要約文の抽出が可能となる。
According to the extraction apparatus of the first embodiment, it is possible to extract a summary sentence that reflects the meaning of the word accompanying the word order. For example, in the text “The shop is clean and the atmosphere is not bad” and the text “The atmosphere is bad and the shop is not clean”, the words that make up the text are the same. For this reason, in an example in which the word extraction is performed in units of words as in Patent Document 1 and the word appearance frequency is used, when the meaning changes depending on the combination of words, the meaning of the order cannot be taken into consideration, and the desired summary The sentence cannot be extracted. On the other hand, according to the
また、文単位だけで抽出する例では、一文中に複数の文意がある(例えば、図7に示すように一文中にP(ポジティブ)、N(ネガティブ)が複数ある)場合に、所望の要約文を抽出することができない。これに対し、第1の実施形態による抽出装置10は、寄与度の算出で、各単語N-Gramにおける算出された確信度の分散値又は標準偏差値、算出された確信度の最大絶対値、又は、算出された確信度のノルム値と用いる。これにより、一文中に複数の文意があっても適切な要約文の抽出が可能になる。
Also, in the example where only sentence units are extracted, if there are a plurality of sentences in one sentence (for example, there are a plurality of P (positive) and N (negative) in one sentence as shown in FIG. 7), A summary sentence cannot be extracted. On the other hand, the
<第2の実施形態>
本発明の第2の実施形態による支援装置について、図9を用いて説明する。図9は、第2の実施形態による支援装置の構成を示すブロック図である。支援装置1は、表示装置5、及び、記憶装置6が接続されている。
<Second Embodiment>
A support apparatus according to a second embodiment of the present invention will be described with reference to FIG. FIG. 9 is a block diagram illustrating a configuration of the support device according to the second embodiment. The support device 1 is connected to a
支援装置1は、教師ラベルを付与するテキスト(対象テキスト)、及び、機械学習モデルを用いて、教師ラベルの付与を支援するための要約文を当該テキストから要約文を抽出する機能を有する。さらに、支援装置1は、支援装置1に接続される表示装置5を介して、抽出した要約文を当該支援システムの利用者に提示する機能を有してもよい。具体的には、表示制御部(図示せず)により、抽出された要約文が表示制御される。また、対象テキストは、支援装置1の通信部(図示せず)を介して取得される。
The support device 1 has a function of extracting a summary sentence from a text to which a teacher label is attached using a text (target text) to which a teacher label is attached and a machine learning model. Further, the support device 1 may have a function of presenting the extracted summary sentence to the user of the support system via the
記憶装置6は、支援装置1が取得する、生成する、又は、算出するための各種データを記憶する機能を有する。 The storage device 6 has a function of storing various data for the support device 1 to acquire, generate, or calculate.
表示装置5は、支援装置1から出力される、教師ラベルを付与するために抽出された要約文の情報を表示する機能を有する。
The
第2の実施形態による支援装置1および記憶装置6について、図面を用いて詳細に説明する。 The support device 1 and the storage device 6 according to the second embodiment will be described in detail with reference to the drawings.
支援装置1は、抽出装置10、言語処理部20、学習部30、及び、教師ラベル受付部50を備える。さらに、抽出装置10は、要約文抽出部40を備える。なお、第2の実施形態の支援装置の説明にあたり、第1の実施形態と同じ構成については、同じ符号を付与し、その説明を簡略化する。
The support device 1 includes an
支援装置1の言語処理部20は、教師データを付与するテキストである対象テキストを取得し、取得した対象テキストを単語ごとに分割し、対象テキストを構成する単語、及び、単語区切りのテキストデータを生成する機能を有する。言語処理部20は、生成した単語区切りの対象テキストを、抽出装置10の要約文抽出部40へ渡す、あるいは、記憶装置6のテキスト記憶部62に記憶させる。
The
支援装置1の学習部30は、単語区切りの対象テキストを取得し、単語記憶部61に記憶された対象テキストを構成する単語によってインデックス化する。さらに学習部30は、単語N−Gramごとの特徴ベクトルを作成後、学習モデル記憶部63に格納された学習モデルをパラメータ記憶部64から読み込んだパラメータに沿って学習させる。ここでパラメータとは、学習モデルの作成に用いる教師データ(P/N情報が既知のテキスト、及び、P/N情報(スコア)等である。なお、単語区切りの対象テキストは、言語処理部20から取得してもよく、又は、記憶装置6のテキスト記憶部62から取得してもよい。
The
支援装置1の教師ラベル受付部50は、教師ラベルを付与するテキストに対して、支援システムの利用者によって判定された教師ラベルを受付け、テキスト記憶部62に判定された教師ラベルの結果を保存する。判定された教師ラベルの受付としては、一般的な入力装置が適用可能である。例えば、マウス、キーボード、又は、タッチパネルなどを用いることができる。
The teacher
次に、支援装置1に接続された記憶装置6の構成について図9を用いて説明する。記憶装置6は、単語記憶部61、テキスト記憶部62、学習モデル記憶部63、及び、パラメータ記憶部64を備える。
Next, the configuration of the storage device 6 connected to the support device 1 will be described with reference to FIG. The storage device 6 includes a
記憶装置6の単語記憶部61は、支援装置1に入力された対象テキストを構成する単語を記憶する。
The
記憶装置6のテキスト記憶部62は、支援装置1に入力された対象テキスト又は単語区切りの対象テキストと、対象テキストと対となる教師ラベルと、を記憶する。
The
記憶装置6の学習モデル記憶部63は、支援装置1に入力された対象テキストを学習するための学習モデルを記憶する。
The learning
記憶装置6のパラメータ記憶部64は、学習モデルの作成と学習に使用するパラメータを記憶する。
The
なお、記憶装置6が、支援装置1の外部に配置され支援装置1と接続された例を用いているが、記憶装置6が、支援装置1の内部に配置され支援装置1と接続されていてもよい。 Although the storage device 6 is arranged outside the support device 1 and connected to the support device 1, the storage device 6 is placed inside the support device 1 and connected to the support device 1. Also good.
次に、本発明の第2の実施形態による支援装置1の動作について図面を用いて説明する。図10は、本発明の第2の実施形態による支援装置1の動作を示すフローチャートである。 Next, operation | movement of the assistance apparatus 1 by the 2nd Embodiment of this invention is demonstrated using drawing. FIG. 10 is a flowchart showing the operation of the support apparatus 1 according to the second embodiment of the present invention.
図10に示すように、支援装置1は、教師ラベルを付与するテキスト(対象テキスト)を取得する。支援装置1の言語処理部20は、取得した対象テキストに対し対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割する(S201)。
図11は、言語処理(S201)のサブルーチンの動作の示すフローチャートである。
言語処理部20は、取得した対象テキストに対して形態素解析を実施して対象テキストを単語区切りに分割する(S2011)。言語処理部20は、分割した単語、及び、単語区切りの対象テキストをそれぞれ要約文抽出部40に送る。なお、要約文抽出部40に送るのではなく、分割した単語、及び、単語区切りの対象テキストをそれぞれ記憶装置(図示せず)に一時的に保存してもよい。
As illustrated in FIG. 10, the support apparatus 1 acquires text (target text) to which a teacher label is attached. The
FIG. 11 is a flowchart showing the operation of a subroutine for language processing (S201).
The
図12は、言語処理(S201)のサブルーチンの動作の別の例を示すフローチャートである。図12に示すサブルーチンの動作では、言語処理部20は、図11の形態素解析(S2011)の後に、形態素の係り受けを分析する構文解析を実施する(S2012)。言語処理部20が、構文解析を実施することで、単語の係り受けの情報が得られ、後段の抽出装置10における単語N-Gramの確信度の算出時に付加的な情報を与えることができ、要約抽出の適切さがより向上することになる。
FIG. 12 is a flowchart showing another example of the operation of the subroutine of language processing (S201). In the operation of the subroutine shown in FIG. 12, the
なお、言語処理のステップ(S201)では、対象テキストの単語区切りのために形態素解析を用いる例を示したが、単語区切りの対象テキストを生成できるのであれば、形態素解析以外を用いてもよい。また、英語のテキストのように予め分かち書きとなっている対象テキストの場合、対象テキストを文単位で分割する処理をすればよい。 In the language processing step (S201), an example in which morphological analysis is used for word separation of the target text has been shown. However, as long as word separation target text can be generated, other than morphological analysis may be used. Further, in the case of a target text that is preliminarily written like English text, a process for dividing the target text into sentences may be performed.
分割した単語は、単語記憶部61に記憶され、複数の文を含むテキストから抽出された文である単語区切りにした対象テキストは、テキスト記憶部62に記憶される。もしくは、言語処理部20により、後段の抽出装置10の要約文抽出部40へ送られる。
The divided words are stored in the
次に、支援装置1の抽出装置10は、文ごとに1以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、算出された評価値に基づいて文から要約文を抽出する(S202)。具体的には、抽出装置10は、分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出する。続いて、抽出装置10は、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度を算出し、教師ラベル判定寄与度に応じて要約文を抽出する。また抽出装置10は、抽出された要約文を表示装置5に出力する。
Next, the
抽出装置10による要約文の抽出のステップは、第1の実施形態の抽出装置10の動作と同様のため、詳細な説明は省略する。なお、要約文の抽出のために、言語処理部20で生成された単語区切りの対象テキストは、記憶装置6のテキスト記憶部62から取得してもよく、言語処理部20から取得してもよい。
The summary sentence extraction step by the
次に、表示装置5は、支援装置1の抽出装置10から出力された要約文を表示する(S203)。図13は、第2の実施形態による支援装置1が表示装置5に出力する画面表示を示す図である。図13に示すように、表示装置5の表示画面は、「テキスト一覧」、「オプション」、「教師ラベル」、「テキスト」の4つの表示エリアで構成されている。
Next, the
「テキスト一覧」の表示エリアは、対象テキスト(教師ラベルを付与するテキスト)を一覧表示する。テキスト一覧で表示する対象テキストは、支援装置1に入力された順でもよく、あるいは所定の降順であってもよい。支援システムの利用者は、「テキスト一覧」の表示エリアに表示された中から対象テキストを選択する。 The display area of “text list” displays a list of target texts (texts to which teacher labels are attached). The target text to be displayed in the text list may be in the order input to the support device 1 or in a predetermined descending order. The user of the support system selects the target text from those displayed in the “text list” display area.
「テキスト」の表示エリアは、「テキスト一覧」で選択されたテキストを表示するエリアである。表示制御部は、抽出装置10から出力された要約文ごとにその文中で、教師単語集合らしいか否かに応じて表示を変化させる。図13中、抽出された要約文ごとに、その文中に「ポジティブ」であると推定した箇所に下線がひかれている。
The “text” display area is an area for displaying the text selected in the “text list”. The display control unit changes the display for each summary sentence output from the
「オプション」の表示エリアは、対象テキストを要約文表示モード、又は、テキスト全文表示モードを選択するエリアであり、これの選択状態によって「テキスト」の表示エリアに表示する内容を変更する。この選択肢は、機械学習が不足している支援システムの初期段階において要約文の抽出が妥当でないときの問題を回避するために用意している。つまり、支援システムの稼働初期はテキスト全文を表示し、教師ラベルが十分に揃うようになれば要約文を表示するよう選択することで、教師ラベルの付与において効率のよい支援システムの運用が可能となる。 The “option” display area is an area for selecting the summary text display mode or the full text display mode for the target text, and the content displayed in the “text” display area is changed according to the selection state. This option is prepared in order to avoid the problem when the extraction of the summary sentence is not valid in the initial stage of the support system in which machine learning is insufficient. In other words, it is possible to operate the support system efficiently in assigning teacher labels by displaying the entire text in the initial stage of operation of the support system and selecting to display a summary sentence when the teacher labels are sufficient. Become.
「教師ラベル」の表示エリアは、「テキスト」に表示されている対象テキストに対して、教師ラベルを設定/変更するためのエリアである。図13中、教師ラベルは、「ポジティブ」に選択されている。 The “teacher label” display area is an area for setting / changing the teacher label for the target text displayed in “text”. In FIG. 13, the teacher label is selected as “positive”.
支援装置1は、抽出した要約文を表示装置5で表示することで、支援装置1の利用者は、短時間でテキストの内容を理解することができ、教師ラベルの判定の時間と手間を軽減することが可能となる。
The support device 1 displays the extracted summary sentence on the
次に、支援装置1の教師ラベル受付部50は、支援システムの利用者によって判定された教師ラベルの結果を受付ける(S204)。教師ラベル受付部50は、支援システムの利用者が判定した教師ラベルを対象テキストに紐づけてテキスト記憶部62へ記憶させる。
Next, the teacher
続いて、支援装置1の学習部30は、教師ラベル受付部で受付けた教師ラベルと、それに紐づいた対象テキストを用いて、学習モデル記憶部63に記憶された学習モデルを学習させる(S205)。
Subsequently, the
図14は、図10に示す学習のサブルーチンの動作を示すフローチャートである。なお、ここで言う学習は、対象テキストを学習するための特徴ベクトル作成処理を含む(特徴ベクトル作成処理が、学習処理と一体になっているアルゴリズムが存在するため)。 FIG. 14 is a flowchart showing the operation of the learning subroutine shown in FIG. The learning referred to here includes a feature vector creation process for learning the target text (since there is an algorithm in which the feature vector creation process is integrated with the learning process).
まず、学習部30は、学習に用いるベクトルを作成する(S2051)。一般に自然言語の特徴ベクトルは非常に大きいベクトル長のデータであり、そのままでは後段の学習および判別への適用が困難となる。そのため、特徴となる項のみを選択し、圧縮したベクトルを生成する。例えば、特徴ベクトルの生成については、下記論文で詳細に記載されている。
“Sentiment Classification with Supervised Sequence Embedding”, Bespalov, Dmitriy and Qi, Yanjun and Bai, Bing and Shokoufandeh, Ali, Machine Learning and Knowledge Discovery in Databases, Vol.7523, pp.159-174, Springer Berlin Heidelberg, 2012, ISBN: 978-3-642-33459-7
上記の論文では、特徴ベクトルの生成を自動で処理する機構を用いている。第2の実施形態では、これに限られず、例えば、主成分分析などにより、重要なベクトル項を分析し、そのベクトル項を選択して、特徴ベクトルを生成する処理をソフトウェアプログラムに組み込んで構成してもよい。
First, the
“Sentiment Classification with Supervised Sequence Embedding”, Bespalov, Dmitriy and Qi, Yanjun and Bai, Bing and Shokoufandeh, Ali, Machine Learning and Knowledge Discovery in Databases, Vol.7523, pp.159-174, Springer Berlin Heidelberg, 2012, ISBN : 978-3-642-33459-7
The above paper uses a mechanism that automatically processes the generation of feature vectors. In the second embodiment, the present invention is not limited to this. For example, an important vector term is analyzed by principal component analysis, the vector term is selected, and a process for generating a feature vector is incorporated in the software program. May be.
続いて、学習部30は、学習モデル記憶部63から学習モデルを読み込み、ベクトル作成のステップ(S2051)によって作成されたベクトルを用いて学習モデルを補正する。学習モデル記憶部63で採用する学習モデルは、任意の教師あり機械学習分類器を適用することでき、この他に、サポートベクタマシン、ニューラルネット、ベイズ分類器などを用いてもよい。
Subsequently, the
<第3の実施形態>
本発明の第3の実施形態による支援装置および記憶装置について、図15を用いて説明する。図15は、第3の実施形態による支援装置1及び記憶装置7の構成を示すブロック図である。図15に示すように、第3の実施形態の記憶装置7は、第2の実施形態の記憶装置6と比較して、付加情報記憶部65が追加されている点で相違する。
<Third Embodiment>
A support device and a storage device according to a third embodiment of the present invention will be described with reference to FIG. FIG. 15 is a block diagram illustrating configurations of the support device 1 and the
第3の実施形態による記憶装置7の付加情報記憶部65は、対象テキストに関する属性情報を記憶する。これにより、第3の実施形態による支援装置1は、対象テキストの属性情報を使用した学習が可能となる。第2の実施形態の例では、単語記憶部61とテキスト記憶部62で記憶する対象テキストを構成する単語、及び、単語区切り対象テキストのデータを学習部30へ引き渡すことで学習する。それに加えて第3の実施形態の例では、対象テキストのジャンル(論文、小説等)、作者のドメイン(性別、年齢等)、レイアウト(テキスト全体で見た文の出現箇所、文字数)といった付加情報を学習する。これにより、要約文を抽出する精度が向上する。
The additional
<第4の実施形態>
本発明の第4の実施形態である表示制御装置について、図面を用いて説明する。図16は、第4の実施形態による表示制御装置110の構成を示すブロック図である。第5の実施系形態の表示制御装置110は、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援するための表示制御装置である。
<Fourth Embodiment>
The display control apparatus which is the 4th Embodiment of this invention is demonstrated using drawing. FIG. 16 is a block diagram illustrating a configuration of the
図16に示すように、表示制御装置110は、表示制御部140を備える。表示制御部140は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出し、要約文を評価値に基づいた順序で表示制御する。複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出する点は、第1の実施形態による抽出装置10と同様である。
As shown in FIG. 16, the
図17は、第4の実施形態による表示制御装置110の動作を示すフローチャートである。図17に示すように、表示制御装置110は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出し(S111)、要約文を評価値に基づいた順序で表示制御する複数の文を含むテキストから文を抽出する(S112)。なお、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文ごとに教師ラベル判定寄与度を算出し、寄与度に応じて要約文を抽出した場合、要約文を寄与度に基づいた順序で表示制御してもよい。
FIG. 17 is a flowchart showing the operation of the
第4の実施形態によれば、単語の語順に伴う文意を反映した要約文を表示制御することができる。これにより、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援することが可能になる。 According to the fourth embodiment, it is possible to control display of a summary sentence reflecting the meaning of words accompanying the word order. Thereby, it becomes possible to assist the person who gives the teacher label to the text to determine the teacher label.
(ハードウエア構成)
図18は、本発明の第1の実施形態による抽出装置10、第2、3の実施形態による支援装置1、又は第4の実施形態による表示制御装置110をコンピュータ装置で実現したハードウエア構成を示す図である。
(Hardware configuration)
FIG. 18 shows a hardware configuration in which the
図18に示すコンピュータ装置は、CPU(Central Processing Unit)91、ネットワーク接続用の通信I/F(通信インターフェース)92、メモリ93、及び、プログラムを格納するハードディスク等の記憶装置94を含む。また、コンピュータ装置は、システムバス97を介して入力装置95及び、出力装置96に接続されている。
The computer apparatus shown in FIG. 18 includes a CPU (Central Processing Unit) 91, a network connection communication I / F (communication interface) 92, a
CPU91は、オペレーティングシステムを動作させて、第1の実施形態による抽出装置10の要約文抽出部40、第2の実施形態による支援装置1の言語処理部20、学習部30、教師ラベル受付部50又は第4の実施形態による表示制御装置の表示制御部140を制御する。またCPU91は、例えば、ドライブ装置に装着された記録媒体からメモリ93にプログラムやデータを読み出す。また、CPU91は、例えば、各実施形態における情報信号を処理する機能を有し、プログラムに基づいて各種機能の処理を実行する。
The
記憶装置94は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、又は半導体メモリ等である。記憶装置94の一部の記憶媒体は、不揮発性記憶装置であり、そこにプログラムを記憶する。また、プログラムは、通信網に接続されている。図示しない外部コンピュータからダウンロードされてもよい。
The
入力装置95は、例えば、マウス、キーボード、内臓のキーボタン、カード取込口、又は、タッチパネルなどで実現され、入力操作に用いられる。
The
出力装置96は、例えば、ディスプレイで実現され、CPU91により処理された情報等を出力して確認するために用いられる。
The
以上のように、本発明の各実施形態は、図18に示されるハードウエア構成によって実現される。但し、抽出装置10、又は、支援装置1が備える各部の実現手段は、特に限定されない。すなわち、抽出装置10、又は、支援装置1は、物理的に結合した一つの装置により実現されてもよいし、物理的に分離した二つ以上の装置を有線又は無線で接続し、これら複数の装置により実現してもよい。
As described above, each embodiment of the present invention is realized by the hardware configuration shown in FIG. However, the means for realizing each unit included in the
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 While the present invention has been described with reference to the embodiments (and examples), the present invention is not limited to the above embodiments (and examples). Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
上記の実施形態の一部又は全部は、以下の付記のように記載されうるが、以下には限られない。 Part or all of the above-described embodiments can be described as in the following supplementary notes, but is not limited thereto.
(付記1)
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、前記分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、前記生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する要約文抽出部を備える抽出装置。
(Appendix 1)
A word N is obtained by dividing a target text, which is a text to be assigned a teacher label, into word units divided by words constituting the target text into sentence units and connecting N words for each of the divided sentences. -Gram (N is a natural number greater than or equal to 2) is generated, a certainty factor representing the likelihood of a teacher label is calculated using a learning model for the generated word N-Gram, and the above-described certainty factor An extraction apparatus including a summary sentence extraction unit that calculates a teacher label determination contribution for each divided sentence and extracts a summary sentence according to the contribution.
(付記2)
前記要約文抽出部は、
前記単語N-Gramよりも単語区切りが多い単語M−Gram(M>N:M、Nは2以上の自然数)の単位、K文字ごと(Kは1以上の自然数)、行単位(改行文字)、ページ単位(改ページコード)、約物単位、又は、節・段落単位により、前記単語区切りの対象テキストを文単位に分割する、
付記1に記載の抽出装置。
(Appendix 2)
The summary sentence extraction unit includes:
Unit of word M-Gram (M> N: M, N is a natural number of 2 or more), K characters (K is a natural number of 1 or more), line unit (line feed character) having more word breaks than the word N-Gram Divide the target text of the word break into sentence units by page unit (page break code), punctuation unit, or section / paragraph unit,
The extraction device according to attachment 1.
(付記3)
前記学習モデルは、
スコア情報が既知の教師データであるテキストを用いた単語N−Gramが作成され、前記作成された単語N-Gramごとに単語に紐づく特徴ベクトルに置換され、前記特徴ベクトルと対応する前記スコア情報とにより任意の教師あり機械学習分類器に学習させたモデルである、
付記1又は付記2に記載の抽出装置。
(Appendix 3)
The learning model is
A word N-Gram using text whose score information is known teacher data is created, replaced with a feature vector associated with the word for each created word N-Gram, and the score information corresponding to the feature vector Is a model trained by any supervised machine learning classifier with
The extraction apparatus according to Supplementary Note 1 or Supplementary Note 2.
(付記4)
前記学習モデルは、任意の教師あり機械学習分類器であり、サポートベクタマシン、ニューラルネットワーク、又は、ベイズ分類器のいずれかである、
付記1から3のいずれか1つに記載の抽出装置。
(Appendix 4)
The learning model is any supervised machine learning classifier, either a support vector machine, a neural network, or a Bayes classifier.
The extraction device according to any one of supplementary notes 1 to 3.
(付記5)
前記寄与度の算出は、各単語N-Gramにおける算出された確信度の分散値又は標準偏差値、各単語N-Gramにおける算出された確信度の最大絶対値、又は、各単語N-Gramにおける算出された確信度のノルム値のいずれかを用いる、
付記1から4のいずれか1つに記載の抽出装置。
(Appendix 5)
The calculation of the contribution is performed by calculating the variance value or standard deviation value of the certainty factor calculated in each word N-Gram, the maximum absolute value of the certainty factor calculated in each word N-Gram, or in each word N-Gram. Use one of the calculated norm values of confidence,
The extraction device according to any one of supplementary notes 1 to 4.
(付記6)
前記要約文は、前記算出された寄与度が、所定の閾値以上である文、あるいは、前記算出された寄与度を降順に整列したうちの上位数十パーセントとなる文、を抽出する、
付記1から5のいずれか1つに記載の抽出装置。
(Appendix 6)
The summary sentence extracts a sentence in which the calculated contribution is equal to or greater than a predetermined threshold, or a sentence that is the top tens percent of the calculated contributions arranged in descending order.
The extraction device according to any one of appendices 1 to 5.
(付記7)
前記抽出装置を含む、
付記1〜付記6のいずれか1つに記載の支援装置。
(Appendix 7)
Including the extraction device,
The support device according to any one of supplementary notes 1 to 6.
(付記8)
言語処理部を備え、
前記言語処理部は、前記単語区切りの対象テキストを生成する、
付記7に記載の支援装置。
(Appendix 8)
A language processor,
The language processing unit generates the target text of the word break;
The support apparatus according to
(付記9)
学習部を備え、
前記学習部は、スコア情報が既知の教師データであるテキストを用いた単語N−Gramを作成し、前記作成された単語N-Gramごとに単語に紐づく特徴ベクトルに置換し、前記特徴ベクトルと対応する前記スコア情報とにより任意の教師あり機械学習分類器に学習させる、
付記7又は付記8に記載の支援装置。
(Appendix 9)
With a learning unit,
The learning unit creates a word N-Gram using text that is teacher data with known score information, replaces the created word N-Gram with a feature vector associated with the word, Let any supervised machine learning classifier learn with the corresponding score information,
The support apparatus according to
(付記10)
教師ラベル受付部を備え、
前記教師ラベル受付部は、前記対象テキストに対して、前記支援装置の利用者によって判定された教師ラベルを受付ける、
付記7〜付記9のいずれか1つに記載の支援装置。
(Appendix 10)
Equipped with a teacher label reception,
The teacher label receiving unit receives a teacher label determined by a user of the support device for the target text;
The support device according to any one of
(付記11)
前記支援装置に記憶装置が接続され、
前記記憶装置は、単語記憶部、テキスト記憶部、学習モデル記憶部、及び、パラメータ記憶部を有する、
付記7〜付記10のいずれか1つに記載の支援装置。
(Appendix 11)
A storage device is connected to the support device;
The storage device includes a word storage unit, a text storage unit, a learning model storage unit, and a parameter storage unit.
The support device according to any one of
(付記12)
前記記憶装置は、付加情報記憶部を有する、
付記11に記載の支援装置。
(Appendix 12)
The storage device includes an additional information storage unit.
The support device according to attachment 11.
(付記13)
前記記憶装置を備える、
付記11又は付記12に記載の支援装置。
(Appendix 13)
Comprising the storage device;
The support device according to appendix 11 or appendix 12.
(付記14)
前記支援装置に表示装置が接続され、
前記表示装置は、
付記7〜付記13のいずれか1つに記載の支援装置。
(Appendix 14)
A display device is connected to the support device;
The display device
The support device according to any one of
(付記15)
前記表示装置を備える、
付記7〜付記14のいずれか1つに記載の支援装置。
(Appendix 15)
Comprising the display device;
The support device according to any one of
(付記16)
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、
前記分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、
前記生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、
前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する、
抽出方法。
(Appendix 16)
Dividing the target text of the word break, which is the target text that is the text to which the teacher label is attached, separated by the words constituting the target text into sentence units,
Generating a word N-Gram (N is a natural number of 2 or more) by connecting N words for each of the divided sentences;
Calculating a certainty factor representing the likelihood of a teacher label using a learning model for the generated word N-Gram;
Calculating a teacher label determination contribution for each of the divided sentences based on the calculated certainty factor, and extracting a summary sentence according to the contribution degree;
Extraction method.
(付記17)
コンピュータに、
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、
前記分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、
前記生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、
前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する、
ことを実行させるための抽出プログラム。
(Appendix 17)
On the computer,
Dividing the target text of the word break, which is the target text that is the text to which the teacher label is attached, separated by the words constituting the target text into sentence units,
Generating a word N-Gram (N is a natural number of 2 or more) by connecting N words for each of the divided sentences;
Calculating a certainty factor representing the likelihood of a teacher label using a learning model for the generated word N-Gram;
Calculating a teacher label determination contribution for each of the divided sentences based on the calculated certainty factor, and extracting a summary sentence according to the contribution degree;
Extraction program to make things happen.
1 支援装置
5 表示装置
6 記憶装置
7 記憶装置
10 抽出装置
20 言語処理部
30 学習部
40 要約文抽出部
50 教師ラベル受付部
61 単語記憶部
62 テキスト記憶部
63 学習モデル記憶部
64 パラメータ記憶部
65 付加情報記憶部
91 CPU
92 通信I/F(通信インターフェース)
93 メモリ
94 記憶装置
95 入力装置
96 出力装置
97 システムバス
110 表示制御装置
140 表示制御部
DESCRIPTION OF SYMBOLS 1
92 Communication I / F (communication interface)
93
Claims (10)
請求項1記載の抽出装置。 The learning model is a model learned using a plurality of teacher word sets so that it can be evaluated whether or not a predetermined word set seems to be the teacher word set.
The extraction device according to claim 1.
請求項1又は2に記載の抽出装置。 The summary sentence extraction unit calculates a teacher label determination contribution for each sentence based on the calculated evaluation value, and extracts a summary sentence according to the contribution;
The extraction device according to claim 1 or 2.
請求項3に記載の抽出装置。 The calculation of the contribution degree uses either a variance value or a standard deviation value of the calculated evaluation value, a maximum absolute value of the calculated evaluation value, or a norm value of the calculated evaluation value.
The extraction device according to claim 3.
前記抽出装置から出力された前記要約文ごとにその文中で教師単語集合らしいか否かに応じて表示を変化させる支援装置。 An extraction device according to any one of claims 1 to 4,
A support device that changes a display for each summary sentence output from the extraction device according to whether or not it seems to be a teacher word set in the sentence.
複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出し、前記要約文を前記寄与度に基づいた順序で表示制御する表示制御方法。 )
A teacher label determination contribution is calculated for each sentence based on an evaluation value calculated from a text including a plurality of sentences using a learning model, a summary sentence is extracted according to the contribution degree, and the summary sentence is A display control method for performing display control in an order based on the contribution degree.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015068461A JP6817690B2 (en) | 2015-03-30 | 2015-03-30 | Extraction device, extraction method and its program, support device, display control device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015068461A JP6817690B2 (en) | 2015-03-30 | 2015-03-30 | Extraction device, extraction method and its program, support device, display control device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016189089A true JP2016189089A (en) | 2016-11-04 |
JP6817690B2 JP6817690B2 (en) | 2021-01-20 |
Family
ID=57239676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015068461A Active JP6817690B2 (en) | 2015-03-30 | 2015-03-30 | Extraction device, extraction method and its program, support device, display control device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6817690B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020071737A (en) * | 2018-10-31 | 2020-05-07 | 富士通株式会社 | Learning method, learning program and learning device |
CN112036575A (en) * | 2019-06-04 | 2020-12-04 | 富士施乐株式会社 | Information processing apparatus and non-transitory computer readable medium |
CN112784585A (en) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | Abstract extraction method and terminal for financial bulletin |
WO2024185155A1 (en) * | 2023-03-03 | 2024-09-12 | 国立研究開発法人理化学研究所 | Training device, evaluation device, training method, and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11219361A (en) * | 1998-02-02 | 1999-08-10 | Fujitsu Ltd | Document browsing device and medium to store its program |
JP2002297633A (en) * | 2001-03-29 | 2002-10-11 | Ricoh Co Ltd | Device and method for important sentence extraction, and computer program |
JP2003036262A (en) * | 2001-07-23 | 2003-02-07 | Nippon Telegr & Teleph Corp <Ntt> | Important sentence extraction method, device, program, and recording medium recorded with the program |
-
2015
- 2015-03-30 JP JP2015068461A patent/JP6817690B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11219361A (en) * | 1998-02-02 | 1999-08-10 | Fujitsu Ltd | Document browsing device and medium to store its program |
JP2002297633A (en) * | 2001-03-29 | 2002-10-11 | Ricoh Co Ltd | Device and method for important sentence extraction, and computer program |
JP2003036262A (en) * | 2001-07-23 | 2003-02-07 | Nippon Telegr & Teleph Corp <Ntt> | Important sentence extraction method, device, program, and recording medium recorded with the program |
Non-Patent Citations (1)
Title |
---|
平尾努 外3名: "Support Vector Machineを用いた重要文書抽出法", 情報処理学会論文誌, vol. 第44巻第8号, JPN6019001880, 15 August 2003 (2003-08-15), JP, pages 2230 - 2243 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020071737A (en) * | 2018-10-31 | 2020-05-07 | 富士通株式会社 | Learning method, learning program and learning device |
JP7099254B2 (en) | 2018-10-31 | 2022-07-12 | 富士通株式会社 | Learning methods, learning programs and learning devices |
CN112036575A (en) * | 2019-06-04 | 2020-12-04 | 富士施乐株式会社 | Information processing apparatus and non-transitory computer readable medium |
CN112784585A (en) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | Abstract extraction method and terminal for financial bulletin |
WO2024185155A1 (en) * | 2023-03-03 | 2024-09-12 | 国立研究開発法人理化学研究所 | Training device, evaluation device, training method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6817690B2 (en) | 2021-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102577514B1 (en) | Method, apparatus for text generation, device and storage medium | |
US11645314B2 (en) | Interactive information retrieval using knowledge graphs | |
JP6583686B2 (en) | Semantic information generation method, semantic information generation device, and program | |
US10095684B2 (en) | Trained data input system | |
CN105830011B (en) | For overlapping the user interface of handwritten text input | |
US9824085B2 (en) | Personal language model for input method editor | |
CN108255290A (en) | Mode study in mobile device | |
CN110431553A (en) | Multi-language data input system | |
US20150169537A1 (en) | Using statistical language models to improve text input | |
US20200327189A1 (en) | Targeted rewrites | |
JP7155758B2 (en) | Information processing device, information processing method and program | |
US20220147835A1 (en) | Knowledge graph construction system and knowledge graph construction method | |
JP7062056B2 (en) | Creation text evaluation device | |
EP3550454A1 (en) | Electronic device and control method | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
JP6817690B2 (en) | Extraction device, extraction method and its program, support device, display control device | |
KR20190118108A (en) | Electronic apparatus and controlling method thereof | |
JPWO2014073206A1 (en) | Information processing apparatus and information processing method | |
US12008692B2 (en) | Systems and methods for digital ink generation and editing | |
US20220284185A1 (en) | Storage medium, information processing method, and information processing device | |
JP2018112853A (en) | Topic classification apparatus and program therefor | |
US11899904B2 (en) | Text input system with correction facility | |
JPWO2018198807A1 (en) | Translation equipment | |
JP2022029273A (en) | Sentence similarity calculation device, trained model generation device, and variance expression model | |
JP6605997B2 (en) | Learning device, learning method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190329 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191114 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20191114 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20191122 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20191126 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20200124 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20200128 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20200811 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20201006 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20201104 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20201208 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20201208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6817690 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |