JP2015203961A - document extraction system - Google Patents
document extraction system Download PDFInfo
- Publication number
- JP2015203961A JP2015203961A JP2014082782A JP2014082782A JP2015203961A JP 2015203961 A JP2015203961 A JP 2015203961A JP 2014082782 A JP2014082782 A JP 2014082782A JP 2014082782 A JP2014082782 A JP 2014082782A JP 2015203961 A JP2015203961 A JP 2015203961A
- Authority
- JP
- Japan
- Prior art keywords
- document
- score
- documents
- extraction
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の文書のなかから検索条件と類似の記載部分を多く含む文書を抽出する文書抽出システムに関する。 The present invention relates to a document extraction system for extracting a document including a large number of description parts similar to a search condition from a plurality of documents.
大量の文書のなかから、条件文に近い内容の文書を検索するシステムが提案されている(例えば、特許文献1参照。)。その方法としては、キーワードを使う方法と、単語の出現頻度をベースに特徴ベクトルを使う方法が代表的である。両方とも条件文との類似度をスコアとして何らかのアルゴリズムで数値化し、スコア値の高いものから順に抽出するのが一般的である。 There has been proposed a system for searching a document having a content close to a conditional sentence from a large number of documents (see, for example, Patent Document 1). As the method, a method using a keyword and a method using a feature vector based on the appearance frequency of words are representative. In both cases, the degree of similarity with a conditional sentence is generally converted into a numerical value by some algorithm and extracted in descending order of score value.
しかし、いずれの方法を使っても、文書全体を対象とすると、文書の一部にしか条件文に近い内容が記述されない場合、内容的には条件文に極めて近い内容であっても、検索されない場合がある。これは、文書の大きさに、書籍のような広汎かつ大きな文書から、辞典の項目ように短くかつ端的な記述がされた小さな文書まであるためである。例えば、単純にスコアを計算すると、書籍のような文書の場合、条件文と内容的に大きく異なる記述であっても、文章量が多いためスコア値が高くなってしまうためである。これを防ぐために、スコアを文章量で割り算する方法がある。これによって、条件文とは内容が大きく異なり文章量が多い文書が抽出されることは防ぐことができる。しかしながら、大きな文章量で一部に条件文に非常に近い内容を含むような文書が抽出されないといった問題が新たに生じることになる。 However, no matter which method is used, if the entire document is targeted, if the content close to the conditional statement is described in only a part of the document, even if the content is very close to the conditional statement, it will not be searched There is a case. This is because the size of the document ranges from a wide and large document such as a book to a small document with a short and straightforward description such as a dictionary item. For example, when the score is simply calculated, in the case of a document such as a book, even if the description is significantly different from the conditional sentence, the score value becomes high due to the large amount of sentences. In order to prevent this, there is a method of dividing the score by the sentence amount. As a result, it is possible to prevent a document having a large amount of text from the conditional sentence and from being extracted. However, there arises a new problem that a document having a large amount of text and partly including a content very close to a conditional sentence cannot be extracted.
以上の問題を解決し、適格に条件文に近い記述を有する文書を抽出するために、発明者は、文書を形式的な部分(以下文書セグメントと呼ぶ)に分割し、セグメント毎にスコアを計算し、セグメント毎に一定の重み付けをして文書全体のスコア値として、有効文書の抽出を行うことが有効であることを見出した。 In order to solve the above problems and extract documents that have a description close to a conditional sentence, the inventor divides the document into formal parts (hereinafter referred to as document segments) and calculates a score for each segment. Then, it has been found that it is effective to extract a valid document as a score value of the entire document by giving a constant weight to each segment.
具体的には、本発明に係る文書抽出方法は、
複数の文書のなかから条件文の概念に近い文書を抽出する文書抽出方法であって、
部分スコア算出部が、前記条件文を取得すると、各文書を予め定められた複数のセグメントに分割し、前記条件文との類似度を前記セグメント毎に数値化して当該セグメントのスコアとする部分スコア算出手順と、
抽出部が、一つの文書を構成する各セグメントのスコアを用いて、一定のアルゴリズムに基づいて重み付けを行った上で、当該文書と前記条件文との類似度を表す文書スコアを算出し、前記文書スコアを用いて、前記複数の文書のなかから前記条件文と概念の近い文書を選択する抽出手順と、
を順に有する。
Specifically, the document extraction method according to the present invention includes:
A document extraction method for extracting a document close to the concept of a conditional sentence from a plurality of documents,
When the partial score calculation unit obtains the conditional sentence, the partial score is divided into a plurality of predetermined segments, and the degree of similarity with the conditional sentence is quantified for each segment to obtain the score of the segment Calculation procedure,
The extraction unit calculates the document score representing the similarity between the document and the conditional sentence after weighting based on a certain algorithm using the score of each segment constituting one document, An extraction procedure for selecting a document having a concept similar to the conditional sentence from the plurality of documents using a document score;
In order.
本発明に係る文書抽出方法では、マップ化部が、前記抽出手順において抽出した文書の各セグメントの重み付けを用いて各セグメントの特徴ベクトルを合成して当該文書の文書特徴ベクトルを生成し、前記文書特徴ベクトルを用いて前記抽出手順において抽出した文書群内の文書相互間の類似度を計算し、前記文書相互間の類似度に応じて、前記抽出手順において抽出した文書をマップ上に配置するマップ化手順を、前記抽出手順の後にさらに有していてもよい。 In the document extraction method according to the present invention, the mapping unit generates a document feature vector of the document by combining the feature vectors of the segments using the weights of the segments of the document extracted in the extraction procedure, and the document A map that calculates the similarity between documents in the document group extracted in the extraction procedure using a feature vector, and arranges the documents extracted in the extraction procedure on the map according to the similarity between the documents A conversion procedure may be further provided after the extraction procedure.
本発明に係る文書抽出方法では、前記抽出手順において、一つの文書に含まれる前記スコアの最高値を文書ごとに算出し、前記複数の文書のなかから前記最高値の高い予め定められた範囲の文書を抽出してもよい。 In the document extraction method according to the present invention, in the extraction procedure, the maximum value of the score included in one document is calculated for each document, and a predetermined range having a high maximum value is selected from the plurality of documents. A document may be extracted.
本発明に係る文書抽出方法では、前記抽出手順において、一つの文書に含まれる前記スコアのうちの予め定められたスコアの高い範囲のスコアを用いて比較値を文書ごとに算出し、前記複数の文書のなかから前記比較値の高い予め定められた範囲の文書を抽出してもよい。 In the document extraction method according to the present invention, in the extraction procedure, a comparison value is calculated for each document using a score in a high range of a predetermined score among the scores included in one document, A document in a predetermined range having a high comparison value may be extracted from the documents.
具体的には、本発明に係る文書抽出システムは、
複数の文書のなかから条件文の概念に近い文書を抽出する文書抽出システムであって、
前記条件文を取得すると、各文書を予め定められた複数のセグメントに分割し、前記条件文との類似度を前記セグメント毎に数値化して当該セグメントのスコアとする部分スコア算出部と、
一つの文書を構成する各セグメントのスコアを用いて当該文書と前記条件文との類似度を表す文書スコアを算出し、前記文書スコアを用いて、前記複数の文書のなかから前記条件文と概念の近い文書を選択する抽出部と、
を備える。
Specifically, the document extraction system according to the present invention is:
A document extraction system that extracts a document close to the concept of a conditional sentence from a plurality of documents,
When the conditional sentence is acquired, each document is divided into a plurality of predetermined segments, and a partial score calculation unit that quantifies the similarity with the conditional sentence for each segment and sets the score of the segment;
A document score representing the similarity between the document and the conditional sentence is calculated using the score of each segment constituting one document, and the conditional sentence and the concept are calculated from the plurality of documents using the document score. An extractor that selects documents close to each other,
Is provided.
本発明に係る文書抽出システムでは、前記抽出部の抽出した文書の各セグメントの重み付けを用いて各セグメントの特徴ベクトルを合成して当該文書の文書特徴ベクトルを生成し、前記文書特徴ベクトルを用いて前記抽出部の抽出した文書群内の文書相互間の類似度を計算し、前記文書相互間の類似度に応じて、前記抽出部の抽出した文書をマップ上に配置するマップ化部をさらに備えていてもよい。 In the document extraction system according to the present invention, a feature vector of each segment is generated by using the weight of each segment of the document extracted by the extraction unit to generate a document feature vector of the document, and the document feature vector is used. A mapping unit for calculating a similarity between documents in the document group extracted by the extraction unit and arranging the documents extracted by the extraction unit on a map according to the similarity between the documents; It may be.
本発明に係る文書抽出システムでは、前記抽出部は、一つの文書に含まれる前記スコアの最高値を文書ごとに算出し、前記複数の文書のなかから前記最高値の高い予め定められた範囲の文書を抽出してもよい。 In the document extraction system according to the present invention, the extraction unit calculates a maximum value of the score included in one document for each document, and has a predetermined range in which the maximum value is high among the plurality of documents. A document may be extracted.
本発明に係る文書抽出システムでは、前記抽出部は、一つの文書に含まれる前記スコアのうちの予め定められたスコアの高い範囲のスコアを用いて比較値を文書ごとに算出し、前記複数の文書のなかから前記比較値の高い予め定められた範囲の文書を抽出してもよい。 In the document extraction system according to the present invention, the extraction unit calculates a comparison value for each document using a score in a high range of a predetermined score among the scores included in one document, and A document in a predetermined range having a high comparison value may be extracted from the documents.
なお、上記各発明は、可能な限り組み合わせることができる。 The above inventions can be combined as much as possible.
本発明によれば、条件文の有する概念に関連する記載が文書にどの程度含まれるかによって文書を抽出可能にすることができる。 According to the present invention, it is possible to extract a document depending on how much description related to the concept of the conditional sentence is included in the document.
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本発明は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited to embodiment shown below. These embodiments are merely examples, and the present invention can be implemented in various modifications and improvements based on the knowledge of those skilled in the art. In the present specification and drawings, the same reference numerals denote the same components.
(実施形態1)
図1に、本実施形態に係る文書抽出システムの構成例を示す。本実施形態に係る文書抽出システムは、サーバ10と、ストレージ20と、ユーザ端末30を備える。ストレージ20は、サーバ10からアクセス可能な任意の記憶媒体である。サーバ10及びユーザ端末30は、CPU(Central Processing Unit)及び記憶媒体などの計算機資源を備えたコンピュータであり、記憶媒体にはプログラムがインストールされている。サーバ10、ストレージ20及びユーザ端末30は、いずれも任意の数を採用しうるが、本実施形態では、サーバ10が1台、ストレージ20が2台、ユーザ端末30が1台の場合について示す。
(Embodiment 1)
FIG. 1 shows a configuration example of a document extraction system according to the present embodiment. The document extraction system according to this embodiment includes a
ストレージ20は、文書を保持する。文書は、通信ネットワークを介して送受信される任意のデータを含み、例えば、文章、数値データ、ログデータ及び顧客情報を含む。文章は、例えば、特許、論文、書籍、レポート及びホームページが例示できる。数値データは、例えば、センサーデータ、測定データ、POS(Point Of Sales)データが例示できる。ログデータは、例えば、オンラインアクセスデータ、各種装置の状態データが例示できる。本実施形態では、一例として、文書が文章である場合について説明する。
The
図2に、本実施形態に係る部分情報抽出システムのシーケンスを示す。サーバ10は、ユーザ端末30から条件文を取得するステップS101の前に、セグメント毎に特徴ベクトルを生成する。例えば、サーバ10は、ストレージ20から文書を取得し、取得した文書をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する。各セグメントの特徴ベクトルは、ストレージ20に格納され、以後の類似度の計算に利用されることが好ましい。このとき、各セグメントの特徴ベクトルは、元の情報群とは別に2次的なストレージ20に格納することが好ましい。元の情報群は、計算ステージでは一切利用されず、最終段階で元の情報を表示する際にのみ、利用される。
FIG. 2 shows a sequence of the partial information extraction system according to this embodiment. The
ユーザ端末30は、通信ネットワークを介して条件文を送信する(S101)。サーバ10は、ユーザ端末30から条件文を受信すると、ストレージ20から各セグメントの特徴ベクトルを取得し(S102)、取得したセグメントのスコアを算出し(S113)、セグメントのスコアを用いて文書と条件文との類似度を表す文書スコアを算出し、文書スコア用いて、条件文と概念の近い文書を抽出し(S115)、抽出結果をユーザ端末30へ送信する(S116)。ユーザ端末30は、サーバ10から受信した抽出結果を表示する(S117)。
The
サーバ10は、通信ネットワークを介してユーザ端末30及びストレージ20と情報の送受信を行う通信機能部(不図示)と、文書を抽出するための構成を備える。文書を抽出するための構成は、例えば、条件文取得部11と、部分スコア算出部15と、抽出部17と、を備える。サーバ10は、コンピュータを、条件文取得部11、部分スコア算出部15及び抽出部17として機能させることで実現してもよい。この場合、サーバ10内のCPUが、記憶部(不図示)に記憶されたコンピュータプログラムを実行することで、各構成を実現する。
The
サーバ10は、文書を抽出するに際し、本実施形態に係る文書抽出方法を実行する。本実施形態に係る文書抽出方法は、部分スコア算出手順(S113)と、抽出手順(S115)と、を順に有する。
The
部分スコア算出手順(S113)では、部分スコア算出部15が、条件文を取得すると、条件文との類似度を、文書の各部分を構成するセグメント毎に数値化して当該セグメントのスコアとする。文書が文章を含む場合、セグメントは、例えば、段落又は文である。段落の場合、例えば、改行を検出することで段落単位を識別する。文の場合、句点「。」又は「.」、疑問符「?」及び感嘆符「!」を検出することで単位文を識別する。本実施形態では、一例として、セグメントが段落である場合について説明する。
In the partial score calculation procedure (S113), when the partial
部分スコア算出手順(S113)では、部分スコア算出部15が、ベクトル空間モデルに基づきセグメントの概念を表す特徴ベクトルPiをセグメントごとに算出する。例えば、ベクトル判定部12は、ベクトル空間モデルに基づき条件文dk及びセグメントdiをベクトル化し、条件文ベクトル及び特徴ベクトルを算出する。ここで、セグメントの概念を表す特徴ベクトルPiは、条件文の取得前に予め算出しておいてもよい。このように、セグメントの特徴ベクトルPiを条件文と独立にしておくことで、サーバ10の負荷を軽減するとともに、抽出結果の速やかなユーザ端末30への提供を行うことができる。
In the partial score calculation procedure (S113), the partial
情報diが、要素tjに対してマトリクス表記できる場合、情報diをベクトル空間モデルdi=(t1,t2,t3,……)で記述することができる。このため、条件文は、条件文に含まれる単語を要素とする条件文ベクトルで記述することができる。またセグメントも、セグメントに含まれる単語を要素とする特徴ベクトルで記述することができる。 When the information d i can be expressed in matrix with respect to the element t j , the information d i can be described by a vector space model d i = (t 1 , t 2 , t 3 ,...). For this reason, the conditional sentence can be described by a conditional sentence vector whose elements are words included in the conditional sentence. A segment can also be described by a feature vector whose elements are words included in the segment.
セグメントdi中に出現する要素tjの出現頻度をnijとすると、セグメントdiは概念ベクトルdi=(ni1,ni2,ni3,……)で表すことができる。例えば、セグメントd1における単語t1、t2、t3の出願回数がそれぞれ0、1、0であり、セグメントd2における単語t1、t2、t3の出願回数がそれぞれ2、1、0であり、セグメントd3における単語t1、t2、t3の出願回数がそれぞれ1、2、3である場合、セグメントの行列Mは以下のように表される。
When the frequency of occurrence of elements t j appearing in segment d i and n ij, segment d i concept vector d i = (n i1, n i2, n i3, ......) can be represented by. For example, the
部分スコア算出手順(S113)では、部分スコア算出部15が、特徴ベクトルと条件文の概念を表す条件文ベクトルとの類似度をセグメント毎に数値化して当該セグメントのスコアとする。例えば、セグメントdiと条件文dkの内容の近さは、特徴ベクトルdiと条件文ベクトルdkの演算によって数値化できる。数値化に用いる演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。
In the partial score calculation procedure (S113), the partial
ここで、どのセグメントにも共通に使用される単語は文書の内容の近さに影響を与えない。そこで、ベクトルの算出においては、各文書に特徴的な単語とそれ以外の単語のベクトルへの寄与に差を設けることが好ましい。例えば、tfidf(Term Frequency Inverse Document Frequency)法を使って重み付けを行う。これにより、セグメントの内容の近さの精度を向上することができる。どの文書にも同様に使われる単語の重み付けtfidfは小さく、文書によって使われる頻度が大きく異なる文書はtfidfが大きい。 Here, words commonly used for any segment do not affect the closeness of the content of the document. Therefore, in calculating the vector, it is preferable to provide a difference in the contribution of each word characteristic to each document to the vector of the other words. For example, weighting is performed using a tfidf (Term Frequency Inverse Document Frequency) method. Thereby, the precision of the closeness of the content of a segment can be improved. The word weight tfidf used in the same manner in any document is small, and the tfidf having a large frequency used by the document has a large tfidf.
抽出手順(S115)では、抽出部17が、一つの文書mを構成する各スコアPiを用いて当該文書と条件文との類似度を表す文書スコアXmを算出する。文書スコアXmの算出法は任意であり、ユーザ端末30が設定可能であることが好ましい。例えば、条件文と文書の各段落との類似度をベクトル空間モデルに基づき計算すると、文書mにおけるスコアPiの分布は、図3に示すように、完全一致を1とする分布関数となる。そこで、スコアPiのもっとも密度の高いスコアPiを文書スコアXmとしてもよいし、スコアPiの平均値を文書スコアXmとしてもよいし、スコアPiの最高値を文書スコアXmとしてもよいし、スコアPiのうちの予め定められたスコアの高い範囲のスコアPiを用いた比較値を文書スコアXmとしてもよい。当該比較値は、例えば、スコアPiの高い段落のうちの上位3段落のスコアの合計値である。この上位上位3段落は、ユーザ端末30が設定可能であることが好ましい。
In the extraction procedure (S115),
文書mのスコア値Pmは、一定のアルゴリズムに基づいて重み付けを行った上で算出することが好ましい。例えば、文書mのセグメントiの条件文に対するスコア値をSiとする。文書mのスコア値Pmは
Pm=ΣAi*Si (1)
と表される。Aiはセグメントiの重み付け係数である。
The score value P m of the document m is preferably calculated after weighting based on a certain algorithm. For example, let S i be the score value for the conditional sentence of segment i of document m. The score value P m of the document m is P m = ΣA i * S i (1)
It is expressed. A i is a weighting coefficient of segment i.
式(1)におけるAiについては、いろいろな考え方がある。具体的な例として、ここでは4つの場合を説明する。
(1)ピーク値を使用
最もスコア値の高いセグメントのみAi=1、他のセグメントに対してはAi=0と設定する。
(2)上位3セグメントを選択
スコア値の高い順に3セグメントのスコアを合計して文書スコアとする。
(3)一定スコア値以上のセグメントを選択
対象セグメントのスコアを合計して、文書スコアとする。
(4)スコア値の高いセグメントから順に重み付けを1/2にする。
Aik1=1,Aik2=1/2,Aik3=1/4,……..
There are various ways of thinking about A i in equation (1). As specific examples, four cases will be described here.
(1) Use peak value Set A i = 1 only for the segment with the highest score value, and A i = 0 for the other segments.
(2) Select the top three segments The scores of the three segments are totaled in descending order of score values to obtain the document score.
(3) Select segments with a certain score value or higher Total the scores of the target segments to obtain the document score.
(4) Weighting is halved in order from the segment with the highest score value.
A i k 1 = 1, A i k 2 = 1/2, A i k 3 = 1/4,. .
なお、セグメントの文章量の影響を避けるため、抽出したセグメントの合計文章量を規格化してもよい。すなわち、合計スコアを対象セグメントの合計文章量で割り算して比較してもよい。
以上の方法により、文書量によらず、条件文に近い内容を含む文書を抽出することが可能となる。
In order to avoid the influence of the segment text amount, the total text amount of the extracted segments may be normalized. That is, the total score may be divided and compared by the total sentence amount of the target segment.
By the above method, it is possible to extract a document including contents close to a conditional sentence regardless of the document amount.
図4に、文書スコアXmの分布D(X)の一例を示す。文書スコアPmが完全一致を1とする分布関数であるため、その分布D(X)も0〜1の分布関数となる。抽出部17は、文書スコアXmを用いて、複数の文書のなかから条件文と概念の近い文書を選択する。サーバ10は、選択した文書をユーザ端末30へ送信する。このとき、選択したセグメントのみをユーザ端末30へ送信してもよい。これにより、ユーザ端末30は、条件文と概念の近い部分を多く含む文書をユーザ端末30に提供することができる。
4 shows an example of the distribution D (X) of the document score X m. Since the document score P m is a distribution function with a perfect match of 1, the distribution D (X) is also a distribution function of 0 to 1. Extracting
文書の選択方法は任意であり、ユーザ端末30が設定可能であることが好ましい。例えば、あらかじめ定められた数や割合の文書を抽出する。類似度の高い上位10%の文書を抽出する場合、斜線で示すようなD(X>X0)の積分値=0.1を満足する文書mを抽出する。この抽出する数や割合はユーザ端末30が設定可能であることが好ましい。
The document selection method is arbitrary, and it is preferable that the
なお、部分スコア算出手順(S113)において、内容の近さの判定は、例えば、条件文に含まれる単語の有無に基づいて行ってもよい。条件文に単数の単語が含まれる場合は、セグメント毎に単語を含むか含まないかの2値で判定する。例えば、評価条件として、2語の単語「希土類」、「磁石」の場合を考える。希土類磁石に関する記述の場合、図5に示すように、両方の単語を含む段落のスコアPiを1、それ以外のスコアPiを0とする。文書m中の全ての段落のスコアの合計スコアを文書スコアXiとする。 In the partial score calculation procedure (S113), the determination of the closeness of the contents may be performed based on, for example, the presence or absence of a word included in the conditional sentence. When a single word is included in the conditional sentence, a determination is made based on a binary value indicating whether a word is included in each segment. For example, consider the case of two words “rare earth” and “magnet” as evaluation conditions. In the case of the description relating to the rare earth magnet, as shown in FIG. 5, the score P i of the paragraph including both words is set to 1, and the other scores P i are set to 0. A total score of scores of all paragraphs in the document m is set as a document score X i .
なお、本実施形態では、文書が文章である例について説明したが、本発明における文書はこれに限らない。文書が数値データ又はログデータを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、又は帰属先である。文書が顧客データを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、帰属先、又は年齢である。時間の単位は任意であり、例えば、秒単位であってもよいし、年単位であってもよい。 In the present embodiment, an example in which the document is a sentence has been described, but the document in the present invention is not limited to this. When the document includes numerical data or log data, the segment is, for example, time or time, region or place, or attribution. If the document includes customer data, the segment is, for example, time or time, region or location, attribution, or age. The unit of time is arbitrary, for example, it may be a second unit or a year unit.
また、文書が数値データ又はログデータを含む場合、ベクトル空間モデルに基づくベクトル化は以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、時刻di〜di+T(時間間隔T)の間における、ユーザtjのアクセス数をnijとする。時刻diはベクトルdi=(ni1,ni2,ni3,……)と表現できる。
文書がセンサーデータの場合、時刻di〜di+T(時間間隔T)の間における、センサーtjの出力数値をnijとする。時刻diはベクトルdi=(ni1,ni2,ni3,……)と表現できる。
文書が画像データの場合、画像diを周波数変換し、変換後の各周波数の成分tjの数値をnijとする。時刻diはベクトルdi=(ni1,ni2,ni3,……)と表現できる。
When the document includes numerical data or log data, vectorization based on the vector space model is performed as follows.
When the document is the access log data of the user in the online service, the number of accesses of the user t j between the times d i to d i + T (time interval T) is n ij . The time d i can be expressed as a vector d i = (n i1 , n i2 , n i3 ,...).
If the document is sensor data, between time d i ~d i + T (time interval T), the output value of the sensor t j and n ij. The time d i can be expressed as a vector d i = (n i1 , n i2 , n i3 ,...).
When the document is image data, the image d i is subjected to frequency conversion, and the numerical value of the component t j of each frequency after conversion is set to n ij . The time d i can be expressed as a vector d i = (n i1 , n i2 , n i3 ,...).
また、文書が数値データ又はログデータを含む場合、重み付けtfidfは以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、始終平均的にアクセスするユーザの重み付けtfidfは小さくなり、アクセスのムラの大きいユーザの重み付けtfidfは大きくなる。
文書がセンサーデータの場合、出力数値のあまり変化しないセンサーの重み付けtfidfは小さくなり、出力数値の変化の大きいセンサーの重み付けtfidfは大きくなる。
文書が画像データの場合、画像間で成分値のバラツキの小さい周波数の重み付けtfidfは小さくなり、画像間で成分値のバラツキの大きい周波数の重み付けtfidfは大きくなる。
When the document includes numerical data or log data, the weighting tfidf is performed as follows.
When the document is the access log data of the user in the online service, the weight tfidf of the user who accesses on average is small, and the weight tfidf of the user having large access unevenness is large.
When the document is sensor data, the sensor weight tfidf for which the output numerical value does not change much decreases, and the sensor weight tfidf for which the output numerical value changes greatly increases.
When the document is image data, the frequency weighting tfidf with a small component value variation between images is small, and the frequency weighting tfidf with a large component value variation between images is large.
(実施形態2)
図6に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、実施形態1の構成に加え、さらにマップ化部14を備える。
(Embodiment 2)
FIG. 6 shows a configuration example of the partial information extraction system according to this embodiment. The partial information extraction system according to the present embodiment further includes a
図7に、本実施形態に係る部分情報抽出システムのシーケンスを示す。本実施形態に係る部分情報抽出方法は、実施形態1で説明した抽出手順(S115)の後に、マップ化手順(S126)をさらに有する。サーバ10は、マップ化手順で作成したマップをユーザ端末30へ送信する(S127)。ユーザ端末30は、サーバ10から受信したマップを表示する(S128)。
FIG. 7 shows a sequence of the partial information extraction system according to this embodiment. The partial information extraction method according to the present embodiment further includes a mapping procedure (S126) after the extraction procedure (S115) described in the first embodiment. The
マップ化手順(S126)では、マップ化部14が、抽出部17の抽出した文書について、特徴ベクトルPi及び条件文ベクトルPkよって表される点を、概念の近さに応じてマップ上に配置する。
In the mapping procedure (S126), the
ここで、文書mの特徴ベクトルPmは、セグメントの特徴ベクトルPiを合成して得られる。合成の際、セグメントの重み付け係数Aiを考慮する。例えば、文書mの特徴ベクトルPmは
Pm=ΣAi*Pi (2)
と表される。文書特徴ベクトルPmを用いて抽出手順において抽出した文書群内の文書相互間の類似度を計算する。
Here, the feature vector P m of the document m is obtained by synthesizing the segment feature vectors P i . In the synthesis, the segment weighting factor A i is taken into account. For example, the feature vector P m of the document m is P m = ΣA i * P i (2)
It is expressed. To calculate the similarity between documents mutually in document set extracted in the extraction procedure using the document feature vector P m.
セグメントの内容が条件文に近いと、使用する単語の種類が類似するため、ベクトルの指し示す点は互いに近くに配置される。そこで、特徴ベクトル及び条件文ベクトル相互間の近さを計算し、ベクトル相互間の近さに基づいて、情報間の内容の近さすなわち「意味的距離」に基づくマップ化を行う。演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。得られた情報di相互間の内容の近さに基づいて、マップ化アルゴリズムを用いて図8に示すようなマップを作成することができる。 When the content of the segment is close to the conditional sentence, the types of words used are similar, and the points indicated by the vectors are arranged close to each other. Therefore, the closeness between the feature vectors and the conditional sentence vectors is calculated, and mapping based on the closeness of the contents between information, that is, the “semantic distance” is performed based on the closeness between the vectors. The calculation may be a distance between vectors, or an arbitrary calculation such as inner product or outer product. Based on the proximity of the contents between the information obtained d i each other can be created map as shown in FIG. 8 using the mapping algorithm.
本実施形態に係るシステムは、概念検索を用いてセグメントを抽出し、概念検索を用いて算出されたベクトルを用いて各セグメントの内容の分布をマップ化することができる。このため、条件文のどの単語に近いセグメントであるのかを分類した状態で表示することができる。 The system according to the present embodiment can extract segments using concept search, and map the distribution of the contents of each segment using a vector calculated using concept search. For this reason, it is possible to display in a state in which the word in the conditional sentence is close to the segment.
本発明は情報通信産業に適用することができる。 The present invention can be applied to the information communication industry.
10:サーバ
11:条件文取得部
15:部分スコア算出部
17:抽出部
14:マップ化部
20:ストレージ
30:ユーザ端末
10: server 11: conditional sentence acquisition unit 15: partial score calculation unit 17: extraction unit 14: mapping unit 20: storage 30: user terminal
Claims (8)
部分スコア算出部が、前記条件文を取得すると、前記条件文との類似度を、文書の各部分を構成するセグメント毎に数値化して当該セグメントのスコアとする部分スコア算出手順と、
抽出部が、一つの文書を構成する各セグメントのスコアを用いて、一定のアルゴリズムに基づいて重み付けを行った上で、当該文書と前記条件文との類似度を表す文書スコアを算出し、前記文書スコアを用いて、前記複数の文書のなかから前記条件文と概念の近い文書を選択する抽出手順と、
を順に有する文書抽出方法。 A document extraction method for extracting a document close to the concept of a conditional sentence from a plurality of documents,
When the partial score calculation unit obtains the conditional sentence, a partial score calculation procedure that quantifies the similarity with the conditional sentence for each segment constituting each part of the document and sets the score of the segment;
The extraction unit calculates the document score representing the similarity between the document and the conditional sentence after weighting based on a certain algorithm using the score of each segment constituting one document, An extraction procedure for selecting a document having a concept similar to the conditional sentence from the plurality of documents using a document score;
Document extraction method having in order.
請求項1又は2に記載の文書抽出方法。 In the extraction procedure, the highest value of the score included in one document is calculated for each document, and a document in a predetermined range having the highest highest value is extracted from the plurality of documents.
The document extraction method according to claim 1 or 2.
請求項1又は2に記載の文書抽出方法。 In the extraction procedure, a comparison value is calculated for each document using a score in a range of a predetermined score among the scores included in one document, and the comparison value is high among the plurality of documents. Extract documents in a predetermined range,
The document extraction method according to claim 1 or 2.
前記条件文を取得すると、前記条件文との類似度を、文書の各部分を構成するセグメント毎に数値化して当該セグメントのスコアとする部分スコア算出部と、
一つの文書を構成する各セグメントのスコアを用いて当該文書と前記条件文との類似度を表す文書スコアを算出し、前記文書スコアを用いて、前記複数の文書のなかから前記条件文と概念の近い文書を選択する抽出部と、
を備える文書抽出システム。 A document extraction system that extracts a document close to the concept of a conditional sentence from a plurality of documents,
When the conditional sentence is acquired, a similarity score with the conditional sentence is converted into a numerical value for each segment constituting each part of the document, and a partial score calculation unit that sets the score of the segment;
A document score representing the similarity between the document and the conditional sentence is calculated using the score of each segment constituting one document, and the conditional sentence and the concept are calculated from the plurality of documents using the document score. An extractor that selects documents close to each other,
A document extraction system comprising:
さらに備える請求項5に記載の文書抽出システム。 A feature vector of each segment is generated by using the weight of each segment of the document extracted by the extraction unit to generate a document feature vector of the document, and the document feature vector is used to generate a document feature vector of the document. A mapping unit that calculates the degree of similarity between the documents, and places the extracted document on the map according to the degree of similarity between the documents,
The document extraction system according to claim 5, further comprising:
請求項5又は6に記載の文書抽出システム。 The extraction unit calculates the highest value of the score included in one document for each document, and extracts a document in a predetermined range having the highest highest value from the plurality of documents.
The document extraction system according to claim 5 or 6.
請求項5又は6に記載の文書抽出システム。 The extraction unit calculates a comparison value for each document using a score in a range of a predetermined high score among the scores included in one document, and the comparison value is high among the plurality of documents. Extract documents in a predetermined range,
The document extraction system according to claim 5 or 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014082782A JP2015203961A (en) | 2014-04-14 | 2014-04-14 | document extraction system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014082782A JP2015203961A (en) | 2014-04-14 | 2014-04-14 | document extraction system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015203961A true JP2015203961A (en) | 2015-11-16 |
Family
ID=54597395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014082782A Pending JP2015203961A (en) | 2014-04-14 | 2014-04-14 | document extraction system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015203961A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110612524A (en) * | 2017-06-16 | 2019-12-24 | 日铁系统集成株式会社 | Information processing apparatus, information processing method, and program |
WO2020208693A1 (en) | 2019-04-08 | 2020-10-15 | 株式会社 AI Samurai | Document information evaluation device, document information evaluation method, and document information evaluation program |
WO2021245814A1 (en) * | 2020-06-02 | 2021-12-09 | 株式会社 AI Samurai | Document information evaluation device, document information evaluation method, and document information evaluation program |
JP6982347B1 (en) * | 2020-10-27 | 2021-12-17 | 和直 恩田 | Document extraction program in computer language processing, semantically similar document extraction method and language processing device |
WO2023112101A1 (en) * | 2021-12-13 | 2023-06-22 | ジーエイピー株式会社 | Non-transitory storage medium in which document extraction program for computer language process is stored, semantically similar document extraction method, and language processing device |
-
2014
- 2014-04-14 JP JP2014082782A patent/JP2015203961A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110612524A (en) * | 2017-06-16 | 2019-12-24 | 日铁系统集成株式会社 | Information processing apparatus, information processing method, and program |
CN110612524B (en) * | 2017-06-16 | 2023-11-10 | 日铁系统集成株式会社 | Information processing apparatus, information processing method, and recording medium |
WO2020208693A1 (en) | 2019-04-08 | 2020-10-15 | 株式会社 AI Samurai | Document information evaluation device, document information evaluation method, and document information evaluation program |
US11023721B2 (en) | 2019-04-08 | 2021-06-01 | Ai Samurai Inc. | Document information evaluating device, document information evaluating method, and document information evaluating program |
WO2021245814A1 (en) * | 2020-06-02 | 2021-12-09 | 株式会社 AI Samurai | Document information evaluation device, document information evaluation method, and document information evaluation program |
JP6982347B1 (en) * | 2020-10-27 | 2021-12-17 | 和直 恩田 | Document extraction program in computer language processing, semantically similar document extraction method and language processing device |
JP2022070720A (en) * | 2020-10-27 | 2022-05-13 | 和直 恩田 | Document extraction program in computer language processing, semantically similar document extraction method and language processing device |
WO2023112101A1 (en) * | 2021-12-13 | 2023-06-22 | ジーエイピー株式会社 | Non-transitory storage medium in which document extraction program for computer language process is stored, semantically similar document extraction method, and language processing device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9454602B2 (en) | Grouping semantically related natural language specifications of system requirements into clusters | |
US20180114136A1 (en) | Trend identification using multiple data sources and machine learning techniques | |
JP2015203961A (en) | document extraction system | |
US10055408B2 (en) | Method of extracting an important keyword and server performing the same | |
US20190065455A1 (en) | Intelligent form creation | |
CN111373386A (en) | Similarity index value calculation device, similarity search device, and similarity index value calculation program | |
JP2016062275A (en) | Extractor, and method and program for extraction | |
JP5256273B2 (en) | Intention extraction apparatus, method and program | |
JP2012243032A (en) | Information processing apparatus, information processing method, and program | |
CN112487181B (en) | Keyword determination method and related equipment | |
WO2015159702A1 (en) | Partial-information extraction system | |
JP2016162357A (en) | Analysis device and program of user's emotion to product | |
US20210224747A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
JP6100741B2 (en) | Extraction apparatus, extraction method and extraction program | |
US11106737B2 (en) | Method and apparatus for providing search recommendation information | |
JP7418781B2 (en) | Company similarity calculation server and company similarity calculation method | |
JP2022136506A (en) | Retrieval system, retrieval method, and program | |
JP2018018428A (en) | Information processing device and program | |
CN113191777A (en) | Risk identification method and device | |
JP2017076376A (en) | Calculation device, calculation method and calculation program | |
US11062333B2 (en) | Determining indices based on area-assigned data elements | |
JP6680725B2 (en) | Category selection device, advertisement distribution system, category selection method, and program | |
JP6007300B1 (en) | Calculation device, calculation method, and calculation program | |
JP5792871B1 (en) | Representative spot output method, representative spot output device, and representative spot output program | |
JP5761033B2 (en) | Document analysis apparatus, document analysis method, and program |