JP2015203961A - document extraction system - Google Patents

document extraction system Download PDF

Info

Publication number
JP2015203961A
JP2015203961A JP2014082782A JP2014082782A JP2015203961A JP 2015203961 A JP2015203961 A JP 2015203961A JP 2014082782 A JP2014082782 A JP 2014082782A JP 2014082782 A JP2014082782 A JP 2014082782A JP 2015203961 A JP2015203961 A JP 2015203961A
Authority
JP
Japan
Prior art keywords
document
score
documents
extraction
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014082782A
Other languages
Japanese (ja)
Inventor
佳男 高枝
Yoshio Takaeda
佳男 高枝
哲也 金田
Tetsuya Kaneda
哲也 金田
弘海 矢野
Hiromi Yano
弘海 矢野
康生 大原
Yasuo Ohara
康生 大原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOOR Inc
Cybernet Systems Co Ltd
Original Assignee
TOOR Inc
Cybernet Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TOOR Inc, Cybernet Systems Co Ltd filed Critical TOOR Inc
Priority to JP2014082782A priority Critical patent/JP2015203961A/en
Publication of JP2015203961A publication Critical patent/JP2015203961A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To enable extraction of a document depending on how many descriptions related to a concept that a conditional sentence owns are included in the document.SOLUTION: A document extraction method includes, in sequence, a partial score calculation procedure (S113) in which each document is divided into a plurality of predetermined segments when a conditional sentence is acquired and similarity to the conditional sentence is quantified for each segment to be a score of the segment, and an extraction procedure (S115) in which a document score is calculated representing similarity between the relevant document and the conditional sentence using the score of each segment constituting one sentence, and a document having a close concept to the conditional sentence is selected from among a plurality of documents using the document score.

Description

本発明は、複数の文書のなかから検索条件と類似の記載部分を多く含む文書を抽出する文書抽出システムに関する。   The present invention relates to a document extraction system for extracting a document including a large number of description parts similar to a search condition from a plurality of documents.

大量の文書のなかから、条件文に近い内容の文書を検索するシステムが提案されている(例えば、特許文献1参照。)。その方法としては、キーワードを使う方法と、単語の出現頻度をベースに特徴ベクトルを使う方法が代表的である。両方とも条件文との類似度をスコアとして何らかのアルゴリズムで数値化し、スコア値の高いものから順に抽出するのが一般的である。   There has been proposed a system for searching a document having a content close to a conditional sentence from a large number of documents (see, for example, Patent Document 1). As the method, a method using a keyword and a method using a feature vector based on the appearance frequency of words are representative. In both cases, the degree of similarity with a conditional sentence is generally converted into a numerical value by some algorithm and extracted in descending order of score value.

特開2013−30089号公報JP 2013-30089 A

しかし、いずれの方法を使っても、文書全体を対象とすると、文書の一部にしか条件文に近い内容が記述されない場合、内容的には条件文に極めて近い内容であっても、検索されない場合がある。これは、文書の大きさに、書籍のような広汎かつ大きな文書から、辞典の項目ように短くかつ端的な記述がされた小さな文書まであるためである。例えば、単純にスコアを計算すると、書籍のような文書の場合、条件文と内容的に大きく異なる記述であっても、文章量が多いためスコア値が高くなってしまうためである。これを防ぐために、スコアを文章量で割り算する方法がある。これによって、条件文とは内容が大きく異なり文章量が多い文書が抽出されることは防ぐことができる。しかしながら、大きな文章量で一部に条件文に非常に近い内容を含むような文書が抽出されないといった問題が新たに生じることになる。   However, no matter which method is used, if the entire document is targeted, if the content close to the conditional statement is described in only a part of the document, even if the content is very close to the conditional statement, it will not be searched There is a case. This is because the size of the document ranges from a wide and large document such as a book to a small document with a short and straightforward description such as a dictionary item. For example, when the score is simply calculated, in the case of a document such as a book, even if the description is significantly different from the conditional sentence, the score value becomes high due to the large amount of sentences. In order to prevent this, there is a method of dividing the score by the sentence amount. As a result, it is possible to prevent a document having a large amount of text from the conditional sentence and from being extracted. However, there arises a new problem that a document having a large amount of text and partly including a content very close to a conditional sentence cannot be extracted.

以上の問題を解決し、適格に条件文に近い記述を有する文書を抽出するために、発明者は、文書を形式的な部分(以下文書セグメントと呼ぶ)に分割し、セグメント毎にスコアを計算し、セグメント毎に一定の重み付けをして文書全体のスコア値として、有効文書の抽出を行うことが有効であることを見出した。   In order to solve the above problems and extract documents that have a description close to a conditional sentence, the inventor divides the document into formal parts (hereinafter referred to as document segments) and calculates a score for each segment. Then, it has been found that it is effective to extract a valid document as a score value of the entire document by giving a constant weight to each segment.

具体的には、本発明に係る文書抽出方法は、
複数の文書のなかから条件文の概念に近い文書を抽出する文書抽出方法であって、
部分スコア算出部が、前記条件文を取得すると、各文書を予め定められた複数のセグメントに分割し、前記条件文との類似度を前記セグメント毎に数値化して当該セグメントのスコアとする部分スコア算出手順と、
抽出部が、一つの文書を構成する各セグメントのスコアを用いて、一定のアルゴリズムに基づいて重み付けを行った上で、当該文書と前記条件文との類似度を表す文書スコアを算出し、前記文書スコアを用いて、前記複数の文書のなかから前記条件文と概念の近い文書を選択する抽出手順と、
を順に有する。
Specifically, the document extraction method according to the present invention includes:
A document extraction method for extracting a document close to the concept of a conditional sentence from a plurality of documents,
When the partial score calculation unit obtains the conditional sentence, the partial score is divided into a plurality of predetermined segments, and the degree of similarity with the conditional sentence is quantified for each segment to obtain the score of the segment Calculation procedure,
The extraction unit calculates the document score representing the similarity between the document and the conditional sentence after weighting based on a certain algorithm using the score of each segment constituting one document, An extraction procedure for selecting a document having a concept similar to the conditional sentence from the plurality of documents using a document score;
In order.

本発明に係る文書抽出方法では、マップ化部が、前記抽出手順において抽出した文書の各セグメントの重み付けを用いて各セグメントの特徴ベクトルを合成して当該文書の文書特徴ベクトルを生成し、前記文書特徴ベクトルを用いて前記抽出手順において抽出した文書群内の文書相互間の類似度を計算し、前記文書相互間の類似度に応じて、前記抽出手順において抽出した文書をマップ上に配置するマップ化手順を、前記抽出手順の後にさらに有していてもよい。   In the document extraction method according to the present invention, the mapping unit generates a document feature vector of the document by combining the feature vectors of the segments using the weights of the segments of the document extracted in the extraction procedure, and the document A map that calculates the similarity between documents in the document group extracted in the extraction procedure using a feature vector, and arranges the documents extracted in the extraction procedure on the map according to the similarity between the documents A conversion procedure may be further provided after the extraction procedure.

本発明に係る文書抽出方法では、前記抽出手順において、一つの文書に含まれる前記スコアの最高値を文書ごとに算出し、前記複数の文書のなかから前記最高値の高い予め定められた範囲の文書を抽出してもよい。   In the document extraction method according to the present invention, in the extraction procedure, the maximum value of the score included in one document is calculated for each document, and a predetermined range having a high maximum value is selected from the plurality of documents. A document may be extracted.

本発明に係る文書抽出方法では、前記抽出手順において、一つの文書に含まれる前記スコアのうちの予め定められたスコアの高い範囲のスコアを用いて比較値を文書ごとに算出し、前記複数の文書のなかから前記比較値の高い予め定められた範囲の文書を抽出してもよい。   In the document extraction method according to the present invention, in the extraction procedure, a comparison value is calculated for each document using a score in a high range of a predetermined score among the scores included in one document, A document in a predetermined range having a high comparison value may be extracted from the documents.

具体的には、本発明に係る文書抽出システムは、
複数の文書のなかから条件文の概念に近い文書を抽出する文書抽出システムであって、
前記条件文を取得すると、各文書を予め定められた複数のセグメントに分割し、前記条件文との類似度を前記セグメント毎に数値化して当該セグメントのスコアとする部分スコア算出部と、
一つの文書を構成する各セグメントのスコアを用いて当該文書と前記条件文との類似度を表す文書スコアを算出し、前記文書スコアを用いて、前記複数の文書のなかから前記条件文と概念の近い文書を選択する抽出部と、
を備える。
Specifically, the document extraction system according to the present invention is:
A document extraction system that extracts a document close to the concept of a conditional sentence from a plurality of documents,
When the conditional sentence is acquired, each document is divided into a plurality of predetermined segments, and a partial score calculation unit that quantifies the similarity with the conditional sentence for each segment and sets the score of the segment;
A document score representing the similarity between the document and the conditional sentence is calculated using the score of each segment constituting one document, and the conditional sentence and the concept are calculated from the plurality of documents using the document score. An extractor that selects documents close to each other,
Is provided.

本発明に係る文書抽出システムでは、前記抽出部の抽出した文書の各セグメントの重み付けを用いて各セグメントの特徴ベクトルを合成して当該文書の文書特徴ベクトルを生成し、前記文書特徴ベクトルを用いて前記抽出部の抽出した文書群内の文書相互間の類似度を計算し、前記文書相互間の類似度に応じて、前記抽出部の抽出した文書をマップ上に配置するマップ化部をさらに備えていてもよい。   In the document extraction system according to the present invention, a feature vector of each segment is generated by using the weight of each segment of the document extracted by the extraction unit to generate a document feature vector of the document, and the document feature vector is used. A mapping unit for calculating a similarity between documents in the document group extracted by the extraction unit and arranging the documents extracted by the extraction unit on a map according to the similarity between the documents; It may be.

本発明に係る文書抽出システムでは、前記抽出部は、一つの文書に含まれる前記スコアの最高値を文書ごとに算出し、前記複数の文書のなかから前記最高値の高い予め定められた範囲の文書を抽出してもよい。   In the document extraction system according to the present invention, the extraction unit calculates a maximum value of the score included in one document for each document, and has a predetermined range in which the maximum value is high among the plurality of documents. A document may be extracted.

本発明に係る文書抽出システムでは、前記抽出部は、一つの文書に含まれる前記スコアのうちの予め定められたスコアの高い範囲のスコアを用いて比較値を文書ごとに算出し、前記複数の文書のなかから前記比較値の高い予め定められた範囲の文書を抽出してもよい。   In the document extraction system according to the present invention, the extraction unit calculates a comparison value for each document using a score in a high range of a predetermined score among the scores included in one document, and A document in a predetermined range having a high comparison value may be extracted from the documents.

なお、上記各発明は、可能な限り組み合わせることができる。   The above inventions can be combined as much as possible.

本発明によれば、条件文の有する概念に関連する記載が文書にどの程度含まれるかによって文書を抽出可能にすることができる。   According to the present invention, it is possible to extract a document depending on how much description related to the concept of the conditional sentence is included in the document.

実施形態1に係る部分情報抽出システムの構成例を示す。The structural example of the partial information extraction system which concerns on Embodiment 1 is shown. 実施形態1に係る部分情報抽出システムのシーケンスを示す。The sequence of the partial information extraction system which concerns on Embodiment 1 is shown. ベクトル空間モデルを用いたスコアPの算出方法の一例を示す。An example of a method for calculating a score P k using a vector space model will be described. 文書スコアXの算出方法の一例を示す。An example of a method for calculating the document score X i will be described. キーワードの出現頻度を用いたスコアPの算出方法の一例を示す。An example of a method for calculating the score P k using the appearance frequency of the keyword will be shown. 実施形態2に係る部分情報抽出システムの構成例を示す。The structural example of the partial information extraction system which concerns on Embodiment 2 is shown. 実施形態2に係る部分情報抽出システムのシーケンスを示す。The sequence of the partial information extraction system which concerns on Embodiment 2 is shown. マップの一例を示す。An example of a map is shown.

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本発明は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited to embodiment shown below. These embodiments are merely examples, and the present invention can be implemented in various modifications and improvements based on the knowledge of those skilled in the art. In the present specification and drawings, the same reference numerals denote the same components.

(実施形態1)
図1に、本実施形態に係る文書抽出システムの構成例を示す。本実施形態に係る文書抽出システムは、サーバ10と、ストレージ20と、ユーザ端末30を備える。ストレージ20は、サーバ10からアクセス可能な任意の記憶媒体である。サーバ10及びユーザ端末30は、CPU(Central Processing Unit)及び記憶媒体などの計算機資源を備えたコンピュータであり、記憶媒体にはプログラムがインストールされている。サーバ10、ストレージ20及びユーザ端末30は、いずれも任意の数を採用しうるが、本実施形態では、サーバ10が1台、ストレージ20が2台、ユーザ端末30が1台の場合について示す。
(Embodiment 1)
FIG. 1 shows a configuration example of a document extraction system according to the present embodiment. The document extraction system according to this embodiment includes a server 10, a storage 20, and a user terminal 30. The storage 20 is an arbitrary storage medium accessible from the server 10. The server 10 and the user terminal 30 are computers having computer resources such as a CPU (Central Processing Unit) and a storage medium, and a program is installed in the storage medium. Any number of servers 10, storages 20, and user terminals 30 may be employed. In the present embodiment, a case where there is one server 10, two storages 20, and one user terminal 30 will be described.

ストレージ20は、文書を保持する。文書は、通信ネットワークを介して送受信される任意のデータを含み、例えば、文章、数値データ、ログデータ及び顧客情報を含む。文章は、例えば、特許、論文、書籍、レポート及びホームページが例示できる。数値データは、例えば、センサーデータ、測定データ、POS(Point Of Sales)データが例示できる。ログデータは、例えば、オンラインアクセスデータ、各種装置の状態データが例示できる。本実施形態では、一例として、文書が文章である場合について説明する。   The storage 20 holds a document. The document includes arbitrary data transmitted / received via a communication network, and includes, for example, text, numerical data, log data, and customer information. Examples of sentences include patents, papers, books, reports, and homepages. Examples of the numerical data include sensor data, measurement data, and POS (Point Of Sales) data. Examples of the log data include online access data and status data of various devices. In the present embodiment, a case where a document is a sentence will be described as an example.

図2に、本実施形態に係る部分情報抽出システムのシーケンスを示す。サーバ10は、ユーザ端末30から条件文を取得するステップS101の前に、セグメント毎に特徴ベクトルを生成する。例えば、サーバ10は、ストレージ20から文書を取得し、取得した文書をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する。各セグメントの特徴ベクトルは、ストレージ20に格納され、以後の類似度の計算に利用されることが好ましい。このとき、各セグメントの特徴ベクトルは、元の情報群とは別に2次的なストレージ20に格納することが好ましい。元の情報群は、計算ステージでは一切利用されず、最終段階で元の情報を表示する際にのみ、利用される。   FIG. 2 shows a sequence of the partial information extraction system according to this embodiment. The server 10 generates a feature vector for each segment before step S101 for acquiring a conditional statement from the user terminal 30. For example, the server 10 acquires a document from the storage 20, divides the acquired document into a plurality of predetermined segments, and generates a feature vector based on the vector space model based on the index for each segment. The feature vector of each segment is preferably stored in the storage 20 and used for the subsequent calculation of similarity. At this time, the feature vector of each segment is preferably stored in the secondary storage 20 separately from the original information group. The original information group is not used at all in the calculation stage, and is used only when displaying the original information in the final stage.

ユーザ端末30は、通信ネットワークを介して条件文を送信する(S101)。サーバ10は、ユーザ端末30から条件文を受信すると、ストレージ20から各セグメントの特徴ベクトルを取得し(S102)、取得したセグメントのスコアを算出し(S113)、セグメントのスコアを用いて文書と条件文との類似度を表す文書スコアを算出し、文書スコア用いて、条件文と概念の近い文書を抽出し(S115)、抽出結果をユーザ端末30へ送信する(S116)。ユーザ端末30は、サーバ10から受信した抽出結果を表示する(S117)。   The user terminal 30 transmits a conditional statement via the communication network (S101). Upon receiving the conditional statement from the user terminal 30, the server 10 acquires the feature vector of each segment from the storage 20 (S102), calculates the score of the acquired segment (S113), and uses the segment score to determine the document and the condition. A document score representing the degree of similarity with the sentence is calculated, a document having a concept similar to the conditional sentence is extracted using the document score (S115), and the extraction result is transmitted to the user terminal 30 (S116). The user terminal 30 displays the extraction result received from the server 10 (S117).

サーバ10は、通信ネットワークを介してユーザ端末30及びストレージ20と情報の送受信を行う通信機能部(不図示)と、文書を抽出するための構成を備える。文書を抽出するための構成は、例えば、条件文取得部11と、部分スコア算出部15と、抽出部17と、を備える。サーバ10は、コンピュータを、条件文取得部11、部分スコア算出部15及び抽出部17として機能させることで実現してもよい。この場合、サーバ10内のCPUが、記憶部(不図示)に記憶されたコンピュータプログラムを実行することで、各構成を実現する。   The server 10 includes a communication function unit (not shown) that transmits and receives information to and from the user terminal 30 and the storage 20 via a communication network, and a configuration for extracting a document. The configuration for extracting a document includes, for example, a conditional sentence acquisition unit 11, a partial score calculation unit 15, and an extraction unit 17. The server 10 may be realized by causing a computer to function as the conditional sentence acquisition unit 11, the partial score calculation unit 15, and the extraction unit 17. In this case, each configuration is realized by the CPU in the server 10 executing a computer program stored in a storage unit (not shown).

サーバ10は、文書を抽出するに際し、本実施形態に係る文書抽出方法を実行する。本実施形態に係る文書抽出方法は、部分スコア算出手順(S113)と、抽出手順(S115)と、を順に有する。   The server 10 executes the document extraction method according to the present embodiment when extracting a document. The document extraction method according to this embodiment includes a partial score calculation procedure (S113) and an extraction procedure (S115) in order.

部分スコア算出手順(S113)では、部分スコア算出部15が、条件文を取得すると、条件文との類似度を、文書の各部分を構成するセグメント毎に数値化して当該セグメントのスコアとする。文書が文章を含む場合、セグメントは、例えば、段落又は文である。段落の場合、例えば、改行を検出することで段落単位を識別する。文の場合、句点「。」又は「.」、疑問符「?」及び感嘆符「!」を検出することで単位文を識別する。本実施形態では、一例として、セグメントが段落である場合について説明する。   In the partial score calculation procedure (S113), when the partial score calculation unit 15 acquires the conditional sentence, the similarity with the conditional sentence is digitized for each segment constituting each part of the document to obtain the score of the segment. When the document includes a sentence, the segment is, for example, a paragraph or a sentence. In the case of paragraphs, for example, paragraph units are identified by detecting line breaks. In the case of a sentence, a unit sentence is identified by detecting a punctuation mark “.” Or “.”, A question mark “?”, And an exclamation mark “!”. In the present embodiment, as an example, a case where a segment is a paragraph will be described.

部分スコア算出手順(S113)では、部分スコア算出部15が、ベクトル空間モデルに基づきセグメントの概念を表す特徴ベクトルPをセグメントごとに算出する。例えば、ベクトル判定部12は、ベクトル空間モデルに基づき条件文d及びセグメントdをベクトル化し、条件文ベクトル及び特徴ベクトルを算出する。ここで、セグメントの概念を表す特徴ベクトルPは、条件文の取得前に予め算出しておいてもよい。このように、セグメントの特徴ベクトルPを条件文と独立にしておくことで、サーバ10の負荷を軽減するとともに、抽出結果の速やかなユーザ端末30への提供を行うことができる。 In the partial score calculation procedure (S113), the partial score calculation unit 15 calculates a feature vector P i representing the concept of the segment for each segment based on the vector space model. For example, the vector determination unit 12 vectorizes the conditional statement d k and the segment d i based on the vector space model, and calculates the conditional statement vector and the feature vector. Here, the feature vector P i representing the concept of the segment may be calculated in advance before acquiring the conditional sentence. Thus, by making the segment feature vector P i independent of the conditional statement, the load on the server 10 can be reduced and the extraction result can be promptly provided to the user terminal 30.

情報dが、要素tに対してマトリクス表記できる場合、情報dをベクトル空間モデルd=(t,t,t,……)で記述することができる。このため、条件文は、条件文に含まれる単語を要素とする条件文ベクトルで記述することができる。またセグメントも、セグメントに含まれる単語を要素とする特徴ベクトルで記述することができる。 When the information d i can be expressed in matrix with respect to the element t j , the information d i can be described by a vector space model d i = (t 1 , t 2 , t 3 ,...). For this reason, the conditional sentence can be described by a conditional sentence vector whose elements are words included in the conditional sentence. A segment can also be described by a feature vector whose elements are words included in the segment.

セグメントd中に出現する要素tの出現頻度をnijとすると、セグメントdは概念ベクトルd=(ni1,ni2,ni3,……)で表すことができる。例えば、セグメントdにおける単語t、t、tの出願回数がそれぞれ0、1、0であり、セグメントdにおける単語t、t、tの出願回数がそれぞれ2、1、0であり、セグメントdにおける単語t、t、tの出願回数がそれぞれ1、2、3である場合、セグメントの行列Mは以下のように表される。 When the frequency of occurrence of elements t j appearing in segment d i and n ij, segment d i concept vector d i = (n i1, n i2, n i3, ......) can be represented by. For example, the word t 1 in the segment d 1, application number of t 2, t 3 are 0,1,0 respectively, the words t 1 in the segment d 2, t 2, t 3 of the application number, respectively 2,1, 0, if the applicant number of words t 1, t 2, t 3 in the segment d 3 is 1, 2, and 3, respectively, the matrix M of the segment is expressed as follows.

Figure 2015203961
Figure 2015203961

部分スコア算出手順(S113)では、部分スコア算出部15が、特徴ベクトルと条件文の概念を表す条件文ベクトルとの類似度をセグメント毎に数値化して当該セグメントのスコアとする。例えば、セグメントdと条件文dの内容の近さは、特徴ベクトルdと条件文ベクトルdの演算によって数値化できる。数値化に用いる演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。 In the partial score calculation procedure (S113), the partial score calculation unit 15 quantifies the similarity between the feature vector and the conditional sentence vector representing the concept of the conditional sentence for each segment to obtain the score of the segment. For example, the closeness of the contents of the segment d i and the conditional statement d k can be quantified by calculating the feature vector d i and the conditional statement vector d k . The calculation used for digitization may be a distance between vectors, or an arbitrary calculation such as inner product or outer product.

ここで、どのセグメントにも共通に使用される単語は文書の内容の近さに影響を与えない。そこで、ベクトルの算出においては、各文書に特徴的な単語とそれ以外の単語のベクトルへの寄与に差を設けることが好ましい。例えば、tfidf(Term Frequency Inverse Document Frequency)法を使って重み付けを行う。これにより、セグメントの内容の近さの精度を向上することができる。どの文書にも同様に使われる単語の重み付けtfidfは小さく、文書によって使われる頻度が大きく異なる文書はtfidfが大きい。   Here, words commonly used for any segment do not affect the closeness of the content of the document. Therefore, in calculating the vector, it is preferable to provide a difference in the contribution of each word characteristic to each document to the vector of the other words. For example, weighting is performed using a tfidf (Term Frequency Inverse Document Frequency) method. Thereby, the precision of the closeness of the content of a segment can be improved. The word weight tfidf used in the same manner in any document is small, and the tfidf having a large frequency used by the document has a large tfidf.

抽出手順(S115)では、抽出部17が、一つの文書mを構成する各スコアPを用いて当該文書と条件文との類似度を表す文書スコアXを算出する。文書スコアXの算出法は任意であり、ユーザ端末30が設定可能であることが好ましい。例えば、条件文と文書の各段落との類似度をベクトル空間モデルに基づき計算すると、文書mにおけるスコアPの分布は、図3に示すように、完全一致を1とする分布関数となる。そこで、スコアPのもっとも密度の高いスコアPを文書スコアXとしてもよいし、スコアPの平均値を文書スコアXとしてもよいし、スコアPの最高値を文書スコアXとしてもよいし、スコアPのうちの予め定められたスコアの高い範囲のスコアPを用いた比較値を文書スコアXとしてもよい。当該比較値は、例えば、スコアPの高い段落のうちの上位3段落のスコアの合計値である。この上位上位3段落は、ユーザ端末30が設定可能であることが好ましい。 In the extraction procedure (S115), extraction unit 17 calculates the document score X m representing the similarity between the document and the conditional statement using the scores P i constituting one document m. Calculation of document score X m is arbitrary, it is preferable the user terminal 30 can be set. For example, when calculated based the similarity between conditional sentence and each paragraph of the document vector space model, the distribution of scores P i in the document m, as shown in FIG. 3, the distribution function for the exact match and 1. Therefore, the score the highest density score P i may be used as the document score X m of P i, to the average value of the score P i may document score X m, the maximum value document score X m of the score P i Alternatively, a comparison value using a score P i in a range having a predetermined high score among the scores P i may be used as the document score X m . The comparison value is, for example, is the sum of the scores of the top 3 paragraphs of high score P i paragraph. The upper three upper paragraphs are preferably settable by the user terminal 30.

文書mのスコア値Pは、一定のアルゴリズムに基づいて重み付けを行った上で算出することが好ましい。例えば、文書mのセグメントiの条件文に対するスコア値をSとする。文書mのスコア値P
=ΣAi*S(1)
と表される。Aiはセグメントiの重み付け係数である。
The score value P m of the document m is preferably calculated after weighting based on a certain algorithm. For example, let S i be the score value for the conditional sentence of segment i of document m. The score value P m of the document m is P m = ΣA i * S i (1)
It is expressed. A i is a weighting coefficient of segment i.

式(1)におけるAについては、いろいろな考え方がある。具体的な例として、ここでは4つの場合を説明する。
(1)ピーク値を使用
最もスコア値の高いセグメントのみA=1、他のセグメントに対してはA=0と設定する。
(2)上位3セグメントを選択
スコア値の高い順に3セグメントのスコアを合計して文書スコアとする。
(3)一定スコア値以上のセグメントを選択
対象セグメントのスコアを合計して、文書スコアとする。
(4)スコア値の高いセグメントから順に重み付けを1/2にする。
=1,A=1/2,A=1/4,……..
There are various ways of thinking about A i in equation (1). As specific examples, four cases will be described here.
(1) Use peak value Set A i = 1 only for the segment with the highest score value, and A i = 0 for the other segments.
(2) Select the top three segments The scores of the three segments are totaled in descending order of score values to obtain the document score.
(3) Select segments with a certain score value or higher Total the scores of the target segments to obtain the document score.
(4) Weighting is halved in order from the segment with the highest score value.
A i k 1 = 1, A i k 2 = 1/2, A i k 3 = 1/4,. .

なお、セグメントの文章量の影響を避けるため、抽出したセグメントの合計文章量を規格化してもよい。すなわち、合計スコアを対象セグメントの合計文章量で割り算して比較してもよい。
以上の方法により、文書量によらず、条件文に近い内容を含む文書を抽出することが可能となる。
In order to avoid the influence of the segment text amount, the total text amount of the extracted segments may be normalized. That is, the total score may be divided and compared by the total sentence amount of the target segment.
By the above method, it is possible to extract a document including contents close to a conditional sentence regardless of the document amount.

図4に、文書スコアXの分布D(X)の一例を示す。文書スコアPが完全一致を1とする分布関数であるため、その分布D(X)も0〜1の分布関数となる。抽出部17は、文書スコアXを用いて、複数の文書のなかから条件文と概念の近い文書を選択する。サーバ10は、選択した文書をユーザ端末30へ送信する。このとき、選択したセグメントのみをユーザ端末30へ送信してもよい。これにより、ユーザ端末30は、条件文と概念の近い部分を多く含む文書をユーザ端末30に提供することができる。 4 shows an example of the distribution D (X) of the document score X m. Since the document score P m is a distribution function with a perfect match of 1, the distribution D (X) is also a distribution function of 0 to 1. Extracting unit 17, using the document score X m, selects the document close to that of conditional statements and concepts from a plurality of documents. The server 10 transmits the selected document to the user terminal 30. At this time, only the selected segment may be transmitted to the user terminal 30. As a result, the user terminal 30 can provide the user terminal 30 with a document that includes many parts that are similar in concept to the conditional sentence.

文書の選択方法は任意であり、ユーザ端末30が設定可能であることが好ましい。例えば、あらかじめ定められた数や割合の文書を抽出する。類似度の高い上位10%の文書を抽出する場合、斜線で示すようなD(X>X)の積分値=0.1を満足する文書mを抽出する。この抽出する数や割合はユーザ端末30が設定可能であることが好ましい。 The document selection method is arbitrary, and it is preferable that the user terminal 30 can be set. For example, a predetermined number and ratio of documents are extracted. When extracting the top 10% documents having a high degree of similarity, a document m that satisfies the integral value of D (X> X 0 ) = 0.1 as indicated by the oblique lines is extracted. It is preferable that the user terminal 30 can set the number and ratio to extract.

なお、部分スコア算出手順(S113)において、内容の近さの判定は、例えば、条件文に含まれる単語の有無に基づいて行ってもよい。条件文に単数の単語が含まれる場合は、セグメント毎に単語を含むか含まないかの2値で判定する。例えば、評価条件として、2語の単語「希土類」、「磁石」の場合を考える。希土類磁石に関する記述の場合、図5に示すように、両方の単語を含む段落のスコアPを1、それ以外のスコアPを0とする。文書m中の全ての段落のスコアの合計スコアを文書スコアXとする。 In the partial score calculation procedure (S113), the determination of the closeness of the contents may be performed based on, for example, the presence or absence of a word included in the conditional sentence. When a single word is included in the conditional sentence, a determination is made based on a binary value indicating whether a word is included in each segment. For example, consider the case of two words “rare earth” and “magnet” as evaluation conditions. In the case of the description relating to the rare earth magnet, as shown in FIG. 5, the score P i of the paragraph including both words is set to 1, and the other scores P i are set to 0. A total score of scores of all paragraphs in the document m is set as a document score X i .

なお、本実施形態では、文書が文章である例について説明したが、本発明における文書はこれに限らない。文書が数値データ又はログデータを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、又は帰属先である。文書が顧客データを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、帰属先、又は年齢である。時間の単位は任意であり、例えば、秒単位であってもよいし、年単位であってもよい。   In the present embodiment, an example in which the document is a sentence has been described, but the document in the present invention is not limited to this. When the document includes numerical data or log data, the segment is, for example, time or time, region or place, or attribution. If the document includes customer data, the segment is, for example, time or time, region or location, attribution, or age. The unit of time is arbitrary, for example, it may be a second unit or a year unit.

また、文書が数値データ又はログデータを含む場合、ベクトル空間モデルに基づくベクトル化は以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、時刻d〜d+T(時間間隔T)の間における、ユーザtのアクセス数をnijとする。時刻dはベクトルd=(ni1,ni2,ni3,……)と表現できる。
文書がセンサーデータの場合、時刻d〜d+T(時間間隔T)の間における、センサーtの出力数値をnijとする。時刻dはベクトルd=(ni1,ni2,ni3,……)と表現できる。
文書が画像データの場合、画像dを周波数変換し、変換後の各周波数の成分tの数値をnijとする。時刻dはベクトルd=(ni1,ni2,ni3,……)と表現できる。
When the document includes numerical data or log data, vectorization based on the vector space model is performed as follows.
When the document is the access log data of the user in the online service, the number of accesses of the user t j between the times d i to d i + T (time interval T) is n ij . The time d i can be expressed as a vector d i = (n i1 , n i2 , n i3 ,...).
If the document is sensor data, between time d i ~d i + T (time interval T), the output value of the sensor t j and n ij. The time d i can be expressed as a vector d i = (n i1 , n i2 , n i3 ,...).
When the document is image data, the image d i is subjected to frequency conversion, and the numerical value of the component t j of each frequency after conversion is set to n ij . The time d i can be expressed as a vector d i = (n i1 , n i2 , n i3 ,...).

また、文書が数値データ又はログデータを含む場合、重み付けtfidfは以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、始終平均的にアクセスするユーザの重み付けtfidfは小さくなり、アクセスのムラの大きいユーザの重み付けtfidfは大きくなる。
文書がセンサーデータの場合、出力数値のあまり変化しないセンサーの重み付けtfidfは小さくなり、出力数値の変化の大きいセンサーの重み付けtfidfは大きくなる。
文書が画像データの場合、画像間で成分値のバラツキの小さい周波数の重み付けtfidfは小さくなり、画像間で成分値のバラツキの大きい周波数の重み付けtfidfは大きくなる。
When the document includes numerical data or log data, the weighting tfidf is performed as follows.
When the document is the access log data of the user in the online service, the weight tfidf of the user who accesses on average is small, and the weight tfidf of the user having large access unevenness is large.
When the document is sensor data, the sensor weight tfidf for which the output numerical value does not change much decreases, and the sensor weight tfidf for which the output numerical value changes greatly increases.
When the document is image data, the frequency weighting tfidf with a small component value variation between images is small, and the frequency weighting tfidf with a large component value variation between images is large.

(実施形態2)
図6に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、実施形態1の構成に加え、さらにマップ化部14を備える。
(Embodiment 2)
FIG. 6 shows a configuration example of the partial information extraction system according to this embodiment. The partial information extraction system according to the present embodiment further includes a mapping unit 14 in addition to the configuration of the first embodiment.

図7に、本実施形態に係る部分情報抽出システムのシーケンスを示す。本実施形態に係る部分情報抽出方法は、実施形態1で説明した抽出手順(S115)の後に、マップ化手順(S126)をさらに有する。サーバ10は、マップ化手順で作成したマップをユーザ端末30へ送信する(S127)。ユーザ端末30は、サーバ10から受信したマップを表示する(S128)。   FIG. 7 shows a sequence of the partial information extraction system according to this embodiment. The partial information extraction method according to the present embodiment further includes a mapping procedure (S126) after the extraction procedure (S115) described in the first embodiment. The server 10 transmits the map created by the mapping procedure to the user terminal 30 (S127). The user terminal 30 displays the map received from the server 10 (S128).

マップ化手順(S126)では、マップ化部14が、抽出部17の抽出した文書について、特徴ベクトルP及び条件文ベクトルPよって表される点を、概念の近さに応じてマップ上に配置する。 In the mapping procedure (S126), the mapping unit 14 places the points represented by the feature vector P i and the conditional statement vector P k on the map according to the closeness of the concept for the document extracted by the extraction unit 17. Deploy.

ここで、文書mの特徴ベクトルPは、セグメントの特徴ベクトルPを合成して得られる。合成の際、セグメントの重み付け係数Aiを考慮する。例えば、文書mの特徴ベクトルP
=ΣA*P(2)
と表される。文書特徴ベクトルPを用いて抽出手順において抽出した文書群内の文書相互間の類似度を計算する。
Here, the feature vector P m of the document m is obtained by synthesizing the segment feature vectors P i . In the synthesis, the segment weighting factor A i is taken into account. For example, the feature vector P m of the document m is P m = ΣA i * P i (2)
It is expressed. To calculate the similarity between documents mutually in document set extracted in the extraction procedure using the document feature vector P m.

セグメントの内容が条件文に近いと、使用する単語の種類が類似するため、ベクトルの指し示す点は互いに近くに配置される。そこで、特徴ベクトル及び条件文ベクトル相互間の近さを計算し、ベクトル相互間の近さに基づいて、情報間の内容の近さすなわち「意味的距離」に基づくマップ化を行う。演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。得られた情報d相互間の内容の近さに基づいて、マップ化アルゴリズムを用いて図8に示すようなマップを作成することができる。 When the content of the segment is close to the conditional sentence, the types of words used are similar, and the points indicated by the vectors are arranged close to each other. Therefore, the closeness between the feature vectors and the conditional sentence vectors is calculated, and mapping based on the closeness of the contents between information, that is, the “semantic distance” is performed based on the closeness between the vectors. The calculation may be a distance between vectors, or an arbitrary calculation such as inner product or outer product. Based on the proximity of the contents between the information obtained d i each other can be created map as shown in FIG. 8 using the mapping algorithm.

本実施形態に係るシステムは、概念検索を用いてセグメントを抽出し、概念検索を用いて算出されたベクトルを用いて各セグメントの内容の分布をマップ化することができる。このため、条件文のどの単語に近いセグメントであるのかを分類した状態で表示することができる。   The system according to the present embodiment can extract segments using concept search, and map the distribution of the contents of each segment using a vector calculated using concept search. For this reason, it is possible to display in a state in which the word in the conditional sentence is close to the segment.

本発明は情報通信産業に適用することができる。   The present invention can be applied to the information communication industry.

10:サーバ
11:条件文取得部
15:部分スコア算出部
17:抽出部
14:マップ化部
20:ストレージ
30:ユーザ端末
10: server 11: conditional sentence acquisition unit 15: partial score calculation unit 17: extraction unit 14: mapping unit 20: storage 30: user terminal

Claims (8)

複数の文書のなかから条件文の概念に近い文書を抽出する文書抽出方法であって、
部分スコア算出部が、前記条件文を取得すると、前記条件文との類似度を、文書の各部分を構成するセグメント毎に数値化して当該セグメントのスコアとする部分スコア算出手順と、
抽出部が、一つの文書を構成する各セグメントのスコアを用いて、一定のアルゴリズムに基づいて重み付けを行った上で、当該文書と前記条件文との類似度を表す文書スコアを算出し、前記文書スコアを用いて、前記複数の文書のなかから前記条件文と概念の近い文書を選択する抽出手順と、
を順に有する文書抽出方法。
A document extraction method for extracting a document close to the concept of a conditional sentence from a plurality of documents,
When the partial score calculation unit obtains the conditional sentence, a partial score calculation procedure that quantifies the similarity with the conditional sentence for each segment constituting each part of the document and sets the score of the segment;
The extraction unit calculates the document score representing the similarity between the document and the conditional sentence after weighting based on a certain algorithm using the score of each segment constituting one document, An extraction procedure for selecting a document having a concept similar to the conditional sentence from the plurality of documents using a document score;
Document extraction method having in order.
マップ化部が、前記抽出手順において抽出した文書の各セグメントの重み付けを用いて各セグメントの特徴ベクトルを合成して当該文書の文書特徴ベクトルを生成し、前記文書特徴ベクトルを用いて前記抽出手順において抽出した文書群内の文書相互間の類似度を計算し、前記文書相互間の類似度に応じて、前記抽出手順において抽出した文書をマップ上に配置するマップ化手順を、前記抽出手順の後にさらに有する請求項1に記載の文書抽出方法。   The mapping unit synthesizes the feature vectors of the segments using the weights of the segments of the document extracted in the extraction procedure to generate the document feature vectors of the document, and uses the document feature vectors in the extraction procedure. A mapping procedure for calculating the similarity between the documents in the extracted document group and arranging the document extracted in the extraction procedure on the map according to the similarity between the documents is performed after the extraction procedure. The document extracting method according to claim 1, further comprising: 前記抽出手順において、一つの文書に含まれる前記スコアの最高値を文書ごとに算出し、前記複数の文書のなかから前記最高値の高い予め定められた範囲の文書を抽出する、
請求項1又は2に記載の文書抽出方法。
In the extraction procedure, the highest value of the score included in one document is calculated for each document, and a document in a predetermined range having the highest highest value is extracted from the plurality of documents.
The document extraction method according to claim 1 or 2.
前記抽出手順において、一つの文書に含まれる前記スコアのうちの予め定められたスコアの高い範囲のスコアを用いて比較値を文書ごとに算出し、前記複数の文書のなかから前記比較値の高い予め定められた範囲の文書を抽出する、
請求項1又は2に記載の文書抽出方法。
In the extraction procedure, a comparison value is calculated for each document using a score in a range of a predetermined score among the scores included in one document, and the comparison value is high among the plurality of documents. Extract documents in a predetermined range,
The document extraction method according to claim 1 or 2.
複数の文書のなかから条件文の概念に近い文書を抽出する文書抽出システムであって、
前記条件文を取得すると、前記条件文との類似度を、文書の各部分を構成するセグメント毎に数値化して当該セグメントのスコアとする部分スコア算出部と、
一つの文書を構成する各セグメントのスコアを用いて当該文書と前記条件文との類似度を表す文書スコアを算出し、前記文書スコアを用いて、前記複数の文書のなかから前記条件文と概念の近い文書を選択する抽出部と、
を備える文書抽出システム。
A document extraction system that extracts a document close to the concept of a conditional sentence from a plurality of documents,
When the conditional sentence is acquired, a similarity score with the conditional sentence is converted into a numerical value for each segment constituting each part of the document, and a partial score calculation unit that sets the score of the segment;
A document score representing the similarity between the document and the conditional sentence is calculated using the score of each segment constituting one document, and the conditional sentence and the concept are calculated from the plurality of documents using the document score. An extractor that selects documents close to each other,
A document extraction system comprising:
前記抽出部の抽出した文書の各セグメントの重み付けを用いて各セグメントの特徴ベクトルを合成して当該文書の文書特徴ベクトルを生成し、前記文書特徴ベクトルを用いて前記抽出部の抽出した文書群内の文書相互間の類似度を計算し、前記文書相互間の類似度に応じて、前記抽出部の抽出した文書をマップ上に配置するマップ化部を、
さらに備える請求項5に記載の文書抽出システム。
A feature vector of each segment is generated by using the weight of each segment of the document extracted by the extraction unit to generate a document feature vector of the document, and the document feature vector is used to generate a document feature vector of the document. A mapping unit that calculates the degree of similarity between the documents, and places the extracted document on the map according to the degree of similarity between the documents,
The document extraction system according to claim 5, further comprising:
前記抽出部は、一つの文書に含まれる前記スコアの最高値を文書ごとに算出し、前記複数の文書のなかから前記最高値の高い予め定められた範囲の文書を抽出する、
請求項5又は6に記載の文書抽出システム。
The extraction unit calculates the highest value of the score included in one document for each document, and extracts a document in a predetermined range having the highest highest value from the plurality of documents.
The document extraction system according to claim 5 or 6.
前記抽出部は、一つの文書に含まれる前記スコアのうちの予め定められたスコアの高い範囲のスコアを用いて比較値を文書ごとに算出し、前記複数の文書のなかから前記比較値の高い予め定められた範囲の文書を抽出する、
請求項5又は6に記載の文書抽出システム。
The extraction unit calculates a comparison value for each document using a score in a range of a predetermined high score among the scores included in one document, and the comparison value is high among the plurality of documents. Extract documents in a predetermined range,
The document extraction system according to claim 5 or 6.
JP2014082782A 2014-04-14 2014-04-14 document extraction system Pending JP2015203961A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014082782A JP2015203961A (en) 2014-04-14 2014-04-14 document extraction system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014082782A JP2015203961A (en) 2014-04-14 2014-04-14 document extraction system

Publications (1)

Publication Number Publication Date
JP2015203961A true JP2015203961A (en) 2015-11-16

Family

ID=54597395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014082782A Pending JP2015203961A (en) 2014-04-14 2014-04-14 document extraction system

Country Status (1)

Country Link
JP (1) JP2015203961A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110612524A (en) * 2017-06-16 2019-12-24 日铁系统集成株式会社 Information processing apparatus, information processing method, and program
WO2020208693A1 (en) 2019-04-08 2020-10-15 株式会社 AI Samurai Document information evaluation device, document information evaluation method, and document information evaluation program
WO2021245814A1 (en) * 2020-06-02 2021-12-09 株式会社 AI Samurai Document information evaluation device, document information evaluation method, and document information evaluation program
JP6982347B1 (en) * 2020-10-27 2021-12-17 和直 恩田 Document extraction program in computer language processing, semantically similar document extraction method and language processing device
WO2023112101A1 (en) * 2021-12-13 2023-06-22 ジーエイピー株式会社 Non-transitory storage medium in which document extraction program for computer language process is stored, semantically similar document extraction method, and language processing device

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110612524A (en) * 2017-06-16 2019-12-24 日铁系统集成株式会社 Information processing apparatus, information processing method, and program
CN110612524B (en) * 2017-06-16 2023-11-10 日铁系统集成株式会社 Information processing apparatus, information processing method, and recording medium
WO2020208693A1 (en) 2019-04-08 2020-10-15 株式会社 AI Samurai Document information evaluation device, document information evaluation method, and document information evaluation program
US11023721B2 (en) 2019-04-08 2021-06-01 Ai Samurai Inc. Document information evaluating device, document information evaluating method, and document information evaluating program
WO2021245814A1 (en) * 2020-06-02 2021-12-09 株式会社 AI Samurai Document information evaluation device, document information evaluation method, and document information evaluation program
JP6982347B1 (en) * 2020-10-27 2021-12-17 和直 恩田 Document extraction program in computer language processing, semantically similar document extraction method and language processing device
JP2022070720A (en) * 2020-10-27 2022-05-13 和直 恩田 Document extraction program in computer language processing, semantically similar document extraction method and language processing device
WO2023112101A1 (en) * 2021-12-13 2023-06-22 ジーエイピー株式会社 Non-transitory storage medium in which document extraction program for computer language process is stored, semantically similar document extraction method, and language processing device

Similar Documents

Publication Publication Date Title
US9454602B2 (en) Grouping semantically related natural language specifications of system requirements into clusters
US20180114136A1 (en) Trend identification using multiple data sources and machine learning techniques
JP2015203961A (en) document extraction system
US10055408B2 (en) Method of extracting an important keyword and server performing the same
US20190065455A1 (en) Intelligent form creation
CN111373386A (en) Similarity index value calculation device, similarity search device, and similarity index value calculation program
JP2016062275A (en) Extractor, and method and program for extraction
JP5256273B2 (en) Intention extraction apparatus, method and program
JP2012243032A (en) Information processing apparatus, information processing method, and program
CN112487181B (en) Keyword determination method and related equipment
WO2015159702A1 (en) Partial-information extraction system
JP2016162357A (en) Analysis device and program of user's emotion to product
US20210224747A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP6100741B2 (en) Extraction apparatus, extraction method and extraction program
US11106737B2 (en) Method and apparatus for providing search recommendation information
JP7418781B2 (en) Company similarity calculation server and company similarity calculation method
JP2022136506A (en) Retrieval system, retrieval method, and program
JP2018018428A (en) Information processing device and program
CN113191777A (en) Risk identification method and device
JP2017076376A (en) Calculation device, calculation method and calculation program
US11062333B2 (en) Determining indices based on area-assigned data elements
JP6680725B2 (en) Category selection device, advertisement distribution system, category selection method, and program
JP6007300B1 (en) Calculation device, calculation method, and calculation program
JP5792871B1 (en) Representative spot output method, representative spot output device, and representative spot output program
JP5761033B2 (en) Document analysis apparatus, document analysis method, and program