JP7024533B2 - Detection pattern evaluation model generation system, method and program - Google Patents
Detection pattern evaluation model generation system, method and program Download PDFInfo
- Publication number
- JP7024533B2 JP7024533B2 JP2018052266A JP2018052266A JP7024533B2 JP 7024533 B2 JP7024533 B2 JP 7024533B2 JP 2018052266 A JP2018052266 A JP 2018052266A JP 2018052266 A JP2018052266 A JP 2018052266A JP 7024533 B2 JP7024533 B2 JP 7024533B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- detection pattern
- character string
- named entity
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文書から固有表現を抽出するための検出パターンを評価するためのモデルを生成する検出パターン評価モデル生成システム、検出パターン評価モデル生成方法、および、検出パターン評価モデル生成プログラムに関する。 The present invention relates to a detection pattern evaluation model generation system for generating a model for evaluating a detection pattern for extracting a unique expression from a document, a detection pattern evaluation model generation method, and a detection pattern evaluation model generation program.
文書内に含まれている個人情報や機密情報、または、文書が秘文書であることを示す情報は、固有表現と呼ばれる。 Personal information and confidential information contained in a document, or information indicating that a document is a confidential document, is called a named entity.
文書から固有表現のみを検出する一般的な方法として、例えば、以下に示す第1の一般的な方法や、第2の一般的な方法が考えられる。 As a general method for detecting only a named entity from a document, for example, the first general method and the second general method shown below can be considered.
第1の一般的な方法は、固有表現の検出用のパターンルールや辞書を利用する方法である。 The first general method is to use a pattern rule or a dictionary for detecting named entity.
第2の一般的な方法は、形態素解析、および、解析用辞書に付与した属性を利用する方法である。 The second general method is a method of using morphological analysis and attributes assigned to the analysis dictionary.
また、文書内の特定のデータの有無を推定するための一般的な方法として、学習器を用いて、文書内の特定のデータの有無を推定する方法が考えられる。 Further, as a general method for estimating the presence / absence of specific data in a document, a method of estimating the presence / absence of specific data in a document using a learning device can be considered.
また、特許文献1には、固有表現抽出規則生成システムが記載されている。特許文献1に記載の固有表現抽出規則生成システムは、予め用意された訓練用文書から各単語を抽出し、各単語と訓練用文書に対応して予め用意された正解リストとに基づき、固有表現抽出用の規則を作成する。そして、固有表現抽出規則生成システムは、これらの規則を独立に訓練用文書に適用して、規則毎の固有表現抽出結果を求め、その適用結果で得られた固有表現と正解リストを比較し、規則の削除と修正を行う。
Further,
また、特許文献2には、抽出対象の文字列の集合を示す対象情報の入力を受け付け、対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、対象表現それぞれの所定距離以内に配置された単語である近傍語とを対象文書から抽出し、その近傍語それぞれの対象文書中の出現頻度、または、対象表現それぞれの対象文書中の座標に基づく教師なし学習を用いて、抽出対象語集合を得るためのフィルタを生成することが記載されている。
Further, in
近年、IT(Information Technology)社会の拡大に伴い、個人情報や機密情報を含む秘文書をコンピュータシステム上で扱う企業や団体が増えている。秘文書は、個人情報や機密情報を含まない一般文書と同一のコンピュータシステムで管理されることが多い。この場合、以下に示す理由から、秘文書の管理を徹底することは難しい。 In recent years, with the expansion of the IT (Information Technology) society, the number of companies and organizations that handle confidential documents including personal information and confidential information on computer systems is increasing. Confidential documents are often managed on the same computer system as general documents that do not contain personal or confidential information. In this case, it is difficult to thoroughly manage confidential documents for the following reasons.
第1の理由は、あるユーザの操作によって、秘文書が、本来格納されるべきでない記憶領域(例えば、誰でもアクセス可能な記憶領域や、非暗号化領域等)にコピーされたり、移動されたりした場合、管理者がそのことを検知することが難しいという理由である。 The first reason is that a secret document is copied or moved to a storage area that should not be stored (for example, a storage area accessible to anyone, an unencrypted area, etc.) by the operation of a certain user. If so, the reason is that it is difficult for the administrator to detect it.
第2の理由は、管理者が、定期的に特定領域に秘文書が格納されているか否かを確認する場合、1つ1つの文書の内容を手作業で確認する必要があり、文書が多量に存在する場合、そのような確認作業を行うことが現実的でないという理由である。また、そのような確認作業を行えたとしても、作業者が秘文書を見落とす可能性もある。 The second reason is that when the administrator periodically checks whether or not confidential documents are stored in a specific area, it is necessary to manually check the contents of each document, resulting in a large number of documents. The reason is that it is not practical to perform such confirmation work if it exists in. Moreover, even if such confirmation work can be performed, the worker may overlook the confidential document.
特定領域に秘文書が格納されているか否かを判定するために、前述の第1の一般的な方法や第2の一般的な方法を用いることが考えられる。しかし、前述の第1の一般的な方法や第2の一般的な方法を用いた場合、ルールに合致した情報が全て検出されてしまい、本来、固有情報でない情報まで検出されてしまうという問題がある。すなわち、固有情報が誤検出(主に過検出)されてしまい、秘文書が格納されているか否かを正確に確認することは困難である。 In order to determine whether or not the confidential document is stored in the specific area, it is conceivable to use the above-mentioned first general method or the second general method. However, when the above-mentioned first general method or second general method is used, there is a problem that all the information that matches the rules is detected, and even the information that is not originally unique information is detected. be. That is, the unique information is erroneously detected (mainly over-detected), and it is difficult to accurately confirm whether or not the confidential document is stored.
また、学習器を用いて文書内の特定のデータの有無を推定するという一般的な技術では、文書内にどのような固有情報が含まれているのかを把握できない。 In addition, a general technique of estimating the presence or absence of specific data in a document using a learning device cannot grasp what kind of unique information is contained in the document.
文書が与えられた場合、固有情報の過検出を防止するために、文書から固有表現を抽出するための検出パターンを、文書に応じて選択できるようにすることが好ましい。しかし、特許文献1に記載の技術では、与えられた文書に応じた固有表現抽出規則が得られるわけではない。
Given a document, it is preferable to be able to select a detection pattern for extracting named entities from the document in order to prevent over-detection of the unique information. However, the technique described in
そこで、本発明は、文書から固有表現を抽出するための複数の検出パターンのそれぞれが、与えられた文書から固有表現を抽出するのにどの程度適しているのかを評価することができるモデルを生成できる検出パターン評価モデル生成システム、検出パターン評価モデル生成方法、および、検出パターン評価モデル生成プログラムを提供することを目的とする。 Therefore, the present invention generates a model capable of evaluating how suitable each of a plurality of detection patterns for extracting an eigenexpression from a document is suitable for extracting an eigenexpression from a given document. It is an object of the present invention to provide a detection pattern evaluation model generation system, a detection pattern evaluation model generation method, and a detection pattern evaluation model generation program.
本発明による検出パターン評価モデル生成システムは、文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する抽出手段と、文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成するモデル生成手段とを備えることを特徴とする。 The detection pattern evaluation model generation system according to the present invention uses a plurality of detection patterns for extracting a unique expression from a document, and an extraction means for extracting a character string corresponding to the detection pattern from the document for each document, and a document. , The unique expression is extracted from the given document using the set of the set of the detection pattern and the judgment result of whether or not the character string extracted from the document based on the detection pattern corresponds to the proper expression as the teacher data. It is characterized by comprising a model generation means for generating a model for deriving the possibility of performing as a score for each detection pattern by machine learning.
また、本発明による検出パターン評価モデル生成方法は、コンピュータが、文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出し、文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成することを特徴とする。 Further, in the detection pattern evaluation model generation method according to the present invention, a computer uses a plurality of detection patterns for extracting a unique expression from a document, and extracts a character string corresponding to the detection pattern from the document for each document. A unique expression from a given document, with a set of sets of a document, a detection pattern, and a judgment result of whether or not a character string extracted from the document based on the detection pattern corresponds to a unique expression as teacher data. It is characterized in that a model for deriving the possibility of extracting the above as a score for each detection pattern is generated by machine learning.
また、本発明による検出パターン評価モデル生成プログラムは、コンピュータに、文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する抽出処理、および、文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成するモデル生成処理を実行させることを特徴とする。 Further, the detection pattern evaluation model generation program according to the present invention uses a plurality of detection patterns for extracting a unique expression from a document on a computer, and extracts a character string corresponding to the detection pattern from the document for each document. The set of the set of the processing, the document, the detection pattern, and the judgment result of whether or not the character string extracted from the document based on the detection pattern corresponds to the proper expression is given as the teacher data. It is characterized in that a model generation process generated by machine learning is executed to derive a model for deriving the possibility of extracting a unique expression from a document as a score for each detection pattern.
本発明によれば、文書から固有表現を抽出するための複数の検出パターンのそれぞれが、与えられた文書から固有表現を抽出するのにどの程度適しているのかを評価することができるモデルを生成できる。 According to the present invention, a model is generated that can evaluate how suitable each of a plurality of detection patterns for extracting a named entity from a document is suitable for extracting a named entity from a given document. can.
以下、本発明の実施形態を図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
以下に示す実施形態の検出パターン評価モデル生成システムは、文書から固有表現を抽出するための検出パターンを評価するためのモデルを、機械学習によって生成する。このモデルを生成するまでの処理を、モデル学習ステップと記す。また、以下に示す実施形態の検出パターン評価モデル生成システムは、モデル学習ステップの後、複数の検出パターンそれぞれについて、与えられた文書から固有情報を抽出する可能性を示すスコアを導出し、そのスコアに基づいて、与えられた文書に応じた検出パターンを上記の複数の検出パターンの中から選択する。さらに、検出パターン評価モデル生成システムは、選択した検出パターンを用いて、与えられた文書から文字列を抽出する。モデル学習ステップの後、検出パターンの中から選択して、選択した検出パターンを用いて、与えられた文書から文字列を抽出する処理を、実運用ステップと記す。 The detection pattern evaluation model generation system of the embodiment shown below generates a model for evaluating a detection pattern for extracting a named entity from a document by machine learning. The process up to the generation of this model is referred to as a model learning step. Further, the detection pattern evaluation model generation system of the embodiment shown below derives a score indicating the possibility of extracting unique information from a given document for each of a plurality of detection patterns after the model learning step, and the score is obtained. Based on, the detection pattern according to the given document is selected from the above-mentioned plurality of detection patterns. In addition, the detection pattern evaluation model generation system extracts a character string from a given document using the selected detection pattern. After the model learning step, the process of selecting from the detection patterns and extracting the character string from the given document using the selected detection pattern is referred to as an actual operation step.
図1は、本発明の実施形態の検出パターン評価モデル生成システムの構成例を示すブロック図である。本実施形態の検出パターン評価モデル生成システム1は、文書記憶部11と、検出パターン記憶部12と、抽出結果記憶部13と、教師データ記憶部14と、モデル記憶部15と、抽出部16と、モデル学習部17と、検出パターン選択部18とを備える。
FIG. 1 is a block diagram showing a configuration example of a detection pattern evaluation model generation system according to an embodiment of the present invention. The detection pattern evaluation
また、抽出部16は、文書取得部161と、情報抽出部162とを備える。モデル学習部17は、第1の前処理部171と、学習部172とを備える。検出パターン選択部18は、第2の前処理部181と、判定部182とを備える。
Further, the
検出パターン評価モデル生成システム1は、例えば、パーソナルコンピュータやサーバ等のコンピュータによって実現される。ただし、検出パターン評価モデル生成システム1が複数の装置によって実現されてもよい。例えば、抽出部16、モデル学習部17および検出パターン選択部18がそれぞれ、別々のコンピュータによって実現されてもよい。そして、文書記憶部11、検出パターン記憶部12、抽出結果記憶部13、教師データ記憶部14およびモデル記憶部15がそれぞれ、別々の外部ストレージによって実現されてもよい。以下の説明では、検出パターン評価モデル生成システム1が、1台のコンピュータによって実現される場合を例にして説明する。
The detection pattern evaluation
文書記憶部11は、複数の文書を記憶する記憶装置である。文書記憶部11は、検出パターンを評価するためのモデルの生成に用いられる複数の訓練用文書と、実運用ステップにおいて固有情報の抽出対象となる文書とをそれぞれ記憶する。実運用ステップにおいて固有情報の抽出対象となる文書の数は、1つであっても、複数であってもよい。なお、個々の文書には、予め、それぞれID(Identification)が定められている。以下、このIDを文書IDと記す。
The
文書記憶部11が文書を記憶する記憶領域は、例えば、共有領域である。
The storage area in which the
検出パターン記憶部12は、文書から固有表現を抽出するための検出パターンを記憶する記憶装置である。検出パターン記憶部12は、予め定められた複数個の検出パターンを記憶する。検出パターンは、正規表現形式で表されてもよいし、抽出しようとする固有表現そのもので表されていてもよい。また、各検出パターンは、検出パターン評価モデル生成システム1のユーザ(以下、単にユーザと記す。)によって手動で作成されてもよい。あるいは、各検出パターンは、検出パターンを作成するために用いる複数の文書から辞書等を利用して抽出した固有表現前後の単語を、形態素解析等の一般的技術を用いて抽出し、それらの単語から、正規表現で表される検出パターンを生成してもよい。このとき、固有表現種別単位で、重複する検出パターンを削除する。
The detection
固有表現種別は、検出パターンを用いて文書から抽出される固有表現の種別を表す。固有表現種別の例として、例えば、「氏名」、「住所」、「電話番号」、「メールアドレス」、「クレジットカード番号」、「マイナンバー」、「企業秘密」等が挙げられる。なお、「マイナンバー」とは、日本において国から国民に個別に割り当てらえる個人番号である。検出パターン記憶部12は、それぞれの固有表現種別も記憶する。
The named entity type represents the type of named entity extracted from the document using the detection pattern. Examples of unique expression types include "name", "address", "telephone number", "email address", "credit card number", "my number", "trade secret" and the like. In addition, "my number" is an individual number assigned individually from the country to the people in Japan. The detection
個々の検出パターンには、予め、それぞれIDが定められている。以下、このIDを、パターンIDと記す。また、個々の固有表現種別にも、予め、それぞれIDが定められている。以下、このIDを、固有表現種別IDと記す。 An ID is predetermined for each detection pattern. Hereinafter, this ID will be referred to as a pattern ID. In addition, IDs are also defined in advance for each named entity type. Hereinafter, this ID will be referred to as a named entity type ID.
図2は、検出パターン記憶部12が記憶する複数の検出パターンおよび複数の固有表現種別の例を示す模式図である。図2(a)は、検出パターン記憶部12が記憶する複数の検出パターンの例を示す。個々の検出パターンには、パターンIDと、その検出パターンに応じた固有表現種別IDが対応付けられている。図2(b)は、検出パターン記憶部12が記憶する複数の固有表現種別の例を示す。個々の固有表現種別には、固有表現種別IDが対応付けられている。
FIG. 2 is a schematic diagram showing an example of a plurality of detection patterns and a plurality of named entity types stored in the detection
同一の固有表現種別IDを有する同一の検出パターンが重複して存在することがないように、検出パターンは定められる。なお、固有表現種別IDが異なっていれば、同一の検出パターンが存在してもよく、検出パターン自体が同一であっても、固有表現種別IDが異なっていれば、異なる検出パターンとして扱う。 The detection pattern is defined so that the same detection pattern having the same named entity ID does not exist in duplicate. If the named entity IDs are different, the same detection pattern may exist, and even if the detection patterns themselves are the same, if the named entity IDs are different, they are treated as different detection patterns.
抽出結果記憶部13は、抽出部16が検出パターンを用いて、文書から抽出した文字列(抽出情報)を記憶する記憶装置である。図3は、抽出結果記憶部13が記憶する情報の例を示す模式図である。後述するように、抽出部16(より具体的には、情報抽出部162)は、検出パターンを用いて、文書から文字列を抽出する。抽出部16は、抽出した文字列毎に、検出IDを割り当て、抽出した文字列(抽出情報)と、検出IDと、その文字列が抽出された文書の文書IDと、その文字列の抽出に用いた検出パターンのパターンIDと、その検出パターンに対応する固有表現種別IDと、データフラグとを対応付けて、抽出結果記憶部13に記憶させる。図3は、このように抽出結果記憶部13に記憶された各レコードの例を示している。
The extraction
データフラグは、レコード(図3に示すように、検出IDと、データフラグと、文書IDと、パターンIDと、固有表現種別IDと、抽出された文字列とを含むレコード)が後述の教師データの作成に利用されたレコードであるのか、あるいは、実運用ステップで文字列が抽出されたことによって作成されたレコードであるのかを示すフラグである。以下、教師データの作成に利用されたレコードでは、データフラグを“0”に設定し、実運用ステップで文字列が抽出されたことによって作成されたレコードでは、データフラグを“1”に設定するものとする。ただし、データフラグの初期値はブランク(符号“-”で表す。)であるものとする。従って、モデル学習ステップにおいて、抽出部16が、検出パターンを用いて文書から文字列を検出し、図3に例示するレコードを抽出結果記憶部13に記憶させる場合、そのレコードのデータフラグの値を初期値“-”に設定する。
The data flag is a record (a record including a detection ID, a data flag, a document ID, a pattern ID, a unique expression type ID, and an extracted character string as shown in FIG. 3) as teacher data described later. It is a flag indicating whether it is a record used for creating the data or a record created by extracting a character string in the actual operation step. Hereinafter, in the record used for creating the teacher data, the data flag is set to "0", and in the record created by extracting the character string in the actual operation step, the data flag is set to "1". It shall be. However, it is assumed that the initial value of the data flag is blank (represented by the symbol "-"). Therefore, in the model learning step, when the
教師データの作成は、ユーザが行う。従って、教師データの作成に利用されたレコードのデータフラグの値を“0”に設定する動作は、ユーザが行う。 The user creates the teacher data. Therefore, the operation of setting the value of the data flag of the record used for creating the teacher data to "0" is performed by the user.
教師データ記憶部14は、検出パターン記憶部12に記憶されている各検出パターンを評価するためのモデルを機械学習によって生成する際に用いられる教師データを記憶する記憶装置である。図4は、教師データ記憶部14に記憶される教師データの例を示す模式図である。図4に示すように、教師データは、文書IDと、パターンIDと、正解フラグとの組の集合である。
The teacher
教師データに含まれる正解フラグについて説明する。抽出部16が検出パターンを用いて文書から抽出した文字列は、固有情報であるとは限らない。ユーザは、訓練用文書と検出パターン記憶部12に記憶されている検出パターンの組合せ毎に、文書IDと、パターンIDと、正解フラグとの組を定める。そして、ユーザは、その組毎に、組に含まれる文書IDおよびパターンIDを含む、抽出結果記憶部13に記憶されたレコードを確認し、そのレコードに含まれている文字列が固有情報であるか否かを判断する。正解フラグは、この判断結果を示している。また、ユーザは、そのレコードに含まれているデータフラグ(図3参照)の値を“0”に設定する。本実施形態では、ユーザは、抽出された文字列が固有情報でないと判断した場合、正解フラグを“0”に設定し、正解フラグを“0”に設定しなかった組の正解フラグの値を全て“1”に設定する場合を例にして説明する。すなわち、ユーザは、抽出された文字列が固有情報でないと判断した場合以外については、文字列が抽出され、その文字列が固有情報であるものとみなす場合を例にして説明する。
The correct answer flag included in the teacher data will be described. The character string extracted from the document by the
訓練用文書と検出パターン記憶部12に記憶されている検出パターンの組合せ毎に、文書IDと、パターンIDと、正解フラグとの組が定められるので、教師データにおいて、共通の文書IDを含む行の数は、検出パターンの数と同じ数だけ存在する。
Since the set of the document ID, the pattern ID, and the correct answer flag is determined for each combination of the training document and the detection pattern stored in the detection
モデル記憶部15は、検出パターン記憶部12に記憶されている各検出パターンを評価するためのモデルを記憶する記憶装置である。モデル学習部17が、教師データ記憶部14に記憶されている教師データを用いて、各検出パターンを評価するためのモデルを機械学習によって生成し、そのモデルをモデル記憶部15に記憶させる。より具体的には、モデル学習部17は、与えられた文書から固有情報を抽出する可能性を示すスコアを検出パターン毎に導出するモデルを生成し、そのモデルをモデル記憶部15に記憶させる。
The
抽出部16は、文書記憶部11から各文書を取得し、検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する。抽出部16について、より詳細に説明する。
The
前述のように、抽出部16は、文書取得部161と、情報抽出部162とを備える。
As described above, the
モデル学習ステップでは、文書取得部161は、モデルの生成に用いられる訓練用文書を、順次、文書記憶部11から取得する。そして、モデル学習ステップでは、情報抽出部162は、訓練用文書毎に、検出パターン記憶部12に記憶されている各検出パターンを用いて、検出パターンに該当する文字列を文書から抽出する。そして、情報抽出部162は、図3に例示するレコードを抽出結果記憶部13に記憶させる。
In the model learning step, the
また、実運用ステップでは、固有情報の抽出対象となる文書を、順次、文書記憶部11から取得する。そして、実運用ステップでは、情報抽出部162は、その文書毎に、検出パターン選択部18によって選択された検出パターンを用いて、検出パターンに該当する文字列を文書から抽出する。そして、抽出結果に応じたレコードを抽出結果記憶部13に記憶させる。実運用ステップでは、情報抽出部162は、レコードに含まれるデータフラグの値を“1”に設定する。
Further, in the actual operation step, the documents to be extracted of the unique information are sequentially acquired from the
モデル学習ステップでは、情報抽出部162は、文書に依存せずに、検出パターン記憶部12に記憶されている各検出パターンを用いて、文書から文字列を抽出する。これに対して、実運用ステップでは、文書から文字列を抽出する際に用いられる検出パターンは、文書に応じて、検出パターン選択部18によって選択される。
In the model learning step, the
モデル学習部17は、教師データ記憶部14に記憶されている教師データ(図4参照)に基づいて、与えられた文書から固有情報を抽出する可能性を示すスコアを検出パターン毎に導出するモデルを機械学習によって生成する。モデル学習部17について、より詳細に説明する。
The
前述のように、モデル学習部17は、第1の前処理部171と、学習部172とを備える。モデル学習部17(第1の前処理部171および学習部172)は、モデル学習ステップで動作する。
As described above, the
前述のように、教師データを作成する際には、訓練用文書と検出パターン記憶部12に記憶されている検出パターンの組合せ毎に、文書IDと、パターンIDと、正解フラグとの組が定められる。従って、教師データにおいて、共通の文書IDを含む行の数は、検出パターンの数と同じ数だけ存在する。検出パターン記憶部12に記憶されている検出パターンの数をk個とし、1番目の検出パターンからk番目の検出パターンまでの順序が、パターンID(図2(a)参照)によって定められているものとする。
As described above, when creating teacher data, a set of a document ID, a pattern ID, and a correct answer flag is determined for each combination of the training document and the detection pattern stored in the detection
第1の前処理部171は、訓練用文書の文書ID毎に、教師データに含まれているk行分のデータに基づいて、そのk行分のデータに応じたベクトルを生成する。このベクトルは、1番目の検出パターンからk番目の検出パターンまでのk個の検出パターンと一対一に対応するk個の要素を有するベクトルである。そして、第1の前処理部171は、上記のk行分のデータをそれぞれ参照して、i番目の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合(すなわち、i番目の検出パターンに対応する行において、正解フラグが“1”である場合)、i番目の検出パターンに対応するベクトルの要素の値を1とする。また、第1の前処理部171は、i番目の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合(すなわち、i番目の検出パターンに対応する行において、正解フラグが“0”である場合)、i番目の検出パターンに対応するベクトルの要素の値を0とする。ここで、iは、1からkまでの各整数である。
The
第1の前処理部171は、訓練用文書の文書ID毎に、上記のベクトルを定める。訓練用文書の文書ID毎に定められる上記のベクトルの要素の数は、いずれも、k個(検出パターン記憶部12に記憶されている検出パターンの数)である。
The
図5は、第1の前処理部171によって訓練用文書の文書ID毎に定められたベクトルの例を示す模式図である。
FIG. 5 is a schematic diagram showing an example of a vector defined for each document ID of the training document by the
また、第1の前処理部171は、訓練用文書の内容に応じたベクトルを、訓練用文書の文書ID毎に生成する。例えば、第1の前処理部171は、所定数の文字を含む文字列の種類と一対一に対応する要素を含むベクトルを、訓練用文書の内容に応じたベクトルとして用いてもよい。そして、第1の前処理部171は、訓練用文書に対して上記の所定数でN-gramを適用し、文字列の出現回数を、その文字列に対応する要素の値として設定することによって、1つの訓練用文書に応じたベクトルを定めてもよい。第1の前処理部171は、訓練用文書の文書ID毎に、上記のベクトルを定める。
Further, the
また、例えば、第1の前処理部171は、各種単語と一対一に対応する要素を含むベクトルを、訓練用文書の内容に応じたベクトルとして用いてもよい。そして、第1の前処理部171は、訓練用文書に対して形態素解析を行い、単語の出現回数を、その単語に対応する要素の値として設定することによって、1つの訓練用文書に応じたベクトルを定めてもよい。この場合も、第1の前処理部171は、訓練用文書の文書ID毎に、上記のベクトルを定める。
Further, for example, the
第1の前処理部171は、上記のように、訓練用文書の文書ID毎に、教師データに応じたベクトルを生成するとともに(図5参照)、訓練用文書の文書ID毎に、訓練用文書の内容に応じたベクトルを生成する。従って、第1の前処理部171は、訓練用文書の文書ID毎に、2種類のベクトルを生成することになる。
As described above, the
学習部172は、第1の前処理部171が訓練用文書の文書ID毎に生成したベクトルの各組を用いて、教師あり機械学習を行うことによって、スコア(与えられた文書から固有情報を抽出する可能性を示すスコア)を検出パターン毎に導出するモデルを生成する。学習部172は、教師あり機械学習として、ニューラルネットワークを用いた機械学習を行ってもよい。図6は、ニューラルネットワークを用いた機械学習を示す模式図である。なお、上記のスコアが高い検出パターンほど、文書から固有情報を抽出する可能性が高い。
The
学習部172は、生成したモデルをモデル記憶部15に記憶させる。
The
検出パターン選択部18は、実運用ステップで動作する。検出パターン選択部18は、実運用ステップで、固有情報の抽出対象となる文書毎に、文書に応じた検出パターンを選択する。より具体的には、検出パターン選択部18は、文書毎に、文書から固有情報を抽出する可能性が高い(換言すれば、文書から固有情報を抽出する際の有用性が高い)検出パターンを、検出パターン記憶部12に記憶されている各検出パターンの中から選択する。検出パターン選択部18について、より詳細に説明する。
The detection
前述のように、検出パターン選択部18は、第2の前処理部181と、判定部182とを備える。
As described above, the detection
第2の前処理部181は、固有情報の抽出対象となる文書毎に、文書の内容に応じたベクトルを生成する。この動作は、第1の前処理部171が、文書毎に、文書の内容に応じたベクトルを生成する動作と同様である。
The
例えば、第2の前処理部181は、所定数の文字を含む文字列の種類と一対一に対応する要素を含むベクトルを、文書の内容に応じたベクトルとして用いてもよい。そして、第2の前処理部181は、文書に対して上記の所定数でN-gramを適用し、文字列の出現回数を、その文字列に対応する要素の値として設定することによって、1つの文書に応じたベクトルを定めてもよい。第2の前処理部181は、与えられた文書毎に、上記のベクトルを定める。
For example, the
また、例えば、第2の前処理部181は、各種単語と一対一に対応する要素を含むベクトルを、文書の内容に応じたベクトルとして用いてもよい。そして、第2の前処理部181は、文書に対して形態素解析を行い、単語の出現回数を、その単語に対応する要素の値として設定することによって、1つの文書に応じたベクトルを定めてもよい。この場合も、第2の前処理部181は、与えられた文書毎に、上記のベクトルを定める。
Further, for example, the
判定部182は、モデル記憶部15からモデルを読み込む。そして、判定部182は、与えられた文書毎に、第2の前処理部181によって生成されたベクトル(文書の内容に応じたベクトル)をモデルに適用することによって、検出パターン記憶部12に記憶されている各検出パターンのスコアを導出する。このスコアが高い検出パターンほど、文書から固有情報を抽出する可能性が高い。判定部182は、与えられた文書毎に、検出パターン記憶部12に記憶されている各検出パターンの中から、スコアが閾値以上であるという条件を満たしている検出パターンを選択する。閾値は、予め、定数として定めておけばよい。
The
この結果、文書毎に、固有情報を抽出する可能性が高い検出パターンが選択される。 As a result, a detection pattern that is likely to extract unique information is selected for each document.
判定部182は、文書毎に、文書IDと選択した検出パターンのパターンIDとを対応付けた情報を、例えば、検出パターン記憶部12に記憶させる。図7は、文書毎に、文書IDと選択した検出パターンのパターンIDとを対応付けた情報の例を示す模式図である。なお、1つの文書に対して、判定部182によって選択される検出パターンは、1つとは限らず、2つ以上であってもよい。
The
情報抽出部162は、実運用ステップで、与えられた文書毎に検出パターンが選択された場合、文書に応じて選択された検出パターンを用いて、文書から文字列を抽出する。
When a detection pattern is selected for each given document in the actual operation step, the
抽出部16(文書取得部161および情報抽出部162)、モデル学習部17(第1の前処理部171および学習部172)、並びに、検出パターン選択部18(第2の前処理部181および判定部182)は、例えば、検出パターン評価モデル生成プログラムに従って動作するコンピュータのCPU(Central Processing Unit )によって実現される。この場合、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体から検出パターン評価モデル生成プログラムを読み込み、そのプログラムに従って、抽出部16(文書取得部161および情報抽出部162)、モデル学習部17(第1の前処理部171および学習部172)、並びに、検出パターン選択部18(第2の前処理部181および判定部182)として動作すればよい。
Extraction unit 16 (
次に、本発明の実施形態の処理経過について説明する。図8は、本発明の実施形態のモデル学習ステップの処理経過の例を示すフローチャートである。なお、文書記憶部11には、予め、複数の訓練用文書が記憶されているものとする。また、既に説明した事項に関しては、適宜、説明を省略する。
Next, the processing process of the embodiment of the present invention will be described. FIG. 8 is a flowchart showing an example of the processing progress of the model learning step of the embodiment of the present invention. It is assumed that a plurality of training documents are stored in advance in the
抽出部16は、訓練用文書毎に、次に説明するステップS101~S103の処理を行う。すなわち、抽出部16は、ステップS101~S103の処理を、訓練用文書の数分、繰り返す。
The
ステップS101において、文書取得部161は、未だ取得していない訓練用文書を1つ、文書記憶部11から取得する。
In step S101, the
次のステップS102において、情報抽出部162は、検出パターン記憶部12に記憶されている各検出パターンを用いて、検出パターンに該当する文字列を、ステップS101で取得された訓練用文書から抽出する。ステップS102において、情報抽出部162は、形態素解析等の一般的な技術を利用して、検出パターンに該当する文字列を、単語単位で抽出する。既に説明したように、検出パターン自体が同一であっても、固有表現種別IDが異なっていれば、異なる検出パターンとして扱う。
In the next step S102, the
次にステップS103において、情報抽出部162は、検出パターン記憶部12に記憶されている各検出パターンのうち、ステップS102で文字列を抽出することができた検出パターンに関して、それぞれ、レコード(図3に示すように、検出IDと、データフラグと、文書IDと、パターンIDと、固有表現種別IDと、抽出された文字列とを含むレコード)を作成し、抽出結果記憶部13に記憶させる。このとき、情報抽出部162は、データフラグの値を、初期値“-”に設定する。情報抽出部162は、検出IDの値を、新たに抽出された文字列毎に割り当てる(換言すれば、新たなレコード毎に割り当てる)。文書IDの値は、ステップS101で取得された訓練用文書の文書IDの値である。パターンIDの値は、文字列を抽出した検出パターンのパターンIDの値であり、固有表現種別IDの値は、その検出パターンに対応する固有表現種別IDの値である。
Next, in step S103, the
全ての訓練用文書についてステップS101~S103の処理を実行した後、ステップS104に移行する。 After executing the processes of steps S101 to S103 for all the training documents, the process proceeds to step S104.
ステップS104において、ユーザは、正解フラグの値を設定し、教師データを作成する。ユーザは、訓練用文書と検出パターン記憶部12に記憶されている検出パターンの組合せ毎に、文書IDと、パターンIDと、正解フラグとの組を定める。このとき、ユーザは、その組毎に、組に含まれる文書IDおよびパターンIDを含む、抽出結果記憶部13に記憶されたレコードを確認し、そのレコードに含まれている文字列が固有情報であるか否かを判断する。そして、ユーザは、文字列が固有情報でないと判断した場合、正解フラグを“0”に設定し、正解フラグが“0”に設定しなかった組の正解フラグの値を全て“1”に設定する。また、ユーザは、抽出結果記憶部13に記憶されたレコードのうち、ステップS104で確認したレコードのデータフラグ(図3参照)の値を“0”に更新する。
In step S104, the user sets the value of the correct answer flag and creates the teacher data. The user determines a set of a document ID, a pattern ID, and a correct answer flag for each combination of the training document and the detection pattern stored in the detection
ユーザは、ステップS104で定めた文書IDと、パターンIDと、正解フラグとの組を教師データ記憶部14に記憶させる。
The user stores the set of the document ID, the pattern ID, and the correct answer flag defined in step S104 in the teacher
次に、第1の前処理部171は、学習部172による処理の前処理を実行する(ステップS105)。具体的には、訓練用文書の文書ID毎に、教師データに応じたベクトルを生成するとともに(図5参照)、訓練用文書の文書ID毎に、訓練用文書の内容に応じたベクトルを生成する。教師データに応じたベクトルを生成する方法については、既に説明したので、ここでは説明を省略する。また、訓練用文書の内容に応じたベクトルを生成する方法についても、既に説明したので、ここでは説明を省略する。
Next, the
ステップS105で、第1の前処理部171が訓練用文書の文書ID毎に2種類のベクトルを生成した後、学習部172は、ステップS105で訓練用文書の文書ID毎に生成されたベクトルの各組を用いて、教師あり機械学習を行うことによって、スコア(与えられた文書から固有情報を抽出する可能性を示すスコア)を検出パターン毎に導出するモデルを生成する(ステップS106)。例えば、機械学習に、ニューラルネットワークモデルを利用する場合、図6に示すように正解データ(教師データ)の結果が得られるように、学習部172は、誤差逆伝搬法等を用いて、モデルを生成する。
In step S105, after the
学習部172は、ステップS106で生成したモデルをモデル記憶部15に記憶させる(ステップS107)。ステップS107で、モデル学習ステップが終了する。
The
次に、実運用ステップの処理経過を説明する。図9は、本発明の実施形態の実運用ステップの処理経過の例を示すフローチャートである。なお、文書記憶部11には、予め、実運用ステップにおいて固有情報の抽出対象となる文書が記憶されているものとする。固有情報の抽出対象となる文書が文書記憶部11に記憶されているということは、固有情報の抽出対象となる文書が与えられていることを意味する。以下の説明において、既に説明した事項については、適宜、説明を省略する。
Next, the processing progress of the actual operation step will be described. FIG. 9 is a flowchart showing an example of the processing progress of the actual operation step of the embodiment of the present invention. It is assumed that the
実運用ステップにおいて固有情報の抽出対象となる文書を、以下、抽出対象文書と記す。 Documents for which unique information is to be extracted in the actual operation step are hereinafter referred to as extraction target documents.
検出パターン評価モデル生成システム1は、抽出対象文書毎に、次に説明するステップS201~S207の処理を行う。すなわち、検出パターン評価モデル生成システム1は、ステップS201~S207の処理を、抽出対象文書の数分、繰り返す。
The detection pattern evaluation
ステップS201において、文書取得部161は、未だ取得していない抽出対象文書を1つ、文書記憶部11から取得する。
In step S201, the
次のステップS202において、第2の前処理部181は、判定部182の処理の前処理を実行する。具体的には、第2の前処理部181は、ステップS201で取得された抽出対象文書の内容に応じたベクトルを生成する。第2の前処理部181が文書の内容に応じたベクトルを生成する方法については、既に説明したので、ここでは説明を省略する。
In the next step S202, the
次のステップS203において、判定部182は、モデル記憶部15からモデル(モデル学習ステップで生成されたモデル)を読み込み、ステップS202で生成されたベクトルをそのモデルに適用することによって、検出パターン記憶部12に記憶されている各検出パターンのスコアをそれぞれ導出する。従って、ステップS203では、判定部182は、抽出対象文書から固有情報を抽出する可能性を示すスコアを、それぞれの検出パターン毎に求めることになる。スコアが高い検出パターンほど、抽出対象文書から固有情報を抽出する可能性が高い。
In the next step S203, the
次のステップS204では、ステップS203で得られたスコアが閾値以上であるという条件を満たしている検出パターンを選択する。ステップS204で選択される検出パターンの数は1つとは限らず、2つ以上であってもよい。スコアが閾値以上であるという条件を満たしている検出パターンは、抽出対象文書から固有情報を抽出する可能性が高いと言える。すなわち、抽出対象文書から固有情報を抽出する際に有用な検出パターンであると言える。 In the next step S204, a detection pattern satisfying the condition that the score obtained in step S203 is equal to or higher than the threshold value is selected. The number of detection patterns selected in step S204 is not limited to one, and may be two or more. It can be said that a detection pattern that satisfies the condition that the score is equal to or higher than the threshold value has a high possibility of extracting unique information from the document to be extracted. That is, it can be said that it is a useful detection pattern when extracting unique information from the document to be extracted.
次のステップS205では、判定部182は、ステップS201で取得された抽出対象文書の文書IDと、ステップS204で選択した各検出パターンのパターンIDとを対応付けて、検出パターン記憶部12に記憶させる。
In the next step S205, the
次のステップS206では、情報抽出部162は、ステップS201で取得された抽出対象文書の文書IDに対応付けて検出パターン記憶部12に記憶されたパターンIDが示す各検出パターン(すなわち、ステップS204で判定部182が選択した各検出パターン)を、検出パターン記憶部12から読み込む。そして、情報抽出部162は、その各検出パターンに該当する文字列をそれぞれ、ステップS201で取得された抽出対象文書から抽出する。
In the next step S206, the
判定部182が選択した各検出パターンは、スコアが閾値以上であるという条件を満たしている検出パターンであり、ステップS201で取得された抽出対象文書から固有情報を抽出する可能性が高い検出パターンである。従って、ステップS206で抽出された文字列は、固有情報である可能性が高いと言える。
Each detection pattern selected by the
次のステップS207では、情報抽出部162は、ステップS206で用いた各検出パターンのうち、文字列を抽出することができた検出パターンに関して、それぞれ、レコード(図3に示すように、検出IDと、データフラグと、文書IDと、パターンIDと、固有表現種別IDと、抽出された文字列とを含むレコード)を作成し、抽出結果記憶部13に記憶させる。情報抽出部162は、ステップS207でレコードを作成する場合、データフラグの値を“1”に設定する。また、情報抽出部162は、検出IDの値を、新たに抽出された文字列毎に割り当てる。文書IDの値は、ステップS201で取得された抽出対象文書の文書IDである。パターンIDの値は、ステップS206で文字列を抽出した検出パターンのパターンIDの値であり、固有表現種別IDの値は、その検出パターンに対応する固有表現種別IDの値である。
In the next step S207, the
検出パターン評価モデル生成システム1は、全ての抽出対象文書についてステップS201~S207の処理を実行すると、実運用ステップを終了する。
The detection pattern evaluation
実運用ステップの終了後、ユーザは、抽出結果記憶部13に記憶されているレコードのうち、データフラグの値が“1”となっているレコードに含まれている文字列を、固有情報である可能性が高い文字列であると判断してよい。
After the end of the actual operation step, the user uses the character string included in the record whose data flag value is "1" among the records stored in the extraction
本実施形態によれば、モデル学習部17は、文書IDと、パターンIDと、正解フラグとの組の集合を教師データとして、与えられた文書から固有情報を抽出する可能性を示すスコアを、検出パターン記憶部12に記憶されている検出パターン毎に導出するためのモデルを、機械学習によって生成する。従って、本実施形態によれば、検出パターンのそれぞれが、与えられた文書から固有表現を抽出するのにどの程度適しているのかを評価することができるモデルを生成することができる。
According to the present embodiment, the
さらに、本実施形態によれば、検出パターン選択部18は、文書取得部161がステップS201で抽出対象文書を取得した場合、その抽出対象文書の内容に応じたベクトルを、モデル学習ステップで生成されたモデルに適用することによって、検出パターン毎にスコアを導出する。従って、そのスコアによって、その抽出対象文書から固有情報を抽出するために、個々の検出パターンがどの程度適しているのかを評価することができる。
Further, according to the present embodiment, when the
さらに、検出パターン選択部18は、検出パターン記憶部12に記憶されている各検出パターンの中から、スコアが閾値以上であるという条件を満たしている検出パターンを選択する。そして、情報抽出部162は、ステップS201で取得された抽出対象文書から、その選択パターンを用いて文字列を抽出する。従って、この文字列は固有情報である可能性が高い。従って、本来、固有情報でない文字列が多く検出されてしまうという過検出を抑え、固有情報である可能性が高い文字列を主に抽出することができる。
Further, the detection
また、検出パターン選択部18は、文書取得部161がステップS201で取得した抽出対象文書に応じて、検出パターンを選択する。従って、過検出を抑える効果を高めることができる。
Further, the detection
また、検出パターン選択部18(判定部182)は、ステップS205において、ステップS201で取得された抽出対象文書の文書IDと、ステップS204で選択した各検出パターンのパターンIDとを対応付けて、検出パターン記憶部12に記憶させる。従って、例えば、図7に例示する情報が検出パターン記憶部12に蓄積され、ユーザは、その情報を確認することによって、選択された検出パターンによって文字列が抽出されるロジックを確認することができる。
Further, in step S205, the detection pattern selection unit 18 (determination unit 182) detects the document ID of the extraction target document acquired in step S201 in association with the pattern ID of each detection pattern selected in step S204. It is stored in the
図10は、本発明の実施形態に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004とを備える。
FIG. 10 is a schematic block diagram showing a configuration example of a computer according to an embodiment of the present invention. The
本発明の実施形態の検出パターン評価モデル生成システム1は、コンピュータ1000に実装される。検出パターン評価モデル生成システム1の動作は、検出パターン評価モデル生成プログラムの形式で補助記憶装置1003に記憶されている。CPU1001は、その検出パターン評価モデル生成プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、その検出パターン評価モデル生成プログラムに従って、上記の実施形態で説明した処理を実行する。
The detection pattern evaluation
補助記憶装置1003は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disk Read Only Memory )、DVD-ROM(Digital Versatile Disk Read Only Memory )、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000がそのプログラムを主記憶装置1002に展開し、上記の処理を実行してもよい。
次に、本発明の概要について説明する。図11は、本発明の検出パターン評価モデル生成システムの概要を示すブロック図である。本発明の検出パターン評価モデル生成システムは、抽出手段91と、モデル生成手段92とを備える。 Next, the outline of the present invention will be described. FIG. 11 is a block diagram showing an outline of the detection pattern evaluation model generation system of the present invention. The detection pattern evaluation model generation system of the present invention includes an extraction means 91 and a model generation means 92.
抽出手段91(例えば、抽出部16)は、文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する。 The extraction means 91 (for example, the extraction unit 16) extracts a character string corresponding to the detection pattern from the document for each document by using a plurality of detection patterns for extracting the unique expression from the document.
モデル生成手段92(例えば、モデル学習部17)は、文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果(例えば、正解フラグ)との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成する。 The model generation means 92 (for example, the model learning unit 17) determines whether or not the document, the detection pattern, and the character string extracted from the document based on the detection pattern correspond to the named entity (for example,). Using the set of pairs with the correct answer flag) as teacher data, a model for deriving the possibility of extracting named entities from a given document as a score for each detection pattern is generated by machine learning.
そのような構成によって、文書から固有表現を抽出するための複数の検出パターンのそれぞれが、与えられた文書から固有表現を抽出するのにどの程度適しているのかを評価することができるモデルを生成できる。 Such a configuration produces a model that can evaluate how well each of the multiple detection patterns for extracting named entities from a document is suitable for extracting named entity from a given document. can.
また、固有表現の抽出対象となる文書が与えられた場合に、モデル生成手段92によって生成されたモデルを用いて、個々の検出パターン毎に、その文書から固有表現を抽出する可能性を示すスコアを導出し、スコアに基づいて、その文書から固有表現を抽出するために用いる検出パターンを選択する検出パターン選択手段(例えば、検出パターン選択部18)を備え、抽出手段91が、固有表現の抽出対象となる文書が与えられた場合に、検出パターン選択手段が選択した検出パターンを用いて、その文書から、検出パターンに該当する文字列を抽出する構成であってもよい。 Further, when a document to be extracted of the eigenexpression is given, a score indicating the possibility of extracting the eigenexpression from the document for each detection pattern using the model generated by the model generation means 92 is used. Is provided, and a detection pattern selection means (for example, a detection pattern selection unit 18) for selecting a detection pattern to be used for extracting a unique expression from the document based on the score is provided, and the extraction means 91 extracts the unique expression. When a target document is given, a character string corresponding to the detection pattern may be extracted from the document using the detection pattern selected by the detection pattern selection means.
また、モデル生成手段92が、教師データに基づいて、検出パターンと一対一に対応する要素を有するベクトルであって、一の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合にはその一の検出パターンに対応する要素の値を1とし、一の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合にはその一の検出パターンに対応する要素の値を0としたベクトルと、文書の内容に応じたベクトルとをそれぞれ、文書毎に作成し、文書毎に作成したベクトルの組を用いて、機械学習によってモデルを生成する構成であってもよい。 Further, it is determined that the model generation means 92 is a vector having an element having a one-to-one correspondence with the detection pattern based on the teacher data, and the character string extracted by one detection pattern corresponds to the named entity. In that case, the value of the element corresponding to the one detection pattern is set to 1, and when it is determined that the character string extracted by the one detection pattern does not correspond to the named entity, it corresponds to the one detection pattern. A vector in which the value of the element is 0 and a vector corresponding to the content of the document are created for each document, and a model is generated by machine learning using a set of vectors created for each document. May be good.
本発明は、文書から固有表現を抽出するための検出パターンを評価するためのモデルを生成する検出パターン評価モデル生成システムに好適に適用可能である。 INDUSTRIAL APPLICABILITY The present invention is suitably applicable to a detection pattern evaluation model generation system that generates a model for evaluating a detection pattern for extracting a named entity from a document.
1 検出パターン評価モデル生成システム
11 文書記憶部
12 検出パターン記憶部
13 抽出結果記憶部
14 教師データ記憶部
15 モデル記憶部
16 抽出部
17 モデル学習部
18 検出パターン選択部
161 文書取得部
162 情報抽出部
171 第1の前処理部
172 学習部
181 第2の前処理部
182 判定部
1 Detection pattern evaluation
Claims (9)
文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成するモデル生成手段とを備える
ことを特徴とする検出パターン評価モデル生成システム。 An extraction means for extracting a character string corresponding to a detection pattern from a document for each document using a plurality of detection patterns for extracting a named entity from a document.
A unique expression from a given document, with a set of sets of a document, a detection pattern, and a judgment result of whether or not a character string extracted from the document based on the detection pattern corresponds to a unique expression as teacher data. A detection pattern evaluation model generation system characterized by having a model generation means for generating a model for deriving the possibility of extracting the data as a score for each detection pattern by machine learning.
抽出手段は、
固有表現の抽出対象となる前記文書が与えられた場合に、前記検出パターン選択手段が選択した検出パターンを用いて、前記文書から、前記検出パターンに該当する文字列を抽出する
請求項1に記載の検出パターン評価モデル生成システム。 Given a document to extract named entities, a score indicating the possibility of extracting named entity from the document is derived for each detection pattern using the model generated by the model generation means. , A detection pattern selection means for selecting a detection pattern used to extract a named entity from the document based on the score.
The extraction method is
The first aspect of claim 1 is to extract a character string corresponding to the detection pattern from the document by using the detection pattern selected by the detection pattern selection means when the document to be extracted of the named entity is given. Detection pattern evaluation model generation system.
教師データに基づいて、検出パターンと一対一に対応する要素を有するベクトルであって、一の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合には前記一の検出パターンに対応する要素の値を1とし、一の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合には前記一の検出パターンに対応する要素の値を0としたベクトルと、文書の内容に応じたベクトルとをそれぞれ、文書毎に作成し、
文書毎に作成したベクトルの組を用いて、機械学習によってモデルを生成する
請求項1または請求項2に記載の検出パターン評価モデル生成システム。 Model generation means
If it is a vector having an element having a one-to-one correspondence with the detection pattern based on the teacher data and it is determined that the character string extracted by one detection pattern corresponds to the unique expression, the one detection pattern is described above. A vector in which the value of the element corresponding to 1 is set to 1, and the value of the element corresponding to the 1 detection pattern is set to 0 when it is determined that the character string extracted by one detection pattern does not correspond to the unique expression. And a vector according to the contents of the document are created for each document.
The detection pattern evaluation model generation system according to claim 1 or 2, wherein a model is generated by machine learning using a set of vectors created for each document.
文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出し、
文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成する
ことを特徴とする検出パターン評価モデル生成方法。 The computer
Using multiple detection patterns for extracting named entities from a document, the character string corresponding to the detection pattern is extracted from the document for each document.
A set of sets of a document, a detection pattern, and a judgment result of whether or not a character string extracted from the document based on the detection pattern corresponds to a unique expression is used as teacher data, and the named entity is expressed from a given document. A detection pattern evaluation model generation method characterized in that a model for deriving the possibility of extracting is generated as a score for each detection pattern by machine learning.
固有表現の抽出対象となる文書が与えられた場合に、
モデルを用いて、個々の検出パターン毎に、前記文書から固有表現を抽出する可能性を示すスコアを導出し、前記スコアに基づいて、前記文書から固有表現を抽出するために用いる検出パターンを選択し、
選択した前記検出パターンを用いて、前記文書から、前記検出パターンに該当する文字列を抽出する
請求項4に記載の検出パターン評価モデル生成方法。 The computer
Given the document to which the named entity is to be extracted,
Using the model, for each detection pattern, a score indicating the possibility of extracting the named entity from the document is derived, and based on the score, the detection pattern used to extract the named entity from the document is selected. death,
The detection pattern evaluation model generation method according to claim 4, wherein a character string corresponding to the detection pattern is extracted from the document using the selected detection pattern.
モデルを生成する場合に、
教師データに基づいて、検出パターンと一対一に対応する要素を有するベクトルであって、一の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合には前記一の検出パターンに対応する要素の値を1とし、一の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合には前記一の検出パターンに対応する要素の値を0としたベクトルと、文書の内容に応じたベクトルとをそれぞれ、文書毎に作成し、
文書毎に作成したベクトルの組を用いて、機械学習によってモデルを生成する
請求項4または請求項5に記載の検出パターン評価モデル生成方法。 The computer
When generating a model,
If it is a vector having an element having a one-to-one correspondence with the detection pattern based on the teacher data and it is determined that the character string extracted by one detection pattern corresponds to the unique expression, the one detection pattern is described above. A vector in which the value of the element corresponding to 1 is set to 1, and the value of the element corresponding to the 1 detection pattern is set to 0 when it is determined that the character string extracted by one detection pattern does not correspond to the unique expression. And a vector according to the contents of the document are created for each document.
The detection pattern evaluation model generation method according to claim 4 or 5, wherein a model is generated by machine learning using a set of vectors created for each document.
文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する抽出処理、および、
文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成するモデル生成処理
を実行させるための検出パターン評価モデル生成プログラム。 On the computer
Extraction processing that extracts the character string corresponding to the detection pattern from the document for each document using multiple detection patterns for extracting the named entity from the document, and
A set of pairs of a document, a detection pattern, and a judgment result of whether or not a character string extracted from the document based on the detection pattern corresponds to a named entity corresponds to a named entity as teacher data, and the named entity is represented from a given document. A detection pattern evaluation model generation program for executing a model generation process that generates a model by machine learning to derive the possibility of extracting the data as a score for each detection pattern.
固有表現の抽出対象となる文書が与えられた場合に、モデル生成処理で生成されたモデルを用いて、個々の検出パターン毎に、前記文書から固有表現を抽出する可能性を示すスコアを導出し、前記スコアに基づいて、前記文書から固有表現を抽出するために用いる検出パターンを選択する検出パターン選択処理、および、
固有表現の抽出対象となる前記文書が与えられた場合に、前記検出パターン選択処理で選択した検出パターンを用いて、前記文書から、前記検出パターンに該当する文字列を抽出する処理
を実行させる請求項7に記載の検出パターン評価モデル生成プログラム。 On the computer
Given a document to be extracted with named entity, the model generated by the model generation process is used to derive a score indicating the possibility of extracting named entity from the document for each detection pattern. , A detection pattern selection process that selects a detection pattern used to extract a named entity from the document based on the score, and
A claim to execute a process of extracting a character string corresponding to the detection pattern from the document using the detection pattern selected in the detection pattern selection process when the document to be extracted of the unique expression is given. Item 7. The detection pattern evaluation model generation program according to Item 7.
モデル生成処理で、
教師データに基づいて、検出パターンと一対一に対応する要素を有するベクトルであって、一の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合には前記一の検出パターンに対応する要素の値を1とし、一の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合には前記一の検出パターンに対応する要素の値を0としたベクトルと、文書の内容に応じたベクトルとをそれぞれ、文書毎に作成させ、
文書毎に作成したベクトルの組を用いて、機械学習によってモデルを生成させる
請求項7または請求項8に記載の検出パターン評価モデル生成プログラム。 On the computer
In the model generation process
If it is a vector having an element having a one-to-one correspondence with the detection pattern based on the teacher data and it is determined that the character string extracted by one detection pattern corresponds to the unique expression, the one detection pattern is described above. A vector in which the value of the element corresponding to 1 is set to 1, and the value of the element corresponding to the 1 detection pattern is set to 0 when it is determined that the character string extracted by one detection pattern does not correspond to the unique expression. And a vector according to the contents of the document are created for each document.
The detection pattern evaluation model generation program according to claim 7 or 8, wherein a model is generated by machine learning using a set of vectors created for each document.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018052266A JP7024533B2 (en) | 2018-03-20 | 2018-03-20 | Detection pattern evaluation model generation system, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018052266A JP7024533B2 (en) | 2018-03-20 | 2018-03-20 | Detection pattern evaluation model generation system, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019164609A JP2019164609A (en) | 2019-09-26 |
JP7024533B2 true JP7024533B2 (en) | 2022-02-24 |
Family
ID=68064600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018052266A Active JP7024533B2 (en) | 2018-03-20 | 2018-03-20 | Detection pattern evaluation model generation system, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7024533B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006023968A (en) | 2004-07-08 | 2006-01-26 | Hitachi Ltd | Unique expression extracting method and device and program to be used for the same |
JP2011113490A (en) | 2009-11-30 | 2011-06-09 | Nomura Research Institute Ltd | System and program for generating conversation summary |
-
2018
- 2018-03-20 JP JP2018052266A patent/JP7024533B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006023968A (en) | 2004-07-08 | 2006-01-26 | Hitachi Ltd | Unique expression extracting method and device and program to be used for the same |
JP2011113490A (en) | 2009-11-30 | 2011-06-09 | Nomura Research Institute Ltd | System and program for generating conversation summary |
Also Published As
Publication number | Publication date |
---|---|
JP2019164609A (en) | 2019-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200195667A1 (en) | Url attack detection method and apparatus, and electronic device | |
CN107025239B (en) | Sensitive word filtering method and device | |
US20090281791A1 (en) | Unified tagging of tokens for text normalization | |
US10528766B2 (en) | Techniques for masking electronic data | |
CN106599322A (en) | Data desensitization method and device | |
US8249399B2 (en) | Optical character recognition verification | |
WO2007139039A1 (en) | Information classification device, information classification method, and information classification program | |
JP4585925B2 (en) | Security design support method and support device | |
Zhu et al. | Fragile neural network watermarking with trigger image set | |
JP6768738B2 (en) | Training data generators, methods, and programs | |
Deepa et al. | Steganalysis on images based on the classification of image feature sets using SVM classifier | |
KR102031592B1 (en) | Method and apparatus for detecting the malware | |
JP7024533B2 (en) | Detection pattern evaluation model generation system, method and program | |
CN113343677A (en) | Intention identification method and device, electronic equipment and storage medium | |
CN110956170A (en) | Method, device, equipment and storage medium for generating passport machine-readable code sample | |
US20200019606A1 (en) | Expression recognition using character skipping | |
JP6604207B2 (en) | Relation information generation method, apparatus, and program | |
CN115017906A (en) | Method, device and storage medium for identifying entities in text | |
JP6535591B2 (en) | Image recognition apparatus and operation method of image recognition apparatus | |
JP2015052873A (en) | Method of automatically generating test data comprising character string, method of identifying signature embedded in test data comprising character string, and computer and computer program of these method | |
JP6123372B2 (en) | Information processing system, name identification method and program | |
CN113688240A (en) | Threat element extraction method, device, equipment and storage medium | |
JP7135730B2 (en) | Summary generation method and summary generation program | |
KR102576825B1 (en) | Document providing server that can provide by writing a summary report for disclosure based on the enterprise's report of audit and operating method thereof | |
KR101904901B1 (en) | Original data management method and apparatus using id issuance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220124 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7024533 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |