JP7024533B2 - Detection pattern evaluation model generation system, method and program - Google Patents

Detection pattern evaluation model generation system, method and program Download PDF

Info

Publication number
JP7024533B2
JP7024533B2 JP2018052266A JP2018052266A JP7024533B2 JP 7024533 B2 JP7024533 B2 JP 7024533B2 JP 2018052266 A JP2018052266 A JP 2018052266A JP 2018052266 A JP2018052266 A JP 2018052266A JP 7024533 B2 JP7024533 B2 JP 7024533B2
Authority
JP
Japan
Prior art keywords
document
detection pattern
character string
named entity
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018052266A
Other languages
Japanese (ja)
Other versions
JP2019164609A (en
Inventor
裕貴 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2018052266A priority Critical patent/JP7024533B2/en
Publication of JP2019164609A publication Critical patent/JP2019164609A/en
Application granted granted Critical
Publication of JP7024533B2 publication Critical patent/JP7024533B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書から固有表現を抽出するための検出パターンを評価するためのモデルを生成する検出パターン評価モデル生成システム、検出パターン評価モデル生成方法、および、検出パターン評価モデル生成プログラムに関する。 The present invention relates to a detection pattern evaluation model generation system for generating a model for evaluating a detection pattern for extracting a unique expression from a document, a detection pattern evaluation model generation method, and a detection pattern evaluation model generation program.

文書内に含まれている個人情報や機密情報、または、文書が秘文書であることを示す情報は、固有表現と呼ばれる。 Personal information and confidential information contained in a document, or information indicating that a document is a confidential document, is called a named entity.

文書から固有表現のみを検出する一般的な方法として、例えば、以下に示す第1の一般的な方法や、第2の一般的な方法が考えられる。 As a general method for detecting only a named entity from a document, for example, the first general method and the second general method shown below can be considered.

第1の一般的な方法は、固有表現の検出用のパターンルールや辞書を利用する方法である。 The first general method is to use a pattern rule or a dictionary for detecting named entity.

第2の一般的な方法は、形態素解析、および、解析用辞書に付与した属性を利用する方法である。 The second general method is a method of using morphological analysis and attributes assigned to the analysis dictionary.

また、文書内の特定のデータの有無を推定するための一般的な方法として、学習器を用いて、文書内の特定のデータの有無を推定する方法が考えられる。 Further, as a general method for estimating the presence / absence of specific data in a document, a method of estimating the presence / absence of specific data in a document using a learning device can be considered.

また、特許文献1には、固有表現抽出規則生成システムが記載されている。特許文献1に記載の固有表現抽出規則生成システムは、予め用意された訓練用文書から各単語を抽出し、各単語と訓練用文書に対応して予め用意された正解リストとに基づき、固有表現抽出用の規則を作成する。そして、固有表現抽出規則生成システムは、これらの規則を独立に訓練用文書に適用して、規則毎の固有表現抽出結果を求め、その適用結果で得られた固有表現と正解リストを比較し、規則の削除と修正を行う。 Further, Patent Document 1 describes a named entity extraction rule generation system. The named entity extraction rule generation system described in Patent Document 1 extracts each word from a training document prepared in advance, and based on each word and a list of correct answers prepared in advance corresponding to the training document, the named entity is expressed. Create a rule for extraction. Then, the named entity extraction rule generation system independently applies these rules to the training document, obtains the named entity extraction result for each rule, compares the named entity obtained by the application result with the correct answer list, and then compares them. Delete and modify rules.

また、特許文献2には、抽出対象の文字列の集合を示す対象情報の入力を受け付け、対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、対象表現それぞれの所定距離以内に配置された単語である近傍語とを対象文書から抽出し、その近傍語それぞれの対象文書中の出現頻度、または、対象表現それぞれの対象文書中の座標に基づく教師なし学習を用いて、抽出対象語集合を得るためのフィルタを生成することが記載されている。 Further, in Patent Document 2, input of target information indicating a set of character strings to be extracted is accepted, and a target expression which is a character string matching any of the character strings included in the target information and a predetermined target expression are specified. Neighboring words, which are words placed within a distance, are extracted from the target document, and the frequency of appearance of each of the neighboring words in the target document or the coordinates in the target document of each target expression is used for unsupervised learning. , It is described that a filter for obtaining a set of words to be extracted is generated.

特開2001-318792号公報Japanese Unexamined Patent Publication No. 2001-318792 国際公開第WO2016/194054号International Publication No. WO2016 / 194054

近年、IT(Information Technology)社会の拡大に伴い、個人情報や機密情報を含む秘文書をコンピュータシステム上で扱う企業や団体が増えている。秘文書は、個人情報や機密情報を含まない一般文書と同一のコンピュータシステムで管理されることが多い。この場合、以下に示す理由から、秘文書の管理を徹底することは難しい。 In recent years, with the expansion of the IT (Information Technology) society, the number of companies and organizations that handle confidential documents including personal information and confidential information on computer systems is increasing. Confidential documents are often managed on the same computer system as general documents that do not contain personal or confidential information. In this case, it is difficult to thoroughly manage confidential documents for the following reasons.

第1の理由は、あるユーザの操作によって、秘文書が、本来格納されるべきでない記憶領域(例えば、誰でもアクセス可能な記憶領域や、非暗号化領域等)にコピーされたり、移動されたりした場合、管理者がそのことを検知することが難しいという理由である。 The first reason is that a secret document is copied or moved to a storage area that should not be stored (for example, a storage area accessible to anyone, an unencrypted area, etc.) by the operation of a certain user. If so, the reason is that it is difficult for the administrator to detect it.

第2の理由は、管理者が、定期的に特定領域に秘文書が格納されているか否かを確認する場合、1つ1つの文書の内容を手作業で確認する必要があり、文書が多量に存在する場合、そのような確認作業を行うことが現実的でないという理由である。また、そのような確認作業を行えたとしても、作業者が秘文書を見落とす可能性もある。 The second reason is that when the administrator periodically checks whether or not confidential documents are stored in a specific area, it is necessary to manually check the contents of each document, resulting in a large number of documents. The reason is that it is not practical to perform such confirmation work if it exists in. Moreover, even if such confirmation work can be performed, the worker may overlook the confidential document.

特定領域に秘文書が格納されているか否かを判定するために、前述の第1の一般的な方法や第2の一般的な方法を用いることが考えられる。しかし、前述の第1の一般的な方法や第2の一般的な方法を用いた場合、ルールに合致した情報が全て検出されてしまい、本来、固有情報でない情報まで検出されてしまうという問題がある。すなわち、固有情報が誤検出(主に過検出)されてしまい、秘文書が格納されているか否かを正確に確認することは困難である。 In order to determine whether or not the confidential document is stored in the specific area, it is conceivable to use the above-mentioned first general method or the second general method. However, when the above-mentioned first general method or second general method is used, there is a problem that all the information that matches the rules is detected, and even the information that is not originally unique information is detected. be. That is, the unique information is erroneously detected (mainly over-detected), and it is difficult to accurately confirm whether or not the confidential document is stored.

また、学習器を用いて文書内の特定のデータの有無を推定するという一般的な技術では、文書内にどのような固有情報が含まれているのかを把握できない。 In addition, a general technique of estimating the presence or absence of specific data in a document using a learning device cannot grasp what kind of unique information is contained in the document.

文書が与えられた場合、固有情報の過検出を防止するために、文書から固有表現を抽出するための検出パターンを、文書に応じて選択できるようにすることが好ましい。しかし、特許文献1に記載の技術では、与えられた文書に応じた固有表現抽出規則が得られるわけではない。 Given a document, it is preferable to be able to select a detection pattern for extracting named entities from the document in order to prevent over-detection of the unique information. However, the technique described in Patent Document 1 does not provide a named entity extraction rule according to a given document.

そこで、本発明は、文書から固有表現を抽出するための複数の検出パターンのそれぞれが、与えられた文書から固有表現を抽出するのにどの程度適しているのかを評価することができるモデルを生成できる検出パターン評価モデル生成システム、検出パターン評価モデル生成方法、および、検出パターン評価モデル生成プログラムを提供することを目的とする。 Therefore, the present invention generates a model capable of evaluating how suitable each of a plurality of detection patterns for extracting an eigenexpression from a document is suitable for extracting an eigenexpression from a given document. It is an object of the present invention to provide a detection pattern evaluation model generation system, a detection pattern evaluation model generation method, and a detection pattern evaluation model generation program.

本発明による検出パターン評価モデル生成システムは、文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する抽出手段と、文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成するモデル生成手段とを備えることを特徴とする。 The detection pattern evaluation model generation system according to the present invention uses a plurality of detection patterns for extracting a unique expression from a document, and an extraction means for extracting a character string corresponding to the detection pattern from the document for each document, and a document. , The unique expression is extracted from the given document using the set of the set of the detection pattern and the judgment result of whether or not the character string extracted from the document based on the detection pattern corresponds to the proper expression as the teacher data. It is characterized by comprising a model generation means for generating a model for deriving the possibility of performing as a score for each detection pattern by machine learning.

また、本発明による検出パターン評価モデル生成方法は、コンピュータが、文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出し、文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成することを特徴とする。 Further, in the detection pattern evaluation model generation method according to the present invention, a computer uses a plurality of detection patterns for extracting a unique expression from a document, and extracts a character string corresponding to the detection pattern from the document for each document. A unique expression from a given document, with a set of sets of a document, a detection pattern, and a judgment result of whether or not a character string extracted from the document based on the detection pattern corresponds to a unique expression as teacher data. It is characterized in that a model for deriving the possibility of extracting the above as a score for each detection pattern is generated by machine learning.

また、本発明による検出パターン評価モデル生成プログラムは、コンピュータに、文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する抽出処理、および、文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成するモデル生成処理を実行させることを特徴とする。 Further, the detection pattern evaluation model generation program according to the present invention uses a plurality of detection patterns for extracting a unique expression from a document on a computer, and extracts a character string corresponding to the detection pattern from the document for each document. The set of the set of the processing, the document, the detection pattern, and the judgment result of whether or not the character string extracted from the document based on the detection pattern corresponds to the proper expression is given as the teacher data. It is characterized in that a model generation process generated by machine learning is executed to derive a model for deriving the possibility of extracting a unique expression from a document as a score for each detection pattern.

本発明によれば、文書から固有表現を抽出するための複数の検出パターンのそれぞれが、与えられた文書から固有表現を抽出するのにどの程度適しているのかを評価することができるモデルを生成できる。 According to the present invention, a model is generated that can evaluate how suitable each of a plurality of detection patterns for extracting a named entity from a document is suitable for extracting a named entity from a given document. can.

本発明の実施形態の検出パターン評価モデル生成システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the detection pattern evaluation model generation system of embodiment of this invention. 検出パターン記憶部が記憶する複数の検出パターンおよび複数の固有表現種別の例を示す模式図である。It is a schematic diagram which shows the example of a plurality of detection patterns and a plurality of named entity types stored in a detection pattern storage unit. 抽出結果記憶部が記憶する情報の例を示す模式図である。It is a schematic diagram which shows the example of the information which the extraction result storage part stores. 教師データの例を示す模式図である。It is a schematic diagram which shows the example of the teacher data. 訓練用文書の文書ID毎に定められたベクトルの例を示す模式図である。It is a schematic diagram which shows the example of the vector defined for each document ID of a training document. ニューラルネットワークを用いた機械学習を示す模式図である。It is a schematic diagram which shows the machine learning using a neural network. 文書毎に、文書IDと選択した検出パターンのパターンIDとを対応付けた情報の例を示す模式図である。It is a schematic diagram which shows the example of the information which associated the document ID and the pattern ID of the selected detection pattern for each document. 本発明の実施形態のモデル学習ステップの処理経過の例を示すフローチャートである。It is a flowchart which shows the example of the processing progress of the model learning step of the embodiment of this invention. 本発明の実施形態の実運用ステップの処理経過の例を示すフローチャートである。It is a flowchart which shows the example of the processing progress of the actual operation step of the embodiment of this invention. 本発明の実施形態に係るコンピュータの構成例を示す概略ブロック図である。It is a schematic block diagram which shows the structural example of the computer which concerns on embodiment of this invention. 本発明の検出パターン評価モデル生成システムの概要を示すブロック図である。It is a block diagram which shows the outline of the detection pattern evaluation model generation system of this invention.

以下、本発明の実施形態を図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.

以下に示す実施形態の検出パターン評価モデル生成システムは、文書から固有表現を抽出するための検出パターンを評価するためのモデルを、機械学習によって生成する。このモデルを生成するまでの処理を、モデル学習ステップと記す。また、以下に示す実施形態の検出パターン評価モデル生成システムは、モデル学習ステップの後、複数の検出パターンそれぞれについて、与えられた文書から固有情報を抽出する可能性を示すスコアを導出し、そのスコアに基づいて、与えられた文書に応じた検出パターンを上記の複数の検出パターンの中から選択する。さらに、検出パターン評価モデル生成システムは、選択した検出パターンを用いて、与えられた文書から文字列を抽出する。モデル学習ステップの後、検出パターンの中から選択して、選択した検出パターンを用いて、与えられた文書から文字列を抽出する処理を、実運用ステップと記す。 The detection pattern evaluation model generation system of the embodiment shown below generates a model for evaluating a detection pattern for extracting a named entity from a document by machine learning. The process up to the generation of this model is referred to as a model learning step. Further, the detection pattern evaluation model generation system of the embodiment shown below derives a score indicating the possibility of extracting unique information from a given document for each of a plurality of detection patterns after the model learning step, and the score is obtained. Based on, the detection pattern according to the given document is selected from the above-mentioned plurality of detection patterns. In addition, the detection pattern evaluation model generation system extracts a character string from a given document using the selected detection pattern. After the model learning step, the process of selecting from the detection patterns and extracting the character string from the given document using the selected detection pattern is referred to as an actual operation step.

図1は、本発明の実施形態の検出パターン評価モデル生成システムの構成例を示すブロック図である。本実施形態の検出パターン評価モデル生成システム1は、文書記憶部11と、検出パターン記憶部12と、抽出結果記憶部13と、教師データ記憶部14と、モデル記憶部15と、抽出部16と、モデル学習部17と、検出パターン選択部18とを備える。 FIG. 1 is a block diagram showing a configuration example of a detection pattern evaluation model generation system according to an embodiment of the present invention. The detection pattern evaluation model generation system 1 of the present embodiment includes a document storage unit 11, a detection pattern storage unit 12, an extraction result storage unit 13, a teacher data storage unit 14, a model storage unit 15, and an extraction unit 16. , A model learning unit 17 and a detection pattern selection unit 18.

また、抽出部16は、文書取得部161と、情報抽出部162とを備える。モデル学習部17は、第1の前処理部171と、学習部172とを備える。検出パターン選択部18は、第2の前処理部181と、判定部182とを備える。 Further, the extraction unit 16 includes a document acquisition unit 161 and an information extraction unit 162. The model learning unit 17 includes a first preprocessing unit 171 and a learning unit 172. The detection pattern selection unit 18 includes a second preprocessing unit 181 and a determination unit 182.

検出パターン評価モデル生成システム1は、例えば、パーソナルコンピュータやサーバ等のコンピュータによって実現される。ただし、検出パターン評価モデル生成システム1が複数の装置によって実現されてもよい。例えば、抽出部16、モデル学習部17および検出パターン選択部18がそれぞれ、別々のコンピュータによって実現されてもよい。そして、文書記憶部11、検出パターン記憶部12、抽出結果記憶部13、教師データ記憶部14およびモデル記憶部15がそれぞれ、別々の外部ストレージによって実現されてもよい。以下の説明では、検出パターン評価モデル生成システム1が、1台のコンピュータによって実現される場合を例にして説明する。 The detection pattern evaluation model generation system 1 is realized by, for example, a computer such as a personal computer or a server. However, the detection pattern evaluation model generation system 1 may be realized by a plurality of devices. For example, the extraction unit 16, the model learning unit 17, and the detection pattern selection unit 18 may be realized by different computers. Then, the document storage unit 11, the detection pattern storage unit 12, the extraction result storage unit 13, the teacher data storage unit 14, and the model storage unit 15 may be realized by separate external storages, respectively. In the following description, a case where the detection pattern evaluation model generation system 1 is realized by one computer will be described as an example.

文書記憶部11は、複数の文書を記憶する記憶装置である。文書記憶部11は、検出パターンを評価するためのモデルの生成に用いられる複数の訓練用文書と、実運用ステップにおいて固有情報の抽出対象となる文書とをそれぞれ記憶する。実運用ステップにおいて固有情報の抽出対象となる文書の数は、1つであっても、複数であってもよい。なお、個々の文書には、予め、それぞれID(Identification)が定められている。以下、このIDを文書IDと記す。 The document storage unit 11 is a storage device that stores a plurality of documents. The document storage unit 11 stores a plurality of training documents used for generating a model for evaluating the detection pattern, and a document for which unique information is to be extracted in the actual operation step. The number of documents for which unique information is to be extracted in the actual operation step may be one or a plurality. An ID (Identification) is defined in advance for each document. Hereinafter, this ID is referred to as a document ID.

文書記憶部11が文書を記憶する記憶領域は、例えば、共有領域である。 The storage area in which the document storage unit 11 stores a document is, for example, a shared area.

検出パターン記憶部12は、文書から固有表現を抽出するための検出パターンを記憶する記憶装置である。検出パターン記憶部12は、予め定められた複数個の検出パターンを記憶する。検出パターンは、正規表現形式で表されてもよいし、抽出しようとする固有表現そのもので表されていてもよい。また、各検出パターンは、検出パターン評価モデル生成システム1のユーザ(以下、単にユーザと記す。)によって手動で作成されてもよい。あるいは、各検出パターンは、検出パターンを作成するために用いる複数の文書から辞書等を利用して抽出した固有表現前後の単語を、形態素解析等の一般的技術を用いて抽出し、それらの単語から、正規表現で表される検出パターンを生成してもよい。このとき、固有表現種別単位で、重複する検出パターンを削除する。 The detection pattern storage unit 12 is a storage device that stores a detection pattern for extracting a named entity from a document. The detection pattern storage unit 12 stores a plurality of predetermined detection patterns. The detection pattern may be represented in a regular expression format or may be represented by the named entity itself to be extracted. Further, each detection pattern may be manually created by a user of the detection pattern evaluation model generation system 1 (hereinafter, simply referred to as a user). Alternatively, for each detection pattern, words before and after the named entity extracted from a plurality of documents used to create the detection pattern using a dictionary or the like are extracted using a general technique such as morphological analysis, and those words are extracted. May generate a detection pattern represented by a regular expression. At this time, duplicate detection patterns are deleted for each named entity type.

固有表現種別は、検出パターンを用いて文書から抽出される固有表現の種別を表す。固有表現種別の例として、例えば、「氏名」、「住所」、「電話番号」、「メールアドレス」、「クレジットカード番号」、「マイナンバー」、「企業秘密」等が挙げられる。なお、「マイナンバー」とは、日本において国から国民に個別に割り当てらえる個人番号である。検出パターン記憶部12は、それぞれの固有表現種別も記憶する。 The named entity type represents the type of named entity extracted from the document using the detection pattern. Examples of unique expression types include "name", "address", "telephone number", "email address", "credit card number", "my number", "trade secret" and the like. In addition, "my number" is an individual number assigned individually from the country to the people in Japan. The detection pattern storage unit 12 also stores each named entity type.

個々の検出パターンには、予め、それぞれIDが定められている。以下、このIDを、パターンIDと記す。また、個々の固有表現種別にも、予め、それぞれIDが定められている。以下、このIDを、固有表現種別IDと記す。 An ID is predetermined for each detection pattern. Hereinafter, this ID will be referred to as a pattern ID. In addition, IDs are also defined in advance for each named entity type. Hereinafter, this ID will be referred to as a named entity type ID.

図2は、検出パターン記憶部12が記憶する複数の検出パターンおよび複数の固有表現種別の例を示す模式図である。図2(a)は、検出パターン記憶部12が記憶する複数の検出パターンの例を示す。個々の検出パターンには、パターンIDと、その検出パターンに応じた固有表現種別IDが対応付けられている。図2(b)は、検出パターン記憶部12が記憶する複数の固有表現種別の例を示す。個々の固有表現種別には、固有表現種別IDが対応付けられている。 FIG. 2 is a schematic diagram showing an example of a plurality of detection patterns and a plurality of named entity types stored in the detection pattern storage unit 12. FIG. 2A shows an example of a plurality of detection patterns stored in the detection pattern storage unit 12. Each detection pattern is associated with a pattern ID and a named entity ID corresponding to the detection pattern. FIG. 2B shows an example of a plurality of named entity types stored in the detection pattern storage unit 12. A named entity type ID is associated with each named entity type.

同一の固有表現種別IDを有する同一の検出パターンが重複して存在することがないように、検出パターンは定められる。なお、固有表現種別IDが異なっていれば、同一の検出パターンが存在してもよく、検出パターン自体が同一であっても、固有表現種別IDが異なっていれば、異なる検出パターンとして扱う。 The detection pattern is defined so that the same detection pattern having the same named entity ID does not exist in duplicate. If the named entity IDs are different, the same detection pattern may exist, and even if the detection patterns themselves are the same, if the named entity IDs are different, they are treated as different detection patterns.

抽出結果記憶部13は、抽出部16が検出パターンを用いて、文書から抽出した文字列(抽出情報)を記憶する記憶装置である。図3は、抽出結果記憶部13が記憶する情報の例を示す模式図である。後述するように、抽出部16(より具体的には、情報抽出部162)は、検出パターンを用いて、文書から文字列を抽出する。抽出部16は、抽出した文字列毎に、検出IDを割り当て、抽出した文字列(抽出情報)と、検出IDと、その文字列が抽出された文書の文書IDと、その文字列の抽出に用いた検出パターンのパターンIDと、その検出パターンに対応する固有表現種別IDと、データフラグとを対応付けて、抽出結果記憶部13に記憶させる。図3は、このように抽出結果記憶部13に記憶された各レコードの例を示している。 The extraction result storage unit 13 is a storage device that stores a character string (extraction information) extracted from a document by the extraction unit 16 using a detection pattern. FIG. 3 is a schematic diagram showing an example of information stored in the extraction result storage unit 13. As will be described later, the extraction unit 16 (more specifically, the information extraction unit 162) extracts a character string from the document using the detection pattern. The extraction unit 16 assigns a detection ID to each extracted character string, and extracts the extracted character string (extraction information), the detection ID, the document ID of the document from which the character string is extracted, and the character string. The pattern ID of the detection pattern used, the unique expression type ID corresponding to the detection pattern, and the data flag are associated with each other and stored in the extraction result storage unit 13. FIG. 3 shows an example of each record stored in the extraction result storage unit 13 in this way.

データフラグは、レコード(図3に示すように、検出IDと、データフラグと、文書IDと、パターンIDと、固有表現種別IDと、抽出された文字列とを含むレコード)が後述の教師データの作成に利用されたレコードであるのか、あるいは、実運用ステップで文字列が抽出されたことによって作成されたレコードであるのかを示すフラグである。以下、教師データの作成に利用されたレコードでは、データフラグを“0”に設定し、実運用ステップで文字列が抽出されたことによって作成されたレコードでは、データフラグを“1”に設定するものとする。ただし、データフラグの初期値はブランク(符号“-”で表す。)であるものとする。従って、モデル学習ステップにおいて、抽出部16が、検出パターンを用いて文書から文字列を検出し、図3に例示するレコードを抽出結果記憶部13に記憶させる場合、そのレコードのデータフラグの値を初期値“-”に設定する。 The data flag is a record (a record including a detection ID, a data flag, a document ID, a pattern ID, a unique expression type ID, and an extracted character string as shown in FIG. 3) as teacher data described later. It is a flag indicating whether it is a record used for creating the data or a record created by extracting a character string in the actual operation step. Hereinafter, in the record used for creating the teacher data, the data flag is set to "0", and in the record created by extracting the character string in the actual operation step, the data flag is set to "1". It shall be. However, it is assumed that the initial value of the data flag is blank (represented by the symbol "-"). Therefore, in the model learning step, when the extraction unit 16 detects a character string from the document using the detection pattern and stores the record illustrated in FIG. 3 in the extraction result storage unit 13, the value of the data flag of the record is stored. Set to the initial value "-".

教師データの作成は、ユーザが行う。従って、教師データの作成に利用されたレコードのデータフラグの値を“0”に設定する動作は、ユーザが行う。 The user creates the teacher data. Therefore, the operation of setting the value of the data flag of the record used for creating the teacher data to "0" is performed by the user.

教師データ記憶部14は、検出パターン記憶部12に記憶されている各検出パターンを評価するためのモデルを機械学習によって生成する際に用いられる教師データを記憶する記憶装置である。図4は、教師データ記憶部14に記憶される教師データの例を示す模式図である。図4に示すように、教師データは、文書IDと、パターンIDと、正解フラグとの組の集合である。 The teacher data storage unit 14 is a storage device that stores teacher data used when a model for evaluating each detection pattern stored in the detection pattern storage unit 12 is generated by machine learning. FIG. 4 is a schematic diagram showing an example of teacher data stored in the teacher data storage unit 14. As shown in FIG. 4, the teacher data is a set of a set of a document ID, a pattern ID, and a correct answer flag.

教師データに含まれる正解フラグについて説明する。抽出部16が検出パターンを用いて文書から抽出した文字列は、固有情報であるとは限らない。ユーザは、訓練用文書と検出パターン記憶部12に記憶されている検出パターンの組合せ毎に、文書IDと、パターンIDと、正解フラグとの組を定める。そして、ユーザは、その組毎に、組に含まれる文書IDおよびパターンIDを含む、抽出結果記憶部13に記憶されたレコードを確認し、そのレコードに含まれている文字列が固有情報であるか否かを判断する。正解フラグは、この判断結果を示している。また、ユーザは、そのレコードに含まれているデータフラグ(図3参照)の値を“0”に設定する。本実施形態では、ユーザは、抽出された文字列が固有情報でないと判断した場合、正解フラグを“0”に設定し、正解フラグを“0”に設定しなかった組の正解フラグの値を全て“1”に設定する場合を例にして説明する。すなわち、ユーザは、抽出された文字列が固有情報でないと判断した場合以外については、文字列が抽出され、その文字列が固有情報であるものとみなす場合を例にして説明する。 The correct answer flag included in the teacher data will be described. The character string extracted from the document by the extraction unit 16 using the detection pattern is not always unique information. The user determines a set of a document ID, a pattern ID, and a correct answer flag for each combination of the training document and the detection pattern stored in the detection pattern storage unit 12. Then, the user confirms the record stored in the extraction result storage unit 13 including the document ID and the pattern ID included in the set for each set, and the character string included in the record is the unique information. Judge whether or not. The correct answer flag indicates this judgment result. Further, the user sets the value of the data flag (see FIG. 3) included in the record to "0". In the present embodiment, when the user determines that the extracted character string is not unique information, the correct answer flag is set to "0", and the value of the correct answer flag of the set in which the correct answer flag is not set to "0" is set. An example of setting all to "1" will be described. That is, except when the user determines that the extracted character string is not unique information, the case where the character string is extracted and the character string is regarded as unique information will be described as an example.

訓練用文書と検出パターン記憶部12に記憶されている検出パターンの組合せ毎に、文書IDと、パターンIDと、正解フラグとの組が定められるので、教師データにおいて、共通の文書IDを含む行の数は、検出パターンの数と同じ数だけ存在する。 Since the set of the document ID, the pattern ID, and the correct answer flag is determined for each combination of the training document and the detection pattern stored in the detection pattern storage unit 12, the line including the common document ID in the teacher data. There are as many numbers of as there are detection patterns.

モデル記憶部15は、検出パターン記憶部12に記憶されている各検出パターンを評価するためのモデルを記憶する記憶装置である。モデル学習部17が、教師データ記憶部14に記憶されている教師データを用いて、各検出パターンを評価するためのモデルを機械学習によって生成し、そのモデルをモデル記憶部15に記憶させる。より具体的には、モデル学習部17は、与えられた文書から固有情報を抽出する可能性を示すスコアを検出パターン毎に導出するモデルを生成し、そのモデルをモデル記憶部15に記憶させる。 The model storage unit 15 is a storage device that stores a model for evaluating each detection pattern stored in the detection pattern storage unit 12. The model learning unit 17 uses the teacher data stored in the teacher data storage unit 14 to generate a model for evaluating each detection pattern by machine learning, and stores the model in the model storage unit 15. More specifically, the model learning unit 17 generates a model for deriving a score indicating the possibility of extracting unique information from a given document for each detection pattern, and stores the model in the model storage unit 15.

抽出部16は、文書記憶部11から各文書を取得し、検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する。抽出部16について、より詳細に説明する。 The extraction unit 16 acquires each document from the document storage unit 11, and uses the detection pattern to extract a character string corresponding to the detection pattern from the document for each document. The extraction unit 16 will be described in more detail.

前述のように、抽出部16は、文書取得部161と、情報抽出部162とを備える。 As described above, the extraction unit 16 includes a document acquisition unit 161 and an information extraction unit 162.

モデル学習ステップでは、文書取得部161は、モデルの生成に用いられる訓練用文書を、順次、文書記憶部11から取得する。そして、モデル学習ステップでは、情報抽出部162は、訓練用文書毎に、検出パターン記憶部12に記憶されている各検出パターンを用いて、検出パターンに該当する文字列を文書から抽出する。そして、情報抽出部162は、図3に例示するレコードを抽出結果記憶部13に記憶させる。 In the model learning step, the document acquisition unit 161 sequentially acquires the training documents used for generating the model from the document storage unit 11. Then, in the model learning step, the information extraction unit 162 extracts the character string corresponding to the detection pattern from the document by using each detection pattern stored in the detection pattern storage unit 12 for each training document. Then, the information extraction unit 162 stores the record illustrated in FIG. 3 in the extraction result storage unit 13.

また、実運用ステップでは、固有情報の抽出対象となる文書を、順次、文書記憶部11から取得する。そして、実運用ステップでは、情報抽出部162は、その文書毎に、検出パターン選択部18によって選択された検出パターンを用いて、検出パターンに該当する文字列を文書から抽出する。そして、抽出結果に応じたレコードを抽出結果記憶部13に記憶させる。実運用ステップでは、情報抽出部162は、レコードに含まれるデータフラグの値を“1”に設定する。 Further, in the actual operation step, the documents to be extracted of the unique information are sequentially acquired from the document storage unit 11. Then, in the actual operation step, the information extraction unit 162 extracts the character string corresponding to the detection pattern from the document by using the detection pattern selected by the detection pattern selection unit 18 for each document. Then, the record corresponding to the extraction result is stored in the extraction result storage unit 13. In the actual operation step, the information extraction unit 162 sets the value of the data flag included in the record to “1”.

モデル学習ステップでは、情報抽出部162は、文書に依存せずに、検出パターン記憶部12に記憶されている各検出パターンを用いて、文書から文字列を抽出する。これに対して、実運用ステップでは、文書から文字列を抽出する際に用いられる検出パターンは、文書に応じて、検出パターン選択部18によって選択される。 In the model learning step, the information extraction unit 162 extracts a character string from the document by using each detection pattern stored in the detection pattern storage unit 12 without depending on the document. On the other hand, in the actual operation step, the detection pattern used when extracting the character string from the document is selected by the detection pattern selection unit 18 according to the document.

モデル学習部17は、教師データ記憶部14に記憶されている教師データ(図4参照)に基づいて、与えられた文書から固有情報を抽出する可能性を示すスコアを検出パターン毎に導出するモデルを機械学習によって生成する。モデル学習部17について、より詳細に説明する。 The model learning unit 17 derives a score indicating the possibility of extracting unique information from a given document for each detection pattern based on the teacher data (see FIG. 4) stored in the teacher data storage unit 14. Is generated by machine learning. The model learning unit 17 will be described in more detail.

前述のように、モデル学習部17は、第1の前処理部171と、学習部172とを備える。モデル学習部17(第1の前処理部171および学習部172)は、モデル学習ステップで動作する。 As described above, the model learning unit 17 includes a first preprocessing unit 171 and a learning unit 172. The model learning unit 17 (first preprocessing unit 171 and learning unit 172) operates in the model learning step.

前述のように、教師データを作成する際には、訓練用文書と検出パターン記憶部12に記憶されている検出パターンの組合せ毎に、文書IDと、パターンIDと、正解フラグとの組が定められる。従って、教師データにおいて、共通の文書IDを含む行の数は、検出パターンの数と同じ数だけ存在する。検出パターン記憶部12に記憶されている検出パターンの数をk個とし、1番目の検出パターンからk番目の検出パターンまでの順序が、パターンID(図2(a)参照)によって定められているものとする。 As described above, when creating teacher data, a set of a document ID, a pattern ID, and a correct answer flag is determined for each combination of the training document and the detection pattern stored in the detection pattern storage unit 12. Be done. Therefore, in the teacher data, the number of lines containing the common document ID is the same as the number of detection patterns. The number of detection patterns stored in the detection pattern storage unit 12 is k, and the order from the first detection pattern to the kth detection pattern is determined by the pattern ID (see FIG. 2A). It shall be.

第1の前処理部171は、訓練用文書の文書ID毎に、教師データに含まれているk行分のデータに基づいて、そのk行分のデータに応じたベクトルを生成する。このベクトルは、1番目の検出パターンからk番目の検出パターンまでのk個の検出パターンと一対一に対応するk個の要素を有するベクトルである。そして、第1の前処理部171は、上記のk行分のデータをそれぞれ参照して、i番目の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合(すなわち、i番目の検出パターンに対応する行において、正解フラグが“1”である場合)、i番目の検出パターンに対応するベクトルの要素の値を1とする。また、第1の前処理部171は、i番目の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合(すなわち、i番目の検出パターンに対応する行において、正解フラグが“0”である場合)、i番目の検出パターンに対応するベクトルの要素の値を0とする。ここで、iは、1からkまでの各整数である。 The first preprocessing unit 171 generates a vector corresponding to the k lines of data included in the teacher data for each document ID of the training document. This vector is a vector having k elements corresponding to k detection patterns from the first detection pattern to the kth detection pattern on a one-to-one basis. Then, the first preprocessing unit 171 refers to the data for the above k lines, respectively, and determines that the character string extracted by the i-th detection pattern corresponds to the named entity (that is, i). (When the correct answer flag is "1" in the row corresponding to the th-th detection pattern), the value of the element of the vector corresponding to the i-th detection pattern is set to 1. Further, the first preprocessing unit 171 determines that the character string extracted by the i-th detection pattern does not correspond to the named entity (that is, the correct answer flag in the line corresponding to the i-th detection pattern). Is "0"), the value of the element of the vector corresponding to the i-th detection pattern is set to 0. Here, i is each integer from 1 to k.

第1の前処理部171は、訓練用文書の文書ID毎に、上記のベクトルを定める。訓練用文書の文書ID毎に定められる上記のベクトルの要素の数は、いずれも、k個(検出パターン記憶部12に記憶されている検出パターンの数)である。 The first preprocessing unit 171 defines the above vector for each document ID of the training document. The number of the elements of the above vector defined for each document ID of the training document is k (the number of detection patterns stored in the detection pattern storage unit 12).

図5は、第1の前処理部171によって訓練用文書の文書ID毎に定められたベクトルの例を示す模式図である。 FIG. 5 is a schematic diagram showing an example of a vector defined for each document ID of the training document by the first preprocessing unit 171.

また、第1の前処理部171は、訓練用文書の内容に応じたベクトルを、訓練用文書の文書ID毎に生成する。例えば、第1の前処理部171は、所定数の文字を含む文字列の種類と一対一に対応する要素を含むベクトルを、訓練用文書の内容に応じたベクトルとして用いてもよい。そして、第1の前処理部171は、訓練用文書に対して上記の所定数でN-gramを適用し、文字列の出現回数を、その文字列に対応する要素の値として設定することによって、1つの訓練用文書に応じたベクトルを定めてもよい。第1の前処理部171は、訓練用文書の文書ID毎に、上記のベクトルを定める。 Further, the first preprocessing unit 171 generates a vector corresponding to the content of the training document for each document ID of the training document. For example, the first preprocessing unit 171 may use a vector including an element having a one-to-one correspondence with the type of the character string including a predetermined number of characters as a vector according to the content of the training document. Then, the first preprocessing unit 171 applies N-gram to the training document in the above-mentioned predetermined number, and sets the number of appearances of the character string as the value of the element corresponding to the character string. A vector corresponding to one training document may be defined. The first preprocessing unit 171 defines the above vector for each document ID of the training document.

また、例えば、第1の前処理部171は、各種単語と一対一に対応する要素を含むベクトルを、訓練用文書の内容に応じたベクトルとして用いてもよい。そして、第1の前処理部171は、訓練用文書に対して形態素解析を行い、単語の出現回数を、その単語に対応する要素の値として設定することによって、1つの訓練用文書に応じたベクトルを定めてもよい。この場合も、第1の前処理部171は、訓練用文書の文書ID毎に、上記のベクトルを定める。 Further, for example, the first preprocessing unit 171 may use a vector including elements having a one-to-one correspondence with various words as a vector according to the content of the training document. Then, the first preprocessing unit 171 performs morphological analysis on the training document, sets the number of appearances of the word as the value of the element corresponding to the word, and thereby responds to one training document. A vector may be defined. Also in this case, the first preprocessing unit 171 defines the above vector for each document ID of the training document.

第1の前処理部171は、上記のように、訓練用文書の文書ID毎に、教師データに応じたベクトルを生成するとともに(図5参照)、訓練用文書の文書ID毎に、訓練用文書の内容に応じたベクトルを生成する。従って、第1の前処理部171は、訓練用文書の文書ID毎に、2種類のベクトルを生成することになる。 As described above, the first preprocessing unit 171 generates a vector corresponding to the teacher data for each document ID of the training document (see FIG. 5), and for each document ID of the training document for training. Generate a vector according to the content of the document. Therefore, the first preprocessing unit 171 will generate two types of vectors for each document ID of the training document.

学習部172は、第1の前処理部171が訓練用文書の文書ID毎に生成したベクトルの各組を用いて、教師あり機械学習を行うことによって、スコア(与えられた文書から固有情報を抽出する可能性を示すスコア)を検出パターン毎に導出するモデルを生成する。学習部172は、教師あり機械学習として、ニューラルネットワークを用いた機械学習を行ってもよい。図6は、ニューラルネットワークを用いた機械学習を示す模式図である。なお、上記のスコアが高い検出パターンほど、文書から固有情報を抽出する可能性が高い。 The learning unit 172 performs supervised machine learning using each set of vectors generated by the first preprocessing unit 171 for each document ID of the training document, thereby performing score (unique information from a given document). Generate a model that derives the score) indicating the possibility of extraction for each detection pattern. The learning unit 172 may perform machine learning using a neural network as supervised machine learning. FIG. 6 is a schematic diagram showing machine learning using a neural network. The higher the score, the higher the possibility that unique information will be extracted from the document.

学習部172は、生成したモデルをモデル記憶部15に記憶させる。 The learning unit 172 stores the generated model in the model storage unit 15.

検出パターン選択部18は、実運用ステップで動作する。検出パターン選択部18は、実運用ステップで、固有情報の抽出対象となる文書毎に、文書に応じた検出パターンを選択する。より具体的には、検出パターン選択部18は、文書毎に、文書から固有情報を抽出する可能性が高い(換言すれば、文書から固有情報を抽出する際の有用性が高い)検出パターンを、検出パターン記憶部12に記憶されている各検出パターンの中から選択する。検出パターン選択部18について、より詳細に説明する。 The detection pattern selection unit 18 operates in the actual operation step. In the actual operation step, the detection pattern selection unit 18 selects a detection pattern according to the document for each document for which the unique information is to be extracted. More specifically, the detection pattern selection unit 18 has a high possibility of extracting unique information from a document for each document (in other words, it is highly useful when extracting unique information from a document). , Select from each detection pattern stored in the detection pattern storage unit 12. The detection pattern selection unit 18 will be described in more detail.

前述のように、検出パターン選択部18は、第2の前処理部181と、判定部182とを備える。 As described above, the detection pattern selection unit 18 includes a second preprocessing unit 181 and a determination unit 182.

第2の前処理部181は、固有情報の抽出対象となる文書毎に、文書の内容に応じたベクトルを生成する。この動作は、第1の前処理部171が、文書毎に、文書の内容に応じたベクトルを生成する動作と同様である。 The second preprocessing unit 181 generates a vector according to the content of the document for each document for which the unique information is to be extracted. This operation is the same as the operation in which the first preprocessing unit 171 generates a vector according to the content of the document for each document.

例えば、第2の前処理部181は、所定数の文字を含む文字列の種類と一対一に対応する要素を含むベクトルを、文書の内容に応じたベクトルとして用いてもよい。そして、第2の前処理部181は、文書に対して上記の所定数でN-gramを適用し、文字列の出現回数を、その文字列に対応する要素の値として設定することによって、1つの文書に応じたベクトルを定めてもよい。第2の前処理部181は、与えられた文書毎に、上記のベクトルを定める。 For example, the second preprocessing unit 181 may use a vector including an element having a one-to-one correspondence with the type of the character string including a predetermined number of characters as a vector according to the content of the document. Then, the second preprocessing unit 181 applies N-gram to the document in the above-mentioned predetermined number, and sets the number of appearances of the character string as the value of the element corresponding to the character string. A vector corresponding to one document may be defined. The second preprocessing unit 181 defines the above vector for each given document.

また、例えば、第2の前処理部181は、各種単語と一対一に対応する要素を含むベクトルを、文書の内容に応じたベクトルとして用いてもよい。そして、第2の前処理部181は、文書に対して形態素解析を行い、単語の出現回数を、その単語に対応する要素の値として設定することによって、1つの文書に応じたベクトルを定めてもよい。この場合も、第2の前処理部181は、与えられた文書毎に、上記のベクトルを定める。 Further, for example, the second preprocessing unit 181 may use a vector including elements having a one-to-one correspondence with various words as a vector according to the content of the document. Then, the second preprocessing unit 181 performs morphological analysis on the document, sets the number of appearances of the word as the value of the element corresponding to the word, and determines the vector corresponding to one document. May be good. Also in this case, the second preprocessing unit 181 determines the above vector for each given document.

判定部182は、モデル記憶部15からモデルを読み込む。そして、判定部182は、与えられた文書毎に、第2の前処理部181によって生成されたベクトル(文書の内容に応じたベクトル)をモデルに適用することによって、検出パターン記憶部12に記憶されている各検出パターンのスコアを導出する。このスコアが高い検出パターンほど、文書から固有情報を抽出する可能性が高い。判定部182は、与えられた文書毎に、検出パターン記憶部12に記憶されている各検出パターンの中から、スコアが閾値以上であるという条件を満たしている検出パターンを選択する。閾値は、予め、定数として定めておけばよい。 The determination unit 182 reads the model from the model storage unit 15. Then, the determination unit 182 stores the vector (vector corresponding to the content of the document) generated by the second preprocessing unit 181 in the detection pattern storage unit 12 for each given document by applying the vector to the model. The score of each detection pattern is derived. The higher the score, the more likely it is that unique information will be extracted from the document. The determination unit 182 selects a detection pattern that satisfies the condition that the score is equal to or higher than the threshold value from the detection patterns stored in the detection pattern storage unit 12 for each given document. The threshold value may be set in advance as a constant.

この結果、文書毎に、固有情報を抽出する可能性が高い検出パターンが選択される。 As a result, a detection pattern that is likely to extract unique information is selected for each document.

判定部182は、文書毎に、文書IDと選択した検出パターンのパターンIDとを対応付けた情報を、例えば、検出パターン記憶部12に記憶させる。図7は、文書毎に、文書IDと選択した検出パターンのパターンIDとを対応付けた情報の例を示す模式図である。なお、1つの文書に対して、判定部182によって選択される検出パターンは、1つとは限らず、2つ以上であってもよい。 The determination unit 182 stores, for example, information in which the document ID and the pattern ID of the selected detection pattern are associated with each document in the detection pattern storage unit 12. FIG. 7 is a schematic diagram showing an example of information in which the document ID and the pattern ID of the selected detection pattern are associated with each document. The number of detection patterns selected by the determination unit 182 for one document is not limited to one, and may be two or more.

情報抽出部162は、実運用ステップで、与えられた文書毎に検出パターンが選択された場合、文書に応じて選択された検出パターンを用いて、文書から文字列を抽出する。 When a detection pattern is selected for each given document in the actual operation step, the information extraction unit 162 extracts a character string from the document using the detection pattern selected according to the document.

抽出部16(文書取得部161および情報抽出部162)、モデル学習部17(第1の前処理部171および学習部172)、並びに、検出パターン選択部18(第2の前処理部181および判定部182)は、例えば、検出パターン評価モデル生成プログラムに従って動作するコンピュータのCPU(Central Processing Unit )によって実現される。この場合、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体から検出パターン評価モデル生成プログラムを読み込み、そのプログラムに従って、抽出部16(文書取得部161および情報抽出部162)、モデル学習部17(第1の前処理部171および学習部172)、並びに、検出パターン選択部18(第2の前処理部181および判定部182)として動作すればよい。 Extraction unit 16 (document acquisition unit 161 and information extraction unit 162), model learning unit 17 (first preprocessing unit 171 and learning unit 172), and detection pattern selection unit 18 (second preprocessing unit 181 and determination). The unit 182) is realized by, for example, a CPU (Central Processing Unit) of a computer that operates according to a detection pattern evaluation model generation program. In this case, the CPU reads the detection pattern evaluation model generation program from a program recording medium such as a computer program storage device, and according to the program, the extraction unit 16 (document acquisition unit 161 and information extraction unit 162) and the model learning unit 17 ( It may operate as a first preprocessing unit 171 and a learning unit 172), and a detection pattern selection unit 18 (second preprocessing unit 181 and a determination unit 182).

次に、本発明の実施形態の処理経過について説明する。図8は、本発明の実施形態のモデル学習ステップの処理経過の例を示すフローチャートである。なお、文書記憶部11には、予め、複数の訓練用文書が記憶されているものとする。また、既に説明した事項に関しては、適宜、説明を省略する。 Next, the processing process of the embodiment of the present invention will be described. FIG. 8 is a flowchart showing an example of the processing progress of the model learning step of the embodiment of the present invention. It is assumed that a plurality of training documents are stored in advance in the document storage unit 11. In addition, the matters already described will be omitted as appropriate.

抽出部16は、訓練用文書毎に、次に説明するステップS101~S103の処理を行う。すなわち、抽出部16は、ステップS101~S103の処理を、訓練用文書の数分、繰り返す。 The extraction unit 16 performs the processes of steps S101 to S103 described below for each training document. That is, the extraction unit 16 repeats the processes of steps S101 to S103 for the number of training documents.

ステップS101において、文書取得部161は、未だ取得していない訓練用文書を1つ、文書記憶部11から取得する。 In step S101, the document acquisition unit 161 acquires one training document that has not yet been acquired from the document storage unit 11.

次のステップS102において、情報抽出部162は、検出パターン記憶部12に記憶されている各検出パターンを用いて、検出パターンに該当する文字列を、ステップS101で取得された訓練用文書から抽出する。ステップS102において、情報抽出部162は、形態素解析等の一般的な技術を利用して、検出パターンに該当する文字列を、単語単位で抽出する。既に説明したように、検出パターン自体が同一であっても、固有表現種別IDが異なっていれば、異なる検出パターンとして扱う。 In the next step S102, the information extraction unit 162 extracts the character string corresponding to the detection pattern from the training document acquired in step S101 by using each detection pattern stored in the detection pattern storage unit 12. .. In step S102, the information extraction unit 162 extracts a character string corresponding to the detection pattern in word units by using a general technique such as morphological analysis. As described above, even if the detection patterns themselves are the same, if the named entity IDs are different, they are treated as different detection patterns.

次にステップS103において、情報抽出部162は、検出パターン記憶部12に記憶されている各検出パターンのうち、ステップS102で文字列を抽出することができた検出パターンに関して、それぞれ、レコード(図3に示すように、検出IDと、データフラグと、文書IDと、パターンIDと、固有表現種別IDと、抽出された文字列とを含むレコード)を作成し、抽出結果記憶部13に記憶させる。このとき、情報抽出部162は、データフラグの値を、初期値“-”に設定する。情報抽出部162は、検出IDの値を、新たに抽出された文字列毎に割り当てる(換言すれば、新たなレコード毎に割り当てる)。文書IDの値は、ステップS101で取得された訓練用文書の文書IDの値である。パターンIDの値は、文字列を抽出した検出パターンのパターンIDの値であり、固有表現種別IDの値は、その検出パターンに対応する固有表現種別IDの値である。 Next, in step S103, the information extraction unit 162 records (FIG. 3) each of the detection patterns stored in the detection pattern storage unit 12 regarding the detection pattern for which the character string could be extracted in step S102. As shown in the above, a record including a detection ID, a data flag, a document ID, a pattern ID, a unique expression type ID, and an extracted character string) is created and stored in the extraction result storage unit 13. At this time, the information extraction unit 162 sets the value of the data flag to the initial value “−”. The information extraction unit 162 assigns the value of the detection ID to each newly extracted character string (in other words, assigns it to each new record). The value of the document ID is the value of the document ID of the training document acquired in step S101. The value of the pattern ID is the value of the pattern ID of the detection pattern from which the character string is extracted, and the value of the named entity type ID is the value of the named entity type ID corresponding to the detection pattern.

全ての訓練用文書についてステップS101~S103の処理を実行した後、ステップS104に移行する。 After executing the processes of steps S101 to S103 for all the training documents, the process proceeds to step S104.

ステップS104において、ユーザは、正解フラグの値を設定し、教師データを作成する。ユーザは、訓練用文書と検出パターン記憶部12に記憶されている検出パターンの組合せ毎に、文書IDと、パターンIDと、正解フラグとの組を定める。このとき、ユーザは、その組毎に、組に含まれる文書IDおよびパターンIDを含む、抽出結果記憶部13に記憶されたレコードを確認し、そのレコードに含まれている文字列が固有情報であるか否かを判断する。そして、ユーザは、文字列が固有情報でないと判断した場合、正解フラグを“0”に設定し、正解フラグが“0”に設定しなかった組の正解フラグの値を全て“1”に設定する。また、ユーザは、抽出結果記憶部13に記憶されたレコードのうち、ステップS104で確認したレコードのデータフラグ(図3参照)の値を“0”に更新する。 In step S104, the user sets the value of the correct answer flag and creates the teacher data. The user determines a set of a document ID, a pattern ID, and a correct answer flag for each combination of the training document and the detection pattern stored in the detection pattern storage unit 12. At this time, the user confirms the record stored in the extraction result storage unit 13 including the document ID and the pattern ID included in the set for each set, and the character string included in the record is the unique information. Determine if it exists. Then, when the user determines that the character string is not unique information, the correct answer flag is set to "0", and all the values of the correct answer flags of the set in which the correct answer flag is not set to "0" are set to "1". do. Further, the user updates the value of the data flag (see FIG. 3) of the record confirmed in step S104 among the records stored in the extraction result storage unit 13 to “0”.

ユーザは、ステップS104で定めた文書IDと、パターンIDと、正解フラグとの組を教師データ記憶部14に記憶させる。 The user stores the set of the document ID, the pattern ID, and the correct answer flag defined in step S104 in the teacher data storage unit 14.

次に、第1の前処理部171は、学習部172による処理の前処理を実行する(ステップS105)。具体的には、訓練用文書の文書ID毎に、教師データに応じたベクトルを生成するとともに(図5参照)、訓練用文書の文書ID毎に、訓練用文書の内容に応じたベクトルを生成する。教師データに応じたベクトルを生成する方法については、既に説明したので、ここでは説明を省略する。また、訓練用文書の内容に応じたベクトルを生成する方法についても、既に説明したので、ここでは説明を省略する。 Next, the first preprocessing unit 171 executes preprocessing for processing by the learning unit 172 (step S105). Specifically, a vector corresponding to the teacher data is generated for each document ID of the training document (see FIG. 5), and a vector corresponding to the content of the training document is generated for each document ID of the training document. do. Since the method of generating the vector according to the teacher data has already been described, the description thereof will be omitted here. Further, since the method of generating the vector according to the contents of the training document has already been described, the description thereof will be omitted here.

ステップS105で、第1の前処理部171が訓練用文書の文書ID毎に2種類のベクトルを生成した後、学習部172は、ステップS105で訓練用文書の文書ID毎に生成されたベクトルの各組を用いて、教師あり機械学習を行うことによって、スコア(与えられた文書から固有情報を抽出する可能性を示すスコア)を検出パターン毎に導出するモデルを生成する(ステップS106)。例えば、機械学習に、ニューラルネットワークモデルを利用する場合、図6に示すように正解データ(教師データ)の結果が得られるように、学習部172は、誤差逆伝搬法等を用いて、モデルを生成する。 In step S105, after the first preprocessing unit 171 generates two types of vectors for each document ID of the training document, the learning unit 172 generates the vector for each document ID of the training document in step S105. By performing supervised machine learning using each set, a model for deriving a score (a score indicating the possibility of extracting unique information from a given document) for each detection pattern is generated (step S106). For example, when a neural network model is used for machine learning, the learning unit 172 uses an error back propagation method or the like to obtain a model so that the result of correct answer data (teacher data) can be obtained as shown in FIG. Generate.

学習部172は、ステップS106で生成したモデルをモデル記憶部15に記憶させる(ステップS107)。ステップS107で、モデル学習ステップが終了する。 The learning unit 172 stores the model generated in step S106 in the model storage unit 15 (step S107). In step S107, the model learning step ends.

次に、実運用ステップの処理経過を説明する。図9は、本発明の実施形態の実運用ステップの処理経過の例を示すフローチャートである。なお、文書記憶部11には、予め、実運用ステップにおいて固有情報の抽出対象となる文書が記憶されているものとする。固有情報の抽出対象となる文書が文書記憶部11に記憶されているということは、固有情報の抽出対象となる文書が与えられていることを意味する。以下の説明において、既に説明した事項については、適宜、説明を省略する。 Next, the processing progress of the actual operation step will be described. FIG. 9 is a flowchart showing an example of the processing progress of the actual operation step of the embodiment of the present invention. It is assumed that the document storage unit 11 stores in advance a document to be extracted from the unique information in the actual operation step. The fact that the document to be extracted of the unique information is stored in the document storage unit 11 means that the document to be extracted of the unique information is given. In the following description, the matters already described will be omitted as appropriate.

実運用ステップにおいて固有情報の抽出対象となる文書を、以下、抽出対象文書と記す。 Documents for which unique information is to be extracted in the actual operation step are hereinafter referred to as extraction target documents.

検出パターン評価モデル生成システム1は、抽出対象文書毎に、次に説明するステップS201~S207の処理を行う。すなわち、検出パターン評価モデル生成システム1は、ステップS201~S207の処理を、抽出対象文書の数分、繰り返す。 The detection pattern evaluation model generation system 1 performs the processes of steps S201 to S207 described below for each extraction target document. That is, the detection pattern evaluation model generation system 1 repeats the processes of steps S201 to S207 for the number of documents to be extracted.

ステップS201において、文書取得部161は、未だ取得していない抽出対象文書を1つ、文書記憶部11から取得する。 In step S201, the document acquisition unit 161 acquires one extraction target document that has not yet been acquired from the document storage unit 11.

次のステップS202において、第2の前処理部181は、判定部182の処理の前処理を実行する。具体的には、第2の前処理部181は、ステップS201で取得された抽出対象文書の内容に応じたベクトルを生成する。第2の前処理部181が文書の内容に応じたベクトルを生成する方法については、既に説明したので、ここでは説明を省略する。 In the next step S202, the second preprocessing unit 181 executes the preprocessing of the processing of the determination unit 182. Specifically, the second preprocessing unit 181 generates a vector according to the content of the extraction target document acquired in step S201. Since the method by which the second preprocessing unit 181 generates the vector according to the content of the document has already been described, the description thereof will be omitted here.

次のステップS203において、判定部182は、モデル記憶部15からモデル(モデル学習ステップで生成されたモデル)を読み込み、ステップS202で生成されたベクトルをそのモデルに適用することによって、検出パターン記憶部12に記憶されている各検出パターンのスコアをそれぞれ導出する。従って、ステップS203では、判定部182は、抽出対象文書から固有情報を抽出する可能性を示すスコアを、それぞれの検出パターン毎に求めることになる。スコアが高い検出パターンほど、抽出対象文書から固有情報を抽出する可能性が高い。 In the next step S203, the determination unit 182 reads the model (the model generated in the model learning step) from the model storage unit 15, and applies the vector generated in step S202 to the model to obtain the detection pattern storage unit. The score of each detection pattern stored in 12 is derived. Therefore, in step S203, the determination unit 182 obtains a score indicating the possibility of extracting unique information from the extraction target document for each detection pattern. The higher the score of the detection pattern, the more likely it is that unique information will be extracted from the document to be extracted.

次のステップS204では、ステップS203で得られたスコアが閾値以上であるという条件を満たしている検出パターンを選択する。ステップS204で選択される検出パターンの数は1つとは限らず、2つ以上であってもよい。スコアが閾値以上であるという条件を満たしている検出パターンは、抽出対象文書から固有情報を抽出する可能性が高いと言える。すなわち、抽出対象文書から固有情報を抽出する際に有用な検出パターンであると言える。 In the next step S204, a detection pattern satisfying the condition that the score obtained in step S203 is equal to or higher than the threshold value is selected. The number of detection patterns selected in step S204 is not limited to one, and may be two or more. It can be said that a detection pattern that satisfies the condition that the score is equal to or higher than the threshold value has a high possibility of extracting unique information from the document to be extracted. That is, it can be said that it is a useful detection pattern when extracting unique information from the document to be extracted.

次のステップS205では、判定部182は、ステップS201で取得された抽出対象文書の文書IDと、ステップS204で選択した各検出パターンのパターンIDとを対応付けて、検出パターン記憶部12に記憶させる。 In the next step S205, the determination unit 182 associates the document ID of the extraction target document acquired in step S201 with the pattern ID of each detection pattern selected in step S204 and stores it in the detection pattern storage unit 12. ..

次のステップS206では、情報抽出部162は、ステップS201で取得された抽出対象文書の文書IDに対応付けて検出パターン記憶部12に記憶されたパターンIDが示す各検出パターン(すなわち、ステップS204で判定部182が選択した各検出パターン)を、検出パターン記憶部12から読み込む。そして、情報抽出部162は、その各検出パターンに該当する文字列をそれぞれ、ステップS201で取得された抽出対象文書から抽出する。 In the next step S206, the information extraction unit 162 indicates each detection pattern indicated by the pattern ID stored in the detection pattern storage unit 12 in association with the document ID of the document to be extracted acquired in step S201 (that is, in step S204). Each detection pattern selected by the determination unit 182) is read from the detection pattern storage unit 12. Then, the information extraction unit 162 extracts the character string corresponding to each detection pattern from the extraction target document acquired in step S201.

判定部182が選択した各検出パターンは、スコアが閾値以上であるという条件を満たしている検出パターンであり、ステップS201で取得された抽出対象文書から固有情報を抽出する可能性が高い検出パターンである。従って、ステップS206で抽出された文字列は、固有情報である可能性が高いと言える。 Each detection pattern selected by the determination unit 182 is a detection pattern that satisfies the condition that the score is equal to or higher than the threshold value, and is a detection pattern that is likely to extract unique information from the extraction target document acquired in step S201. be. Therefore, it can be said that the character string extracted in step S206 is likely to be unique information.

次のステップS207では、情報抽出部162は、ステップS206で用いた各検出パターンのうち、文字列を抽出することができた検出パターンに関して、それぞれ、レコード(図3に示すように、検出IDと、データフラグと、文書IDと、パターンIDと、固有表現種別IDと、抽出された文字列とを含むレコード)を作成し、抽出結果記憶部13に記憶させる。情報抽出部162は、ステップS207でレコードを作成する場合、データフラグの値を“1”に設定する。また、情報抽出部162は、検出IDの値を、新たに抽出された文字列毎に割り当てる。文書IDの値は、ステップS201で取得された抽出対象文書の文書IDである。パターンIDの値は、ステップS206で文字列を抽出した検出パターンのパターンIDの値であり、固有表現種別IDの値は、その検出パターンに対応する固有表現種別IDの値である。 In the next step S207, the information extraction unit 162 has a record (as shown in FIG. 3, a detection ID) with respect to the detection pattern for which the character string could be extracted from each detection pattern used in step S206. , A record including a data flag, a document ID, a pattern ID, a unique expression type ID, and an extracted character string) is created and stored in the extraction result storage unit 13. When the information extraction unit 162 creates a record in step S207, the information extraction unit 162 sets the value of the data flag to "1". Further, the information extraction unit 162 assigns the value of the detection ID to each newly extracted character string. The value of the document ID is the document ID of the extraction target document acquired in step S201. The value of the pattern ID is the value of the pattern ID of the detection pattern from which the character string is extracted in step S206, and the value of the named entity type ID is the value of the named entity type ID corresponding to the detection pattern.

検出パターン評価モデル生成システム1は、全ての抽出対象文書についてステップS201~S207の処理を実行すると、実運用ステップを終了する。 The detection pattern evaluation model generation system 1 ends the actual operation step when the processes of steps S201 to S207 are executed for all the documents to be extracted.

実運用ステップの終了後、ユーザは、抽出結果記憶部13に記憶されているレコードのうち、データフラグの値が“1”となっているレコードに含まれている文字列を、固有情報である可能性が高い文字列であると判断してよい。 After the end of the actual operation step, the user uses the character string included in the record whose data flag value is "1" among the records stored in the extraction result storage unit 13 as unique information. It may be judged that it is a character string with a high possibility.

本実施形態によれば、モデル学習部17は、文書IDと、パターンIDと、正解フラグとの組の集合を教師データとして、与えられた文書から固有情報を抽出する可能性を示すスコアを、検出パターン記憶部12に記憶されている検出パターン毎に導出するためのモデルを、機械学習によって生成する。従って、本実施形態によれば、検出パターンのそれぞれが、与えられた文書から固有表現を抽出するのにどの程度適しているのかを評価することができるモデルを生成することができる。 According to the present embodiment, the model learning unit 17 sets a score indicating the possibility of extracting unique information from a given document by using a set of a set of a document ID, a pattern ID, and a correct answer flag as teacher data. A model for deriving each detection pattern stored in the detection pattern storage unit 12 is generated by machine learning. Therefore, according to the present embodiment, it is possible to generate a model capable of evaluating how suitable each of the detection patterns is for extracting a named entity from a given document.

さらに、本実施形態によれば、検出パターン選択部18は、文書取得部161がステップS201で抽出対象文書を取得した場合、その抽出対象文書の内容に応じたベクトルを、モデル学習ステップで生成されたモデルに適用することによって、検出パターン毎にスコアを導出する。従って、そのスコアによって、その抽出対象文書から固有情報を抽出するために、個々の検出パターンがどの程度適しているのかを評価することができる。 Further, according to the present embodiment, when the document acquisition unit 161 acquires the extraction target document in step S201, the detection pattern selection unit 18 generates a vector corresponding to the content of the extraction target document in the model learning step. By applying it to the above model, the score is derived for each detection pattern. Therefore, the score can be used to evaluate how suitable each detection pattern is for extracting unique information from the extraction target document.

さらに、検出パターン選択部18は、検出パターン記憶部12に記憶されている各検出パターンの中から、スコアが閾値以上であるという条件を満たしている検出パターンを選択する。そして、情報抽出部162は、ステップS201で取得された抽出対象文書から、その選択パターンを用いて文字列を抽出する。従って、この文字列は固有情報である可能性が高い。従って、本来、固有情報でない文字列が多く検出されてしまうという過検出を抑え、固有情報である可能性が高い文字列を主に抽出することができる。 Further, the detection pattern selection unit 18 selects a detection pattern that satisfies the condition that the score is equal to or higher than the threshold value from the detection patterns stored in the detection pattern storage unit 12. Then, the information extraction unit 162 extracts a character string from the extraction target document acquired in step S201 using the selection pattern. Therefore, this character string is likely to be unique information. Therefore, it is possible to suppress over-detection that many character strings that are not originally unique information are detected, and mainly extract character strings that are highly likely to be unique information.

また、検出パターン選択部18は、文書取得部161がステップS201で取得した抽出対象文書に応じて、検出パターンを選択する。従って、過検出を抑える効果を高めることができる。 Further, the detection pattern selection unit 18 selects a detection pattern according to the extraction target document acquired by the document acquisition unit 161 in step S201. Therefore, the effect of suppressing over-detection can be enhanced.

また、検出パターン選択部18(判定部182)は、ステップS205において、ステップS201で取得された抽出対象文書の文書IDと、ステップS204で選択した各検出パターンのパターンIDとを対応付けて、検出パターン記憶部12に記憶させる。従って、例えば、図7に例示する情報が検出パターン記憶部12に蓄積され、ユーザは、その情報を確認することによって、選択された検出パターンによって文字列が抽出されるロジックを確認することができる。 Further, in step S205, the detection pattern selection unit 18 (determination unit 182) detects the document ID of the extraction target document acquired in step S201 in association with the pattern ID of each detection pattern selected in step S204. It is stored in the pattern storage unit 12. Therefore, for example, the information illustrated in FIG. 7 is stored in the detection pattern storage unit 12, and the user can confirm the logic for extracting the character string by the selected detection pattern by confirming the information. ..

図10は、本発明の実施形態に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004とを備える。 FIG. 10 is a schematic block diagram showing a configuration example of a computer according to an embodiment of the present invention. The computer 1000 includes a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.

本発明の実施形態の検出パターン評価モデル生成システム1は、コンピュータ1000に実装される。検出パターン評価モデル生成システム1の動作は、検出パターン評価モデル生成プログラムの形式で補助記憶装置1003に記憶されている。CPU1001は、その検出パターン評価モデル生成プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、その検出パターン評価モデル生成プログラムに従って、上記の実施形態で説明した処理を実行する。 The detection pattern evaluation model generation system 1 according to the embodiment of the present invention is mounted on the computer 1000. The operation of the detection pattern evaluation model generation system 1 is stored in the auxiliary storage device 1003 in the form of a detection pattern evaluation model generation program. The CPU 1001 reads the detection pattern evaluation model generation program from the auxiliary storage device 1003, deploys it to the main storage device 1002, and executes the process described in the above embodiment according to the detection pattern evaluation model generation program.

補助記憶装置1003は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disk Read Only Memory )、DVD-ROM(Digital Versatile Disk Read Only Memory )、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000がそのプログラムを主記憶装置1002に展開し、上記の処理を実行してもよい。 Auxiliary storage 1003 is an example of a non-temporary tangible medium. Other examples of non-temporary tangible media include magnetic disks, optical magnetic disks, CD-ROMs (Compact Disk Read Only Memory), DVD-ROMs (Digital Versatile Disk Read Only Memory), which are connected via interface 1004. Examples include semiconductor memory. Further, when this program is distributed to the computer 1000 by a communication line, the distributed computer 1000 may expand the program to the main storage device 1002 and execute the above processing.

次に、本発明の概要について説明する。図11は、本発明の検出パターン評価モデル生成システムの概要を示すブロック図である。本発明の検出パターン評価モデル生成システムは、抽出手段91と、モデル生成手段92とを備える。 Next, the outline of the present invention will be described. FIG. 11 is a block diagram showing an outline of the detection pattern evaluation model generation system of the present invention. The detection pattern evaluation model generation system of the present invention includes an extraction means 91 and a model generation means 92.

抽出手段91(例えば、抽出部16)は、文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する。 The extraction means 91 (for example, the extraction unit 16) extracts a character string corresponding to the detection pattern from the document for each document by using a plurality of detection patterns for extracting the unique expression from the document.

モデル生成手段92(例えば、モデル学習部17)は、文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果(例えば、正解フラグ)との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成する。 The model generation means 92 (for example, the model learning unit 17) determines whether or not the document, the detection pattern, and the character string extracted from the document based on the detection pattern correspond to the named entity (for example,). Using the set of pairs with the correct answer flag) as teacher data, a model for deriving the possibility of extracting named entities from a given document as a score for each detection pattern is generated by machine learning.

そのような構成によって、文書から固有表現を抽出するための複数の検出パターンのそれぞれが、与えられた文書から固有表現を抽出するのにどの程度適しているのかを評価することができるモデルを生成できる。 Such a configuration produces a model that can evaluate how well each of the multiple detection patterns for extracting named entities from a document is suitable for extracting named entity from a given document. can.

また、固有表現の抽出対象となる文書が与えられた場合に、モデル生成手段92によって生成されたモデルを用いて、個々の検出パターン毎に、その文書から固有表現を抽出する可能性を示すスコアを導出し、スコアに基づいて、その文書から固有表現を抽出するために用いる検出パターンを選択する検出パターン選択手段(例えば、検出パターン選択部18)を備え、抽出手段91が、固有表現の抽出対象となる文書が与えられた場合に、検出パターン選択手段が選択した検出パターンを用いて、その文書から、検出パターンに該当する文字列を抽出する構成であってもよい。 Further, when a document to be extracted of the eigenexpression is given, a score indicating the possibility of extracting the eigenexpression from the document for each detection pattern using the model generated by the model generation means 92 is used. Is provided, and a detection pattern selection means (for example, a detection pattern selection unit 18) for selecting a detection pattern to be used for extracting a unique expression from the document based on the score is provided, and the extraction means 91 extracts the unique expression. When a target document is given, a character string corresponding to the detection pattern may be extracted from the document using the detection pattern selected by the detection pattern selection means.

また、モデル生成手段92が、教師データに基づいて、検出パターンと一対一に対応する要素を有するベクトルであって、一の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合にはその一の検出パターンに対応する要素の値を1とし、一の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合にはその一の検出パターンに対応する要素の値を0としたベクトルと、文書の内容に応じたベクトルとをそれぞれ、文書毎に作成し、文書毎に作成したベクトルの組を用いて、機械学習によってモデルを生成する構成であってもよい。 Further, it is determined that the model generation means 92 is a vector having an element having a one-to-one correspondence with the detection pattern based on the teacher data, and the character string extracted by one detection pattern corresponds to the named entity. In that case, the value of the element corresponding to the one detection pattern is set to 1, and when it is determined that the character string extracted by the one detection pattern does not correspond to the named entity, it corresponds to the one detection pattern. A vector in which the value of the element is 0 and a vector corresponding to the content of the document are created for each document, and a model is generated by machine learning using a set of vectors created for each document. May be good.

本発明は、文書から固有表現を抽出するための検出パターンを評価するためのモデルを生成する検出パターン評価モデル生成システムに好適に適用可能である。 INDUSTRIAL APPLICABILITY The present invention is suitably applicable to a detection pattern evaluation model generation system that generates a model for evaluating a detection pattern for extracting a named entity from a document.

1 検出パターン評価モデル生成システム
11 文書記憶部
12 検出パターン記憶部
13 抽出結果記憶部
14 教師データ記憶部
15 モデル記憶部
16 抽出部
17 モデル学習部
18 検出パターン選択部
161 文書取得部
162 情報抽出部
171 第1の前処理部
172 学習部
181 第2の前処理部
182 判定部
1 Detection pattern evaluation model generation system 11 Document storage unit 12 Detection pattern storage unit 13 Extraction result storage unit 14 Teacher data storage unit 15 Model storage unit 16 Extraction unit 17 Model learning unit 18 Detection pattern selection unit 161 Document acquisition unit 162 Information extraction unit 171 First pre-processing unit 172 Learning unit 181 Second pre-processing unit 182 Judgment unit

Claims (9)

文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する抽出手段と、
文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成するモデル生成手段とを備える
ことを特徴とする検出パターン評価モデル生成システム。
An extraction means for extracting a character string corresponding to a detection pattern from a document for each document using a plurality of detection patterns for extracting a named entity from a document.
A unique expression from a given document, with a set of sets of a document, a detection pattern, and a judgment result of whether or not a character string extracted from the document based on the detection pattern corresponds to a unique expression as teacher data. A detection pattern evaluation model generation system characterized by having a model generation means for generating a model for deriving the possibility of extracting the data as a score for each detection pattern by machine learning.
固有表現の抽出対象となる文書が与えられた場合に、モデル生成手段によって生成されたモデルを用いて、個々の検出パターン毎に、前記文書から固有表現を抽出する可能性を示すスコアを導出し、前記スコアに基づいて、前記文書から固有表現を抽出するために用いる検出パターンを選択する検出パターン選択手段を備え、
抽出手段は、
固有表現の抽出対象となる前記文書が与えられた場合に、前記検出パターン選択手段が選択した検出パターンを用いて、前記文書から、前記検出パターンに該当する文字列を抽出する
請求項1に記載の検出パターン評価モデル生成システム。
Given a document to extract named entities, a score indicating the possibility of extracting named entity from the document is derived for each detection pattern using the model generated by the model generation means. , A detection pattern selection means for selecting a detection pattern used to extract a named entity from the document based on the score.
The extraction method is
The first aspect of claim 1 is to extract a character string corresponding to the detection pattern from the document by using the detection pattern selected by the detection pattern selection means when the document to be extracted of the named entity is given. Detection pattern evaluation model generation system.
モデル生成手段は、
教師データに基づいて、検出パターンと一対一に対応する要素を有するベクトルであって、一の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合には前記一の検出パターンに対応する要素の値を1とし、一の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合には前記一の検出パターンに対応する要素の値を0としたベクトルと、文書の内容に応じたベクトルとをそれぞれ、文書毎に作成し、
文書毎に作成したベクトルの組を用いて、機械学習によってモデルを生成する
請求項1または請求項2に記載の検出パターン評価モデル生成システム。
Model generation means
If it is a vector having an element having a one-to-one correspondence with the detection pattern based on the teacher data and it is determined that the character string extracted by one detection pattern corresponds to the unique expression, the one detection pattern is described above. A vector in which the value of the element corresponding to 1 is set to 1, and the value of the element corresponding to the 1 detection pattern is set to 0 when it is determined that the character string extracted by one detection pattern does not correspond to the unique expression. And a vector according to the contents of the document are created for each document.
The detection pattern evaluation model generation system according to claim 1 or 2, wherein a model is generated by machine learning using a set of vectors created for each document.
コンピュータが、
文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出し、
文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成する
ことを特徴とする検出パターン評価モデル生成方法。
The computer
Using multiple detection patterns for extracting named entities from a document, the character string corresponding to the detection pattern is extracted from the document for each document.
A set of sets of a document, a detection pattern, and a judgment result of whether or not a character string extracted from the document based on the detection pattern corresponds to a unique expression is used as teacher data, and the named entity is expressed from a given document. A detection pattern evaluation model generation method characterized in that a model for deriving the possibility of extracting is generated as a score for each detection pattern by machine learning.
コンピュータが、
固有表現の抽出対象となる文書が与えられた場合に、
モデルを用いて、個々の検出パターン毎に、前記文書から固有表現を抽出する可能性を示すスコアを導出し、前記スコアに基づいて、前記文書から固有表現を抽出するために用いる検出パターンを選択し、
選択した前記検出パターンを用いて、前記文書から、前記検出パターンに該当する文字列を抽出する
請求項4に記載の検出パターン評価モデル生成方法。
The computer
Given the document to which the named entity is to be extracted,
Using the model, for each detection pattern, a score indicating the possibility of extracting the named entity from the document is derived, and based on the score, the detection pattern used to extract the named entity from the document is selected. death,
The detection pattern evaluation model generation method according to claim 4, wherein a character string corresponding to the detection pattern is extracted from the document using the selected detection pattern.
コンピュータが、
モデルを生成する場合に、
教師データに基づいて、検出パターンと一対一に対応する要素を有するベクトルであって、一の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合には前記一の検出パターンに対応する要素の値を1とし、一の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合には前記一の検出パターンに対応する要素の値を0としたベクトルと、文書の内容に応じたベクトルとをそれぞれ、文書毎に作成し、
文書毎に作成したベクトルの組を用いて、機械学習によってモデルを生成する
請求項4または請求項5に記載の検出パターン評価モデル生成方法。
The computer
When generating a model,
If it is a vector having an element having a one-to-one correspondence with the detection pattern based on the teacher data and it is determined that the character string extracted by one detection pattern corresponds to the unique expression, the one detection pattern is described above. A vector in which the value of the element corresponding to 1 is set to 1, and the value of the element corresponding to the 1 detection pattern is set to 0 when it is determined that the character string extracted by one detection pattern does not correspond to the unique expression. And a vector according to the contents of the document are created for each document.
The detection pattern evaluation model generation method according to claim 4 or 5, wherein a model is generated by machine learning using a set of vectors created for each document.
コンピュータに、
文書から固有表現を抽出するための複数の検出パターンを用いて、文書毎に、検出パターンに該当する文字列を文書から抽出する抽出処理、および、
文書と、検出パターンと、当該検出パターンに基づいて当該文書から抽出された文字列が固有表現に該当するか否かの判断結果との組の集合を教師データとして、与えられた文書から固有表現を抽出する可能性を検出パターン毎にスコアとして導出するためのモデルを、機械学習によって生成するモデル生成処理
を実行させるための検出パターン評価モデル生成プログラム。
On the computer
Extraction processing that extracts the character string corresponding to the detection pattern from the document for each document using multiple detection patterns for extracting the named entity from the document, and
A set of pairs of a document, a detection pattern, and a judgment result of whether or not a character string extracted from the document based on the detection pattern corresponds to a named entity corresponds to a named entity as teacher data, and the named entity is represented from a given document. A detection pattern evaluation model generation program for executing a model generation process that generates a model by machine learning to derive the possibility of extracting the data as a score for each detection pattern.
コンピュータに、
固有表現の抽出対象となる文書が与えられた場合に、モデル生成処理で生成されたモデルを用いて、個々の検出パターン毎に、前記文書から固有表現を抽出する可能性を示すスコアを導出し、前記スコアに基づいて、前記文書から固有表現を抽出するために用いる検出パターンを選択する検出パターン選択処理、および、
固有表現の抽出対象となる前記文書が与えられた場合に、前記検出パターン選択処理で選択した検出パターンを用いて、前記文書から、前記検出パターンに該当する文字列を抽出する処理
を実行させる請求項7に記載の検出パターン評価モデル生成プログラム。
On the computer
Given a document to be extracted with named entity, the model generated by the model generation process is used to derive a score indicating the possibility of extracting named entity from the document for each detection pattern. , A detection pattern selection process that selects a detection pattern used to extract a named entity from the document based on the score, and
A claim to execute a process of extracting a character string corresponding to the detection pattern from the document using the detection pattern selected in the detection pattern selection process when the document to be extracted of the unique expression is given. Item 7. The detection pattern evaluation model generation program according to Item 7.
コンピュータに、
モデル生成処理で、
教師データに基づいて、検出パターンと一対一に対応する要素を有するベクトルであって、一の検出パターンによって抽出された文字列が固有表現に該当すると判断されている場合には前記一の検出パターンに対応する要素の値を1とし、一の検出パターンによって抽出された文字列が固有表現に該当しないと判断されている場合には前記一の検出パターンに対応する要素の値を0としたベクトルと、文書の内容に応じたベクトルとをそれぞれ、文書毎に作成させ、
文書毎に作成したベクトルの組を用いて、機械学習によってモデルを生成させる
請求項7または請求項8に記載の検出パターン評価モデル生成プログラム。
On the computer
In the model generation process
If it is a vector having an element having a one-to-one correspondence with the detection pattern based on the teacher data and it is determined that the character string extracted by one detection pattern corresponds to the unique expression, the one detection pattern is described above. A vector in which the value of the element corresponding to 1 is set to 1, and the value of the element corresponding to the 1 detection pattern is set to 0 when it is determined that the character string extracted by one detection pattern does not correspond to the unique expression. And a vector according to the contents of the document are created for each document.
The detection pattern evaluation model generation program according to claim 7 or 8, wherein a model is generated by machine learning using a set of vectors created for each document.
JP2018052266A 2018-03-20 2018-03-20 Detection pattern evaluation model generation system, method and program Active JP7024533B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018052266A JP7024533B2 (en) 2018-03-20 2018-03-20 Detection pattern evaluation model generation system, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018052266A JP7024533B2 (en) 2018-03-20 2018-03-20 Detection pattern evaluation model generation system, method and program

Publications (2)

Publication Number Publication Date
JP2019164609A JP2019164609A (en) 2019-09-26
JP7024533B2 true JP7024533B2 (en) 2022-02-24

Family

ID=68064600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018052266A Active JP7024533B2 (en) 2018-03-20 2018-03-20 Detection pattern evaluation model generation system, method and program

Country Status (1)

Country Link
JP (1) JP7024533B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023968A (en) 2004-07-08 2006-01-26 Hitachi Ltd Unique expression extracting method and device and program to be used for the same
JP2011113490A (en) 2009-11-30 2011-06-09 Nomura Research Institute Ltd System and program for generating conversation summary

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023968A (en) 2004-07-08 2006-01-26 Hitachi Ltd Unique expression extracting method and device and program to be used for the same
JP2011113490A (en) 2009-11-30 2011-06-09 Nomura Research Institute Ltd System and program for generating conversation summary

Also Published As

Publication number Publication date
JP2019164609A (en) 2019-09-26

Similar Documents

Publication Publication Date Title
US20200195667A1 (en) Url attack detection method and apparatus, and electronic device
CN107025239B (en) Sensitive word filtering method and device
US20090281791A1 (en) Unified tagging of tokens for text normalization
US10528766B2 (en) Techniques for masking electronic data
CN106599322A (en) Data desensitization method and device
US8249399B2 (en) Optical character recognition verification
WO2007139039A1 (en) Information classification device, information classification method, and information classification program
JP4585925B2 (en) Security design support method and support device
Zhu et al. Fragile neural network watermarking with trigger image set
JP6768738B2 (en) Training data generators, methods, and programs
Deepa et al. Steganalysis on images based on the classification of image feature sets using SVM classifier
KR102031592B1 (en) Method and apparatus for detecting the malware
JP7024533B2 (en) Detection pattern evaluation model generation system, method and program
CN113343677A (en) Intention identification method and device, electronic equipment and storage medium
CN110956170A (en) Method, device, equipment and storage medium for generating passport machine-readable code sample
US20200019606A1 (en) Expression recognition using character skipping
JP6604207B2 (en) Relation information generation method, apparatus, and program
CN115017906A (en) Method, device and storage medium for identifying entities in text
JP6535591B2 (en) Image recognition apparatus and operation method of image recognition apparatus
JP2015052873A (en) Method of automatically generating test data comprising character string, method of identifying signature embedded in test data comprising character string, and computer and computer program of these method
JP6123372B2 (en) Information processing system, name identification method and program
CN113688240A (en) Threat element extraction method, device, equipment and storage medium
JP7135730B2 (en) Summary generation method and summary generation program
KR102576825B1 (en) Document providing server that can provide by writing a summary report for disclosure based on the enterprise's report of audit and operating method thereof
KR101904901B1 (en) Original data management method and apparatus using id issuance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220124

R151 Written notification of patent or utility model registration

Ref document number: 7024533

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151