JP7189068B2 - MODEL CREATED SUPPORT METHOD AND MODEL CREATED SUPPORT SYSTEM - Google Patents

MODEL CREATED SUPPORT METHOD AND MODEL CREATED SUPPORT SYSTEM Download PDF

Info

Publication number
JP7189068B2
JP7189068B2 JP2019072538A JP2019072538A JP7189068B2 JP 7189068 B2 JP7189068 B2 JP 7189068B2 JP 2019072538 A JP2019072538 A JP 2019072538A JP 2019072538 A JP2019072538 A JP 2019072538A JP 7189068 B2 JP7189068 B2 JP 7189068B2
Authority
JP
Japan
Prior art keywords
feature amount
label
data
learning
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019072538A
Other languages
Japanese (ja)
Other versions
JP2020170427A (en
Inventor
和秀 愛甲
絵理 照屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019072538A priority Critical patent/JP7189068B2/en
Priority to US16/823,562 priority patent/US20200320409A1/en
Publication of JP2020170427A publication Critical patent/JP2020170427A/en
Application granted granted Critical
Publication of JP7189068B2 publication Critical patent/JP7189068B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Description

本発明は、モデル作成支援方法、及びモデル作成支援システムに関する。 The present invention relates to a model creation support method and a model creation support system.

機械学習の手法を使った分析モデル(推論モデル)の精度向上には、分析モデルにおける教師データの選定と分析パラメータのチューニングが重要となる。しかしながら、所望の分析精度が得られていない場合に、教師データに問題があるのか、それとも分析パラメータの設定に問題があるのか、という問題が発生する。 To improve the accuracy of an analysis model (inference model) using machine learning techniques, it is important to select teacher data and tune analysis parameters in the analysis model. However, when the desired analysis accuracy is not obtained, a problem arises as to whether there is a problem with the teacher data or with the setting of the analysis parameters.

この点、分析モデルの精度向上を支援する技術として、学習済みモデルに基づき高い信頼度で「正解」と推論できた非教師データを教師データに自動追加する手法(特許文献1)や、判定結果に影響を与えたルールを提示する手法(特許文献2)が知られている。 In this regard, as a technology to support the accuracy improvement of the analysis model, there is a method of automatically adding unsupervised data that can be inferred as "correct" with high reliability based on the trained model to the supervised data (Patent Document 1), and the judgment result. There is known a technique of presenting rules that have influenced the (Patent Document 2).

特開2005-92253号公報JP-A-2005-92253 特開2017-58816号公報JP 2017-58816 A

しかし、特許文献1に記載の技術では、既に存在する学習済みモデルによって高い信頼度で推論されるようなデータを教師データに追加しても、大きな精度向上は期待できない。他方、特許文献2に記載の技術では、文章からの情報抽出ルール(特徴量)を手動でシステムに入力する必要があるが、文章の情報は膨大であるため、入力すべき抽出ルールを人が判断するには事実上限界があるという問題がある。 However, with the technique described in Patent Literature 1, even if data that can be inferred with high reliability by an already existing trained model is added to the training data, a significant improvement in accuracy cannot be expected. On the other hand, in the technique described in Patent Document 2, it is necessary to manually input information extraction rules (feature values) from sentences into the system. The problem is that there are practical limits to the judgment.

本発明はこのような現状に鑑みてなされたものであり、その目的は、機械学習により生成されるモデルの精度を確実に向上させることが可能なモデル作成支援方法、及びモデル作成支援システムを提供することにある。
The present invention has been made in view of such circumstances, and its object is to provide a model creation support method and a model creation support system that can reliably improve the accuracy of models generated by machine learning. to do.

以上の課題を解決するための本発明の一つは、プロセッサ及びメモリを備えるモデル作成支援システムが、複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデルを生成する学習処理と、所定のデータを前記生成した推論モデルに入力することにより特定された当該所定のデータの特徴量と、前記機械学習により特定された、前記学習対象のデータの特徴量との類似性を判定することにより、前記推論モデルによるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する評価処理と、を実行する。 One of the present invention for solving the above problems is a model creation support system equipped with a processor and a memory, by performing machine learning for specifying each feature amount for a plurality of learning target data, input A learning process for generating an inference model for estimating a label to be set to data based on the feature amount of the input data, and a feature amount of the predetermined data specified by inputting predetermined data into the generated inference model. and, by determining the similarity with the feature quantity of the learning target data specified by the machine learning, the validity of the label estimation by the inference model is determined, and information indicating the content of the determination is output. and an evaluation process to be performed.

本発明によれば、機械学習により生成されるモデルの精度を確実に向上させることができる。 ADVANTAGE OF THE INVENTION According to this invention, the precision of the model produced|generated by machine learning can be improved reliably.

図1は、本実施形態に係る文書解析システム100(モデル作成支援システム)の構成の一例を示す図である。FIG. 1 is a diagram showing an example of the configuration of a document analysis system 100 (model creation support system) according to this embodiment. 図2は、分析ノード2が備える構成の一例を示す図である。FIG. 2 is a diagram showing an example of the configuration of the analysis node 2. As shown in FIG. 図3は、文書データ2121のデータ形式の一例を示す図である。FIG. 3 is a diagram showing an example of the data format of the document data 2121. As shown in FIG. 図4は、教師辞書データ2122の一例を示す図である。FIG. 4 is a diagram showing an example of the teacher dictionary data 2122. As shown in FIG. 図5は、推論モデルパラメータ2123の一例を示す図である。FIG. 5 is a diagram showing an example of the inference model parameters 2123. As shown in FIG. 図6は、推論結果データ2124の一例を示す図である。FIG. 6 is a diagram showing an example of the inference result data 2124. As shown in FIG. 図7は、確認ラベル抽出ルール2126の一例を示す図である。FIG. 7 is a diagram showing an example of the confirmation label extraction rule 2126. As shown in FIG. 図8は、特徴量差分データ2125の一例を示す図である。FIG. 8 is a diagram showing an example of the feature quantity difference data 2125. As shown in FIG. 図9は、確認ラベルデータ2127の一例を示す図である。FIG. 9 is a diagram showing an example of the confirmation label data 2127. As shown in FIG. 図10は、文書解析処理の一例を説明するフロー図である。FIG. 10 is a flowchart illustrating an example of document analysis processing. 図11は、学習処理の一例を説明するフロー図である。FIG. 11 is a flowchart illustrating an example of learning processing. 図12は、評価処理の詳細を説明するフロー図である。FIG. 12 is a flowchart for explaining details of the evaluation process. 図13は、特徴量差分抽出処理の詳細を説明するフロー図である。FIG. 13 is a flowchart for explaining the details of the feature quantity difference extraction process. 図14は、評価処理の詳細を説明するフロー図である。FIG. 14 is a flowchart for explaining details of the evaluation process. 図15は、ラベル確認画面の一例を示す図である。FIG. 15 is a diagram showing an example of the label confirmation screen. 図16は、推論処理の詳細を説明するフロー図である。FIG. 16 is a flowchart for explaining details of inference processing.

以下、本実施形態のモデル作成支援システムについて図面を参照しつつ説明する。なお、以後の説明では、「×××テーブル」等の表現にて情報を説明することがあるが、これら情報はテーブル等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「×××テーブル」等について「×××情報」と呼ぶことがある。各情報の内容を説明する際に、「番号」、「名称」という表現の識別情報が採用されるが、他種の識別情報が使用されて良い。以後の説明における「×××処理」は、「×××プログラム」であってもよい。以後の説明における「処理」を主語とした説明は、プロセッサを主語とした説明としてもよい。処理の一部または全ては、専用ハードウェアによって実現されてもよい。各種プログラムは、プログラム配布サーバや、計算機が読み取り可能な記憶媒体によって各計算機にインストールされてもよい。 The model creation support system of this embodiment will be described below with reference to the drawings. In the following description, information may be described using expressions such as "xxx table", but these information may be expressed in a data structure other than a table. Therefore, in order to indicate that it does not depend on the data structure, the "xxx table" and the like are sometimes called "xxx information". When describing the contents of each piece of information, identification information expressed as “number” and “name” is used, but other types of identification information may be used. "XXX process" in the following description may be "XXX program". The description with the subject of "processing" in the following description may be the description with the processor as the subject. Part or all of the processing may be implemented by dedicated hardware. Various programs may be installed in each computer by a program distribution server or a computer-readable storage medium.

図1は、本実施形態に係る文書解析システム100(モデル作成支援システム)の構成の一例を示す図である。文書解析システム100は、学習対象の文書データにおける各単語の意味内容を推論する機械学習を行うことにより、単語の意味内容を推論する推論モデルを作成することで、ユーザから指定された、解析対象の文書の意味内容を解析する。文書解析システム100は、例えば、所定のデータセンタに設置される。文書解析システム100は、解析対象の文書データを保持している端末3と、推論モデルを生成すると共に、端末3から送られてきた解析対象の文書を、その推論モデルに従って推論する分析ノード2とを備えて構成されている。なお、分析ノード2及び端末3の間は、ネットワークスイッチ4を介して接続されている。例えば、分析ノード2及び端末3の間は、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、専用線等の有線
又は無線の通信ネットワークを介したネットワークスイッチ4によって通信可能に接続される。
FIG. 1 is a diagram showing an example of the configuration of a document analysis system 100 (model creation support system) according to this embodiment. The document analysis system 100 creates an inference model for inferring the semantic content of each word by performing machine learning for inferring the semantic content of each word in document data to be learned. Analyze the semantic content of documents in The document analysis system 100 is installed, for example, in a predetermined data center. The document analysis system 100 includes a terminal 3 that holds document data to be analyzed, and an analysis node 2 that generates an inference model and infers the document to be analyzed sent from the terminal 3 according to the inference model. is configured with Note that the analysis node 2 and the terminal 3 are connected via a network switch 4 . For example, the analysis node 2 and the terminal 3 are communicably connected by a network switch 4 via a wired or wireless communication network such as LAN (Local Area Network), WAN (Wide Area Network), the Internet, or a dedicated line. be.

分析ノード2及び端末3は、パーソナルコンピュータ又はワークステーションなどから構成される。
図2は、分析ノード2が備える構成の一例を示す図である。分析ノード2は、CPU(Central Processing Unit)などの処理部21と、RAM(Random Access Memory)又は
ROM(Read Only Memory)等のメモリ22と、FC(Fibre Channel)ディスク、SC
SI(Small Computer System Interface)ディスク、SATAディスク、ATA(AT Attachment)ディスク又はSAS(Serial Attached SCSI)ディスク等のディスクデバイス27と、キーボード、マウス、タッチパネルなどからなる入力装置24と、モニタ(ディ
スプレイ)等からなる出力装置25と、他の装置と通信を行う通信装置26とを備える。なお、処理部21は、分析ノード2全体の動作制御を司り、メモリ22に格納された後述の制御プログラム群211及び管理テーブル群212に基づいて必要な処理を実行する。メモリ22は、後述する制御プログラム群211及び管理テーブル群212を記憶するために用いられる他、処理部21のワークメモリとしても用いられる。通信装置26は、ネットワークスイッチ4に対応した通信インタフェースであり、分析ノード2が通信する際のプロトコル制御を行う。
The analysis node 2 and terminal 3 are composed of personal computers, workstations, or the like.
FIG. 2 is a diagram showing an example of the configuration of the analysis node 2. As shown in FIG. The analysis node 2 includes a processing unit 21 such as a CPU (Central Processing Unit), a memory 22 such as a RAM (Random Access Memory) or ROM (Read Only Memory), an FC (Fibre Channel) disk, an SC
A disk device 27 such as an SI (Small Computer System Interface) disk, a SATA disk, an ATA (AT Attachment) disk or a SAS (Serial Attached SCSI) disk, an input device 24 including a keyboard, a mouse, a touch panel, etc., and a monitor (display). etc., and a communication device 26 for communicating with other devices. The processing unit 21 controls the operation of the analysis node 2 as a whole, and executes necessary processing based on a control program group 211 and a management table group 212 which are stored in the memory 22 and will be described later. The memory 22 is used to store a control program group 211 and a management table group 212 to be described later, and is also used as a work memory for the processing unit 21 . The communication device 26 is a communication interface compatible with the network switch 4 and performs protocol control when the analysis node 2 communicates.

分析ノード2は、制御プログラム群211として、学習部2111、評価部2112、フィードバック部2113、及び推論部2114の各機能を有する。また、分析ノード2は、文書データ2121、教師辞書データ2122、推論モデル200、推論結果データ2124、確認ラベル抽出ルール2126、特徴量差分データ2125、及び確認ラベルデータ2127を記憶している。 The analysis node 2 has functions of a learning unit 2111 , an evaluation unit 2112 , a feedback unit 2113 , and an inference unit 2114 as a control program group 211 . Analysis node 2 also stores document data 2121 , teacher dictionary data 2122 , inference model 200 , inference result data 2124 , confirmation label extraction rule 2126 , feature quantity difference data 2125 , and confirmation label data 2127 .

学習部2111は、端末3から所定の学習処理要求を受け付ける。 The learning unit 2111 receives a predetermined learning process request from the terminal 3 .

学習部2111は、複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデル200を生成する。 The learning unit 2111 generates an inference model 200 that estimates a label to be set to input data based on the feature amount of the input data by performing machine learning to specify each feature amount for a plurality of learning target data. Generate.

具体的には、学習部2111は、特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデル200を生成する。なお、本実施形態では、このラベルは、人名と判定された単語に対して設定される人名ラベルであるものとする。 Specifically, the learning unit 2111 performs machine learning to specify the weight value of the feature amount, thereby creating the inference model 200 that estimates the label to be set to the input data based on the weight value of the feature amount of the input data. Generate. Note that in this embodiment, this label is a personal name label set for a word determined to be a personal name.

推論モデル200は、次述する確度を算出する確度算出式201及び、推論モデル200に用いられるパラメータ群である推論モデルパラメータ2123を含んでいる。 The inference model 200 includes an accuracy calculation formula 201 for calculating an accuracy, which will be described later, and an inference model parameter 2123 that is a parameter group used in the inference model 200 .

推論モデル200は、入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、入力データの特徴量からラベルを推定する。なお、推定されたラベルの情報は、後述する確認ラベルデータ2127に記憶される。 The inference model 200 estimates the label from the feature amount of the input data based on the accuracy, which is a parameter for determining the type of label to be set for the input data. Information on the estimated label is stored in confirmation label data 2127, which will be described later.

なお、学習部2111は、学習対象の文書データ及び、分析対象の文書データを、文書データ2121に記憶している。また、学習部2111は、文書データ2121に記録されている文書データから機械学習により抽出した単語及びその単語に設定したラベルを、辞書データとして、教師辞書データ2122に記憶している。
ここで、文書データ2121及び教師辞書データ2122の例を説明する。
Note that the learning unit 2111 stores document data to be learned and document data to be analyzed in the document data 2121 . The learning unit 2111 also stores words extracted by machine learning from the document data recorded in the document data 2121 and labels set to the words in the teacher dictionary data 2122 as dictionary data.
Here, examples of the document data 2121 and teacher dictionary data 2122 will be described.

<文書データ> <Document data>

図3は、文書データ2121のデータ形式の一例を示す図である。文書データ2121は、学習対象のデータが記録されている学習用文書データ3121と、分析対象のデータが記録されている本番用文書データ3122とを含む。学習用文書データ3121、及び本番用文書データ3122のそれぞれは、1又は2以上の文書データを含んで構成されている。同図の例では、学習用文書データ3121に「sasakiさんは毎朝走る」という文章が記録されている。学習用文書データ3121は、例えばニュース記事のデータであり、記事中には人の名前を表す単語が含まれている。 FIG. 3 is a diagram showing an example of the data format of the document data 2121. As shown in FIG. The document data 2121 includes learning document data 3121 in which learning target data is recorded and production document data 3122 in which analysis target data is recorded. Each of the learning document data 3121 and the production document data 3122 includes one or more document data. In the example shown in the figure, the document data for learning 3121 records the sentence "Mr. sasaki runs every morning". The learning document data 3121 is, for example, news article data, and the article includes words representing people's names.

<教師辞書データ>
図4は、教師辞書データ2122の一例を示す図である。教師辞書データ2122は、
正例テーブル21221及び負例テーブル21222を含んで構成されている。
<Teacher dictionary data>
FIG. 4 is a diagram showing an example of the teacher dictionary data 2122. As shown in FIG. The teacher dictionary data 2122 is
It includes a positive case table 21221 and a negative case table 21222 .

正例テーブル21221は、人名と判定された単語(以下、正例という)が格納される人名辞書欄212211の項目を有する。また、負例テーブル21222は、人名でないと判定された単語(以下、負例という)が格納される人名辞書欄212221の項目を有する。同図の例では、正例と判定された単語として、「sasaki」と「tanaka」が登録され、負例と判定された単語の例として、「hitachi」と「amazon」が登録されている。 The positive example table 21221 has items in a personal name dictionary column 212211 in which words determined to be personal names (hereinafter referred to as positive examples) are stored. In addition, the negative example table 21222 has items in a personal name dictionary column 212221 in which words determined not to be personal names (hereinafter referred to as negative examples) are stored. In the example shown in the figure, "sasaki" and "tanaka" are registered as words determined to be positive, and "hitachi" and "amazon" are registered as examples of words determined to be negative.

次に、推論モデルパラメータ2123の詳細を説明する。
<推論モデルパラメータ>
図5は、推論モデルパラメータ2123の一例を示す図である。推論モデルパラメータ2123は、重み値を示す変数名が格納される重み欄21231、及び、重み欄21231に係る変数の値(重み値)が格納される値欄21232を有する。
<確度算出式>
次に、確度算出式201について説明する。確度算出式201は、特徴量及びその重み値によって表現される式であり、本実施形態では、
Next, the details of the inference model parameter 2123 will be described.
<Inference model parameters>
FIG. 5 is a diagram showing an example of the inference model parameters 2123. As shown in FIG. The inference model parameter 2123 has a weight column 21231 in which variable names indicating weight values are stored, and a value column 21232 in which variable values (weight values) related to the weight column 21231 are stored.
<Accuracy calculation formula>
Next, the accuracy calculation formula 201 will be described. The accuracy calculation formula 201 is a formula expressed by a feature amount and its weight value, and in this embodiment,

P=w1*X1+w2*X2+w3*X3 P=w1*X1+w2*X2+w3*X3

であるものとする。Pは確度、wは重み値、Xは特徴量である。ここでは、特徴量X1の重
みw1は0.5、特徴量X2の重みw2は0.8、特徴量X3の重みw3は-0.1となる。
shall be P is the probability, w is the weight value, and X is the feature quantity. Here, the weight w1 of the feature quantity X1 is 0.5, the weight w2 of the feature quantity X2 is 0.8, and the weight w3 of the feature quantity X3 is -0.1.

本実施形態では、分析対象のある単語の確度Pが第1閾値(本実施形態では0.85とする)以上である場合は、その単語のラベルに「T」が設定される(例えば、その単語が正の特徴量を多く有している等、その単語が人名である可能性が高い)。また、ある単語の確度Pが第1閾値未満第2閾値(本実施形態では0.25とする)以上である場合は、その単語のラベルに「Null」が設定される(例えば、その単語が正及び負の特徴量を有している等、その単語が人名であるか否かが不確定である)。また、ある単語の確度Pが第2閾値未満である場合は、その単語のラベルに「F」が設定される(例えば、その単語が負の特徴量を多く有している等、その単語が人名である可能性が低い)。 In this embodiment, when the probability P of a word to be analyzed is equal to or greater than a first threshold value (0.85 in this embodiment), the label of that word is set to "T" (for example, The word has a high probability of being a person's name, for example, the word has many positive feature values). Further, when the probability P of a certain word is less than the first threshold and equal to or greater than the second threshold (0.25 in this embodiment), the label of the word is set to "Null" (for example, the word is It is uncertain whether the word is a person's name, such as having positive and negative feature amounts). Also, if the probability P of a word is less than the second threshold, the label of that word is set to "F" (for example, if the word has many negative feature values, the word is less likely to be a person's name).

ここで、以下では、「T」が設定されるような確度Pの範囲を第1領域、「Null」が設定されるような確度Pの範囲を第2領域、「F」が設定されるような確度Pの範囲を第3領域という。 Here, in the following, the range of accuracy P for which "T" is set is the first area, the range of accuracy P for which "Null" is set is the second area, and "F" is set. The range of accuracy P is called a third region.

なお、学習部2111は、推論モデル200の生成の結果のデータ及び、推論モデル200の生成に際して得られたデータを、推論結果データ2124に記録する。 Note that the learning unit 2111 records the data of the result of generating the inference model 200 and the data obtained when generating the inference model 200 in the inference result data 2124 .

ここで、推論結果データ2124の例について説明する。
<推論結果データ>
図6は、推論結果データ2124の一例を示す図である。推論結果データ2124は、学習された又は分析された単語が格納される候補欄21241と(推論結果データ2124には、学習対象の単語だけでなく、解析対象の文章の単語に推論モデル200を入力した結果も格納される)、候補欄21241に係る単語が正例であるか(「正」)又は負例であるか(「負」)を示す情報が格納される学習フラグ欄21242と、候補欄21241に係る単語が登録される文章(学習用文書データ3121)が格納される文章欄21243と、候補欄21241に係る単語の特徴量の情報(例えば、「t」が正の特徴量、「f」が負の特徴量)が格納される特徴量欄21244と、候補欄21241に係る単語に設定されたラベルの情報が格納されるラベル欄21245と、候補欄21241に係る単語の確度Pが格納される確度欄21246とを有する。
Here, an example of the inference result data 2124 will be described.
<Inference result data>
FIG. 6 is a diagram showing an example of the inference result data 2124. As shown in FIG. The inference result data 2124 includes a candidate field 21241 in which learned or analyzed words are stored (the inference result data 2124 contains not only the words to be learned but also the inference model 200 to the words of the sentence to be analyzed). result is also stored), a learning flag column 21242 that stores information indicating whether the word related to the candidate column 21241 is a positive example (“positive”) or a negative example (“negative”), and a candidate A sentence column 21243 storing sentences (learning document data 3121) in which words related to the column 21241 are registered, and information of feature amounts of words related to the candidate column 21241 (for example, "t" is a positive feature amount, " f” is a negative feature amount), a label column 21245 stores label information set for the word related to the candidate column 21241, and the probability P of the word related to the candidate column 21241 is and a certainty column 21246 to be stored.

特徴量欄21244には、候補欄21241に係る単語が有する特徴量のうち、文章欄21243に係る文章に存在する単語に係る特徴量が格納される。具体的には、例えば、特徴量欄21244における特徴量の項目リストには、文章欄21243に係る文章に存在する単語が登録される(「t」)。 The feature amount column 21244 stores the feature amounts of the words present in the sentences associated with the sentence column 21243 among the feature amounts of the words associated with the candidate column 21241 . Specifically, for example, in the feature amount item list in the feature amount column 21244, a word that exists in the sentence related to the sentence column 21243 is registered ("t").

また、本実施形態では、ラベル欄21245には、「T」、「F」、「Null」のいずれかが設定される。同図の例では、単語「sasaki」は、正例(「正」)の学習対象のデータである。この単語は、「sasakiさんは毎朝走る」という文章中(学習用文書データ3121)に記録されており、この文章は、要素「走る」という正の特徴量を含んでいる。その結果、この「sasaki」なる単語の確度Pとなっており、かつ「0.96」であり第1閾値以上であるので、人名らしさが高いことを示すラベル「T」が設定されている。 Further, in the present embodiment, any one of "T", "F", and "Null" is set in the label column 21245. FIG. In the example shown in the figure, the word "sasaki" is data to be learned as a positive example ("positive"). This word is recorded in the sentence "Mr. sasaki runs every morning" (learning document data 3121), and this sentence includes the positive feature quantity of the element "run". As a result, the accuracy P of the word "sasaki" is "0.96", which is equal to or higher than the first threshold, so a label "T" indicating that the word is highly likely to be a personal name is set.

次に、図2に示すように、評価部2112は、端末3からの所定の処理要求を受け付ける。
そして、評価部2112は、所定のデータ(学習対象の単語でも新たな追加的な単語でもよい)を、学習部2111で生成した推論モデル200に入力することにより特定された当該所定のデータの特徴量と、学習部2111における機械学習により既に特定された、学習対象のデータの特徴量との類似性を判定することにより、推論モデル200によるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する。なお、評価部2112は、特徴量の類似性についての情報を、特徴量差分データ2125に記憶する。また、評価部2112は、ラベルの設定の妥当性の判定結果を、確認ラベルデータ2127に記憶する。
Next, as shown in FIG. 2, the evaluation unit 2112 receives a predetermined processing request from the terminal 3. FIG.
Then, the evaluation unit 2112 inputs predetermined data (a word to be learned or a new additional word) to the inference model 200 generated by the learning unit 2111, thereby identifying the characteristics of the predetermined data. The validity of the label estimation by the inference model 200 is determined by determining the similarity between the amount and the feature amount of the data to be learned, which has already been specified by machine learning in the learning unit 2111, and the content of the determination is determined. output the information shown. Note that the evaluation unit 2112 stores information about the similarity of feature amounts in the feature amount difference data 2125 . Also, the evaluation unit 2112 stores the determination result of the validity of the label setting in the confirmation label data 2127 .

具体的には、評価部2112は、確度に応じた、特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、推論モデル200によるラベルの推定の妥当性を判定する。なお、評価部2112は、この判定ルールを、後述する確認ラベル抽出ルール2126に記憶している。 Specifically, the evaluation unit 2112 sets a plurality of judgment rules for judging the similarity between feature amounts according to the accuracy, and judges the validity of label estimation by the inference model 200 based on the set judgment rules. judge. Note that the evaluation unit 2112 stores this determination rule in a confirmation label extraction rule 2126, which will be described later.

加えて、評価部2112は、所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量(以下、重複特徴量という)と一方のデータのみが有する特徴量(以下、差分特徴量という)とを特定することにより、ラベルの推定の妥当性を判定する。 In addition, the evaluation unit 2112 evaluates the similarity between the feature amount of the predetermined data and the feature amount of the learning target data based on the feature amount that both data have in common (hereinafter referred to as duplicate feature amount) The validity of the label estimation is determined by specifying the feature amount that only the data has (hereinafter referred to as the difference feature amount).

さらに、評価部2112は、所定のデータの特徴量の重み値と、学習対象のデータの特徴量の重み値との類似性を判定することにより、推論モデル200における重み値の妥当性を判定する。なお、重複特徴量及び差分特徴量は、後述する特徴量差分データ2125に記憶される。 Furthermore, the evaluation unit 2112 determines the validity of the weight value in the inference model 200 by determining the similarity between the weight value of the feature amount of the predetermined data and the weight value of the feature amount of the learning target data. . Note that the overlapping feature amount and the difference feature amount are stored in the feature amount difference data 2125, which will be described later.

ここで、確認ラベル抽出ルール2126及び、差分特徴量データ2125のそれぞれの具体例について説明する。
<確認ラベル抽出ルール>
図7は、確認ラベル抽出ルール2126の一例を示す図である。確認ラベル抽出ルール2126は、判定ルールを記憶した情報であり、ラベルを変更する目的を示す情報が格納される確認目的欄21261と、ラベルの変更(ラベル操作)の内容を特定する情報が格納されるラベル操作欄21262と、ラベルの変更対象とする単語が属する領域を特定する情報が格納される領域欄21263と、判定ルールが格納されるルール欄21264とをそれぞれ項目として有する。
Specific examples of the confirmation label extraction rule 2126 and the difference feature data 2125 will now be described.
<Confirmation label extraction rule>
FIG. 7 is a diagram showing an example of the confirmation label extraction rule 2126. As shown in FIG. The confirmation label extraction rule 2126 is information that stores determination rules, and stores a confirmation purpose column 21261 that stores information indicating the purpose of changing the label and information that specifies the content of the label change (label operation). a label operation column 21262, a region column 21263 storing information specifying a region to which a word to be changed in label belongs, and a rule column 21264 storing a determination rule.

確認ラベル抽出ルール2126には、確度Pが第1領域に属する単語に対して適用され
る、ラベルの精度向上のための判定ルールが記憶されている(第1判定ルール)。また、確認ラベル抽出ルール2126には、確度Pが第2領域に属する単語に対して適用される、再現率(Recall)向上のための判定ルールが記憶されている(第2判定ルール)。また、確認ラベル抽出ルール2126には、確度Pが第3領域に属する単語に対して適用される、再現率(Recall)向上のための判定ルールが記憶されている(第3判定ルール)。また、確認ラベル抽出ルール2126には、全て単語に対して適用される、適合率(Precision)及び再現率(Recall)向上のための判定ルールが記憶されている(第4判定ルール
)。
The confirmation label extraction rule 2126 stores a determination rule for improving label accuracy, which is applied to words whose accuracy P belongs to the first region (first determination rule). Further, the confirmation label extraction rule 2126 stores a determination rule for improving recall, which is applied to words whose probability P belongs to the second region (second determination rule). Further, the confirmation label extraction rule 2126 stores a determination rule for improving recall, which is applied to words whose probability P belongs to the third region (third determination rule). Further, the confirmation label extraction rule 2126 stores determination rules for improving precision and recall, which are applied to all words (fourth determination rule).

例えば、第1判定ルールは、その目的が「Precision向上」すなわち、人名ではないの
に間違ってラベルを付与してしまっている単語を発見することを目的としている。この場合、第1判定ルールは「T⇒F」であり、具体的には、ある単語に誤ってラベルを付与(T)
してしまっている場合に、その単語に対してラベルを付与しない(F)ようにラベルを変
更する。第1判定ルールは、領域「1」の単語を対象としている。
For example, the purpose of the first determination rule is to "improve precision", that is, to find words that are incorrectly labeled even though they are not personal names. In this case, the first decision rule is "T ⇒ F", specifically, a word is incorrectly labeled (T)
change the label so that the word is not labeled (F). The first determination rule targets the words in area "1".

ここで、特徴量差分データについて説明する。
<特徴量差分データ>
図8は、特徴量差分データ2125の一例を示す図である。特徴量差分データ2125は、学習対象又は分析対象の単語が格納される候補欄21251、候補欄21251に係る単語が登録されている文章(学習用文書データ3121)が格納される文章欄21252、候補欄21251に係る単語に付与されたラベルを特定する情報(「T」、「F」、「Null」)が格納されるラベル欄21253、正例との関係欄21254、及び負例との関係欄21255の各項目を有する。
Here, the feature amount difference data will be described.
<Feature amount difference data>
FIG. 8 is a diagram showing an example of the feature quantity difference data 2125. As shown in FIG. The feature amount difference data 2125 includes a candidate column 21251 storing words to be learned or analyzed, a sentence column 21252 storing sentences (learning document data 3121) in which words related to the candidate column 21251 are registered, and candidate A label column 21253 storing information (“T”, “F”, “Null”) specifying the label assigned to the word related to the column 21251, a positive example relationship column 21254, and a negative example relationship column. It has 21255 items.

正例との関係欄21254は、候補欄21251に係る単語が有する特徴量のうち、教師辞書データ2122に登録されている正例の単語と共通して有している特徴量(以下、正例重複特徴量という)が格納される重複欄21254aと、候補欄21251に係る単語が有する特徴量のうち、教師辞書データ2122に登録されている正例の単語が有しない特徴量(以下、正例差分特徴量という)が格納される差分欄21254bとを含む。また、負例との関係欄21255は、候補欄21251に係る単語が有する特徴量のうち、教師辞書データ2122に登録されている負例の単語と共通して有している特徴量(以下、負例重複特徴量という)が格納される重複欄21255aと、候補欄21251に係る単語が有する特徴量のうち、教師辞書データ2122に登録されている負例の単語が有しない特徴量(以下、負例差分特徴量という)が格納される差分欄21255bとを含む。 The relationship with positive example column 21254 lists the feature amounts (hereinafter referred to as positive example 21254a in which the overlapped feature amount) is stored, and the feature amount of the words related to the candidate column 21251 that are not included in the positive example words registered in the teacher dictionary data 2122 (hereinafter referred to as the positive example and a difference column 21254b in which a difference feature amount) is stored. In addition, the negative example relationship column 21255 includes feature quantities (hereinafter referred to as 21255a in which negative example overlapping feature amounts are stored, and among feature amounts possessed by words related to the candidate column 21251, feature amounts not possessed by negative example words registered in the teacher dictionary data 2122 (hereinafter referred to as difference column 21255b in which negative example difference feature amounts) are stored.

同図の例では、単語の「sasaki」は、付与されたラベルが「T」であり、正例重複特徴
量として「走る」を有し、また、負例差分特徴量として「購入」を有している。
In the example shown in the figure, the word "sasaki" has a given label of "T", has "run" as a positive case overlap feature amount, and has "purchase" as a negative case difference feature amount. is doing.

次に、確認ラベルデータについて説明する。
<確認ラベルデータ>
図9は、確認ラベルデータ2127の一例を示す図である。確認ラベルデータ2127は、候補欄21271、文章欄21272、ラベル欄21273、正例との重複差分欄21274、負例との重複差分欄21275、及び確認ラベル欄21276を有する。
Next, the confirmation label data will be explained.
<Confirmation label data>
FIG. 9 is a diagram showing an example of the confirmation label data 2127. As shown in FIG. The confirmation label data 2127 has a candidate column 21271 , a sentence column 21272 , a label column 21273 , a duplicate difference column with positive examples 21274 , a duplicate difference column with negative examples 21275 , and a confirmation label column 21276 .

このうち、候補欄21271、文章欄21272、ラベル欄21273、正例との重複差分欄21274、負例との重複差分欄21275は、特徴量差分データ2125と同様である。確認ラベル欄21276には、候補欄21271に係る単語に対するラベルの設定の妥当性の判定結果を示す情報(確認ラベル)が格納される。例えば、単語のラベルの設定の妥当性に疑問がある場合には、対応する確認ラベル欄21276に「○」が格納される。 Of these, the candidate column 21271 , text column 21272 , label column 21273 , positive example overlap difference column 21274 , and negative example overlap difference column 21275 are the same as the feature amount difference data 2125 . The confirmation label column 21276 stores information (confirmation label) indicating the determination result of the appropriateness of label setting for the word in the candidate column 21271 . For example, if there is a question about the appropriateness of the word label setting, "o" is stored in the corresponding confirmation label column 21276. FIG.

次に、図2に示すように、フィードバック部2113は、評価部2112による、判定内容を示す情報(確認ラベル)に基づき、学習部2111が生成した推論モデル200の修正をユーザから受け付ける。 Next, as shown in FIG. 2, the feedback unit 2113 receives from the user correction of the inference model 200 generated by the learning unit 2111 based on the information (confirmation label) indicating the content of the determination by the evaluation unit 2112 .

具体的には、フィードバック部2113は、学習部2111により特定された重み値の修正をユーザから受け付ける。 Specifically, feedback section 2113 accepts correction of the weight value specified by learning section 2111 from the user.

推論部2114は、端末3から本番用文書データ3122を含む推論要求を受け付け、推論モデル200を用いて、本番用文書データ3122が示す文章における単語にラベルを設定する(人名に係る単語の推論を行う)ことにより、本番用文書データ3122に係る文章の意味内容を解析する。なお、推論部2114は、この結果を推論結果データ2124に登録する。 The inference unit 2114 receives an inference request including the production document data 3122 from the terminal 3, and uses the inference model 200 to set labels for the words in the sentence indicated by the production document data 3122 (inference of words related to personal names). ), the semantic contents of the sentences related to the production document data 3122 are analyzed. Note that the inference unit 2114 registers this result in the inference result data 2124 .

以上に説明した分析ノード2の機能は、分析ノード2のハードウェアによって、もしくは、分析ノード2の処理部21が、メモリ22又はディスクデバイス27に記憶されている各プログラムを読み出して実行することにより実現される。また、これらのプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、SSDなどの記憶デバイス、又は、ICカード、SDカード、DVDなどの、情報処理装置で読み取り可能な非一時的データ記憶媒体に格納される。 The functions of the analysis node 2 described above are realized by the hardware of the analysis node 2 or by the processing unit 21 of the analysis node 2 reading and executing each program stored in the memory 22 or the disk device 27. Realized. In addition, these programs are, for example, secondary storage devices, non-volatile semiconductor memories, hard disk drives, storage devices such as SSD, or IC cards, SD cards, DVDs, etc. Stored on a data storage medium.

<<処理>>
次に、文書解析システム100が行う、分析対象の文書を解析する文書解析処理について説明する。
<文書解析処理>
図10は、文書解析処理の一例を説明するフロー図である。まず、分析ノード2は、学習対象の文章における各単語に対して所定の機械学習を行うことにより、入力された単語に対応するラベルを推定する推論モデル200を生成する学習処理を実行する(SP1)。そして、分析ノード2は、生成した推論モデル200によるラベルの設定の妥当性を評価すると共に、確認ラベルを設定する評価処理を実行する(SP2)。なお、分析ノード2は、評価処理により設定された確認ラベルに基づき、ユーザから、推論モデル200の修正(フィードバック)を受け付ける。分析ノード2は、修正された推論モデル200及びラベルに基づき、解析対象の文書における各単語に対応するラベルを推定する推論処理を実行する(SP3)。
以下、各処理の詳細を説明する。
<<Processing>>
Next, document analysis processing for analyzing a document to be analyzed, which is performed by the document analysis system 100, will be described.
<Document analysis processing>
FIG. 10 is a flowchart illustrating an example of document analysis processing. First, the analysis node 2 executes a learning process of generating an inference model 200 that estimates the label corresponding to the input word by performing predetermined machine learning on each word in the sentence to be learned (SP1 ). Then, the analysis node 2 evaluates the appropriateness of label setting by the generated inference model 200 and executes evaluation processing for setting confirmation labels (SP2). Note that the analysis node 2 receives correction (feedback) of the inference model 200 from the user based on the confirmation label set by the evaluation process. Based on the revised inference model 200 and the labels, the analysis node 2 performs an inference process of estimating the label corresponding to each word in the document to be analyzed (SP3).
Details of each process will be described below.

<学習処理>
図11は、学習処理の一例を説明するフロー図である。まず、分析ノード2の学習部2111は、ユーザから、学習処理の要求を受け付ける(SP901)。具体的には、例えば、分析ノード2は、端末3から、学習用文書データ3121及び教師辞書データ2122の受信を受け付ける。
<Learning processing>
FIG. 11 is a flowchart illustrating an example of learning processing. First, the learning unit 2111 of the analysis node 2 receives a request for learning processing from the user (SP901). Specifically, for example, the analysis node 2 receives the learning document data 3121 and the teacher dictionary data 2122 from the terminal 3 .

学習部2111は、受信した学習用文書データ3121を文書データ2121に登録する(SP902)。また、学習部2111は、教師辞書データ2122を登録する(SP902)。 The learning unit 2111 registers the received document data for learning 3121 in the document data 2121 (SP902). The learning unit 2111 also registers the teacher dictionary data 2122 (SP902).

学習部2111は、教師辞書データ2122、及び文書データ2121に基づき、機械学習により、推論モデル200を生成する(SP903)。学習部2111は、その結果を推論結果データ2124に登録する(SP904)。 The learning unit 2111 generates the inference model 200 by machine learning based on the teacher dictionary data 2122 and the document data 2121 (SP903). The learning unit 2111 registers the result in the inference result data 2124 (SP904).

具体的には、例えば、学習部2111は、学習用文書データ3121に登録されている各文章から、教師辞書データ2122に登録されている単語(以下、候補単語という)を全て抽出する。そして、学習部2111は、抽出した各候補単語の所定範囲に所定の頻度以上で出現する他の単語(学習用文書データ3121中の他の単語)を、機械学習により、正の特徴量として抽出する(具体的には、特徴量の重み値に正の値を設定する)。他方、学習部2111は、抽出した各候補単語の所定範囲に所定の頻度以上で出現しない他の単語(学習用文書データ3121中の他の単語)を、機械学習により、負の特徴量として抽出する(具体的には、特徴量の重み値に負の値を設定する)。なお、この手法は、例えば、「Ce Zhang, “DeepDive: A Data Management System for Automatic Knowledge Base Construction,” Doctoral dissertation of University of Wisconsin-madison, Mar.
2015.」に開示されている。
Specifically, for example, the learning unit 2111 extracts all words registered in the teacher dictionary data 2122 (hereinafter referred to as candidate words) from each sentence registered in the learning document data 3121 . Then, the learning unit 2111 extracts other words (other words in the learning document data 3121) appearing in a predetermined range of the extracted candidate words at a predetermined frequency or more as positive feature amounts by machine learning. (Specifically, a positive value is set for the weight value of the feature amount). On the other hand, the learning unit 2111 extracts other words (other words in the document data for learning 3121) that do not appear in the predetermined range of the extracted candidate words with a predetermined frequency or more as negative feature amounts by machine learning. (Specifically, a negative value is set for the weight value of the feature amount). This method is described in, for example, Ce Zhang, “DeepDive: A Data Management System for Automatic Knowledge Base Construction,” Doctoral dissertation of University of Wisconsin-madison, Mar.
2015.”

具体的には、例えば、学習部2111は、教師辞書データ2122の正例テーブル21221に登録されている「sasaki」、「tanaka」という候補単語(正例)を学習用文書データ3121中の「sasakiさんは毎朝走る」「今日が誕生日のtanakaさんをお祝いする」という文章中から発見する。そして、学習部2111は、「sasaki」、「tanaka」の周囲にある「走る」及び「誕生」という単語を、それぞれ「sasaki」及び「tanaka」に対する正の特徴量として抽出する。また、例えば、学習部2111は、教師辞書データ2122の負例テーブル21222中に登録されている「hitachi」、「amazon」という候補単語
(負例)を学習用文書データ3121中の「hitachiの創業者はodairaさんです」「この
服はamazonで購入した」という文書中から発見する。そして、学習部2111は、「hitachi」の周囲にない「創業」という候補単語を、「hitachi」に対する、人名周辺には現れない負の特徴量として抽出する。
Specifically, for example, the learning unit 2111 replaces the candidate words (positive examples) “sasaki” and “tanaka” registered in the positive example table 21221 of the teacher dictionary data 2122 with “sasaki” in the learning document data 3121. runs every morning” and “today is the birthday of tanaka”. Then, the learning unit 2111 extracts the words "run" and "birth" around "sasaki" and "tanaka" as positive feature amounts for "sasaki" and "tanaka", respectively. Further, for example, the learning unit 2111 selects the candidate words (negative examples) “hitachi” and “amazon” registered in the negative example table 21222 of the teacher dictionary data 2122 as The person is Mr. odaira" and "I bought this clothes on Amazon". Then, the learning unit 2111 extracts the candidate word "founding" that does not appear around "hitachi" as a negative feature amount that does not appear around the person's name for "hitachi."

以上のように、学習部2111は、特徴量の特定を、教師辞書データ2122中の全ての単語と学習用文書データ3121の文章との全ての組合せに対して行うことによって、確度算出式201を含む推論モデル200を自動生成する。なお、推論モデル200の内容は、推論モデルパラメータ2123に登録される。
確度算出式201は、例えば、以下のようになる。
As described above, the learning unit 2111 specifies the feature amount for all combinations of all words in the teacher dictionary data 2122 and sentences in the learning document data 3121, thereby calculating the accuracy calculation formula 201. automatically generate an inference model 200 containing Note that the contents of the inference model 200 are registered in the inference model parameter 2123 .
For example, the accuracy calculation formula 201 is as follows.

確度P=w1*「走る」+w2*「誕生」+w3*「創業」+…
第1閾値=0.85
第2閾値=0.25
Accuracy P = w1 * “Run” + w2 * “Birth” + w3 * “Foundation” +…
First threshold = 0.85
Second threshold = 0.25

ここで、w1、w2、w3は特徴量に対する重み値である。このような推論モデル200を機械学習により生成することにより、各特徴量に対する重み値が決定される。例えば、人名の単語の周辺に統計的に頻出する特徴量(例えば、「誕生」)に対する重み値w2には正の値が設定される。また、人名の単語の周辺に統計的に頻出しない特徴量(例えば、「創業」)に対する重み値w3には負の値が設定される。 Here, w1, w2, and w3 are weight values for feature amounts. By generating such an inference model 200 by machine learning, a weight value for each feature amount is determined. For example, a positive value is set as the weight value w2 for a feature quantity (for example, "birth") that statistically appears frequently around words of a person's name. In addition, a negative value is set as the weight value w3 for a feature amount that statistically does not appear frequently around words of a person's name (for example, "startup").

次に、分析ノード2は、この推論モデル200に対して、教師辞書データ2122中に登録されていない所定のデータ(追加学習対象単語)を入力することにより、追加学習単語の特徴量を特定すると共に、追加学習単語の確度Pを算出し、対応するラベルを設定する(SP905)。これにより分析ノード2は、推論モデル200を完成させる。なお、追加学習対象単語ではなく学習処理で既に学習済みの単語を再利用してもよい。 Next, the analysis node 2 inputs predetermined data (additional learning target words) that are not registered in the teacher dictionary data 2122 to the inference model 200, thereby specifying the feature amount of the additional learning words. At the same time, the accuracy P of the additional learning word is calculated, and the corresponding label is set (SP905). The analysis node 2 thereby completes the inference model 200 . It should be noted that words that have already been learned in the learning process may be reused instead of additional learning target words.

例えば、分析ノード2は、「suzuki」を推論モデル200に入力することで、その確度Pを算出し、推論結果データ2124の確度欄21246にその値(例えば、「0.88」)を登録する。その確度Pは第1閾値以上であるので、分析ノード2は、「suzuki」が人名である可能性が高いことを示すラベルである「T」を推論結果データ2124のラベ
ル欄21245に登録する。また、例えば、分析ノード2は、算出された確度Pが第2閾値未満であった単語に対しては、人名である可能性が低いことを示すラベルである「F」
をラベル欄21245に登録する。また、分析ノード2は、算出された確度Pが第1閾値未満第2閾値以上であった単語に対しては、人名であるか否かが不確定であることを示すラベルである「Null」をラベル欄21245に登録する。以上で学習処理は終了する。
For example, the analysis node 2 inputs "suzuki" to the inference model 200, calculates its accuracy P, and registers the value (for example, "0.88") in the accuracy column 21246 of the inference result data 2124. . Since the accuracy P is greater than or equal to the first threshold, analysis node 2 registers the label "T" indicating that "suzuki" is likely to be a person's name in the label column 21245 of the inference result data 2124. Further, for example, the analysis node 2 assigns a label “F” indicating that the word with the calculated probability P less than the second threshold is unlikely to be a person's name.
is registered in the label column 21245. In addition, the analysis node 2 assigns a label "Null" indicating that it is uncertain whether or not the word is a person's name for the word for which the calculated probability P is less than the first threshold and equal to or greater than the second threshold. is registered in the label column 21245. The learning process ends here.

次に、生成した推論モデル200を評価する評価処理の詳細を説明する。
<評価処理>
Next, details of evaluation processing for evaluating the generated inference model 200 will be described.
<Evaluation processing>

図12は、評価処理の詳細を説明するフロー図である。まず、分析ノード2の評価部2112は、ユーザからの評価処理要求を受け付ける(SP1001)。具体的には、例え
ば、端末3から所定の入力を受け付ける。
FIG. 12 is a flowchart for explaining details of the evaluation process. First, the evaluation unit 2112 of the analysis node 2 receives an evaluation processing request from the user (SP1001). Specifically, for example, it receives a predetermined input from the terminal 3 .

分析ノード2は、評価処理要求を受け付けると、学習処理の過程において特定された単語の特徴量と、学習処理の結果生成された推論モデル200に所定のデータを入力して得られた特徴量とを比較する特徴量差分抽出処理を実行する(SP1002)。そして、分析ノード2は、特徴量差分抽出処理の結果に基づき、所定の条件を満たす単語に対して確認ラベルを設定する確認ラベル抽出処理を実行する(SP1003)。これらの処理の詳細は後述する。 When the analysis node 2 receives the evaluation processing request, the feature amount of the word specified in the course of the learning process and the feature amount obtained by inputting predetermined data to the inference model 200 generated as a result of the learning process. is executed (SP1002). Then, the analysis node 2 executes confirmation label extraction processing for setting confirmation labels for words that satisfy a predetermined condition based on the result of the feature amount difference extraction processing (SP1003). Details of these processes will be described later.

分析ノード2は、確認ラベル抽出処理により設定された確認ラベルを表示した確認ラベル提示画面を表示し、ユーザから所定の指示を受け付ける確認ラベル提示処理を実行する(SP1004)。確認ラベル提示処理の詳細は後述する。 The analysis node 2 displays a confirmation label presentation screen displaying the confirmation label set by the confirmation label extraction process, and executes a confirmation label presentation process for receiving a predetermined instruction from the user (SP1004). The details of the confirmation label presenting process will be described later.

分析ノード2は、受け付けた指示を推論モデル200又は推論結果データ2124に入力するフィードバック処理を実行する(SP1005)。以上で評価処理は終了する。 The analysis node 2 executes feedback processing to input the received instruction to the inference model 200 or the inference result data 2124 (SP1005). The evaluation process ends here.

ここで、特徴量差分抽出処理の詳細を説明する。
<特徴量差分抽出処理>
Here, the details of the feature quantity difference extraction process will be described.
<Feature amount difference extraction processing>

図13は、特徴量差分抽出処理の詳細を説明するフロー図である。まず、分析ノード2の評価部2112は、特徴量差分データ2125に新たなレコードを生成し、生成したレコードの候補欄21251、文章欄21252、及びラベル欄21253に、学習処理で生成した推論結果データ2124の候補欄21241、文章欄21243、及びラベル欄21245の値をそれぞれコピーする(SP1101)。 FIG. 13 is a flowchart for explaining the details of the feature quantity difference extraction process. First, the evaluation unit 2112 of the analysis node 2 generates a new record in the feature amount difference data 2125, and fills the candidate field 21251, the text field 21252, and the label field 21253 of the generated record with the inference result data generated in the learning process. The values of the candidate column 21241, text column 21243, and label column 21245 of 2124 are copied (SP1101).

次に、評価部2112は、学習処理の過程で正例と判定された単語の特徴量と、所定の単語を推論モデル200に入力された結果特定された当該単語の特徴量との間の差分又は重複に関する情報を、特徴量差分データ2125に登録する(SP1102)。 Next, the evaluation unit 2112 determines the difference between the feature amount of the word determined to be a positive example in the course of the learning process and the feature amount of the word specified as a result of inputting the predetermined word into the inference model 200. Alternatively, information about duplication is registered in the feature amount difference data 2125 (SP1102).

すなわち、まず、評価部2112は、正例の単語が有する特徴量に関する情報を、特徴量差分データ2125に登録する。具体的には、評価部2112は、推論結果データ2124のうち学習フラグ欄21242が「正」である単語のレコードの特徴量欄21244に「t」が登録されている特徴量を全て特定し、特定した各特徴量を、特徴量差分データ2125の各レコードの、正例との関係欄21254の重複欄21254aに登録する。 That is, first, the evaluation unit 2112 registers information about the feature amount of the positive example word in the feature amount difference data 2125 . Specifically, the evaluation unit 2112 identifies all the feature amounts for which "t" is registered in the feature amount column 21244 of the record of the word whose learning flag column 21242 is "positive" in the inference result data 2124, Each specified feature amount is registered in the duplication column 21254a of the relation column 21254 with the positive example of each record of the feature amount difference data 2125 .

また、評価部2112は、正例の単語が有しない特徴量に関する情報を、特徴量差分データ2125に登録する。具体的には、評価部2112は、推論結果データ2124のうち学習フラグ欄21242が「正」である単語のレコードにおける特徴量欄21244が未登録の特徴量を全て特定し、特定した各特徴量を、特徴量差分データ2125の各レコ
ードの、正例との関係欄21254の差分欄21254bに登録する。
In addition, the evaluation unit 2112 registers information about feature amounts that positive example words do not have in the feature amount difference data 2125 . Specifically, the evaluation unit 2112 identifies all the feature amounts for which the feature amount column 21244 is unregistered in the record of the word whose learning flag column 21242 is “positive” in the inference result data 2124, and each identified feature amount is registered in the difference column 21254b of the relation column 21254 with the positive example of each record of the feature quantity difference data 2125.

次に、評価部2112は、特徴量差分データ2125に、負例の単語の特徴量に関する情報を、特徴量差分データ2125に登録する(SP1103)。 Next, the evaluation unit 2112 registers information about the feature amount of the negative example word in the feature amount difference data 2125 (SP1103).

すなわち、まず、評価部2112は、負例の単語が有する特徴量に関する情報を、特徴量差分データ2125に登録する。具体的には、評価部2112は、推論結果データ2124のうち学習フラグ欄21242が「負」である単語のレコードの特徴量欄21244に「t」が登録されている特徴量を全て特定し、特定した各特徴量を、特徴量差分データ2125の各レコードの、負例との関係欄21255の重複欄21255aに登録する。 That is, first, the evaluation unit 2112 registers information about the feature amount of the negative example word in the feature amount difference data 2125 . Specifically, the evaluation unit 2112 identifies all the feature amounts for which "t" is registered in the feature amount column 21244 of the record of the word whose learning flag column 21242 is "negative" in the inference result data 2124, Each identified feature amount is registered in the overlap column 21255a of the relationship column 21255 with the negative example of each record of the feature amount difference data 2125 .

また、評価部2112は、負例の単語が有しない特徴量に関する情報を、特徴量差分データ2125に登録する。具体的には、評価部2112は、推論結果データ2124のうち学習フラグ欄21242が「負」である単語のレコードにおける特徴量欄21244が未登録の特徴量を全て特定し、特定した各特徴量を、特徴量差分データ2125の各レコードの、負例との関係欄21255の差分欄21255bに登録する。 In addition, the evaluation unit 2112 registers, in the feature amount difference data 2125, information about feature amounts that negative example words do not have. Specifically, the evaluation unit 2112 identifies all the feature amounts for which the feature amount column 21244 is unregistered in the record of the word of which the learning flag column 21242 is “negative” in the inference result data 2124, and each identified feature amount is registered in the difference column 21255b of the relation column 21255 with the negative example of each record of the feature quantity difference data 2125.

このように、分析ノード2は、重複特徴量(正例重複特徴量、及び負例重複特徴量)と、差分特徴量(正例差分特徴量、及び負例差分特徴量)を特定する。以上で特徴量差分抽出処理は終了する。 In this way, the analysis node 2 identifies duplicate feature amounts (positive duplicate feature amount and negative duplicate feature amount) and differential feature amounts (positive differential feature amount and negative differential feature amount). The feature quantity difference extraction process is thus completed.

次に、確認ラベル抽出処理の詳細を説明する。
<確認ラベル抽出処理>
図14は、確認ラベル抽出処理の詳細を説明するフロー図である。分析ノード2の評価部2112は、各単語に対して確認ラベルを設定するか否かの判定を行う。
Next, details of the confirmation label extraction process will be described.
<Confirmation label extraction processing>
FIG. 14 is a flowchart for explaining the details of the confirmation label extraction process. The evaluation unit 2112 of analysis node 2 determines whether or not to set a confirmation label for each word.

まず、評価部2112は、第1判定ルールを適用することにより、各単語に対するラベルの設定の妥当性を判定し、そのラベルを修正する(SP1201)。すなわち、評価部2112は、第1領域に属する単語について、第1判定ルールを満たした場合に、その単語のラベルを、「T」から「F」に変更する。第1判定ルールを適用することにより、その単語が人名ではないのに誤ってその単語にラベルが付与されている場合に、そのラベルを除去することができる。 First, the evaluation unit 2112 applies the first determination rule to determine the appropriateness of label setting for each word, and corrects the label (SP1201). That is, when a word belonging to the first region satisfies the first determination rule, the evaluation unit 2112 changes the label of the word from "T" to "F". By applying the first determination rule, if the word is not a person's name but is erroneously labeled, the label can be removed.

すなわち、まず、評価部2112は、確度Pが第1領域の単語と、第1判定ルールの内容とを取得する。具体的には、例えば、評価部2112は、特徴量差分データ2125の各単語のうち、推論結果データ2124の確度欄21246の値が第1閾値以上の単語を全て特定し、また、確認ラベル抽出ルール2126の領域欄21263に「1」が格納されているレコードのラベル操作欄21262及びルール欄21264の内容を取得する。 That is, first, the evaluation unit 2112 acquires the words in the first region with the accuracy P and the contents of the first determination rule. Specifically, for example, the evaluation unit 2112 identifies all words for which the value of the accuracy column 21246 of the inference result data 2124 is equal to or greater than the first threshold among the words of the feature quantity difference data 2125, and extracts confirmation labels. The contents of the label operation column 21262 and the rule column 21264 of the record in which "1" is stored in the area column 21263 of the rule 2126 are acquired.

そして、評価部2112は、特定した各単語の特徴量に関し、正例重複特徴量の重みに比べて正例差分特徴量の重みが必要以上に小さいため、その単語の確度Pが第1閾値以上となっているかを判定し(「正例との差分」に着目する)、そのような単語に対して確認ラベルを設定する。 Then, regarding the feature amount of each identified word, the evaluation unit 2112 determines that the weight of the positive case difference feature amount is unnecessarily small compared to the weight of the positive case duplicate feature amount. (Focus on "difference from positive example"), and set a confirmation label for such a word.

具体的には、例えば、評価部2112は、確認ラベルデータ2127のうち、その確度Pが第1閾値以上の単語が候補欄21271に登録されているレコードを全て特定し、その各レコードの、正例との重複差分欄21274の差分欄21274bに登録されている全ての特徴量を特定する。そして、評価部2112は、推論モデルパラメータ2123を参照することにより、特定した各特徴量のうち重み値が最小の特徴量を特定し、特定した特徴量を有する単語が候補欄21271に登録されている確認ラベルデータ2127のレ
コードの確認ラベル欄21276欄を設定する(「○」を登録する)。
Specifically, for example, the evaluation unit 2112 identifies all records in the confirmation label data 2127 in which a word whose accuracy P is equal to or greater than the first threshold is registered in the candidate column 21271, and determines whether each record is correct. All feature amounts registered in the difference column 21274b of the overlapping difference column 21274 with the example are specified. Then, the evaluation unit 2112 refers to the inference model parameter 2123 to identify the feature amount with the smallest weight value among the identified feature amounts, and the word having the identified feature amount is registered in the candidate column 21271. The confirmation label column 21276 of the record of the confirmation label data 2127 is set (register "○").

次に、評価部2112は、第2判定ルールを適用することにより、各単語に対するラベルの設定の妥当性を判定し、そのラベルを修正する(SP1202)。すなわち、評価部2112は、確度Pが第2領域に属する単語に対して、第2判定ルールを満たした場合に、その単語のラベルを、「Null」から「T」に変更する。第2判定ルールを適用すること
により、その単語が人名であるのに誤ってその単語にラベルが付与されていない場合に、その単語にラベルを付与することができる。
Next, the evaluation unit 2112 applies the second determination rule to determine the appropriateness of label setting for each word, and corrects the label (SP1202). That is, the evaluation unit 2112 changes the label of the word from "Null" to "T" when the second determination rule is satisfied for a word whose probability P belongs to the second region. By applying the second determination rule, if the word is a person's name but the word is not labeled by mistake, the word can be labeled.

すなわち、まず、評価部2112は、確度Pが第2領域の単語と、第2判定ルールの内容とを取得する。具体的には、例えば、評価部2112は、推論結果データ2124の各単語のうち、確度欄21246に第1閾値未満かつ第2閾値以上の確度Pが格納されているレコードの候補欄21241の内容である単語を全て特定する。また、評価部2112は、確認ラベル抽出ルール2126の領域欄21263に「2」が格納されているレコードのラベル操作欄21262及びルール欄21264の内容を取得する。 That is, first, the evaluation unit 2112 acquires the words whose accuracy P is in the second region and the content of the second determination rule. Specifically, for example, the evaluation unit 2112 determines the content of the candidate column 21241 of the record in which the accuracy column 21246 stores the accuracy P that is less than the first threshold value and is equal to or greater than the second threshold value among the words of the inference result data 2124. Identify all words that are The evaluation unit 2112 also acquires the contents of the label operation column 21262 and the rule column 21264 of the record in which "2" is stored in the area column 21263 of the confirmation label extraction rule 2126. FIG.

そして、評価部2112は、特定した各単語の特徴量に関し、正例重複特徴量を有しているにもかかわらず、その重みが小さいため、第1閾値未満の確度Pとなっているか否かを判定し(「負例との差分」に着目する)、そのような単語に対して確認ラベルを設定する。 Then, the evaluation unit 2112 determines whether or not the feature amount of each identified word has a probability P less than the first threshold value because the weight is small even though the specified word has a duplicate positive example feature amount. is determined (focusing on the “difference from negative example”), and a confirmation label is set for such a word.

具体的には、評価部2112は、確認ラベルデータ2127のうち、その確度Pが第1閾値未満かつ第2閾値以上の単語が候補欄21271に格納されているレコードの、負例との重複差分欄21275の差分欄21275bに登録されている全ての特徴量を特定する。そして、評価部2112は、推論モデルパラメータ2123を参照することにより、特定した各特徴量のうち重み値が最大の特徴量を特定し、特定した特徴量を有する単語が候補欄21271に登録されている確認ラベルデータ2127のレコードの確認ラベル欄21276を設定する(「○」を登録する)。 Specifically, the evaluation unit 2112 compares the overlap difference between the negative example and the record in which the candidate field 21271 stores a word whose accuracy P is less than the first threshold value and is equal to or greater than the second threshold value in the confirmation label data 2127. All feature amounts registered in the difference column 21275b of the column 21275 are specified. Then, the evaluation unit 2112 refers to the inference model parameter 2123 to identify the feature amount having the maximum weight value among the identified feature amounts, and the word having the identified feature amount is registered in the candidate column 21271. The confirmation label column 21276 of the record of the confirmation label data 2127 is set (register "○").

次に、評価部2112は、第3判定ルールを適用することにより、各単語に対するラベルの設定の妥当性を判定し、そのラベルを修正する(SP1203)。すなわち、評価部2112は、確度Pが第3領域に属する単語に対して、第3判定ルールを満たした場合に、その単語のラベルを、「F」から「T」に変更する。第3判定ルールを適用することにより、その単語が人名であるのに誤ってその単語にラベルが付与されていない場合に、その単語にラベルを付与することができる。 Next, the evaluation unit 2112 applies the third determination rule to determine the appropriateness of label setting for each word, and corrects the label (SP1203). That is, the evaluation unit 2112 changes the label of the word from "F" to "T" when the third determination rule is satisfied for a word whose probability P belongs to the third region. By applying the third determination rule, if the word is a person's name but the word is not labeled by mistake, the word can be labeled.

すなわち、まず、評価部2112は、確度Pが第3領域の単語と、第3判定ルールの内容とを取得する。具体的には、例えば、評価部2112は、特徴量差分データ2125の各単語のうち、推論結果データ2124の確度欄21246の値が第2閾値未満の単語を全て特定し、また、確認ラベル抽出ルール2126の領域欄21263に「3」が格納されているレコードのラベル操作欄21262及びルール欄21264の内容を取得する。 That is, first, the evaluation unit 2112 acquires the words in the third region with the accuracy P and the content of the third determination rule. Specifically, for example, the evaluation unit 2112 identifies all words for which the value of the accuracy column 21246 of the inference result data 2124 is less than the second threshold among the words of the feature quantity difference data 2125, and extracts confirmation labels. The contents of the label operation column 21262 and the rule column 21264 of the record in which "3" is stored in the area column 21263 of the rule 2126 are acquired.

そして、評価部2112は、特定した各単語の特徴量に関し、負例重複特徴量の重みに比べて負例差分特徴量の重みが小さいため、その単語の確度Pが第2閾値未満となっているか否かを判定し(「負例との差分」に着目する)、そのような単語に対して確認ラベルを設定する。 Then, regarding the feature amount of each identified word, the evaluation unit 2112 determines that the weight of the negative case difference feature amount is smaller than the weight of the negative case overlap feature amount, so that the probability P of the word is less than the second threshold. It is determined whether or not such a word exists (focusing on the "difference from negative example"), and a confirmation label is set for such a word.

具体的には、評価部2112は、確認ラベルデータ2127のうち、その確度Pが第2閾値未満の単語が候補欄21271に登録されているレコードを全て特定し、その各レコードの、負例との重複差分欄21275の差分欄21275bに登録されている全ての特
徴量を特定する。そして、評価部2112は、推論モデルパラメータ2123を参照することにより、特定した各特徴量のうち重み値が最大の特徴量を特定し、特定した特徴量を有する単語が候補欄21271に登録されている確認ラベルデータ2127のレコードの確認ラベル欄21276を設定する(「○」を登録する)。
Specifically, the evaluation unit 2112 identifies all records in the confirmation label data 2127 in which a word whose accuracy P is less than the second threshold is registered in the candidate column 21271, and identifies each record as a negative example. all the feature amounts registered in the difference column 21275b of the overlapping difference column 21275 of . Then, the evaluation unit 2112 refers to the inference model parameter 2123 to identify the feature amount having the maximum weight value among the identified feature amounts, and the word having the identified feature amount is registered in the candidate column 21271. The confirmation label column 21276 of the record of the confirmation label data 2127 is set (register "○").

最後に、評価部2112は、第4判定ルールを適用することにより、各単語に対するラベルの設定の妥当性を判定し、そのラベルを修正する(SP1204)。すなわち、評価部2112は、全ての単語(全ての領域の単語)について、第4判定ルールを満たした場合に、現在のラベルが「T」である単語については「F」に変更し、現在のラベルが「F」
である単語については「T」に変更する。
第4判定ルールを適用することにより、その単語が人名であるのに誤ってその単語にラベルが付与されていない場合、又はその逆の場合に、その単語に正しいラベルを付与することができる。
Finally, the evaluation unit 2112 applies the fourth determination rule to determine the appropriateness of label setting for each word, and corrects the label (SP1204). That is, when all words (words in all regions) satisfy the fourth determination rule, the evaluation unit 2112 changes the current label of the word “T” to “F” and changes the current label to “F”. Labeled "F"
For words that are , change to "T".
By applying the fourth decision rule, a correct label can be assigned to a word when the word is a person's name but the word is not labeled by mistake, or vice versa.

すなわち、まず、評価部2112は、全ての領域の単語と、第4判定ルールの内容とを取得する。特徴量差分データ2125の各単語を全て特定し、また、確認ラベル抽出ルール2126の領域欄21263に「4」が格納されているレコードのラベル操作欄21262及びルール欄21264の内容を取得する。 That is, first, the evaluation unit 2112 acquires the words in all regions and the content of the fourth determination rule. All words in the feature amount difference data 2125 are specified, and the contents of the label operation column 21262 and the rule column 21264 of the record in which "4" is stored in the region column 21263 of the confirmation label extraction rule 2126 are acquired.

そして、評価部2112は、特定した各単語に関し、同じ特徴量を有するにも関わらず異なるラベルが設定されている他の単語(既に学習された正例の単語又は負例の単語)があるか否かを判定し(ラベルの内容に着目する)、その各単語に対して確認ラベルを設定する。 Then, for each identified word, the evaluation unit 2112 determines whether there are other words (already learned positive or negative examples) for which different labels are set despite having the same feature amount. Determine whether or not (focusing on the content of the label), and set a confirmation label for each word.

具体的には、例えば、評価部2112は、確認ラベルデータ2127の各レコードを参照することにより、正例との重複差分欄21274の重複欄21274aに登録されている特徴量のリストが共通する一方で、ラベル欄21273に登録されているラベルが異なっている(一方が「T」で他方が「F」)、2つの単語を特定する。そして、評価部2112は、特定した単語が候補欄21271に登録されている各レコードの確認ラベル欄21276欄を設定する(「○」を登録する)。以上で確認ラベル抽出処理は終了する。 Specifically, for example, the evaluation unit 2112 refers to each record of the confirmation label data 2127 so that the list of feature amounts registered in the overlapping column 21274a of the overlapping difference column 21274 with the positive example is common. , two words with different labels registered in the label column 21273 (one is "T" and the other is "F") are specified. Then, the evaluation unit 2112 sets the confirmation label column 21276 of each record in which the identified word is registered in the candidate column 21271 (registers "○"). With this, the confirmation label extraction processing ends.

このように、本実施形態では、領域ごとに判定ルールが存在するものとしたが、各領域に対して複数の判定ルールが存在してもよい。また、本実施形態では、各単語の特徴量は、「正例」の単語の特徴量と「負例」の単語の特徴量とのいずれか一方と比較されているが、例えば、正例の単語の特徴量との差分が最小かつ、負例の単語の特徴量との差分が最大の特徴量を有する単語を選択するといったように、「正例」の単語の特徴量及び「負例」の単語の特徴量の距離を組み合わせた判定ルールとしてもよい。 As described above, in the present embodiment, a determination rule exists for each area, but a plurality of determination rules may exist for each area. Further, in the present embodiment, the feature amount of each word is compared with either one of the feature amount of the word of the "positive example" and the feature amount of the word of the "negative example". The feature amount of the "positive example" word and the "negative example" are selected such that the word having the feature amount with the smallest difference from the feature amount of the word and the largest difference from the feature amount of the negative example word is selected. It is also possible to use a determination rule that combines the distances of the feature amounts of the words.

また、本実施形態では、判定ルールに使用される特徴量として、重複特徴量及び差分特徴量を用いたが、例えば、正例の単語の特徴量との差分が最小の特徴量のうち、その重みの値が最大の特徴量を選択するといったように、特徴量の重みの値に基づく判定ルールとしてもよい。 In addition, in the present embodiment, overlapping feature amounts and difference feature amounts are used as feature amounts used in determination rules. The determination rule may be based on the weight value of the feature amount, such as selecting the feature amount with the largest weight value.

さらに、本実施形態では、判定ルールとして特徴量の数を用いたが、例えば、「同一の単語がそれぞれ異なる単語として抽出されている(例えば、「suzuki」)がそれぞれの確度Pの値が大きく異なる場合は、人名と会社名が混在している可能性が高いため、そのような単語に対して確認ラベルを設定する」といったような、同一単語の確度Pのばらつきを使った判定ルールを設けてもよい。 Furthermore, in the present embodiment, the number of feature values is used as the determination rule. If they are different, there is a high possibility that a person's name and a company name are mixed, so set a confirmation label for such a word." may

<確認ラベル提示処理>
次に、確認ラベル提示処理の詳細を説明する。確認ラベル提示処理は、確認ラベルの設定状況を示すラベル確認画面を表示する。
図15は、ラベル確認画面の一例を示す図である。確認ラベル提示画面1000は、確認ラベルが設定されている単語(以下、確認単語という)に関する情報(すなわち、確認ラベルデータ2127の確認ラベル欄21276に「○」が登録されているレコードの情報)を表示する画面である。
<Confirmation label presentation process>
Next, details of the confirmation label presenting process will be described. The confirmation label presenting process displays a label confirmation screen showing the setting status of the confirmation label.
FIG. 15 is a diagram showing an example of the label confirmation screen. The confirmation label presentation screen 1000 displays information on words for which confirmation labels are set (hereinafter referred to as confirmation words) (that is, information on records in which "○" is registered in the confirmation label column 21276 of the confirmation label data 2127). This is the screen to display.

確認ラベル提示画面1000は、確認単語(候補欄21271)を表示する単語表示欄1012と、確認単語を含む文章(文章欄21272)を表示される文章表示欄1014とを有するラベル確認画面1010を備える。また、このラベル確認画面1010は、確認単語が人名である場合にユーザが選択するOKボタン1016と、確認単語が人名でない場合にユーザが選択するNGボタン1018とを備える。OKボタン1016が選択されると、確認単語に係るラベルに「T」が設定され、NGボタン1018が選択されると、確認単語に係るラベルに「F」が設定される。これにより、ユーザは、推論モデル200によるラベルを修正することができる。 The confirmation label presentation screen 1000 includes a label confirmation screen 1010 having a word display column 1012 displaying confirmation words (candidate column 21271) and a sentence display column 1014 displaying sentences (sentence column 21272) including the confirmation word. . This label confirmation screen 1010 also has an OK button 1016 that the user selects when the confirmation word is a person's name, and an NG button 1018 that the user selects when the confirmation word is not a person's name. When the OK button 1016 is selected, the confirmation word label is set to "T", and when the NG button 1018 is selected, the confirmation word label is set to "F". This allows the user to modify the labels by the inference model 200. FIG.

また、確認ラベル提示画面1000は、特徴量確認画面1020を備える。特徴量確認画面1020は、ラベル確認画面1010でNGボタン1018が選択された場合に表示される。特徴量確認画面1020は、確認単語が有する特徴量を表示する特徴量一覧表示欄1022(すなわち、推論結果データ2124の確認単語に係るレコードの特徴量欄21244に「t」が登録されている単語)を備える。 The confirmation label presentation screen 1000 also includes a feature amount confirmation screen 1020 . A feature quantity confirmation screen 1020 is displayed when the NG button 1018 is selected on the label confirmation screen 1010 . The feature amount confirmation screen 1020 displays the feature amount list display field 1022 that displays the feature amounts of the confirmed words (that is, the words for which "t" is registered in the feature amount column 21244 of the record related to the confirmed word in the inference result data 2124). ).

各特徴量一覧表示欄1022は、そこに表示されている特徴量が人名を判断するための単語として妥当である場合にユーザに選択されるOKボタン1024と、そこに表示されている特徴量が人名を判断するための単語として妥当でない場合にユーザに選択されるNGボタン1026とを備える。NGボタン1026が選択されると、ユーザは、所定の編集画面(不図示)により、対応する特徴量又はこれに関するパラメータを修正することができる。例えば、推論モデルパラメータ2123における対応する特徴量に係るレコードを削除し、又は値欄21232の値を変更する(例えば、値を減少させる)ことができる。また、推論結果データ2124の確認単語に係るレコードの特徴量欄21244に、「t」以外の値を設定することができる。これにより、推論モデル200の内容を適切に修
正することができる。
Each feature quantity list display column 1022 includes an OK button 1024 that is selected by the user when the feature quantity displayed there is appropriate as a word for judging a person's name, and an OK button 1024 that the user selects if the feature quantity displayed there is displayed. and an NG button 1026 that is selected by the user when the word is not appropriate as a word for judging a person's name. When the NG button 1026 is selected, the user can modify the corresponding feature amount or related parameters using a predetermined edit screen (not shown). For example, it is possible to delete the record related to the corresponding feature quantity in the inference model parameter 2123, or change the value of the value column 21232 (for example, decrease the value). Also, a value other than “t” can be set in the feature amount column 21244 of the record related to the confirmation word in the inference result data 2124 . As a result, the content of the inference model 200 can be modified appropriately.

また、確認ラベル提示画面1000は、影響確認画面1030を備える。影響確認画面1030は、特徴量一覧表示欄1022でNGボタン1026が選択された特徴量又はこれに関するパラメータが修正された場合に、それによって特徴量が変化する他の単語を表示する他単語表示欄1032と、他単語表示欄1032に係る単語を含む文章を表示する文章表示欄1034とを備える。すなわち、他単語表示欄1032には、推論結果データ2124から検索された、NGボタン1026が選択された特徴量を有する単語(候補欄21241)と、その単語を含む文章(文章欄21243)の内容が表示される。 The confirmation label presentation screen 1000 also includes an influence confirmation screen 1030 . The influence confirmation screen 1030 displays other words whose feature amounts change when the feature amount for which the NG button 1026 is selected in the feature amount list display field 1022 or the parameter related thereto is modified. 1032 and a sentence display column 1034 for displaying sentences including the word related to the other word display column 1032 . That is, in the other word display column 1032, the word (candidate column 21241) having the feature amount for which the NG button 1026 was selected, retrieved from the inference result data 2124, and the content of the sentence (sentence column 21243) containing that word. is displayed.

以上の特徴量確認画面1020及び影響確認画面1030により、ユーザは、ラベル確認画面1010と同様の操作で推論結果を修正することができ、また、この結果に基づき、推論モデルパラメータ2123の重みを調整する特徴量を決定することができる。 With the feature amount confirmation screen 1020 and the effect confirmation screen 1030 described above, the user can correct the inference result by the same operation as the label confirmation screen 1010, and based on this result, adjust the weight of the inference model parameter 2123. It is possible to determine the feature quantity to be used.

また、確認ラベル提示画面1000は、変更度調整画面1040を備える。変更度調整画面1040は、精度変化表示画面1050と、ラベル付与領域表示画面1060と、特徴量の重みを調整するためのスライドバー1070と、保存ボタン1080を備える。 The confirmation label presentation screen 1000 also includes a degree-of-change adjustment screen 1040 . The degree-of-change adjustment screen 1040 includes an accuracy change display screen 1050 , a labeled area display screen 1060 , a slide bar 1070 for adjusting the weight of the feature amount, and a save button 1080 .

精度変化表示画面1050には、特徴量の重みを調整する前後での精度パラメータ(pr
ecision、recall)の変化が表示される。
Accuracy change display screen 1050 displays accuracy parameters (pr
ecision, recall) changes are displayed.

ラベル付与領域表示画面1060には、単語が有する特徴量とその単語に対して付与されるラベルの関係を表す二次元グラフが表示される。具体的には、グラフの縦軸1062及び横軸1064はそれぞれ、特徴量確認画面1020に表示されている各特徴量を表す。グラフ上の点1066は、単語を表す。グラフ上に表示される円1068の内部に点1066が存在する場合は、その点1066に係る単語には、ラベルが付与される。グラフ上に表示される円1068の外部に点1066が存在する場合は、その点1066に係る単語には、ラベルが付与されない。また、点1066に対しては、その点1066に対応する単語欄1069が設けられる。 The labeled area display screen 1060 displays a two-dimensional graph representing the relationship between the feature amount of a word and the label assigned to the word. Specifically, the vertical axis 1062 and the horizontal axis 1064 of the graph respectively represent the feature values displayed on the feature value confirmation screen 1020 . A point 1066 on the graph represents a word. If a point 1066 is inside a circle 1068 displayed on the graph, the word associated with that point 1066 is labeled. If a point 1066 is outside the circle 1068 displayed on the graph, the word associated with that point 1066 is not labeled. A word column 1069 corresponding to the point 1066 is provided for the point 1066 .

なお、ラベル付与領域表示画面1060の二次元グラフの各軸は、単語が特徴量を2以上有している場合は、それらの特徴量を圧縮して2次元グラフに変換できるような写像変換の処理を加えた後の軸としてもよい。 Each axis of the two-dimensional graph of the labeled region display screen 1060 is a mapping transformation that, when a word has two or more feature amounts, compresses those feature amounts and converts them into a two-dimensional graph. It may be an axis after being processed.

スライドバー1070は、各特徴量の重み値(推論モデルパラメータ2123の値欄21232)の変更をユーザから受け付ける。スライドバー1070により重みの値を変更すると、その重み値の調整量に応じて、単語にラベルが付与され(例えば、ラベルが「F
」)、または、単語に新たにラベルが付与される(例えば、ラベルが「T」)。ユーザは
、その変更の内容をラベル付与領域表示画面1060により確認することができる。
The slide bar 1070 accepts a change of the weight value of each feature amount (the value column 21232 of the inference model parameter 2123) from the user. When the weight value is changed using the slide bar 1070, the word is labeled according to the weight value adjustment amount (for example, the label is "F
”), or the word is given a new label (eg, labeled “T”). The user can confirm the content of the change on the labeling area display screen 1060 .

保存ボタン1080は、スライドバー1070により設定されている現在の重み値の、推論モデルパラメータ2123の値欄21232への設定を受け付ける。文書解析システム100は、この修正された重み値に基づき再度機械学習を行い、新たな推論モデルを生成することができる。 The save button 1080 accepts setting of the current weight value set by the slide bar 1070 to the value column 21232 of the inference model parameter 2123 . The document analysis system 100 can perform machine learning again based on this modified weight value to generate a new inference model.

次に、推論処理の詳細を説明する。
<推論処理>
図16は、推論処理の詳細を説明するフロー図である。まず、分析ノード2の推論部2114は、ユーザから、推論要求を受け付ける(SP1301)。具体的には、例えば、推論部2114は、端末3から本番用文書データ3122の受信を受け付ける。
Next, details of the inference process will be described.
<Inference processing>
FIG. 16 is a flowchart for explaining details of inference processing. First, the inference unit 2114 of the analysis node 2 receives an inference request from the user (SP1301). Specifically, for example, the inference unit 2114 receives the production document data 3122 from the terminal 3 .

推論部2114は、受信した本番用文書データ3122を文書データ2121に登録する(SP1302)。そして、推論部2114は、評価処理で確認ラベル等によるラベルの修正を行った推論モデル200(推論モデルパラメータ2123)に基づき、本番用文書データ3122に記録されている文章における各単語に対して、単語及び文章の解析を行う(SP1303)。そして、推論部2114は、単語の解析により得られたデータを、推論結果データ2124に登録する(SP1304)。以上で推論処理は終了する。 The inference unit 2114 registers the received production document data 3122 in the document data 2121 (SP1302). Then, the inference unit 2114, based on the inference model 200 (inference model parameters 2123) whose label has been corrected by the confirmation label or the like in the evaluation process, for each word in the sentence recorded in the production document data 3122, Words and sentences are analyzed (SP1303). Then, the inference unit 2114 registers the data obtained by analyzing the word in the inference result data 2124 (SP1304). The inference processing ends here.

以上のように、本実施形態の文書解析システム100は、複数の学習対象のデータ(単語)に対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベル(「T」、「F」、「Null」等)を当該入力データの特徴量に基づき推定する推論モデル200を生成し、所定のデータ(追加学習単語)を生成済みの推論モデル200に入力することにより特定された追加学習単語の特徴量と、機械学習により特定された、学習対象のデータの特徴量との類似性を判定することにより、推論モデル200によるラベルの推定の妥当性を判定し、その判定内容を示す情報(確認ラベル)を出力する。これにより、ユーザは、推論モデル200を修正べきか否かを判断することができる。これにより、機械学習により生成される推論モデル200の精度を確実に向上させることができる As described above, the document analysis system 100 of the present embodiment performs machine learning to identify each feature amount for a plurality of data (words) to be learned, so that the label to be set in the input data (" T”, “F”, “Null”, etc.) is generated based on the feature amount of the input data, and predetermined data (additional learning words) is input to the generated inference model 200. The validity of the label estimation by the inference model 200 is determined by determining the similarity between the feature amount of the identified additional learning word and the feature amount of the learning target data identified by machine learning. Output information (confirmation label) that indicates the content of judgment. This allows the user to determine whether or not the inference model 200 should be modified. As a result, the accuracy of the inference model 200 generated by machine learning can be reliably improved.

すなわち、本実施形態の文書解析システム100は、教師データの特徴量と推論モデルによる特徴量との類似性を互いに比較することで推論モデル200を検証するので、教師データの適否及び推論モデル200の推論の適否の判断について知識の乏しいユーザであっても、容易に推論モデル200を修正してその精度を向上させることができる。すなわち、分析知識のないユーザでも少ない工数で推論モデル200のチューニングが可能となる。 That is, the document analysis system 100 of this embodiment verifies the inference model 200 by comparing the similarity between the feature amount of the teacher data and the feature amount of the inference model. Even a user who has little knowledge about judging the propriety of inference can easily modify the inference model 200 to improve its accuracy. That is, even a user without analytical knowledge can tune the inference model 200 with a small number of man-hours.

以上、本発明の実施形態について説明したが、本発明の実施形態は例示したものに限るものではなく、発明の主旨を逸脱しない範囲で種々の変更が可能である。 Although the embodiments of the present invention have been described above, the embodiments of the present invention are not limited to those illustrated, and various modifications can be made without departing from the gist of the invention.

例えば、ここではラベルを設定するデータの属性として人名を挙げたが、他の属性を対象としてもよい。 For example, although a person's name is mentioned here as an attribute of data for which a label is set, other attributes may be targeted.

また、本実施形態で説明した各機能は、1のプログラムで構成されていても2以上のプログラムの部分に分割されていてもよい。また、これらのプログラムは、分析ノード2又は端末3のいずれに配置されていてもよく、また他の情報処理装置に設けてもよい。 Further, each function described in this embodiment may be composed of one program or divided into two or more program parts. Moreover, these programs may be arranged in either the analysis node 2 or the terminal 3, or may be provided in another information processing device.

以上の本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、前記推論モデルは、前記入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、前記入力データの特徴量からラベルを推定し、前記モデル作成支援システムは、前記評価処理において、前記確度に応じた、前記特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、前記推論モデルによるラベルの推定の妥当性を判定する、としてもよい。 At least the following will be clarified by the above description of the present specification. That is, the inference model estimates a label from the feature amount of the input data based on accuracy, which is a parameter for determining the type of label to be set in the input data, and the model creation support system estimates the evaluation In the processing, a plurality of determination rules for determining similarity between the feature quantities are set according to the accuracy, and the validity of label estimation by the inference model is determined based on the set determination rules. good.

このように、ラベルの種類を判定するためのパラメータである確度に応じた、特徴量間の類似性を判定する複数の判定ルールに基づき、ラベルの推定の妥当性を判定することで、ラベルの種類に応じた的確な判定が可能となる。 In this way, by judging the appropriateness of label estimation based on a plurality of judgment rules for judging the similarity between feature quantities according to the accuracy, which is a parameter for judging the type of label, Accurate determination according to the type becomes possible.

また、前記モデル作成支援システムは、前記評価処理において、前記所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量と一方のデータのみが有する特徴量とを特定することにより、前記ラベルの推定の妥当性を判定する、としてもよい。 Further, in the evaluation process, the model creation support system determines the similarity between the feature amount of the predetermined data and the feature amount of the learning target data, and The validity of the label estimation may be determined by specifying the feature amount that only the label has.

このように、ラベルの推定の妥当性を判定するに際して、ラベルの設定の根拠となる特徴量の共通点(重複)及び相違点(差分)を特定することで、ラベルの推定の妥当性を的確に判定することができる。すなわち、教師データ及び、出力データ(推論モデル200が吐き出したデータ)の特徴量間の距離情報を用いることで、推論モデル200の的確性を判定することができる。 In this way, when judging the validity of label estimation, by identifying the common points (overlap) and differences (differences) of the feature values that are the basis for label setting, the validity of label estimation can be accurately determined. can be determined. That is, the accuracy of the inference model 200 can be determined by using the distance information between the feature amounts of the teacher data and the output data (data spouted out by the inference model 200).

また、前記モデル作成支援システムは、前記判定内容を示す情報に基づき、前記生成した推論モデルの修正をユーザから受け付けるフィードバック処理を実行する、としてもよい。 Further, the model creation support system may execute feedback processing for accepting correction of the generated inference model from the user based on the information indicating the content of the determination.

このように、生成した推論モデル200の修正をユーザから受け付けるフィードバックを行うことで、例えば、推論モデル200を改善し、その信頼度を高めることができる。 In this way, by providing feedback for receiving corrections of the generated inference model 200 from the user, it is possible to improve the inference model 200 and increase its reliability, for example.

また、前記モデル作成支援システムは、前記学習処理において、前記特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデルを生成し、前記評価処理において、前記所定のデータの特徴量の重み値と、前記学習対象のデータの特徴量の重み値との類似性を判定
することにより、前記推論モデルにおける重み値の妥当性を判定し、前記フィードバック処理において、前記特定された重み値の修正をユーザから受け付ける、としてもよい。
Further, in the learning process, the model creation support system estimates a label to be set to the input data based on the weight value of the feature amount of the input data by performing machine learning for specifying the weight value of the feature amount. the weight in the inference model by determining similarity between the weight value of the feature amount of the predetermined data and the weight value of the feature amount of the data to be learned in the evaluation process; Validity of the values may be determined, and the feedback process may accept corrections to the identified weight values from the user.

このように、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデル200において、所定のデータ(追加学習単語)の特徴量の重み値と、学習対象のデータの特徴量の重み値との類似性を判定し、その重み値の修正をユーザから受け付けることで、推論モデル200の詳細なチューニングが可能となり、推論モデル200の信頼度をより高めることができる。 Thus, in the inference model 200 that estimates the label to be set to the input data based on the weight value of the feature amount of the input data, the weight value of the feature amount of predetermined data (additional learning word) and the data to be learned By determining the similarity with the weight value of the feature amount and receiving the correction of the weight value from the user, detailed tuning of the inference model 200 becomes possible, and the reliability of the inference model 200 can be further increased.

100 文書解析システム、2 分析ノード、3 端末、200 推論モデル 100 document analysis system, 2 analysis nodes, 3 terminals, 200 inference model

Claims (10)

プロセッサ及びメモリを備えるモデル作成支援システムが、
複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデルを生成する学習処理と、
所定のデータを前記生成した推論モデルに入力することにより特定された当該所定のデータの特徴量と、前記機械学習により特定された、前記学習対象のデータの特徴量との類似性を判定することにより、前記推論モデルによるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する評価処理と、
を実行する、モデル作成支援方法。
A model creation support system comprising a processor and memory,
A learning process that generates an inference model that estimates a label to be set to input data based on the feature amount of the input data by performing machine learning that specifies each feature amount for a plurality of learning target data;
Determining similarity between the feature amount of the predetermined data specified by inputting the predetermined data into the generated inference model and the feature amount of the learning target data specified by the machine learning. an evaluation process for determining the validity of the label estimation by the inference model and outputting information indicating the content of the determination;
, a model creation support method.
前記推論モデルは、前記入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、前記入力データの特徴量からラベルを推定し、
前記モデル作成支援システムは、前記評価処理において、前記確度に応じた、前記特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、前記推論モデルによるラベルの推定の妥当性を判定する、
請求項1に記載のモデル作成支援方法。
The inference model estimates a label from the feature amount of the input data based on accuracy, which is a parameter for determining the type of label to be set in the input data,
In the evaluation process, the model creation support system sets a plurality of determination rules for determining similarity between the feature amounts according to the accuracy, and estimates labels by the inference model based on the set determination rules. determine the validity of
The model creation support method according to claim 1.
前記モデル作成支援システムは、前記評価処理において、前記所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量と一方のデータのみが有する特徴量とを特定することにより、前記ラベルの推定の妥当性を判定する、
請求項1に記載のモデル作成支援方法。
In the evaluation process, the model creation support system determines the similarity between the feature amount of the predetermined data and the feature amount of the learning target data, and the feature amount that both data have in common and only one data Determining the validity of the label estimation by specifying the feature amount having
The model creation support method according to claim 1.
前記モデル作成支援システムは、前記判定内容を示す情報に基づき、前記生成した推論モデルの修正をユーザから受け付けるフィードバック処理を実行する、請求項1に記載のモデル作成支援方法。 2. The model creation support method according to claim 1, wherein said model creation support system executes feedback processing for accepting correction of said generated inference model from a user based on information indicating said content of determination. 前記モデル作成支援システムは、
前記学習処理において、前記特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデルを生成し、
前記評価処理において、前記所定のデータの特徴量の重み値と、前記学習対象のデータの特徴量の重み値との類似性を判定することにより、前記推論モデルにおける重み値の妥当性を判定し、
前記フィードバック処理において、前記特定された重み値の修正をユーザから受け付ける、
請求項4に記載のモデル作成支援方法。
The model creation support system includes:
generating an inference model for estimating a label to be set to input data based on the weight value of the feature amount of the input data by performing machine learning for specifying the weight value of the feature amount in the learning process;
In the evaluation process, the validity of the weight value in the inference model is determined by determining the similarity between the weight value of the feature amount of the predetermined data and the weight value of the feature amount of the learning target data. ,
Receiving a correction of the identified weight value from a user in the feedback process;
The model creation support method according to claim 4.
プロセッサ及びメモリを有し、
複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデルを生成する学習部と、
所定のデータを前記生成した推論モデルに入力することにより特定された当該所定のデータの特徴量と、前記機械学習により特定された、前記学習対象のデータの特徴量との類似性を判定することにより、前記推論モデルによるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する評価部と、
を備える、モデル作成支援システム。
having a processor and memory,
a learning unit that generates an inference model that estimates a label to be set in input data based on the feature amount of the input data by performing machine learning that identifies each feature amount for a plurality of learning target data;
Determining similarity between the feature amount of the predetermined data specified by inputting the predetermined data into the generated inference model and the feature amount of the learning target data specified by the machine learning. an evaluation unit that determines the validity of the label estimation by the inference model and outputs information indicating the content of the determination;
A model creation support system.
前記推論モデルは、前記入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、前記入力データの特徴量からラベルを推定し、
前記評価部は、前記確度に応じた、前記特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、前記推論モデルによるラベルの推定の妥当性を判定する、
請求項6に記載のモデル作成支援システム。
The inference model estimates a label from the feature amount of the input data based on accuracy, which is a parameter for determining the type of label to be set in the input data,
The evaluation unit sets a plurality of determination rules for determining similarity between the feature amounts according to the accuracy, and determines the validity of label estimation by the inference model based on the set determination rules.
The model creation support system according to claim 6.
前記評価部は、前記所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量と一方のデータのみが有する特徴量とを特定することにより、前記ラベルの推定の妥当性を判定する、
請求項6に記載のモデル作成支援システム。
The evaluation unit specifies similarity between the feature amount of the predetermined data and the feature amount of the learning target data as a feature amount that both data have in common and a feature amount that only one of the data has. determining the validity of the label estimate by
The model creation support system according to claim 6.
前記判定内容を示す情報に基づき、前記生成した推論モデルの修正をユーザから受け付けるフィードバック部を備える、請求項6に記載のモデル作成支援システム。 7. The model creation support system according to claim 6, further comprising a feedback unit that accepts a correction of said generated inference model from a user based on information indicating said content of determination. 前記学習部は、前記特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデルを生成し、
前記評価部は、前記所定のデータの特徴量の重み値と、前記学習対象のデータの特徴量の重み値との類似性を判定することにより、前記推論モデルにおける重み値の妥当性を判定し、
前記フィードバック処理部は、前記生成した重み値の修正をユーザから受け付ける、
請求項9に記載のモデル作成支援システム。
The learning unit generates an inference model for estimating a label to be set to input data based on the weight value of the feature amount of the input data by performing machine learning for specifying the weight value of the feature amount,
The evaluation unit determines the validity of the weight value in the inference model by determining similarity between the weight value of the feature amount of the predetermined data and the weight value of the feature amount of the learning target data. ,
the feedback processing unit receives a correction of the generated weight value from a user;
The model creation support system according to claim 9.
JP2019072538A 2019-04-05 2019-04-05 MODEL CREATED SUPPORT METHOD AND MODEL CREATED SUPPORT SYSTEM Active JP7189068B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019072538A JP7189068B2 (en) 2019-04-05 2019-04-05 MODEL CREATED SUPPORT METHOD AND MODEL CREATED SUPPORT SYSTEM
US16/823,562 US20200320409A1 (en) 2019-04-05 2020-03-19 Model creation supporting method and model creation supporting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019072538A JP7189068B2 (en) 2019-04-05 2019-04-05 MODEL CREATED SUPPORT METHOD AND MODEL CREATED SUPPORT SYSTEM

Publications (2)

Publication Number Publication Date
JP2020170427A JP2020170427A (en) 2020-10-15
JP7189068B2 true JP7189068B2 (en) 2022-12-13

Family

ID=72661862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019072538A Active JP7189068B2 (en) 2019-04-05 2019-04-05 MODEL CREATED SUPPORT METHOD AND MODEL CREATED SUPPORT SYSTEM

Country Status (2)

Country Link
US (1) US20200320409A1 (en)
JP (1) JP7189068B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7364512B2 (en) * 2020-03-25 2023-10-18 株式会社日立製作所 Labeling model generation device and labeling model generation method
JPWO2022185362A1 (en) * 2021-03-01 2022-09-09
JP2022148430A (en) * 2021-03-24 2022-10-06 株式会社日立製作所 Document information extraction system and document information extraction method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146003A (en) 2011-01-07 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> Data extraction device, data extraction method, and program
JP2017058866A (en) 2015-09-15 2017-03-23 株式会社東芝 Information extraction device, information extraction method, and information extraction program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146003A (en) 2011-01-07 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> Data extraction device, data extraction method, and program
JP2017058866A (en) 2015-09-15 2017-03-23 株式会社東芝 Information extraction device, information extraction method, and information extraction program

Also Published As

Publication number Publication date
US20200320409A1 (en) 2020-10-08
JP2020170427A (en) 2020-10-15

Similar Documents

Publication Publication Date Title
US11501210B1 (en) Adjusting confidence thresholds based on review and ML outputs
US20190354810A1 (en) Active learning to reduce noise in labels
Tong et al. A linear road object matching method for conflation based on optimization and logistic regression
JP7189068B2 (en) MODEL CREATED SUPPORT METHOD AND MODEL CREATED SUPPORT SYSTEM
JP2017224184A (en) Machine learning device
JP6954003B2 (en) Determining device and method of convolutional neural network model for database
US20150242761A1 (en) Interactive visualization of machine-learning performance
US20140314311A1 (en) System and method for classification with effective use of manual data input
US20080021891A1 (en) Searching a document using relevance feedback
US10983786B2 (en) Automatically evaluating software project requirements
US11856129B2 (en) Systems and methods to manage models for call data
JP2018170008A (en) Method and system for mapping attributes of entities
US11544600B2 (en) Prediction rationale analysis apparatus and prediction rationale analysis method
JP2023145767A (en) Vocabulary extraction support system and vocabulary extraction support method
JP7098502B2 (en) Reporting equipment, methods, and programs
JP5790820B2 (en) Inconsistency detection apparatus, program and method, correction support apparatus, program and method
US20190265954A1 (en) Apparatus and method for assisting discovery of design pattern in model development environment using flow diagram
JP6641456B2 (en) Computer system and data classification method
JP2019101829A (en) Software component management system, computor, and method
US11861512B1 (en) Determining content to present for human review
JP5950369B2 (en) Input support system, input support method, and input support program
US11893401B1 (en) Real-time event status via an enhanced graphical user interface
US20230079857A1 (en) Information processing apparatus, information processing method, and recording medium
WO2023084704A1 (en) Image processing device, method, and program
WO2024140229A1 (en) Method and apparatus for feature learning, and device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221201

R150 Certificate of patent or registration of utility model

Ref document number: 7189068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150