JP2019160236A - Learning data generation method, learning data generation program and data structure - Google Patents

Learning data generation method, learning data generation program and data structure Download PDF

Info

Publication number
JP2019160236A
JP2019160236A JP2018050086A JP2018050086A JP2019160236A JP 2019160236 A JP2019160236 A JP 2019160236A JP 2018050086 A JP2018050086 A JP 2018050086A JP 2018050086 A JP2018050086 A JP 2018050086A JP 2019160236 A JP2019160236 A JP 2019160236A
Authority
JP
Japan
Prior art keywords
name
learning data
replacement
classification
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018050086A
Other languages
Japanese (ja)
Other versions
JP7091742B2 (en
Inventor
田中 一成
Kazunari Tanaka
一成 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018050086A priority Critical patent/JP7091742B2/en
Publication of JP2019160236A publication Critical patent/JP2019160236A/en
Application granted granted Critical
Publication of JP7091742B2 publication Critical patent/JP7091742B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To improve accuracy of classifying names.SOLUTION: A learning data generation method of an embodiment is a learning data generation method for generating learning data of a classifier which classifies names included in a document, and causes a computer to execute extraction processing, evaluation processing and replacement processing. In the extraction processing, regarding learning data for which a positive example or a negative example is given to a discrimination candidate of a name to be classified, a feature element included in the discrimination candidate is extracted. In the evaluation processing, a deviation degree of the extracted feature element in the positive example or the negative example is evaluated. In the replacement processing, according to the evaluated deviation degree, the name of the discrimination candidate is replaced with another name stored in a storage unit in association with the name.SELECTED DRAWING: Figure 1

Description

本発明の実施形態は、学習データ生成方法、学習データ生成プログラムおよびデータ構造に関する。   Embodiments described herein relate generally to a learning data generation method, a learning data generation program, and a data structure.

従来、化学分野の論文などの文書を人が読み易くする、または、コンピュータによって分析するために、文書の中から化合物名などの特定の名称を分類する技術がある。このように、文書から特定の名称を分類する技術としては、登録した辞書を用いて論文から遺伝子やタンパク質などの物質を抽出し、ユーザに分かりやすい形で可視化して表示するものが知られている。   2. Description of the Related Art Conventionally, there is a technique for classifying a specific name such as a compound name from a document in order to make it easy for humans to read a document such as a paper in the chemical field or to analyze it by a computer. In this way, as a technique for classifying a specific name from a document, a technique for extracting a substance such as a gene or protein from a paper using a registered dictionary and visualizing and displaying it in a user-friendly form is known. Yes.

特開2003−186894号公報JP 2003-186894 A 特開2013−101508号公報JP 2013-101508 A

しかしながら、上記の技術では、辞書を機械学習で学習した分類器により、例えば化合物名などの特定の名称と、化合物以外の名称とを分類する場合、十分な分類精度が得られないことがあった。一例として、「プロペン」、「ペンタン」などの化合物名は、「ペン」という特徴素が含まれる。また、この「ペン」という特徴素は、「ペンタブレット」、「ペンシル」などの化合物以外の名称にも含まれる。このように、辞書における正例・負例の両方に共通の特徴素が多く含まれる場合には、分類器による分類が困難となり、十分な分類精度が得られないこととなる。   However, in the above technique, when classifying a specific name such as a compound name and a name other than a compound by a classifier that learns a dictionary by machine learning, sufficient classification accuracy may not be obtained. . As an example, compound names such as “propene” and “pentane” include the characteristic element “pen”. The characteristic element “pen” is also included in names other than compounds such as “pen tablet” and “pencil”. As described above, when many common feature elements are included in both the positive and negative examples in the dictionary, classification by the classifier becomes difficult, and sufficient classification accuracy cannot be obtained.

1つの側面では、名称の分類精度の向上を可能とする学習データ生成方法、学習データ生成プログラムおよびデータ構造を提供することを目的とする。   In one aspect, an object is to provide a learning data generation method, a learning data generation program, and a data structure that enable improvement of name classification accuracy.

第1の案では、文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、抽出する処理と、評価する処理と、置換する処理とをコンピュータが実行する。抽出する処理は、分類にかかる名称の判別候補に正例または負例が付与された学習データについて、判別候補に含まれる特徴素を抽出する。評価する処理は、正例または負例における、抽出した特徴素の偏り度合いを評価する。置換する処理は、評価した偏り度合いに応じて判別候補の名称を、名称に対応付けて記憶部に記憶された別名称に置換する。   In the first proposal, a learning data generation method for generating learning data of a classifier that classifies names included in a document, the computer executes an extraction process, an evaluation process, and a replacement process. In the extracting process, feature elements included in the discrimination candidates are extracted from the learning data in which positive examples or negative examples are assigned to the discrimination candidates for the names related to the classification. The process to evaluate evaluates the degree of bias of the extracted feature elements in the positive example or the negative example. In the replacement process, the name of the discrimination candidate is replaced with another name stored in the storage unit in association with the name according to the evaluated degree of bias.

本発明の1実施態様によれば、名称の分類精度の向上を可能とする。   According to one embodiment of the present invention, the name classification accuracy can be improved.

図1は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。FIG. 1 is a block diagram illustrating a functional configuration example of the information processing apparatus according to the embodiment. 図2は、学習データの一例を説明する説明図である。FIG. 2 is an explanatory diagram illustrating an example of learning data. 図3は、置換ルールの一例を説明する説明図である。FIG. 3 is an explanatory diagram illustrating an example of a replacement rule. 図4は、学習フェーズの動作例を示すフローチャートである。FIG. 4 is a flowchart illustrating an operation example of the learning phase. 図5は、特徴素の抽出を説明する説明図である。FIG. 5 is an explanatory diagram for explaining feature element extraction. 図6は、特徴素の評価を説明する説明図である。FIG. 6 is an explanatory diagram illustrating evaluation of feature elements. 図7は、特徴素の評価を説明する説明図である。FIG. 7 is an explanatory diagram illustrating evaluation of feature elements. 図8は、置換ルールを適用する処理の一例を示すフローチャートである。FIG. 8 is a flowchart illustrating an example of processing for applying a replacement rule. 図9は、置換前後の学習データを説明する説明図である。FIG. 9 is an explanatory diagram for explaining learning data before and after replacement. 図10は、分類モデルを学習する処理の一例を示すフローチャートである。FIG. 10 is a flowchart illustrating an example of processing for learning a classification model. 図11は、適用フェーズの動作例を示すフローチャートである。FIG. 11 is a flowchart illustrating an operation example of the application phase. 図12は、分類の具体例を説明する説明図である。FIG. 12 is an explanatory diagram illustrating a specific example of classification. 図13は、プログラムを実行するコンピュータの一例を示す説明図である。FIG. 13 is an explanatory diagram illustrating an example of a computer that executes a program.

以下、図面を参照して、実施形態にかかる学習データ生成方法、学習データ生成プログラムおよびデータ構造を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習データ生成方法、学習データ生成プログラムおよびデータ構造は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。   Hereinafter, a learning data generation method, a learning data generation program, and a data structure according to an embodiment will be described with reference to the drawings. In the embodiment, configurations having the same functions are denoted by the same reference numerals, and redundant description is omitted. Note that the learning data generation method, the learning data generation program, and the data structure described in the following embodiments are merely examples, and do not limit the embodiments. In addition, the following embodiments may be appropriately combined within a consistent range.

図1は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図1に示す情報処理装置1は、例えば、PC(パーソナルコンピュータ)などのコンピュータを適用できる。   FIG. 1 is a block diagram illustrating a functional configuration example of the information processing apparatus according to the embodiment. For example, a computer such as a PC (personal computer) can be applied to the information processing apparatus 1 illustrated in FIG.

図1に示すように、情報処理装置1は、学習フェーズ(S1)において機械学習により分類器14の学習を行う。そして、情報処理装置1は、適用フェーズ(S2)では、学習後の分類器14を適用することで、文書等の分類対象データ23に含まれる名称を分類して分類結果24を出力する。   As shown in FIG. 1, the information processing apparatus 1 learns the classifier 14 by machine learning in the learning phase (S1). In the application phase (S2), the information processing apparatus 1 applies the post-learning classifier 14 to classify the names included in the classification target data 23 such as documents and output the classification result 24.

本実施形態では学習フェーズ(S1)と、適用フェーズ(S1)とを同一の情報処理装置1で行う構成を例示するが、装置構成については本実施形態の例に特に限定しない。例えば、学習フェーズ(S1)にかかる処理を実行する装置と、適用フェーズ(S2)にかかる処理を実行する装置とを分離したシステム構成であってもよい。   In the present embodiment, a configuration in which the learning phase (S1) and the application phase (S1) are performed by the same information processing apparatus 1 is illustrated, but the apparatus configuration is not particularly limited to the example of the present embodiment. For example, a system configuration in which a device that executes processing related to the learning phase (S1) and a device that executes processing related to the application phase (S2) may be separated.

また、本実施形態では、一例として、分類にかかる名称は化合物名であり、分類器14は分類対象データ23に含まれる名称が化合物名であるか否かに分類した分類結果24を出力する場合を例示する。これにより、情報処理装置1では、分類結果24に基づいて、化学分野の論文などの分類対象データ23に含まれる化合物名を抽出することができる。   In the present embodiment, as an example, the name related to the classification is a compound name, and the classifier 14 outputs a classification result 24 that classifies whether the name included in the classification target data 23 is a compound name. Is illustrated. Thereby, the information processing apparatus 1 can extract the compound name included in the classification target data 23 such as a paper in the chemical field based on the classification result 24.

なお、分類器14における名称の分類については、化合物名に限定するものではない。例えば、分類器14は、分類対象データ23に含まれる名称が地名であるか否か、人名であるか否か、または、書籍名であるか否かなど、所定の種別の固有名詞に該当するか否かに分類してもよい。   The name classification in the classifier 14 is not limited to the compound name. For example, the classifier 14 corresponds to a specific type of proper noun such as whether the name included in the classification target data 23 is a place name, whether it is a person name, or whether it is a book name. It may be classified into whether or not.

情報処理装置1は、学習フェーズ(S1)において、分類にかかる名称の判別候補に正例または負例が付与された学習データ20を教師データとして分類器14の学習を行う。ここで、情報処理装置1は、学習データ20の判別候補に含まれる特徴素を抽出し、正例または負例における、抽出した特徴素の偏り度合いを評価する。そして、情報処理装置1は、評価した偏り度合いに応じて学習データ20の判別候補の名称を、その名称に対応付けて置換ルール21に記憶された別名称に置換する。   In the learning phase (S1), the information processing apparatus 1 performs learning of the classifier 14 using the learning data 20 in which a positive example or a negative example is assigned to a classification candidate for classification as teacher data. Here, the information processing apparatus 1 extracts feature elements included in the discrimination candidates of the learning data 20, and evaluates the degree of bias of the extracted feature elements in the positive example or the negative example. Then, the information processing apparatus 1 replaces the name of the discrimination candidate of the learning data 20 with another name stored in the replacement rule 21 in association with the name according to the evaluated degree of bias.

このように、情報処理装置1では、学習データ20の判別候補の名称を別名称に置換することで、置換後の学習データにおいて正例・負例の両方に共通の特徴素を少なくすることができる。したがって、情報処理装置1は、置換後の20を分類器14の学習に用いることで、分類器14における名称の分類精度を向上させることができる。   As described above, the information processing apparatus 1 may reduce the number of characteristic elements common to both the positive example and the negative example in the learning data after the replacement by replacing the name of the discrimination candidate of the learning data 20 with another name. it can. Therefore, the information processing apparatus 1 can improve the name classification accuracy in the classifier 14 by using 20 after replacement for learning of the classifier 14.

情報処理装置1は、特徴素抽出部10、特徴素評価部11、置換部12、学習部13、分類器14および入力データ変換部15を有する。   The information processing apparatus 1 includes a feature element extraction unit 10, a feature element evaluation unit 11, a replacement unit 12, a learning unit 13, a classifier 14, and an input data conversion unit 15.

特徴素抽出部10は、分類にかかる名称の判別候補に正例または負例が付与された学習データ20について、判別候補に含まれる特徴素を抽出する。具体的には、特徴素抽出部10は、学習データ20の判別候補となる名称について、n−gramによる文字単位の特徴素を抽出する。一例として、特徴素抽出部10は、学習データ20の判別候補となる名称について、1文字単位のユニグラム(uni−gram)と、2文字単位のバイグラム(bi−gram)とを特徴素として抽出する。   The feature element extraction unit 10 extracts feature elements included in the discrimination candidates for the learning data 20 in which positive examples or negative examples are assigned to the discrimination candidates for the names related to the classification. Specifically, the feature element extraction unit 10 extracts a character-by-character feature element by n-gram for a name that is a discrimination candidate of the learning data 20. As an example, the feature element extraction unit 10 extracts a unigram (uni-gram) in units of one character and a bigram (bi-gram) in units of two characters as a feature element for a name that is a discrimination candidate of the learning data 20. .

図2は、学習データ20の一例を説明する説明図である。図2に示すように、学習データ20では、分類にかかる名称の判別候補を示す表記(ペンタン、プロペン、ペンシル、タブレット、…)に対し、正例または負例を示す正負(○、×)が付与されている。   FIG. 2 is an explanatory diagram for explaining an example of the learning data 20. As shown in FIG. 2, in the learning data 20, positive / negative (◯, ×) indicating a positive example or a negative example is indicated with respect to a notation (pentane, propene, pencil, tablet,...) Indicating a name discrimination candidate for classification. Has been granted.

本実施形態では化合物名を分類することから、学習データ20において、化合物であるペンタン、プロペンには正例を示す○が付与されている。また、化合物でないペンシル、ペンタブレットには負例を示す×が付与されている。   In the present embodiment, since the compound names are classified, in the learning data 20, pentane and propene, which are compounds, are given ◯ indicating a positive example. Moreover, x which shows a negative example is provided to the pencil which is not a compound, and a pen tablet.

例えば、特徴素抽出部10は、ペンタンからは、ユニグラムの特徴素{ペ、ン、タ、ン}と、バイグラムの特徴素{ペン、ンタ、タン}とを抽出する。   For example, the feature element extraction unit 10 extracts unigram feature elements {pe, n, ta, n} and bigram feature elements {pen, nta, tongue} from pentane.

特徴素評価部11は、学習データ20の正例または負例における、抽出した特徴素の偏り度合いを評価する。例えば、学習データ20より抽出した特徴素の多くが正例または負例の一方に現れるなどの、特徴素の偏りがある場合には、特徴素による分類を容易なものとし、分類精度が向上することとなる。逆に、学習データ20より抽出した特徴素の多くが正例・負例の両方に共通するなどの、特徴素の偏りがない場合には、特徴素による分類が困難なものとなり、分類精度の低減を招くこととなる。   The feature element evaluation unit 11 evaluates the degree of bias of the extracted feature elements in the positive example or the negative example of the learning data 20. For example, if there is a bias in the feature elements such as many of the feature elements extracted from the learning data 20 appear in one of the positive examples or the negative examples, the classification by the feature elements is facilitated and the classification accuracy is improved. It will be. Conversely, if there is no feature element bias, such as many of the feature elements extracted from the learning data 20 are common to both positive and negative examples, classification by the feature elements becomes difficult, and the classification accuracy is low. This will lead to a reduction.

このことから、特徴素評価部11では、正例・負例の一方に現れる特徴素の数が多いほど、偏り度合いが高いものとして評価する。具体的には、特徴素評価部11は、学習データ20より抽出した特徴素について、正例または負例の一方に現れる特徴素の数を有効な特徴素の数として計数する。そして、特徴素評価部11は、例えば次の式(1)に示すように、全特徴の数における計数した有効な特徴素の数の平均を評価値(E)として算出する。   From this, the feature element evaluation unit 11 evaluates that the higher the number of feature elements appearing in one of the positive example and the negative example, the higher the degree of bias. Specifically, for the feature elements extracted from the learning data 20, the feature element evaluation unit 11 counts the number of feature elements that appear in either the positive example or the negative example as the number of effective feature elements. And the feature element evaluation part 11 calculates the average of the number of the effective feature elements counted in the number of all the features as an evaluation value (E), for example as shown to following Formula (1).

Figure 2019160236
Figure 2019160236

式(1)において、fは有効な特徴素の数、nは全特徴の数を示す。また、f、nの添字は、pが正例、nが負例を表す。式(1)では、正例、負例のそれぞれで求めた評価値において、低い方を偏り度合いの評価値(E)とする。   In Equation (1), f represents the number of effective feature elements, and n represents the number of all features. Moreover, as for the subscripts of f and n, p represents a positive example and n represents a negative example. In the formula (1), in the evaluation values obtained in the positive example and the negative example, the lower one is set as the evaluation value (E) of the degree of bias.

置換部12は、特徴素評価部11が評価した偏り度合いに応じて、学習データ20における判別候補の名称を、その名称に対応付けて置換ルール21に記憶された別名称に置換する。   The replacement unit 12 replaces the name of the discrimination candidate in the learning data 20 with another name stored in the replacement rule 21 in association with the name according to the degree of bias evaluated by the feature element evaluation unit 11.

図3は、置換ルール21の一例を説明する説明図である。図3に示すように、置換ルール21には、変換(置換)前の名称と、その名称について言い換え可能な別名称を示す変換(置換)後の名称とを互いに対応付けて記憶するデータテーブルなどである。   FIG. 3 is an explanatory diagram for explaining an example of the replacement rule 21. As shown in FIG. 3, the replacement rule 21 includes a data table that stores a name before conversion (replacement) and a name after conversion (replacement) indicating another name that can be rephrased with respect to the name. It is.

化合物については、様々な理由で、同じ構造に対して別の名称を持つものが多い。例えば、「フタル酸ジブチル」の「フタル酸」は「ベンゼン」に「カルボン酸」が2つ付いた構造であり、「フタル酸」の部分を「ベンゼン−1,2−ジカルボン酸」と置き換えても同じ化合物を表す。   Many compounds have different names for the same structure for various reasons. For example, “phthalic acid” in “dibutyl phthalate” has a structure in which “carboxylic acid” is attached to “benzene”, and “phthalic acid” is replaced with “benzene-1,2-dicarboxylic acid”. Represents the same compound.

図3における置換ルール21の例では、「ペンタン」については、言い換え可能な「バレル」が対応付けられている。同様に、「プロペン」については「アクリル」が、「スチレン」については「1−ビニルベンゼン」がそれぞれ対応付けられている。なお、本実施形態では正例側の名称を置換する置換ルール21を例示しているが、置換ルール21には負例側の名称を置換するルールが含まれていてもよい。   In the example of the replacement rule 21 in FIG. 3, “pentane” is associated with a “barrel” that can be paraphrased. Similarly, “propene” is associated with “acryl”, and “styrene” is associated with “1-vinylbenzene”. In this embodiment, the replacement rule 21 for replacing the name on the positive example side is illustrated, but the replacement rule 21 may include a rule for replacing the name on the negative example side.

置換部12は、学習データ20における判別候補の名称(置換対象)について特徴素評価部11が評価した置換前の評価値と、置換ルール21に対応付けて記憶された別名称に置換した場合に特徴素評価部11が評価した置換後の評価値とを比較する。そして、置換部12は、置換対象の名称について、置換前より置換後の評価値が上がった場合、学習データ20に置換ルール21を適用して置換対象の名称を別名称に置換する。また、学習データ20に置換ルール21を適用した場合、置換部12は、学習データ20に適用した置換ルール21を適用ルール22として出力する。   The replacement unit 12 replaces the evaluation value before replacement evaluated by the feature element evaluation unit 11 with respect to the name of the discrimination candidate (replacement target) in the learning data 20 and another name stored in association with the replacement rule 21. The evaluation value after replacement evaluated by the feature element evaluation unit 11 is compared. Then, the replacement unit 12 replaces the replacement target name with another name by applying the replacement rule 21 to the learning data 20 when the evaluation value after replacement is higher than the replacement target name. When the replacement rule 21 is applied to the learning data 20, the replacement unit 12 outputs the replacement rule 21 applied to the learning data 20 as the application rule 22.

学習部13は、置換後の学習データを教師データとする機械学習により分類器14の学習を行う。分類器14は、置換部12による置換後の学習データを教師データとする学習部13の機械学習により構築された、名称の分類にかかる分類モデルである。   The learning unit 13 learns the classifier 14 by machine learning using the replacement learning data as teacher data. The classifier 14 is a classification model for classifying names, which is constructed by machine learning of the learning unit 13 using the learning data after replacement by the replacement unit 12 as teacher data.

この分類器14の分類モデルとしては、例えば、脳のニューロンを模したユニットを入力層から中間層を経て出力層に至る間に階層的に結合したニューラル・ネットワークを適用できる。   As the classification model of the classifier 14, for example, a neural network in which units simulating brain neurons are hierarchically connected from the input layer to the output layer through the intermediate layer can be applied.

学習フェーズ(S1)において、学習部13は、分類器14の入力層に置換後の学習データに基づく入力(例えば判別候補の特徴素の入力)を行い、演算結果を示す出力値を出力層から出力させる。そして、学習データにおける正解情報(正例または負例)と出力値との比較に基づいて、分類器14が分類結果24を出力するためのパラメータ学習を行う。より具体的には、学習部13は、出力値と正解情報との比較結果を用いた誤差逆伝播(error Back Propagation:BP)法などによって、分類器14におけるニューラル・ネットワークのパラメータを学習する。   In the learning phase (S1), the learning unit 13 performs input (for example, input of feature elements of discrimination candidates) on the input layer of the classifier 14 based on the learning data after replacement, and outputs an output value indicating a calculation result from the output layer. Output. Then, the classifier 14 performs parameter learning for outputting the classification result 24 based on the comparison between the correct answer information (positive example or negative example) in the learning data and the output value. More specifically, the learning unit 13 learns the parameters of the neural network in the classifier 14 by the error back propagation (BP) method using the comparison result between the output value and the correct answer information.

適用フェーズ(S2)において、分類器14は、入力データ変換部15を介して入力層に入力された分類対象データ23に対し、学習したパラメータに応じた分類結果24を出力する。   In the application phase (S2), the classifier 14 outputs a classification result 24 corresponding to the learned parameter to the classification target data 23 input to the input layer via the input data conversion unit 15.

入力データ変換部15は、分類対象データ23の入力を受け付け、受け付けた分類対象データ23について適用ルール22を適用した上で特徴素を抽出するなどして分類器14用の入力データに変換し、分類器14の入力層に入力する。なお、分類対象データ23に対する適用ルール22の適用では、分類対象データ23に含まれる名称の中で、適用ルール22の変換前の名称に該当する名称を、変換後の名称に置換する。これにより、学習フェーズ(S1)おいて置換部12により置換が行われた名称については、適用フェーズ(S2)においても同様に置換を行うようにする。   The input data conversion unit 15 receives input of the classification target data 23, converts the input data for the classifier 14 by extracting the feature elements after applying the application rule 22 to the received classification target data 23, Input to the input layer of the classifier 14. In the application of the application rule 22 to the classification target data 23, the name corresponding to the name before conversion of the application rule 22 among the names included in the classification target data 23 is replaced with the name after conversion. As a result, the names replaced by the replacement unit 12 in the learning phase (S1) are similarly replaced in the application phase (S2).

ここで、学習フェーズ(S1)の詳細を説明する。図4は、学習フェーズ(S1)の動作例を示すフローチャートである。   Here, the details of the learning phase (S1) will be described. FIG. 4 is a flowchart showing an operation example of the learning phase (S1).

図4に示すように、学習フェーズ(S1)の処理が開始されると、特徴素抽出部10は、学習データ20、置換ルール21を読み込む(S10、S11)。次いで、特徴素抽出部10は、置換ルール21の中で未処理の1つを特定する(S12)。例えば、最初の処理では、全てが未処理であることから、変換前が「ペンタン」、変換後が「バレル」である筆頭の置換ルール21(図3参照)を特定する。   As shown in FIG. 4, when the process of the learning phase (S1) is started, the feature element extraction unit 10 reads the learning data 20 and the replacement rule 21 (S10, S11). Next, the feature element extraction unit 10 identifies one unprocessed rule in the replacement rule 21 (S12). For example, in the first process, since all are unprocessed, the first replacement rule 21 (refer to FIG. 3) with “pentane” before conversion and “barrel” after conversion is specified.

次いで、特徴素抽出部10は、読み込んだ学習データ20における判別候補の名称について、特徴素を抽出する(S13)。   Next, the feature element extraction unit 10 extracts feature elements for the names of discrimination candidates in the read learning data 20 (S13).

図5は、特徴素の抽出を説明する説明図である。図5に示すように、特徴素抽出部10は、読み込んだ学習データ20について、例えばユニグラムとバイグラムにおける特徴素を抽出する。   FIG. 5 is an explanatory diagram for explaining feature element extraction. As shown in FIG. 5, the feature element extraction unit 10 extracts, for example, feature elements in unigrams and bigrams from the read learning data 20.

また、特徴素抽出部10は、S13において、特定した置換ルール21を適用する置換前のケースと、特定した置換ルール21に該当する名称(置換対象)を置換した置換後のケースの両方について特徴素を抽出する。   In S13, the feature element extraction unit 10 is characterized in both the case before replacement to which the specified replacement rule 21 is applied and the case after replacement in which the name (replacement target) corresponding to the specified replacement rule 21 is replaced. Extract the elements.

次いで、特徴素評価部11は、S13で抽出した特徴素をもとに、学習データ20の正例または負例における、抽出した特徴素の偏り度合いを評価する(S14)。具体的には、特徴素評価部11は、置換前のケースにおける特徴素の偏り度合いの評価値と、置換後のケースにおける特徴素の偏り度合いの評価値とを算出する。   Next, the feature element evaluation unit 11 evaluates the degree of bias of the extracted feature element in the positive example or the negative example of the learning data 20 based on the feature element extracted in S13 (S14). Specifically, the feature element evaluation unit 11 calculates an evaluation value of the degree of bias of the feature elements in the case before replacement and an evaluation value of the degree of bias of the feature elements in the case after replacement.

図6、図7は、特徴素の評価を説明する説明図である。なお、図6では置換前のケースC1を例示している。また、図7では、「ペンタン」を「バレル」に、「プロペン」を「アクリル」に置換した置換後のケースC2を例示している。また、図6、図7ともに、特徴素の評価を行った学習データ20は、図5に例示したものである。また、丸印については、実線が正例における有効な特徴素を示し、点線が負例における有効な特徴素を示している。   6 and 7 are explanatory diagrams for explaining the evaluation of feature elements. FIG. 6 illustrates the case C1 before replacement. FIG. 7 illustrates a case C2 after replacement in which “pentane” is replaced with “barrel” and “propene” is replaced with “acryl”. Further, in both FIG. 6 and FIG. 7, the learning data 20 for which the feature elements have been evaluated is illustrated in FIG. 5. For the circles, the solid line indicates an effective feature element in the positive example, and the dotted line indicates an effective feature element in the negative example.

図6に示すように、ケースC1では、正例の特徴(ペンタン、プロペン)に対する有効な特徴素の数は1である。また、負例の特徴(ペンシル、ペンタブレット)に対する有効な特徴素の数は12である。したがって、式(1)により、特徴素評価部11は、ケースC1での評価値を0.5と算出する。   As shown in FIG. 6, in case C1, the number of effective feature elements for the positive example features (pentane, propene) is one. The number of effective feature elements for the negative example features (pencil, pen tablet) is twelve. Therefore, the feature element evaluation unit 11 calculates the evaluation value in the case C1 as 0.5 according to the expression (1).

図7に示すように、ケースC2では、置換後の正例の特徴(バレル、アクリル)に対する有効な特徴素の数は9である。また、負例の特徴(ペンシル、ペンタブレット)に対する有効な特徴素の数は12である。したがって、式(1)により、特徴素評価部11は、ケースC2での評価値を4.5と算出する。   As shown in FIG. 7, in case C2, the number of effective feature elements for the positive example features (barrel, acrylic) after replacement is nine. The number of effective feature elements for the negative example features (pencil, pen tablet) is twelve. Therefore, the feature element evaluation unit 11 calculates the evaluation value in the case C2 as 4.5 according to the equation (1).

図4に戻り、S14に次いで、置換部12は、置換前のケースC1に対する置換後のケースC2において、特徴素の評価値が上がったか否かを判定する(S15)。評価値が上がらなかった場合(S15:NO)、置換部12は、特定した置換ルール21を適用せず、適用前に戻すものとする(S16)。   Returning to FIG. 4, following S14, the replacement unit 12 determines whether or not the evaluation value of the feature element has increased in the case C2 after replacement with respect to the case C1 before replacement (S15). When the evaluation value does not increase (S15: NO), the replacement unit 12 does not apply the specified replacement rule 21 and returns it before application (S16).

評価値が上がった場合(S15:YES)、置換部12は、特徴素の評価値が高い、または、全ての言い換えルール(置換ルール21)を処理したか否かを判定する(S17)。S17において否定判定である場合(S17:NO)、置換部12は、学習データ20に特定した置換ルール21を適用する処理(S18)を行い、未処理の中で次の置換ルール21を特定して(S19)、S12へ処理を戻す。   When the evaluation value increases (S15: YES), the replacement unit 12 determines whether the evaluation value of the feature element is high or all the paraphrase rules (replacement rule 21) have been processed (S17). When a negative determination is made in S17 (S17: NO), the replacement unit 12 performs a process (S18) of applying the specified replacement rule 21 to the learning data 20, and specifies the next replacement rule 21 in the unprocessed state. (S19), and the process returns to S12.

図8は、置換ルール21を適用する処理の一例を示すフローチャートである。図8に示すように、置換ルール21を適用する処理(S18)が開始されると、置換部12は、特定した置換ルール21を読み込む(S30)。   FIG. 8 is a flowchart illustrating an example of processing for applying the replacement rule 21. As shown in FIG. 8, when the process of applying the replacement rule 21 (S18) is started, the replacement unit 12 reads the specified replacement rule 21 (S30).

次いで、置換部12は、学習データ20における未処理の1つを特定し(S31)、特定した学習データ20の表記に置換ルール21の言い換え前(変換前)とマッチするものがあるかを照合する(S32)。   Next, the replacement unit 12 identifies an unprocessed one in the learning data 20 (S31), and collates whether there is a match in the notation of the specified learning data 20 before the paraphrase (before conversion) of the replacement rule 21 (S32).

次いで、置換部12は、照合の結果、マッチするものがあるか否かを判定し(S33)、ある場合(S33:YES)はマッチした部分を置換ルール21の言い換え後(変換後)に変換する(S34)。   Next, the replacement unit 12 determines whether or not there is a match as a result of the collation (S33). If there is a match (S33: YES), the matched part is converted after the paraphrase (after conversion) of the replacement rule 21. (S34).

次いで、置換部12は、全ての学習データ20を処理したか否かを判定する(S35)。未処理の学習データ20がある場合(S35:NO)、置換部12は、未処理の中から次の学習データ20を特定し(S36)、S32へ処理を戻す。全ての学習データ20を処理した場合(S35:YES)、置換部12は、処理後の学習データ20を出力し(S37)、処理を終了する。   Next, the replacement unit 12 determines whether all the learning data 20 has been processed (S35). When there is unprocessed learning data 20 (S35: NO), the replacement unit 12 specifies the next learning data 20 from the unprocessed (S36), and returns the process to S32. When all the learning data 20 has been processed (S35: YES), the replacement unit 12 outputs the processed learning data 20 (S37) and ends the process.

図9は、置換前後の学習データ20、20aを説明する説明図である。図9に示すように、置換ルール21を適用する処理を行うことで、置換前の学習データ20は、置換ルール21を適用した置換後の学習データ20aに変換される。具体的には、置換ルール21の名称の中で、「プロペン酸」が「アクリル酸」に、「ペンタン」が「バレル」に置換される。   FIG. 9 is an explanatory diagram for explaining the learning data 20 and 20a before and after replacement. As shown in FIG. 9, by performing the process of applying the replacement rule 21, the learning data 20 before replacement is converted into learning data 20 a after replacement using the replacement rule 21. Specifically, in the name of the replacement rule 21, “propenoic acid” is replaced with “acrylic acid” and “pentane” is replaced with “barrel”.

図4に戻り、S17において肯定判定である場合(S17:YES)、学習部13は、置換後の学習データ20aを教師データとする機械学習により分類器14における分類モデルの学習を行う(S20)。   Returning to FIG. 4, when the determination in S17 is affirmative (S17: YES), the learning unit 13 learns the classification model in the classifier 14 by machine learning using the replacement learning data 20a as teacher data (S20). .

図10は、分類モデルを学習する処理の一例を示すフローチャートである。図10に示すように、分類モデルを学習する処理(S20)が開始されると、学習部13は、処理(S10〜S19)後の学習データ20aを読み込む。   FIG. 10 is a flowchart illustrating an example of processing for learning a classification model. As shown in FIG. 10, when the process of learning the classification model (S20) is started, the learning unit 13 reads the learning data 20a after the process (S10 to S19).

次いで、学習部13は、1つの学習データ20aを特定し、特定した学習データ20aを教師として分類器14へ入力する。次いで、学習部13は、分類器14からの出力と、正解(正例/負例)との比較結果を用いた誤差逆伝播法などにより、分類モデルの重み(パラメータ)を更新する(S43)。   Next, the learning unit 13 specifies one piece of learning data 20a and inputs the specified learning data 20a to the classifier 14 as a teacher. Next, the learning unit 13 updates the weight (parameter) of the classification model by an error back propagation method using a comparison result between the output from the classifier 14 and the correct answer (positive example / negative example) (S43). .

次いで、学習部13は、処理(S10〜S19)後の学習データ20aの全てを処理したか否かを判定し(S44)、全てを処理した場合(S44:YES)、分類モデルを出力して処理を終了する(S46)。全てを処理していない場合(S44:NO)、学習部13は、未処理の中の次の学習データ20aを特定し(S45)、S43へ処理を戻す。   Next, the learning unit 13 determines whether or not all of the learning data 20a after the processing (S10 to S19) has been processed (S44), and when all of the processing is performed (S44: YES), outputs a classification model. The process ends (S46). If not all have been processed (S44: NO), the learning unit 13 identifies the next learning data 20a that has not been processed (S45), and returns the process to S43.

図4に戻り、S20についで、置換部12は、学習による分類モデルとともに、学習データ20に適用した置換ルール21を適用ルール22として出力する(S21)。   Returning to FIG. 4, after S20, the replacement unit 12 outputs the replacement rule 21 applied to the learning data 20 as the application rule 22 together with the classification model by learning (S21).

次に、適用フェーズ(S2)の詳細を説明する。図11は、適用フェーズ(S2)の動作例を示すフローチャートである。   Next, details of the application phase (S2) will be described. FIG. 11 is a flowchart illustrating an operation example of the application phase (S2).

図11に示すように、適用フェーズ(S2)の処理が開始されると、入力データ変換部15は、適用ルール22、分類対象データ23を読み込む(S50、S51)。   As shown in FIG. 11, when the process of the application phase (S2) is started, the input data conversion unit 15 reads the application rule 22 and the classification target data 23 (S50, S51).

次いで、入力データ変換部15は、読み込んだ適用ルール22に示された置換ルール(変換前の名称、変換後の名称)によって、分類対象データ23において該当する名称を変換する(S52)。   Next, the input data conversion unit 15 converts the corresponding name in the classification target data 23 based on the replacement rule (name before conversion, name after conversion) indicated in the read application rule 22 (S52).

次いで、入力データ変換部15は、変換後の分類対象データ23について、特徴素の抽出を行い(S53)、分類器14用の入力データに変換する。次いで、入力データ変換部15は、変換した入力データを分類器14の入力層に入力することで、分類器14による名称の分類を行う(S54)。次いで、分類器14は、入力層からの入力に対し、学習したパラメータに応じた分類結果24を出力する(S55)。   Next, the input data conversion unit 15 extracts feature elements from the converted classification target data 23 (S53), and converts the data into input data for the classifier 14. Next, the input data conversion unit 15 performs classification of names by the classifier 14 by inputting the converted input data to the input layer of the classifier 14 (S54). Next, the classifier 14 outputs the classification result 24 corresponding to the learned parameter with respect to the input from the input layer (S55).

図12は、分類の具体例を説明する説明図である。図12に示すように、S52では、受け付けた分類対象データ23における名称(n−ペンタンアミド、アクリル酸、ペンロット)が適用ルール22に示された置換ルールにより変換される。一例として、n−ペンタンアミドがn−バレルアミドに変換される。   FIG. 12 is an explanatory diagram illustrating a specific example of classification. As shown in FIG. 12, in S <b> 52, the name (n-pentanamide, acrylic acid, penlot) in the received classification target data 23 is converted by the replacement rule indicated in the application rule 22. As an example, n-pentanamide is converted to n-valeramide.

次いで、S53では、ユニグラム、バイグラムでの特徴素の抽出が行われる。次いで、S54、S55では、分類器14の分類モデルにより、抽出した特徴素のベクトルから算出されたスコアでの分類が行われる。   Next, in S53, feature elements are extracted as unigrams and bigrams. Next, in S54 and S55, the classification with the score calculated from the extracted feature element vector is performed by the classification model of the classifier 14.

以上のように、情報処理装置1は、文書等の分類対象データ23に含まれる名称を分類する分類器14の学習データを生成する。情報処理装置1の特徴素抽出部10は、分類にかかる名称の判別候補に正例または負例が付与された学習データ20について、判別候補に含まれる特徴素を抽出する。情報処理装置1の特徴素評価部11は、学習データ20の正例または負例における、抽出した特徴素の偏り度合いを評価する。情報処理装置1の置換部12は、評価した偏り度合いに応じて学習データ20における判別候補の名称を、当該名称に対応付けて置換ルール21に記憶された別名称に置換する。   As described above, the information processing apparatus 1 generates learning data of the classifier 14 that classifies names included in the classification target data 23 such as documents. The feature element extraction unit 10 of the information processing apparatus 1 extracts feature elements included in the discrimination candidates for the learning data 20 in which positive examples or negative examples are assigned to the classification candidates for classification. The feature element evaluation unit 11 of the information processing apparatus 1 evaluates the degree of bias of the extracted feature elements in the positive example or the negative example of the learning data 20. The replacement unit 12 of the information processing device 1 replaces the name of the discrimination candidate in the learning data 20 with another name stored in the replacement rule 21 in association with the name according to the evaluated degree of bias.

このように、情報処理装置1は、分類器14の学習を行う学習データ20について、正例または負例での特徴素の偏り度合いに応じて、判別候補の名称をその名称に対応する別名称に置換したものを生成する。したがって、置換後の学習データでは、正例・負例の両方に共通の特徴素を少なくすることができ、分類器14の学習に用いることで分類器14における名称の分類精度を向上させることができる。   In this way, the information processing apparatus 1 uses the name of the discrimination candidate corresponding to the name of the learning data 20 for learning by the classifier 14 according to the degree of bias of the feature elements in the positive example or the negative example. Generate a replacement for. Therefore, in the learning data after replacement, the number of characteristic elements common to both the positive example and the negative example can be reduced, and the name classification accuracy in the classifier 14 can be improved by using it for learning of the classifier 14. it can.

また、置換部12は、学習データ20の中で置換した名称について、置換前と置換後の名称の対応関係を示す適用ルール22を出力する。これにより、学習後の分類器14を用いて分類対象データ23に含まれる名称を分類する適用フェーズ(S2)において、適用ルール22を用いることで、分類対象データ23に含まれる置換前の名称を置換後の名称に変換することができる。   Further, the replacement unit 12 outputs an application rule 22 indicating the correspondence between the names before replacement and the names after replacement for the names replaced in the learning data 20. Thereby, in the application phase (S2) which classifies the name included in the classification target data 23 using the classifier 14 after learning, the name before replacement included in the classification target data 23 is obtained by using the application rule 22. It can be converted to the name after replacement.

また、分類にかかる名称は、化合物名であり、置換部12は、学習データ20における判別候補の化合物名をその化合物名に対応する別の化合物名に置換する。これにより、置換後の学習データ20では、分類器14の学習に用いることで、分類器14における化合物名の分類精度を向上させることができる。   The name related to the classification is a compound name, and the replacement unit 12 replaces the compound name of the discrimination candidate in the learning data 20 with another compound name corresponding to the compound name. Thereby, in the learning data 20 after replacement, the classification accuracy of the compound name in the classifier 14 can be improved by using it for the learning of the classifier 14.

なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。   It should be noted that each component of each illustrated apparatus does not necessarily have to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.

情報処理装置1で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置1で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。   Various processing functions performed in the information processing apparatus 1 may be executed entirely or arbitrarily on a CPU (or a microcomputer such as an MPU or MCU (Micro Controller Unit)). In addition, various processing functions may be executed in whole or in any part on a program that is analyzed and executed by a CPU (or a microcomputer such as an MPU or MCU) or hardware based on wired logic. Needless to say, it is good. Various processing functions performed in the information processing apparatus 1 may be executed by a plurality of computers in cooperation with cloud computing.

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ(ハードウェア)の一例を説明する。図13は、プログラムを実行するコンピュータの一例を示す説明図である。   By the way, the various processes described in the above embodiments can be realized by executing a program prepared in advance by a computer. Therefore, in the following, an example of a computer (hardware) that executes a program having the same function as that of the above embodiment will be described. FIG. 13 is an explanatory diagram illustrating an example of a computer that executes a program.

図13に示すように、コンピュータ100は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103と、スピーカ104とを有する。また、コンピュータ100は、記憶媒体からプログラム等を読み取る媒体読取装置105と、各種装置と接続するためのインタフェース装置106と、有線または無線により外部機器と通信接続するための通信装置107とを有する。また、コンピュータ100は、各種情報を一時記憶するRAM108と、ハードディスク装置109とを有する。また、コンピュータ100内の各部(101〜109)は、バス110に接続される。   As illustrated in FIG. 13, the computer 100 includes a CPU 101 that executes various arithmetic processes, an input device 102 that receives data input, a monitor 103, and a speaker 104. The computer 100 also includes a medium reading device 105 that reads a program and the like from a storage medium, an interface device 106 for connecting to various devices, and a communication device 107 for communication connection with an external device by wire or wireless. The computer 100 also includes a RAM 108 that temporarily stores various types of information and a hard disk device 109. Each unit (101 to 109) in the computer 100 is connected to the bus 110.

ハードディスク装置109には、上記の実施形態で説明した特徴素抽出部10、特徴素評価部11、置換部12、学習部13、分類器14および入力データ変換部15等の機能部における各種処理を実行するためのプログラム111が記憶される。また、ハードディスク装置109には、プログラム111が参照する学習データ20、置換ルール21および適用ルール22等の各種データ112が記憶される。入力装置102は、例えば、コンピュータ100の操作者から操作情報の入力を受け付ける。モニタ103は、例えば、操作者が操作する各種画面を表示する。インタフェース装置106は、例えば印刷装置等が接続される。通信装置107は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。   The hard disk device 109 performs various processes in the functional units such as the feature element extraction unit 10, the feature element evaluation unit 11, the replacement unit 12, the learning unit 13, the classifier 14, and the input data conversion unit 15 described in the above embodiment. A program 111 to be executed is stored. The hard disk device 109 stores various data 112 such as learning data 20, replacement rules 21, and application rules 22 that are referred to by the program 111. For example, the input device 102 receives input of operation information from an operator of the computer 100. The monitor 103 displays various screens operated by the operator, for example. The interface device 106 is connected to, for example, a printing device. The communication device 107 is connected to a communication network such as a LAN (Local Area Network), and exchanges various types of information with an external device via the communication network.

CPU101は、ハードディスク装置109に記憶されたプログラム111を読み出して、RAM108に展開して実行することで、特徴素抽出部10、特徴素評価部11、置換部12、学習部13、分類器14および入力データ変換部15等にかかる各種の処理を行う。なお、プログラム111は、ハードディスク装置109に記憶されていなくてもよい。例えば、コンピュータ100は、読み取り可能な記憶媒体に記憶されたプログラム111を読み出して実行するようにしてもよい。コンピュータ100が読み取り可能な記憶媒体は、例えば、CD−ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にプログラム111を記憶させておき、コンピュータ100がこれらからプログラム111を読み出して実行するようにしてもよい。   The CPU 101 reads out the program 111 stored in the hard disk device 109, expands it in the RAM 108, and executes it, so that the feature element extraction unit 10, the feature element evaluation unit 11, the replacement unit 12, the learning unit 13, the classifier 14, Various processes related to the input data conversion unit 15 and the like are performed. Note that the program 111 may not be stored in the hard disk device 109. For example, the computer 100 may read and execute the program 111 stored in a readable storage medium. As the storage medium readable by the computer 100, for example, a portable recording medium such as a CD-ROM, a DVD disk, a USB (Universal Serial Bus) memory, a semiconductor memory such as a flash memory, a hard disk drive, and the like are supported. Alternatively, the program 111 may be stored in a device connected to a public line, the Internet, a LAN, or the like, and the computer 100 may read and execute the program 111 therefrom.

以上の実施形態に関し、さらに以下の付記を開示する。   Regarding the above embodiment, the following additional notes are disclosed.

(付記1)文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータが実行することを特徴とする学習データ生成方法。
(Supplementary note 1) A learning data generation method for generating learning data of a classifier that classifies names included in a document,
For the learning data in which a positive example or a negative example is assigned to a classification candidate for classification, a feature element included in the discrimination candidate is extracted,
Evaluating the degree of bias of the extracted feature elements in the positive example or the negative example,
According to the evaluated degree of bias, the name of the determination candidate is replaced with another name stored in the storage unit in association with the name.
A learning data generation method characterized in that a computer executes processing.

(付記2)前記置換する処理は、置換した名称について、置換前と置換後の名称の対応関係を示す適用ルールを出力する、
ことを特徴とする付記1に記載の学習データ生成方法。
(Additional remark 2) The said process to substitute outputs the application rule which shows the correspondence of the name before substitution and the name after substitution about the substituted name.
The learning data generation method according to supplementary note 1, wherein:

(付記3)前記分類にかかる名称は、化合物名であり、
前記置換する処理は、前記判別候補の化合物名を当該化合物名に対応付けて記憶部に記憶された別の化合物名に置換する、
ことを特徴とする付記1または2に記載の学習データ生成方法。
(Additional remark 3) The name concerning the said classification is a compound name,
In the replacement process, the compound name of the determination candidate is replaced with another compound name stored in the storage unit in association with the compound name.
The learning data generation method according to Supplementary Note 1 or 2, characterized in that:

(付記4)文書に含まれる名称を分類する分類器の学習データを生成する処理をコンピュータに実行させる学習データ生成プログラムであって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
(Supplementary note 4) A learning data generation program for causing a computer to execute processing for generating learning data of a classifier that classifies names included in a document,
For the learning data in which a positive example or a negative example is assigned to a classification candidate for classification, a feature element included in the discrimination candidate is extracted,
Evaluating the degree of bias of the extracted feature elements in the positive example or the negative example,
According to the evaluated degree of bias, the name of the determination candidate is replaced with another name stored in the storage unit in association with the name.
A learning data generation program that causes a computer to execute processing.

(付記5)前記置換する処理は、置換した名称について、置換前と置換後の名称の対応関係を示す適用ルールを出力する、
ことを特徴とする付記4に記載の学習データ生成プログラム。
(Additional remark 5) The said process to substitute outputs the application rule which shows the correspondence of the name before substitution and the name after substitution about the substituted name.
The learning data generation program according to supplementary note 4, characterized by:

(付記6)前記分類にかかる名称は、化合物名であり、
前記置換する処理は、前記判別候補の化合物名を当該化合物名に対応付けて記憶部に記憶された別の化合物名に置換する、
ことを特徴とする付記4または5に記載の学習データ生成プログラム。
(Additional remark 6) The name concerning the said classification is a compound name,
In the replacement process, the compound name of the determination candidate is replaced with another compound name stored in the storage unit in association with the compound name.
The learning data generation program according to appendix 4 or 5, characterized in that:

(付記7)文書に含まれる名称を分類する分類器に用いる学習データのデータ構造であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記正例または前記負例における特徴素の偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換された学習データとして、前記分類器の入力層に入力されることにより、演算結果を示す出力値を前記分類器の出力層から出力させ、正解情報と前記出力値との比較に基づく学習を行う、
処理をコンピュータに実行させることを特徴とするデータ構造。
(Supplementary note 7) A data structure of learning data used for a classifier for classifying names included in a document,
For the learning data in which a positive example or a negative example is assigned to a classification candidate for classification, the name of the discrimination candidate is associated with the name according to the degree of bias of feature elements in the positive example or the negative example. As learning data replaced with another name stored in the storage unit, it is input to the input layer of the classifier so that an output value indicating a calculation result is output from the output layer of the classifier, and correct information and the Learning based on comparison with output value,
A data structure characterized by causing a computer to execute processing.

1…情報処理装置
10…特徴素抽出部
11…特徴素評価部
12…置換部
13…学習部
14…分類器
15…入力データ変換部
20、20a…学習データ
21…置換ルール
22…適用ルール
23…分類対象データ
24…分類結果
100…コンピュータ
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ
C1、C2…ケース
DESCRIPTION OF SYMBOLS 1 ... Information processing apparatus 10 ... Feature element extraction part 11 ... Feature element evaluation part 12 ... Replacement part 13 ... Learning part 14 ... Classifier 15 ... Input data conversion part 20, 20a ... Learning data 21 ... Replacement rule 22 ... Application rule 23 ... Classification target data 24 ... Classification result 100 ... Computer 101 ... CPU
102 ... Input device 103 ... Monitor 104 ... Speaker 105 ... Media reader 106 ... Interface device 107 ... Communication device 108 ... RAM
109 ... Hard disk device 110 ... Bus 111 ... Program 112 ... Various data C1, C2 ... Case

Claims (5)

文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータが実行することを特徴とする学習データ生成方法。
A learning data generation method for generating learning data of a classifier that classifies names included in a document,
For the learning data in which a positive example or a negative example is assigned to a classification candidate for classification, a feature element included in the discrimination candidate is extracted,
Evaluating the degree of bias of the extracted feature elements in the positive example or the negative example,
According to the evaluated degree of bias, the name of the determination candidate is replaced with another name stored in the storage unit in association with the name.
A learning data generation method characterized in that a computer executes processing.
前記置換する処理は、置換した名称について、置換前と置換後の名称の対応関係を示す適用ルールを出力する、
ことを特徴とする請求項1に記載の学習データ生成方法。
The replacing process outputs an application rule indicating a correspondence relationship between the name before replacement and the name after replacement for the replaced name.
The learning data generation method according to claim 1, wherein:
前記分類にかかる名称は、化合物名であり、
前記置換する処理は、前記判別候補の化合物名を当該化合物名に対応付けて記憶部に記憶された別の化合物名に置換する、
ことを特徴とする請求項1または2に記載の学習データ生成方法。
The name according to the classification is a compound name,
In the replacement process, the compound name of the determination candidate is replaced with another compound name stored in the storage unit in association with the compound name.
The learning data generation method according to claim 1, wherein the learning data generation method is a learning data generation method.
文書に含まれる名称を分類する分類器の学習データを生成する処理をコンピュータに実行させる学習データ生成プログラムであって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
A learning data generation program for causing a computer to execute processing for generating learning data of a classifier that classifies names included in a document,
For the learning data in which a positive example or a negative example is assigned to a classification candidate for classification, a feature element included in the discrimination candidate is extracted,
Evaluating the degree of bias of the extracted feature elements in the positive example or the negative example,
According to the evaluated degree of bias, the name of the determination candidate is replaced with another name stored in the storage unit in association with the name.
A learning data generation program that causes a computer to execute processing.
文書に含まれる名称を分類する分類器に用いる学習データのデータ構造であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記正例または前記負例における特徴素の偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換された学習データとして、前記分類器の入力層に入力されることにより、演算結果を示す出力値を前記分類器の出力層から出力させ、正解情報と前記出力値との比較に基づく学習を行う、
処理をコンピュータに実行させることを特徴とするデータ構造。
A data structure of learning data used for a classifier for classifying names included in a document,
For the learning data in which a positive example or a negative example is assigned to a classification candidate for classification, the name of the discrimination candidate is associated with the name according to the degree of bias of feature elements in the positive example or the negative example. As learning data replaced with another name stored in the storage unit, it is input to the input layer of the classifier so that an output value indicating a calculation result is output from the output layer of the classifier, and correct information and the Learning based on comparison with output value,
A data structure characterized by causing a computer to execute processing.
JP2018050086A 2018-03-16 2018-03-16 Training data generation method and training data generation program Active JP7091742B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018050086A JP7091742B2 (en) 2018-03-16 2018-03-16 Training data generation method and training data generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018050086A JP7091742B2 (en) 2018-03-16 2018-03-16 Training data generation method and training data generation program

Publications (2)

Publication Number Publication Date
JP2019160236A true JP2019160236A (en) 2019-09-19
JP7091742B2 JP7091742B2 (en) 2022-06-28

Family

ID=67994934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018050086A Active JP7091742B2 (en) 2018-03-16 2018-03-16 Training data generation method and training data generation program

Country Status (1)

Country Link
JP (1) JP7091742B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019179470A (en) * 2018-03-30 2019-10-17 富士通株式会社 Information processing program, information processing method, and information processing device
WO2021044877A1 (en) 2019-09-03 2021-03-11 Agc株式会社 Glass substrate unit, cover glass assembly, and vehicle-mounted display device
US20210303789A1 (en) * 2020-03-25 2021-09-30 Hitachi, Ltd. Label assignment model generation device and label assignment model generation method
JP7445730B2 (en) 2020-12-28 2024-03-07 楽天グループ株式会社 Learning device, machine learning model and learning method
JP7492188B1 (en) 2024-03-25 2024-05-29 日本製鉄株式会社 Learning System

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田中 一成、池田 紀子: "特許調査業務を改善する特許読解支援システム 特許情報と技術者を近づけるための技術", 情報処理学会 デジタルプラクティス VOL.7 NO.4 [ONLINE], JPN6021050081, 15 October 2016 (2016-10-15), JP, pages 378 - 385, ISSN: 0004666354 *
鈴木 潤、平尾 努、磯崎 秀樹、前田 英作: "素性選択機能をもったString Kernelの提案", 情報処理学会研究報告 VOL.2003 NO.98, JPN6021050084, 30 September 2003 (2003-09-30), JP, pages 41 - 48, ISSN: 0004666355 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019179470A (en) * 2018-03-30 2019-10-17 富士通株式会社 Information processing program, information processing method, and information processing device
JP7040227B2 (en) 2018-03-30 2022-03-23 富士通株式会社 Information processing programs, information processing methods, and information processing equipment
WO2021044877A1 (en) 2019-09-03 2021-03-11 Agc株式会社 Glass substrate unit, cover glass assembly, and vehicle-mounted display device
US20210303789A1 (en) * 2020-03-25 2021-09-30 Hitachi, Ltd. Label assignment model generation device and label assignment model generation method
US11610062B2 (en) * 2020-03-25 2023-03-21 Hitachi, Ltd. Label assignment model generation device and label assignment model generation method
JP7445730B2 (en) 2020-12-28 2024-03-07 楽天グループ株式会社 Learning device, machine learning model and learning method
JP7492188B1 (en) 2024-03-25 2024-05-29 日本製鉄株式会社 Learning System

Also Published As

Publication number Publication date
JP7091742B2 (en) 2022-06-28

Similar Documents

Publication Publication Date Title
JP2019160236A (en) Learning data generation method, learning data generation program and data structure
JP6231944B2 (en) Learning model creation device, determination system, and learning model creation method
US10915701B2 (en) Caption association techniques
JP4332129B2 (en) Document classification program, document classification method, and document classification apparatus
JP7266674B2 (en) Image classification model training method, image processing method and apparatus
JP2019028839A (en) Classifier, method for learning of classifier, and method for classification by classifier
CN108509427B (en) Data processing method and application of text data
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
JP2021018588A (en) Response sorter and expression generator for question and answer system as well as computer program for training expression generator
WO2014073206A1 (en) Information-processing device and information-processing method
KR20200048693A (en) System for performing sentimental analysis and the method thereof
JP2019204214A (en) Learning device, learning method, program and estimation device
JP2021096775A (en) Learning method, learning program, and information processing device
WO2016200408A1 (en) Hybrid classification system
JP6605997B2 (en) Learning device, learning method and program
CN112464927A (en) Information extraction method, device and system
JP6436086B2 (en) Classification dictionary generation device, classification dictionary generation method, and program
CN111488400A (en) Data classification method, device and computer readable storage medium
JP2016162163A (en) Information processor and information processing program
CN115017906A (en) Method, device and storage medium for identifying entities in text
Zhou et al. Kernel nonnegative representation-based classifier
WO2021255778A1 (en) Learning data selection method, learning data selection device, and learning data selection program
JP2019074807A (en) Information processing device and program
JP2023510904A (en) Mathematics detection in handwriting
JP6509391B1 (en) Computer system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220530

R150 Certificate of patent or registration of utility model

Ref document number: 7091742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150