JP2019160236A - 学習データ生成方法、学習データ生成プログラムおよびデータ構造 - Google Patents

学習データ生成方法、学習データ生成プログラムおよびデータ構造 Download PDF

Info

Publication number
JP2019160236A
JP2019160236A JP2018050086A JP2018050086A JP2019160236A JP 2019160236 A JP2019160236 A JP 2019160236A JP 2018050086 A JP2018050086 A JP 2018050086A JP 2018050086 A JP2018050086 A JP 2018050086A JP 2019160236 A JP2019160236 A JP 2019160236A
Authority
JP
Japan
Prior art keywords
name
learning data
replacement
classification
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018050086A
Other languages
English (en)
Other versions
JP7091742B2 (ja
Inventor
田中 一成
Kazunari Tanaka
一成 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018050086A priority Critical patent/JP7091742B2/ja
Publication of JP2019160236A publication Critical patent/JP2019160236A/ja
Application granted granted Critical
Publication of JP7091742B2 publication Critical patent/JP7091742B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】名称の分類精度の向上を可能とする。【解決手段】実施形態の学習データ生成方法は、文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、抽出する処理と、評価する処理と、置換する処理とをコンピュータが実行する。抽出する処理は、分類にかかる名称の判別候補に正例または負例が付与された学習データについて、判別候補に含まれる特徴素を抽出する。評価する処理は、正例または負例における、抽出した特徴素の偏り度合いを評価する。置換する処理は、評価した偏り度合いに応じて判別候補の名称を、名称に対応付けて記憶部に記憶された別名称に置換する。【選択図】図1

Description

本発明の実施形態は、学習データ生成方法、学習データ生成プログラムおよびデータ構造に関する。
従来、化学分野の論文などの文書を人が読み易くする、または、コンピュータによって分析するために、文書の中から化合物名などの特定の名称を分類する技術がある。このように、文書から特定の名称を分類する技術としては、登録した辞書を用いて論文から遺伝子やタンパク質などの物質を抽出し、ユーザに分かりやすい形で可視化して表示するものが知られている。
特開2003−186894号公報 特開2013−101508号公報
しかしながら、上記の技術では、辞書を機械学習で学習した分類器により、例えば化合物名などの特定の名称と、化合物以外の名称とを分類する場合、十分な分類精度が得られないことがあった。一例として、「プロペン」、「ペンタン」などの化合物名は、「ペン」という特徴素が含まれる。また、この「ペン」という特徴素は、「ペンタブレット」、「ペンシル」などの化合物以外の名称にも含まれる。このように、辞書における正例・負例の両方に共通の特徴素が多く含まれる場合には、分類器による分類が困難となり、十分な分類精度が得られないこととなる。
1つの側面では、名称の分類精度の向上を可能とする学習データ生成方法、学習データ生成プログラムおよびデータ構造を提供することを目的とする。
第1の案では、文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、抽出する処理と、評価する処理と、置換する処理とをコンピュータが実行する。抽出する処理は、分類にかかる名称の判別候補に正例または負例が付与された学習データについて、判別候補に含まれる特徴素を抽出する。評価する処理は、正例または負例における、抽出した特徴素の偏り度合いを評価する。置換する処理は、評価した偏り度合いに応じて判別候補の名称を、名称に対応付けて記憶部に記憶された別名称に置換する。
本発明の1実施態様によれば、名称の分類精度の向上を可能とする。
図1は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。 図2は、学習データの一例を説明する説明図である。 図3は、置換ルールの一例を説明する説明図である。 図4は、学習フェーズの動作例を示すフローチャートである。 図5は、特徴素の抽出を説明する説明図である。 図6は、特徴素の評価を説明する説明図である。 図7は、特徴素の評価を説明する説明図である。 図8は、置換ルールを適用する処理の一例を示すフローチャートである。 図9は、置換前後の学習データを説明する説明図である。 図10は、分類モデルを学習する処理の一例を示すフローチャートである。 図11は、適用フェーズの動作例を示すフローチャートである。 図12は、分類の具体例を説明する説明図である。 図13は、プログラムを実行するコンピュータの一例を示す説明図である。
以下、図面を参照して、実施形態にかかる学習データ生成方法、学習データ生成プログラムおよびデータ構造を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習データ生成方法、学習データ生成プログラムおよびデータ構造は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
図1は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図1に示す情報処理装置1は、例えば、PC(パーソナルコンピュータ)などのコンピュータを適用できる。
図1に示すように、情報処理装置1は、学習フェーズ(S1)において機械学習により分類器14の学習を行う。そして、情報処理装置1は、適用フェーズ(S2)では、学習後の分類器14を適用することで、文書等の分類対象データ23に含まれる名称を分類して分類結果24を出力する。
本実施形態では学習フェーズ(S1)と、適用フェーズ(S1)とを同一の情報処理装置1で行う構成を例示するが、装置構成については本実施形態の例に特に限定しない。例えば、学習フェーズ(S1)にかかる処理を実行する装置と、適用フェーズ(S2)にかかる処理を実行する装置とを分離したシステム構成であってもよい。
また、本実施形態では、一例として、分類にかかる名称は化合物名であり、分類器14は分類対象データ23に含まれる名称が化合物名であるか否かに分類した分類結果24を出力する場合を例示する。これにより、情報処理装置1では、分類結果24に基づいて、化学分野の論文などの分類対象データ23に含まれる化合物名を抽出することができる。
なお、分類器14における名称の分類については、化合物名に限定するものではない。例えば、分類器14は、分類対象データ23に含まれる名称が地名であるか否か、人名であるか否か、または、書籍名であるか否かなど、所定の種別の固有名詞に該当するか否かに分類してもよい。
情報処理装置1は、学習フェーズ(S1)において、分類にかかる名称の判別候補に正例または負例が付与された学習データ20を教師データとして分類器14の学習を行う。ここで、情報処理装置1は、学習データ20の判別候補に含まれる特徴素を抽出し、正例または負例における、抽出した特徴素の偏り度合いを評価する。そして、情報処理装置1は、評価した偏り度合いに応じて学習データ20の判別候補の名称を、その名称に対応付けて置換ルール21に記憶された別名称に置換する。
このように、情報処理装置1では、学習データ20の判別候補の名称を別名称に置換することで、置換後の学習データにおいて正例・負例の両方に共通の特徴素を少なくすることができる。したがって、情報処理装置1は、置換後の20を分類器14の学習に用いることで、分類器14における名称の分類精度を向上させることができる。
情報処理装置1は、特徴素抽出部10、特徴素評価部11、置換部12、学習部13、分類器14および入力データ変換部15を有する。
特徴素抽出部10は、分類にかかる名称の判別候補に正例または負例が付与された学習データ20について、判別候補に含まれる特徴素を抽出する。具体的には、特徴素抽出部10は、学習データ20の判別候補となる名称について、n−gramによる文字単位の特徴素を抽出する。一例として、特徴素抽出部10は、学習データ20の判別候補となる名称について、1文字単位のユニグラム(uni−gram)と、2文字単位のバイグラム(bi−gram)とを特徴素として抽出する。
図2は、学習データ20の一例を説明する説明図である。図2に示すように、学習データ20では、分類にかかる名称の判別候補を示す表記(ペンタン、プロペン、ペンシル、タブレット、…)に対し、正例または負例を示す正負(○、×)が付与されている。
本実施形態では化合物名を分類することから、学習データ20において、化合物であるペンタン、プロペンには正例を示す○が付与されている。また、化合物でないペンシル、ペンタブレットには負例を示す×が付与されている。
例えば、特徴素抽出部10は、ペンタンからは、ユニグラムの特徴素{ペ、ン、タ、ン}と、バイグラムの特徴素{ペン、ンタ、タン}とを抽出する。
特徴素評価部11は、学習データ20の正例または負例における、抽出した特徴素の偏り度合いを評価する。例えば、学習データ20より抽出した特徴素の多くが正例または負例の一方に現れるなどの、特徴素の偏りがある場合には、特徴素による分類を容易なものとし、分類精度が向上することとなる。逆に、学習データ20より抽出した特徴素の多くが正例・負例の両方に共通するなどの、特徴素の偏りがない場合には、特徴素による分類が困難なものとなり、分類精度の低減を招くこととなる。
このことから、特徴素評価部11では、正例・負例の一方に現れる特徴素の数が多いほど、偏り度合いが高いものとして評価する。具体的には、特徴素評価部11は、学習データ20より抽出した特徴素について、正例または負例の一方に現れる特徴素の数を有効な特徴素の数として計数する。そして、特徴素評価部11は、例えば次の式(1)に示すように、全特徴の数における計数した有効な特徴素の数の平均を評価値(E)として算出する。
Figure 2019160236
式(1)において、fは有効な特徴素の数、nは全特徴の数を示す。また、f、nの添字は、pが正例、nが負例を表す。式(1)では、正例、負例のそれぞれで求めた評価値において、低い方を偏り度合いの評価値(E)とする。
置換部12は、特徴素評価部11が評価した偏り度合いに応じて、学習データ20における判別候補の名称を、その名称に対応付けて置換ルール21に記憶された別名称に置換する。
図3は、置換ルール21の一例を説明する説明図である。図3に示すように、置換ルール21には、変換(置換)前の名称と、その名称について言い換え可能な別名称を示す変換(置換)後の名称とを互いに対応付けて記憶するデータテーブルなどである。
化合物については、様々な理由で、同じ構造に対して別の名称を持つものが多い。例えば、「フタル酸ジブチル」の「フタル酸」は「ベンゼン」に「カルボン酸」が2つ付いた構造であり、「フタル酸」の部分を「ベンゼン−1,2−ジカルボン酸」と置き換えても同じ化合物を表す。
図3における置換ルール21の例では、「ペンタン」については、言い換え可能な「バレル」が対応付けられている。同様に、「プロペン」については「アクリル」が、「スチレン」については「1−ビニルベンゼン」がそれぞれ対応付けられている。なお、本実施形態では正例側の名称を置換する置換ルール21を例示しているが、置換ルール21には負例側の名称を置換するルールが含まれていてもよい。
置換部12は、学習データ20における判別候補の名称(置換対象)について特徴素評価部11が評価した置換前の評価値と、置換ルール21に対応付けて記憶された別名称に置換した場合に特徴素評価部11が評価した置換後の評価値とを比較する。そして、置換部12は、置換対象の名称について、置換前より置換後の評価値が上がった場合、学習データ20に置換ルール21を適用して置換対象の名称を別名称に置換する。また、学習データ20に置換ルール21を適用した場合、置換部12は、学習データ20に適用した置換ルール21を適用ルール22として出力する。
学習部13は、置換後の学習データを教師データとする機械学習により分類器14の学習を行う。分類器14は、置換部12による置換後の学習データを教師データとする学習部13の機械学習により構築された、名称の分類にかかる分類モデルである。
この分類器14の分類モデルとしては、例えば、脳のニューロンを模したユニットを入力層から中間層を経て出力層に至る間に階層的に結合したニューラル・ネットワークを適用できる。
学習フェーズ(S1)において、学習部13は、分類器14の入力層に置換後の学習データに基づく入力(例えば判別候補の特徴素の入力)を行い、演算結果を示す出力値を出力層から出力させる。そして、学習データにおける正解情報(正例または負例)と出力値との比較に基づいて、分類器14が分類結果24を出力するためのパラメータ学習を行う。より具体的には、学習部13は、出力値と正解情報との比較結果を用いた誤差逆伝播(error Back Propagation:BP)法などによって、分類器14におけるニューラル・ネットワークのパラメータを学習する。
適用フェーズ(S2)において、分類器14は、入力データ変換部15を介して入力層に入力された分類対象データ23に対し、学習したパラメータに応じた分類結果24を出力する。
入力データ変換部15は、分類対象データ23の入力を受け付け、受け付けた分類対象データ23について適用ルール22を適用した上で特徴素を抽出するなどして分類器14用の入力データに変換し、分類器14の入力層に入力する。なお、分類対象データ23に対する適用ルール22の適用では、分類対象データ23に含まれる名称の中で、適用ルール22の変換前の名称に該当する名称を、変換後の名称に置換する。これにより、学習フェーズ(S1)おいて置換部12により置換が行われた名称については、適用フェーズ(S2)においても同様に置換を行うようにする。
ここで、学習フェーズ(S1)の詳細を説明する。図4は、学習フェーズ(S1)の動作例を示すフローチャートである。
図4に示すように、学習フェーズ(S1)の処理が開始されると、特徴素抽出部10は、学習データ20、置換ルール21を読み込む(S10、S11)。次いで、特徴素抽出部10は、置換ルール21の中で未処理の1つを特定する(S12)。例えば、最初の処理では、全てが未処理であることから、変換前が「ペンタン」、変換後が「バレル」である筆頭の置換ルール21(図3参照)を特定する。
次いで、特徴素抽出部10は、読み込んだ学習データ20における判別候補の名称について、特徴素を抽出する(S13)。
図5は、特徴素の抽出を説明する説明図である。図5に示すように、特徴素抽出部10は、読み込んだ学習データ20について、例えばユニグラムとバイグラムにおける特徴素を抽出する。
また、特徴素抽出部10は、S13において、特定した置換ルール21を適用する置換前のケースと、特定した置換ルール21に該当する名称(置換対象)を置換した置換後のケースの両方について特徴素を抽出する。
次いで、特徴素評価部11は、S13で抽出した特徴素をもとに、学習データ20の正例または負例における、抽出した特徴素の偏り度合いを評価する(S14)。具体的には、特徴素評価部11は、置換前のケースにおける特徴素の偏り度合いの評価値と、置換後のケースにおける特徴素の偏り度合いの評価値とを算出する。
図6、図7は、特徴素の評価を説明する説明図である。なお、図6では置換前のケースC1を例示している。また、図7では、「ペンタン」を「バレル」に、「プロペン」を「アクリル」に置換した置換後のケースC2を例示している。また、図6、図7ともに、特徴素の評価を行った学習データ20は、図5に例示したものである。また、丸印については、実線が正例における有効な特徴素を示し、点線が負例における有効な特徴素を示している。
図6に示すように、ケースC1では、正例の特徴(ペンタン、プロペン)に対する有効な特徴素の数は1である。また、負例の特徴(ペンシル、ペンタブレット)に対する有効な特徴素の数は12である。したがって、式(1)により、特徴素評価部11は、ケースC1での評価値を0.5と算出する。
図7に示すように、ケースC2では、置換後の正例の特徴(バレル、アクリル)に対する有効な特徴素の数は9である。また、負例の特徴(ペンシル、ペンタブレット)に対する有効な特徴素の数は12である。したがって、式(1)により、特徴素評価部11は、ケースC2での評価値を4.5と算出する。
図4に戻り、S14に次いで、置換部12は、置換前のケースC1に対する置換後のケースC2において、特徴素の評価値が上がったか否かを判定する(S15)。評価値が上がらなかった場合(S15:NO)、置換部12は、特定した置換ルール21を適用せず、適用前に戻すものとする(S16)。
評価値が上がった場合(S15:YES)、置換部12は、特徴素の評価値が高い、または、全ての言い換えルール(置換ルール21)を処理したか否かを判定する(S17)。S17において否定判定である場合(S17:NO)、置換部12は、学習データ20に特定した置換ルール21を適用する処理(S18)を行い、未処理の中で次の置換ルール21を特定して(S19)、S12へ処理を戻す。
図8は、置換ルール21を適用する処理の一例を示すフローチャートである。図8に示すように、置換ルール21を適用する処理(S18)が開始されると、置換部12は、特定した置換ルール21を読み込む(S30)。
次いで、置換部12は、学習データ20における未処理の1つを特定し(S31)、特定した学習データ20の表記に置換ルール21の言い換え前(変換前)とマッチするものがあるかを照合する(S32)。
次いで、置換部12は、照合の結果、マッチするものがあるか否かを判定し(S33)、ある場合(S33:YES)はマッチした部分を置換ルール21の言い換え後(変換後)に変換する(S34)。
次いで、置換部12は、全ての学習データ20を処理したか否かを判定する(S35)。未処理の学習データ20がある場合(S35:NO)、置換部12は、未処理の中から次の学習データ20を特定し(S36)、S32へ処理を戻す。全ての学習データ20を処理した場合(S35:YES)、置換部12は、処理後の学習データ20を出力し(S37)、処理を終了する。
図9は、置換前後の学習データ20、20aを説明する説明図である。図9に示すように、置換ルール21を適用する処理を行うことで、置換前の学習データ20は、置換ルール21を適用した置換後の学習データ20aに変換される。具体的には、置換ルール21の名称の中で、「プロペン酸」が「アクリル酸」に、「ペンタン」が「バレル」に置換される。
図4に戻り、S17において肯定判定である場合(S17:YES)、学習部13は、置換後の学習データ20aを教師データとする機械学習により分類器14における分類モデルの学習を行う(S20)。
図10は、分類モデルを学習する処理の一例を示すフローチャートである。図10に示すように、分類モデルを学習する処理(S20)が開始されると、学習部13は、処理(S10〜S19)後の学習データ20aを読み込む。
次いで、学習部13は、1つの学習データ20aを特定し、特定した学習データ20aを教師として分類器14へ入力する。次いで、学習部13は、分類器14からの出力と、正解(正例/負例)との比較結果を用いた誤差逆伝播法などにより、分類モデルの重み(パラメータ)を更新する(S43)。
次いで、学習部13は、処理(S10〜S19)後の学習データ20aの全てを処理したか否かを判定し(S44)、全てを処理した場合(S44:YES)、分類モデルを出力して処理を終了する(S46)。全てを処理していない場合(S44:NO)、学習部13は、未処理の中の次の学習データ20aを特定し(S45)、S43へ処理を戻す。
図4に戻り、S20についで、置換部12は、学習による分類モデルとともに、学習データ20に適用した置換ルール21を適用ルール22として出力する(S21)。
次に、適用フェーズ(S2)の詳細を説明する。図11は、適用フェーズ(S2)の動作例を示すフローチャートである。
図11に示すように、適用フェーズ(S2)の処理が開始されると、入力データ変換部15は、適用ルール22、分類対象データ23を読み込む(S50、S51)。
次いで、入力データ変換部15は、読み込んだ適用ルール22に示された置換ルール(変換前の名称、変換後の名称)によって、分類対象データ23において該当する名称を変換する(S52)。
次いで、入力データ変換部15は、変換後の分類対象データ23について、特徴素の抽出を行い(S53)、分類器14用の入力データに変換する。次いで、入力データ変換部15は、変換した入力データを分類器14の入力層に入力することで、分類器14による名称の分類を行う(S54)。次いで、分類器14は、入力層からの入力に対し、学習したパラメータに応じた分類結果24を出力する(S55)。
図12は、分類の具体例を説明する説明図である。図12に示すように、S52では、受け付けた分類対象データ23における名称(n−ペンタンアミド、アクリル酸、ペンロット)が適用ルール22に示された置換ルールにより変換される。一例として、n−ペンタンアミドがn−バレルアミドに変換される。
次いで、S53では、ユニグラム、バイグラムでの特徴素の抽出が行われる。次いで、S54、S55では、分類器14の分類モデルにより、抽出した特徴素のベクトルから算出されたスコアでの分類が行われる。
以上のように、情報処理装置1は、文書等の分類対象データ23に含まれる名称を分類する分類器14の学習データを生成する。情報処理装置1の特徴素抽出部10は、分類にかかる名称の判別候補に正例または負例が付与された学習データ20について、判別候補に含まれる特徴素を抽出する。情報処理装置1の特徴素評価部11は、学習データ20の正例または負例における、抽出した特徴素の偏り度合いを評価する。情報処理装置1の置換部12は、評価した偏り度合いに応じて学習データ20における判別候補の名称を、当該名称に対応付けて置換ルール21に記憶された別名称に置換する。
このように、情報処理装置1は、分類器14の学習を行う学習データ20について、正例または負例での特徴素の偏り度合いに応じて、判別候補の名称をその名称に対応する別名称に置換したものを生成する。したがって、置換後の学習データでは、正例・負例の両方に共通の特徴素を少なくすることができ、分類器14の学習に用いることで分類器14における名称の分類精度を向上させることができる。
また、置換部12は、学習データ20の中で置換した名称について、置換前と置換後の名称の対応関係を示す適用ルール22を出力する。これにより、学習後の分類器14を用いて分類対象データ23に含まれる名称を分類する適用フェーズ(S2)において、適用ルール22を用いることで、分類対象データ23に含まれる置換前の名称を置換後の名称に変換することができる。
また、分類にかかる名称は、化合物名であり、置換部12は、学習データ20における判別候補の化合物名をその化合物名に対応する別の化合物名に置換する。これにより、置換後の学習データ20では、分類器14の学習に用いることで、分類器14における化合物名の分類精度を向上させることができる。
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
情報処理装置1で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置1で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ(ハードウェア)の一例を説明する。図13は、プログラムを実行するコンピュータの一例を示す説明図である。
図13に示すように、コンピュータ100は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103と、スピーカ104とを有する。また、コンピュータ100は、記憶媒体からプログラム等を読み取る媒体読取装置105と、各種装置と接続するためのインタフェース装置106と、有線または無線により外部機器と通信接続するための通信装置107とを有する。また、コンピュータ100は、各種情報を一時記憶するRAM108と、ハードディスク装置109とを有する。また、コンピュータ100内の各部(101〜109)は、バス110に接続される。
ハードディスク装置109には、上記の実施形態で説明した特徴素抽出部10、特徴素評価部11、置換部12、学習部13、分類器14および入力データ変換部15等の機能部における各種処理を実行するためのプログラム111が記憶される。また、ハードディスク装置109には、プログラム111が参照する学習データ20、置換ルール21および適用ルール22等の各種データ112が記憶される。入力装置102は、例えば、コンピュータ100の操作者から操作情報の入力を受け付ける。モニタ103は、例えば、操作者が操作する各種画面を表示する。インタフェース装置106は、例えば印刷装置等が接続される。通信装置107は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
CPU101は、ハードディスク装置109に記憶されたプログラム111を読み出して、RAM108に展開して実行することで、特徴素抽出部10、特徴素評価部11、置換部12、学習部13、分類器14および入力データ変換部15等にかかる各種の処理を行う。なお、プログラム111は、ハードディスク装置109に記憶されていなくてもよい。例えば、コンピュータ100は、読み取り可能な記憶媒体に記憶されたプログラム111を読み出して実行するようにしてもよい。コンピュータ100が読み取り可能な記憶媒体は、例えば、CD−ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にプログラム111を記憶させておき、コンピュータ100がこれらからプログラム111を読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータが実行することを特徴とする学習データ生成方法。
(付記2)前記置換する処理は、置換した名称について、置換前と置換後の名称の対応関係を示す適用ルールを出力する、
ことを特徴とする付記1に記載の学習データ生成方法。
(付記3)前記分類にかかる名称は、化合物名であり、
前記置換する処理は、前記判別候補の化合物名を当該化合物名に対応付けて記憶部に記憶された別の化合物名に置換する、
ことを特徴とする付記1または2に記載の学習データ生成方法。
(付記4)文書に含まれる名称を分類する分類器の学習データを生成する処理をコンピュータに実行させる学習データ生成プログラムであって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
(付記5)前記置換する処理は、置換した名称について、置換前と置換後の名称の対応関係を示す適用ルールを出力する、
ことを特徴とする付記4に記載の学習データ生成プログラム。
(付記6)前記分類にかかる名称は、化合物名であり、
前記置換する処理は、前記判別候補の化合物名を当該化合物名に対応付けて記憶部に記憶された別の化合物名に置換する、
ことを特徴とする付記4または5に記載の学習データ生成プログラム。
(付記7)文書に含まれる名称を分類する分類器に用いる学習データのデータ構造であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記正例または前記負例における特徴素の偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換された学習データとして、前記分類器の入力層に入力されることにより、演算結果を示す出力値を前記分類器の出力層から出力させ、正解情報と前記出力値との比較に基づく学習を行う、
処理をコンピュータに実行させることを特徴とするデータ構造。
1…情報処理装置
10…特徴素抽出部
11…特徴素評価部
12…置換部
13…学習部
14…分類器
15…入力データ変換部
20、20a…学習データ
21…置換ルール
22…適用ルール
23…分類対象データ
24…分類結果
100…コンピュータ
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ
C1、C2…ケース

Claims (5)

  1. 文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、
    分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
    前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
    評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
    処理をコンピュータが実行することを特徴とする学習データ生成方法。
  2. 前記置換する処理は、置換した名称について、置換前と置換後の名称の対応関係を示す適用ルールを出力する、
    ことを特徴とする請求項1に記載の学習データ生成方法。
  3. 前記分類にかかる名称は、化合物名であり、
    前記置換する処理は、前記判別候補の化合物名を当該化合物名に対応付けて記憶部に記憶された別の化合物名に置換する、
    ことを特徴とする請求項1または2に記載の学習データ生成方法。
  4. 文書に含まれる名称を分類する分類器の学習データを生成する処理をコンピュータに実行させる学習データ生成プログラムであって、
    分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
    前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
    評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
    処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
  5. 文書に含まれる名称を分類する分類器に用いる学習データのデータ構造であって、
    分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記正例または前記負例における特徴素の偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換された学習データとして、前記分類器の入力層に入力されることにより、演算結果を示す出力値を前記分類器の出力層から出力させ、正解情報と前記出力値との比較に基づく学習を行う、
    処理をコンピュータに実行させることを特徴とするデータ構造。
JP2018050086A 2018-03-16 2018-03-16 学習データ生成方法および学習データ生成プログラム Active JP7091742B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018050086A JP7091742B2 (ja) 2018-03-16 2018-03-16 学習データ生成方法および学習データ生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018050086A JP7091742B2 (ja) 2018-03-16 2018-03-16 学習データ生成方法および学習データ生成プログラム

Publications (2)

Publication Number Publication Date
JP2019160236A true JP2019160236A (ja) 2019-09-19
JP7091742B2 JP7091742B2 (ja) 2022-06-28

Family

ID=67994934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018050086A Active JP7091742B2 (ja) 2018-03-16 2018-03-16 学習データ生成方法および学習データ生成プログラム

Country Status (1)

Country Link
JP (1) JP7091742B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019179470A (ja) * 2018-03-30 2019-10-17 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置
WO2021044877A1 (ja) 2019-09-03 2021-03-11 Agc株式会社 ガラス基体ユニット、カバーガラス組立体、及び、車載表示装置
US20210303789A1 (en) * 2020-03-25 2021-09-30 Hitachi, Ltd. Label assignment model generation device and label assignment model generation method
JP7445730B2 (ja) 2020-12-28 2024-03-07 楽天グループ株式会社 学習装置、機械学習モデル及び学習方法
JP7492188B1 (ja) 2024-03-25 2024-05-29 日本製鉄株式会社 学習システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田中 一成、池田 紀子: "特許調査業務を改善する特許読解支援システム 特許情報と技術者を近づけるための技術", 情報処理学会 デジタルプラクティス VOL.7 NO.4 [ONLINE], JPN6021050081, 15 October 2016 (2016-10-15), JP, pages 378 - 385, ISSN: 0004666354 *
鈴木 潤、平尾 努、磯崎 秀樹、前田 英作: "素性選択機能をもったString Kernelの提案", 情報処理学会研究報告 VOL.2003 NO.98, JPN6021050084, 30 September 2003 (2003-09-30), JP, pages 41 - 48, ISSN: 0004666355 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019179470A (ja) * 2018-03-30 2019-10-17 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置
JP7040227B2 (ja) 2018-03-30 2022-03-23 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置
WO2021044877A1 (ja) 2019-09-03 2021-03-11 Agc株式会社 ガラス基体ユニット、カバーガラス組立体、及び、車載表示装置
US20210303789A1 (en) * 2020-03-25 2021-09-30 Hitachi, Ltd. Label assignment model generation device and label assignment model generation method
US11610062B2 (en) * 2020-03-25 2023-03-21 Hitachi, Ltd. Label assignment model generation device and label assignment model generation method
JP7445730B2 (ja) 2020-12-28 2024-03-07 楽天グループ株式会社 学習装置、機械学習モデル及び学習方法
JP7492188B1 (ja) 2024-03-25 2024-05-29 日本製鉄株式会社 学習システム

Also Published As

Publication number Publication date
JP7091742B2 (ja) 2022-06-28

Similar Documents

Publication Publication Date Title
JP2019160236A (ja) 学習データ生成方法、学習データ生成プログラムおよびデータ構造
JP6231944B2 (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
US10915701B2 (en) Caption association techniques
JP7266674B2 (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN111356997A (zh) 具有颗粒化注意力的层次神经网络
JP2019028839A (ja) 分類器、分類器の学習方法、分類器における分類方法
CN108509427B (zh) 文本数据的数据处理方法及应用
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
JP7210938B2 (ja) テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法
JP2021018588A (ja) 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
JP2019204214A (ja) 学習装置、学習方法、プログラム及び推定装置
JP2021096775A (ja) 学習方法、学習プログラムおよび情報処理装置
WO2016200408A1 (en) Hybrid classification system
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
CN112464927A (zh) 一种信息提取方法、装置及系统
Loresco et al. Filipino Braille One-Cell Contractions Recognition Using Machine Vision
WO2015040860A1 (ja) 分類辞書生成装置、分類辞書生成方法及び記録媒体
CN111488400A (zh) 数据分类方法、装置和计算机可读存储介质
JP6545633B2 (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
CN115017906A (zh) 一种针对文本中实体的识别方法、装置及存储介质
Zhou et al. Kernel nonnegative representation-based classifier
WO2021255778A1 (ja) 学習データ選択方法、学習データ選択装置、及び学習データ選択プログラム
JP2023510904A (ja) 手書きにおける数学検出
JP6509391B1 (ja) 計算機システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220530

R150 Certificate of patent or registration of utility model

Ref document number: 7091742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150