JP2019160236A

JP2019160236A - 学習データ生成方法、学習データ生成プログラムおよびデータ構造

Info

Publication number: JP2019160236A
Application number: JP2018050086A
Authority: JP
Inventors: 田中　一成; Kazunari Tanaka; 一成田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2019-09-19
Anticipated expiration: 2038-03-16
Also published as: JP7091742B2

Abstract

【課題】名称の分類精度の向上を可能とする。【解決手段】実施形態の学習データ生成方法は、文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、抽出する処理と、評価する処理と、置換する処理とをコンピュータが実行する。抽出する処理は、分類にかかる名称の判別候補に正例または負例が付与された学習データについて、判別候補に含まれる特徴素を抽出する。評価する処理は、正例または負例における、抽出した特徴素の偏り度合いを評価する。置換する処理は、評価した偏り度合いに応じて判別候補の名称を、名称に対応付けて記憶部に記憶された別名称に置換する。【選択図】図１

Description

本発明の実施形態は、学習データ生成方法、学習データ生成プログラムおよびデータ構造に関する。

従来、化学分野の論文などの文書を人が読み易くする、または、コンピュータによって分析するために、文書の中から化合物名などの特定の名称を分類する技術がある。このように、文書から特定の名称を分類する技術としては、登録した辞書を用いて論文から遺伝子やタンパク質などの物質を抽出し、ユーザに分かりやすい形で可視化して表示するものが知られている。

特開２００３−１８６８９４号公報特開２０１３−１０１５０８号公報

しかしながら、上記の技術では、辞書を機械学習で学習した分類器により、例えば化合物名などの特定の名称と、化合物以外の名称とを分類する場合、十分な分類精度が得られないことがあった。一例として、「プロペン」、「ペンタン」などの化合物名は、「ペン」という特徴素が含まれる。また、この「ペン」という特徴素は、「ペンタブレット」、「ペンシル」などの化合物以外の名称にも含まれる。このように、辞書における正例・負例の両方に共通の特徴素が多く含まれる場合には、分類器による分類が困難となり、十分な分類精度が得られないこととなる。

１つの側面では、名称の分類精度の向上を可能とする学習データ生成方法、学習データ生成プログラムおよびデータ構造を提供することを目的とする。

第１の案では、文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、抽出する処理と、評価する処理と、置換する処理とをコンピュータが実行する。抽出する処理は、分類にかかる名称の判別候補に正例または負例が付与された学習データについて、判別候補に含まれる特徴素を抽出する。評価する処理は、正例または負例における、抽出した特徴素の偏り度合いを評価する。置換する処理は、評価した偏り度合いに応じて判別候補の名称を、名称に対応付けて記憶部に記憶された別名称に置換する。

本発明の１実施態様によれば、名称の分類精度の向上を可能とする。

図１は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図２は、学習データの一例を説明する説明図である。図３は、置換ルールの一例を説明する説明図である。図４は、学習フェーズの動作例を示すフローチャートである。図５は、特徴素の抽出を説明する説明図である。図６は、特徴素の評価を説明する説明図である。図７は、特徴素の評価を説明する説明図である。図８は、置換ルールを適用する処理の一例を示すフローチャートである。図９は、置換前後の学習データを説明する説明図である。図１０は、分類モデルを学習する処理の一例を示すフローチャートである。図１１は、適用フェーズの動作例を示すフローチャートである。図１２は、分類の具体例を説明する説明図である。図１３は、プログラムを実行するコンピュータの一例を示す説明図である。

以下、図面を参照して、実施形態にかかる学習データ生成方法、学習データ生成プログラムおよびデータ構造を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習データ生成方法、学習データ生成プログラムおよびデータ構造は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

図１は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図１に示す情報処理装置１は、例えば、ＰＣ（パーソナルコンピュータ）などのコンピュータを適用できる。

図１に示すように、情報処理装置１は、学習フェーズ（Ｓ１）において機械学習により分類器１４の学習を行う。そして、情報処理装置１は、適用フェーズ（Ｓ２）では、学習後の分類器１４を適用することで、文書等の分類対象データ２３に含まれる名称を分類して分類結果２４を出力する。

本実施形態では学習フェーズ（Ｓ１）と、適用フェーズ（Ｓ１）とを同一の情報処理装置１で行う構成を例示するが、装置構成については本実施形態の例に特に限定しない。例えば、学習フェーズ（Ｓ１）にかかる処理を実行する装置と、適用フェーズ（Ｓ２）にかかる処理を実行する装置とを分離したシステム構成であってもよい。

また、本実施形態では、一例として、分類にかかる名称は化合物名であり、分類器１４は分類対象データ２３に含まれる名称が化合物名であるか否かに分類した分類結果２４を出力する場合を例示する。これにより、情報処理装置１では、分類結果２４に基づいて、化学分野の論文などの分類対象データ２３に含まれる化合物名を抽出することができる。

なお、分類器１４における名称の分類については、化合物名に限定するものではない。例えば、分類器１４は、分類対象データ２３に含まれる名称が地名であるか否か、人名であるか否か、または、書籍名であるか否かなど、所定の種別の固有名詞に該当するか否かに分類してもよい。

情報処理装置１は、学習フェーズ（Ｓ１）において、分類にかかる名称の判別候補に正例または負例が付与された学習データ２０を教師データとして分類器１４の学習を行う。ここで、情報処理装置１は、学習データ２０の判別候補に含まれる特徴素を抽出し、正例または負例における、抽出した特徴素の偏り度合いを評価する。そして、情報処理装置１は、評価した偏り度合いに応じて学習データ２０の判別候補の名称を、その名称に対応付けて置換ルール２１に記憶された別名称に置換する。

このように、情報処理装置１では、学習データ２０の判別候補の名称を別名称に置換することで、置換後の学習データにおいて正例・負例の両方に共通の特徴素を少なくすることができる。したがって、情報処理装置１は、置換後の２０を分類器１４の学習に用いることで、分類器１４における名称の分類精度を向上させることができる。

情報処理装置１は、特徴素抽出部１０、特徴素評価部１１、置換部１２、学習部１３、分類器１４および入力データ変換部１５を有する。

特徴素抽出部１０は、分類にかかる名称の判別候補に正例または負例が付与された学習データ２０について、判別候補に含まれる特徴素を抽出する。具体的には、特徴素抽出部１０は、学習データ２０の判別候補となる名称について、ｎ−ｇｒａｍによる文字単位の特徴素を抽出する。一例として、特徴素抽出部１０は、学習データ２０の判別候補となる名称について、１文字単位のユニグラム（ｕｎｉ−ｇｒａｍ）と、２文字単位のバイグラム（ｂｉ−ｇｒａｍ）とを特徴素として抽出する。

図２は、学習データ２０の一例を説明する説明図である。図２に示すように、学習データ２０では、分類にかかる名称の判別候補を示す表記（ペンタン、プロペン、ペンシル、タブレット、…）に対し、正例または負例を示す正負（○、×）が付与されている。

本実施形態では化合物名を分類することから、学習データ２０において、化合物であるペンタン、プロペンには正例を示す○が付与されている。また、化合物でないペンシル、ペンタブレットには負例を示す×が付与されている。

例えば、特徴素抽出部１０は、ペンタンからは、ユニグラムの特徴素｛ペ、ン、タ、ン｝と、バイグラムの特徴素｛ペン、ンタ、タン｝とを抽出する。

特徴素評価部１１は、学習データ２０の正例または負例における、抽出した特徴素の偏り度合いを評価する。例えば、学習データ２０より抽出した特徴素の多くが正例または負例の一方に現れるなどの、特徴素の偏りがある場合には、特徴素による分類を容易なものとし、分類精度が向上することとなる。逆に、学習データ２０より抽出した特徴素の多くが正例・負例の両方に共通するなどの、特徴素の偏りがない場合には、特徴素による分類が困難なものとなり、分類精度の低減を招くこととなる。

このことから、特徴素評価部１１では、正例・負例の一方に現れる特徴素の数が多いほど、偏り度合いが高いものとして評価する。具体的には、特徴素評価部１１は、学習データ２０より抽出した特徴素について、正例または負例の一方に現れる特徴素の数を有効な特徴素の数として計数する。そして、特徴素評価部１１は、例えば次の式（１）に示すように、全特徴の数における計数した有効な特徴素の数の平均を評価値（Ｅ）として算出する。

式（１）において、ｆは有効な特徴素の数、ｎは全特徴の数を示す。また、ｆ、ｎの添字は、ｐが正例、ｎが負例を表す。式（１）では、正例、負例のそれぞれで求めた評価値において、低い方を偏り度合いの評価値（Ｅ）とする。

置換部１２は、特徴素評価部１１が評価した偏り度合いに応じて、学習データ２０における判別候補の名称を、その名称に対応付けて置換ルール２１に記憶された別名称に置換する。

図３は、置換ルール２１の一例を説明する説明図である。図３に示すように、置換ルール２１には、変換（置換）前の名称と、その名称について言い換え可能な別名称を示す変換（置換）後の名称とを互いに対応付けて記憶するデータテーブルなどである。

化合物については、様々な理由で、同じ構造に対して別の名称を持つものが多い。例えば、「フタル酸ジブチル」の「フタル酸」は「ベンゼン」に「カルボン酸」が２つ付いた構造であり、「フタル酸」の部分を「ベンゼン−１，２−ジカルボン酸」と置き換えても同じ化合物を表す。

図３における置換ルール２１の例では、「ペンタン」については、言い換え可能な「バレル」が対応付けられている。同様に、「プロペン」については「アクリル」が、「スチレン」については「１−ビニルベンゼン」がそれぞれ対応付けられている。なお、本実施形態では正例側の名称を置換する置換ルール２１を例示しているが、置換ルール２１には負例側の名称を置換するルールが含まれていてもよい。

置換部１２は、学習データ２０における判別候補の名称（置換対象）について特徴素評価部１１が評価した置換前の評価値と、置換ルール２１に対応付けて記憶された別名称に置換した場合に特徴素評価部１１が評価した置換後の評価値とを比較する。そして、置換部１２は、置換対象の名称について、置換前より置換後の評価値が上がった場合、学習データ２０に置換ルール２１を適用して置換対象の名称を別名称に置換する。また、学習データ２０に置換ルール２１を適用した場合、置換部１２は、学習データ２０に適用した置換ルール２１を適用ルール２２として出力する。

学習部１３は、置換後の学習データを教師データとする機械学習により分類器１４の学習を行う。分類器１４は、置換部１２による置換後の学習データを教師データとする学習部１３の機械学習により構築された、名称の分類にかかる分類モデルである。

この分類器１４の分類モデルとしては、例えば、脳のニューロンを模したユニットを入力層から中間層を経て出力層に至る間に階層的に結合したニューラル・ネットワークを適用できる。

学習フェーズ（Ｓ１）において、学習部１３は、分類器１４の入力層に置換後の学習データに基づく入力（例えば判別候補の特徴素の入力）を行い、演算結果を示す出力値を出力層から出力させる。そして、学習データにおける正解情報（正例または負例）と出力値との比較に基づいて、分類器１４が分類結果２４を出力するためのパラメータ学習を行う。より具体的には、学習部１３は、出力値と正解情報との比較結果を用いた誤差逆伝播（error Back Propagation：BP）法などによって、分類器１４におけるニューラル・ネットワークのパラメータを学習する。

適用フェーズ（Ｓ２）において、分類器１４は、入力データ変換部１５を介して入力層に入力された分類対象データ２３に対し、学習したパラメータに応じた分類結果２４を出力する。

入力データ変換部１５は、分類対象データ２３の入力を受け付け、受け付けた分類対象データ２３について適用ルール２２を適用した上で特徴素を抽出するなどして分類器１４用の入力データに変換し、分類器１４の入力層に入力する。なお、分類対象データ２３に対する適用ルール２２の適用では、分類対象データ２３に含まれる名称の中で、適用ルール２２の変換前の名称に該当する名称を、変換後の名称に置換する。これにより、学習フェーズ（Ｓ１）おいて置換部１２により置換が行われた名称については、適用フェーズ（Ｓ２）においても同様に置換を行うようにする。

ここで、学習フェーズ（Ｓ１）の詳細を説明する。図４は、学習フェーズ（Ｓ１）の動作例を示すフローチャートである。

図４に示すように、学習フェーズ（Ｓ１）の処理が開始されると、特徴素抽出部１０は、学習データ２０、置換ルール２１を読み込む（Ｓ１０、Ｓ１１）。次いで、特徴素抽出部１０は、置換ルール２１の中で未処理の１つを特定する（Ｓ１２）。例えば、最初の処理では、全てが未処理であることから、変換前が「ペンタン」、変換後が「バレル」である筆頭の置換ルール２１（図３参照）を特定する。

次いで、特徴素抽出部１０は、読み込んだ学習データ２０における判別候補の名称について、特徴素を抽出する（Ｓ１３）。

図５は、特徴素の抽出を説明する説明図である。図５に示すように、特徴素抽出部１０は、読み込んだ学習データ２０について、例えばユニグラムとバイグラムにおける特徴素を抽出する。

また、特徴素抽出部１０は、Ｓ１３において、特定した置換ルール２１を適用する置換前のケースと、特定した置換ルール２１に該当する名称（置換対象）を置換した置換後のケースの両方について特徴素を抽出する。

次いで、特徴素評価部１１は、Ｓ１３で抽出した特徴素をもとに、学習データ２０の正例または負例における、抽出した特徴素の偏り度合いを評価する（Ｓ１４）。具体的には、特徴素評価部１１は、置換前のケースにおける特徴素の偏り度合いの評価値と、置換後のケースにおける特徴素の偏り度合いの評価値とを算出する。

図６、図７は、特徴素の評価を説明する説明図である。なお、図６では置換前のケースＣ１を例示している。また、図７では、「ペンタン」を「バレル」に、「プロペン」を「アクリル」に置換した置換後のケースＣ２を例示している。また、図６、図７ともに、特徴素の評価を行った学習データ２０は、図５に例示したものである。また、丸印については、実線が正例における有効な特徴素を示し、点線が負例における有効な特徴素を示している。

図６に示すように、ケースＣ１では、正例の特徴（ペンタン、プロペン）に対する有効な特徴素の数は１である。また、負例の特徴（ペンシル、ペンタブレット）に対する有効な特徴素の数は１２である。したがって、式（１）により、特徴素評価部１１は、ケースＣ１での評価値を０．５と算出する。

図７に示すように、ケースＣ２では、置換後の正例の特徴（バレル、アクリル）に対する有効な特徴素の数は９である。また、負例の特徴（ペンシル、ペンタブレット）に対する有効な特徴素の数は１２である。したがって、式（１）により、特徴素評価部１１は、ケースＣ２での評価値を４．５と算出する。

図４に戻り、Ｓ１４に次いで、置換部１２は、置換前のケースＣ１に対する置換後のケースＣ２において、特徴素の評価値が上がったか否かを判定する（Ｓ１５）。評価値が上がらなかった場合（Ｓ１５：ＮＯ）、置換部１２は、特定した置換ルール２１を適用せず、適用前に戻すものとする（Ｓ１６）。

評価値が上がった場合（Ｓ１５：ＹＥＳ）、置換部１２は、特徴素の評価値が高い、または、全ての言い換えルール（置換ルール２１）を処理したか否かを判定する（Ｓ１７）。Ｓ１７において否定判定である場合（Ｓ１７：ＮＯ）、置換部１２は、学習データ２０に特定した置換ルール２１を適用する処理（Ｓ１８）を行い、未処理の中で次の置換ルール２１を特定して（Ｓ１９）、Ｓ１２へ処理を戻す。

図８は、置換ルール２１を適用する処理の一例を示すフローチャートである。図８に示すように、置換ルール２１を適用する処理（Ｓ１８）が開始されると、置換部１２は、特定した置換ルール２１を読み込む（Ｓ３０）。

次いで、置換部１２は、学習データ２０における未処理の１つを特定し（Ｓ３１）、特定した学習データ２０の表記に置換ルール２１の言い換え前（変換前）とマッチするものがあるかを照合する（Ｓ３２）。

次いで、置換部１２は、照合の結果、マッチするものがあるか否かを判定し（Ｓ３３）、ある場合（Ｓ３３：ＹＥＳ）はマッチした部分を置換ルール２１の言い換え後（変換後）に変換する（Ｓ３４）。

次いで、置換部１２は、全ての学習データ２０を処理したか否かを判定する（Ｓ３５）。未処理の学習データ２０がある場合（Ｓ３５：ＮＯ）、置換部１２は、未処理の中から次の学習データ２０を特定し（Ｓ３６）、Ｓ３２へ処理を戻す。全ての学習データ２０を処理した場合（Ｓ３５：ＹＥＳ）、置換部１２は、処理後の学習データ２０を出力し（Ｓ３７）、処理を終了する。

図９は、置換前後の学習データ２０、２０ａを説明する説明図である。図９に示すように、置換ルール２１を適用する処理を行うことで、置換前の学習データ２０は、置換ルール２１を適用した置換後の学習データ２０ａに変換される。具体的には、置換ルール２１の名称の中で、「プロペン酸」が「アクリル酸」に、「ペンタン」が「バレル」に置換される。

図４に戻り、Ｓ１７において肯定判定である場合（Ｓ１７：ＹＥＳ）、学習部１３は、置換後の学習データ２０ａを教師データとする機械学習により分類器１４における分類モデルの学習を行う（Ｓ２０）。

図１０は、分類モデルを学習する処理の一例を示すフローチャートである。図１０に示すように、分類モデルを学習する処理（Ｓ２０）が開始されると、学習部１３は、処理（Ｓ１０〜Ｓ１９）後の学習データ２０ａを読み込む。

次いで、学習部１３は、１つの学習データ２０ａを特定し、特定した学習データ２０ａを教師として分類器１４へ入力する。次いで、学習部１３は、分類器１４からの出力と、正解（正例／負例）との比較結果を用いた誤差逆伝播法などにより、分類モデルの重み（パラメータ）を更新する（Ｓ４３）。

次いで、学習部１３は、処理（Ｓ１０〜Ｓ１９）後の学習データ２０ａの全てを処理したか否かを判定し（Ｓ４４）、全てを処理した場合（Ｓ４４：ＹＥＳ）、分類モデルを出力して処理を終了する（Ｓ４６）。全てを処理していない場合（Ｓ４４：ＮＯ）、学習部１３は、未処理の中の次の学習データ２０ａを特定し（Ｓ４５）、Ｓ４３へ処理を戻す。

図４に戻り、Ｓ２０についで、置換部１２は、学習による分類モデルとともに、学習データ２０に適用した置換ルール２１を適用ルール２２として出力する（Ｓ２１）。

次に、適用フェーズ（Ｓ２）の詳細を説明する。図１１は、適用フェーズ（Ｓ２）の動作例を示すフローチャートである。

図１１に示すように、適用フェーズ（Ｓ２）の処理が開始されると、入力データ変換部１５は、適用ルール２２、分類対象データ２３を読み込む（Ｓ５０、Ｓ５１）。

次いで、入力データ変換部１５は、読み込んだ適用ルール２２に示された置換ルール（変換前の名称、変換後の名称）によって、分類対象データ２３において該当する名称を変換する（Ｓ５２）。

次いで、入力データ変換部１５は、変換後の分類対象データ２３について、特徴素の抽出を行い（Ｓ５３）、分類器１４用の入力データに変換する。次いで、入力データ変換部１５は、変換した入力データを分類器１４の入力層に入力することで、分類器１４による名称の分類を行う（Ｓ５４）。次いで、分類器１４は、入力層からの入力に対し、学習したパラメータに応じた分類結果２４を出力する（Ｓ５５）。

図１２は、分類の具体例を説明する説明図である。図１２に示すように、Ｓ５２では、受け付けた分類対象データ２３における名称（ｎ−ペンタンアミド、アクリル酸、ペンロット）が適用ルール２２に示された置換ルールにより変換される。一例として、ｎ−ペンタンアミドがｎ−バレルアミドに変換される。

次いで、Ｓ５３では、ユニグラム、バイグラムでの特徴素の抽出が行われる。次いで、Ｓ５４、Ｓ５５では、分類器１４の分類モデルにより、抽出した特徴素のベクトルから算出されたスコアでの分類が行われる。

以上のように、情報処理装置１は、文書等の分類対象データ２３に含まれる名称を分類する分類器１４の学習データを生成する。情報処理装置１の特徴素抽出部１０は、分類にかかる名称の判別候補に正例または負例が付与された学習データ２０について、判別候補に含まれる特徴素を抽出する。情報処理装置１の特徴素評価部１１は、学習データ２０の正例または負例における、抽出した特徴素の偏り度合いを評価する。情報処理装置１の置換部１２は、評価した偏り度合いに応じて学習データ２０における判別候補の名称を、当該名称に対応付けて置換ルール２１に記憶された別名称に置換する。

このように、情報処理装置１は、分類器１４の学習を行う学習データ２０について、正例または負例での特徴素の偏り度合いに応じて、判別候補の名称をその名称に対応する別名称に置換したものを生成する。したがって、置換後の学習データでは、正例・負例の両方に共通の特徴素を少なくすることができ、分類器１４の学習に用いることで分類器１４における名称の分類精度を向上させることができる。

また、置換部１２は、学習データ２０の中で置換した名称について、置換前と置換後の名称の対応関係を示す適用ルール２２を出力する。これにより、学習後の分類器１４を用いて分類対象データ２３に含まれる名称を分類する適用フェーズ（Ｓ２）において、適用ルール２２を用いることで、分類対象データ２３に含まれる置換前の名称を置換後の名称に変換することができる。

また、分類にかかる名称は、化合物名であり、置換部１２は、学習データ２０における判別候補の化合物名をその化合物名に対応する別の化合物名に置換する。これにより、置換後の学習データ２０では、分類器１４の学習に用いることで、分類器１４における化合物名の分類精度を向上させることができる。

なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

情報処理装置１で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置１で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ（ハードウェア）の一例を説明する。図１３は、プログラムを実行するコンピュータの一例を示す説明図である。

図１３に示すように、コンピュータ１００は、各種演算処理を実行するＣＰＵ１０１と、データ入力を受け付ける入力装置１０２と、モニタ１０３と、スピーカ１０４とを有する。また、コンピュータ１００は、記憶媒体からプログラム等を読み取る媒体読取装置１０５と、各種装置と接続するためのインタフェース装置１０６と、有線または無線により外部機器と通信接続するための通信装置１０７とを有する。また、コンピュータ１００は、各種情報を一時記憶するＲＡＭ１０８と、ハードディスク装置１０９とを有する。また、コンピュータ１００内の各部（１０１〜１０９）は、バス１１０に接続される。

ハードディスク装置１０９には、上記の実施形態で説明した特徴素抽出部１０、特徴素評価部１１、置換部１２、学習部１３、分類器１４および入力データ変換部１５等の機能部における各種処理を実行するためのプログラム１１１が記憶される。また、ハードディスク装置１０９には、プログラム１１１が参照する学習データ２０、置換ルール２１および適用ルール２２等の各種データ１１２が記憶される。入力装置１０２は、例えば、コンピュータ１００の操作者から操作情報の入力を受け付ける。モニタ１０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置１０６は、例えば印刷装置等が接続される。通信装置１０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ１０１は、ハードディスク装置１０９に記憶されたプログラム１１１を読み出して、ＲＡＭ１０８に展開して実行することで、特徴素抽出部１０、特徴素評価部１１、置換部１２、学習部１３、分類器１４および入力データ変換部１５等にかかる各種の処理を行う。なお、プログラム１１１は、ハードディスク装置１０９に記憶されていなくてもよい。例えば、コンピュータ１００は、読み取り可能な記憶媒体に記憶されたプログラム１１１を読み出して実行するようにしてもよい。コンピュータ１００が読み取り可能な記憶媒体は、例えば、ＣＤ−ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にプログラム１１１を記憶させておき、コンピュータ１００がこれらからプログラム１１１を読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータが実行することを特徴とする学習データ生成方法。

（付記２）前記置換する処理は、置換した名称について、置換前と置換後の名称の対応関係を示す適用ルールを出力する、
ことを特徴とする付記１に記載の学習データ生成方法。

（付記３）前記分類にかかる名称は、化合物名であり、
前記置換する処理は、前記判別候補の化合物名を当該化合物名に対応付けて記憶部に記憶された別の化合物名に置換する、
ことを特徴とする付記１または２に記載の学習データ生成方法。

（付記４）文書に含まれる名称を分類する分類器の学習データを生成する処理をコンピュータに実行させる学習データ生成プログラムであって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。

（付記５）前記置換する処理は、置換した名称について、置換前と置換後の名称の対応関係を示す適用ルールを出力する、
ことを特徴とする付記４に記載の学習データ生成プログラム。

（付記６）前記分類にかかる名称は、化合物名であり、
前記置換する処理は、前記判別候補の化合物名を当該化合物名に対応付けて記憶部に記憶された別の化合物名に置換する、
ことを特徴とする付記４または５に記載の学習データ生成プログラム。

（付記７）文書に含まれる名称を分類する分類器に用いる学習データのデータ構造であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記正例または前記負例における特徴素の偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換された学習データとして、前記分類器の入力層に入力されることにより、演算結果を示す出力値を前記分類器の出力層から出力させ、正解情報と前記出力値との比較に基づく学習を行う、
処理をコンピュータに実行させることを特徴とするデータ構造。

１…情報処理装置
１０…特徴素抽出部
１１…特徴素評価部
１２…置換部
１３…学習部
１４…分類器
１５…入力データ変換部
２０、２０ａ…学習データ
２１…置換ルール
２２…適用ルール
２３…分類対象データ
２４…分類結果
１００…コンピュータ
１０１…ＣＰＵ
１０２…入力装置
１０３…モニタ
１０４…スピーカ
１０５…媒体読取装置
１０６…インタフェース装置
１０７…通信装置
１０８…ＲＡＭ
１０９…ハードディスク装置
１１０…バス
１１１…プログラム
１１２…各種データ
Ｃ１、Ｃ２…ケース

Claims

文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータが実行することを特徴とする学習データ生成方法。
前記置換する処理は、置換した名称について、置換前と置換後の名称の対応関係を示す適用ルールを出力する、
ことを特徴とする請求項１に記載の学習データ生成方法。
前記分類にかかる名称は、化合物名であり、
前記置換する処理は、前記判別候補の化合物名を当該化合物名に対応付けて記憶部に記憶された別の化合物名に置換する、
ことを特徴とする請求項１または２に記載の学習データ生成方法。
文書に含まれる名称を分類する分類器の学習データを生成する処理をコンピュータに実行させる学習データ生成プログラムであって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記判別候補に含まれる特徴素を抽出し、
前記正例または前記負例における、抽出した前記特徴素の偏り度合いを評価し、
評価した前記偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
文書に含まれる名称を分類する分類器に用いる学習データのデータ構造であって、
分類にかかる名称の判別候補に正例または負例が付与された前記学習データについて、前記正例または前記負例における特徴素の偏り度合いに応じて前記判別候補の名称を当該名称に対応付けて記憶部に記憶された別名称に置換された学習データとして、前記分類器の入力層に入力されることにより、演算結果を示す出力値を前記分類器の出力層から出力させ、正解情報と前記出力値との比較に基づく学習を行う、
処理をコンピュータに実行させることを特徴とするデータ構造。