JP6839342B2

JP6839342B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP6839342B2
Application number: JP2016181414A
Authority: JP
Inventors: 裕司溝渕
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-09-16
Filing date: 2016-09-16
Publication date: 2021-03-10
Anticipated expiration: 2036-09-16
Also published as: JP2018045559A; US20180082215A1

Description

本発明は情報処理装置、情報処理方法およびプログラムに関する。

コンピュータを利用したデータ分析の１つとして、機械学習が行われることがある。機械学習には、教師なし学習と教師あり学習とがある。教師あり学習では、コンピュータは、事前に与えられたデータ（教師データと呼ばれることもある）に基づき、要因（説明変数や独立変数と呼ばれることもある）と結果（目的変数や従属変数と呼ばれることもある）との間の関係を一般化した学習モデルを算出する。学習モデルを用いることで、未知の事例についての結果を予測することができる。例えば、複数の文書が類似するか否かを判別するための学習モデルを算出することが提案されている。

学習モデルを算出するための学習アルゴリズムには、ＳＶＭ（Support Vector Machine）を用いたものや、ニューラルネットワークを用いたものなどがある。

特開２００３−１６０８２号公報特開２００３−３６２６２号公報特開２００５−１８１９２８号公報特開２０１０−２０４８６６号公報

ところで、機械学習では、未知の事例の結果を正確に予測する能力が高い学習モデルを算出すること、すなわち、学習精度が高いことが好ましい。しかし、従来、教師あり学習において用いられる複数の教師データ要素には、学習精度の向上を妨げるものが含まれている場合があった。例えば、複数の文書が類似するか否かを判別するための学習モデルを算出する際に、教師データ要素として用いられる複数の文書のなかに、判別に役に立つ特徴がない、もしくは少ない文書がある可能性がある。このような教師データ要素を用いると、学習精度の向上の妨げとなるという問題があった。

１つの側面では、本発明は、機械学習の学習精度を向上できる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

１つの態様では、記憶部と制御部とを有する情報処理装置が提供される。記憶部は、複数の教師データ要素を記憶する。制御部は、複数の教師データ要素から、それぞれが複数の教師データ要素のうちの１つ以上に含まれている複数の特徴候補を抽出する。制御部は、複数の教師データ要素における複数の特徴候補それぞれの出現頻度に基づいて、機械学習における複数の特徴候補それぞれの重要度を算出する。制御部は、複数の教師データ要素それぞれに含まれる特徴候補に対して算出された重要度を用いて、複数の教師データ要素それぞれの情報量を算出する。制御部は、複数の教師データ要素それぞれの情報量に基づいて、複数の教師データ要素の中から機械学習に使用する教師データ要素を選択する。

また、１つの態様では、情報処理装置が実行する情報処理方法が提供される。また、１つの態様では、コンピュータに実行させるプログラムが提供される。

１つの側面では、機械学習の学習精度を向上できる。

第１の実施の形態の情報処理装置の例を示す図である。情報処理装置のハードウェア例を示すブロック図である。教師データ要素として用いられる複数の文書の一例を示す図である。抽出された特徴候補の一例を示す図である。各特徴候補の出現頻度の計数結果の一例を示す図である。特徴候補ごとの重要度の算出結果の一例を示す図である。ポテンシャル情報量の算出結果の一例を示す図である。ソート結果の一例を示す図である。生成された複数の教師データ集合の一例を示す図である。教師データ集合に含まれる文書数とＦ値との一例の関係を示す図である。情報処理装置の機能例を示す機能ブロック図である。第２の実施の形態の情報処理装置による情報処理の一例の流れを示すフローチャートである。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置の例を示す図である。
第１の実施の形態の情報処理装置１０は、機械学習の１つである教師あり学習に用いる教師データを選択する。教師あり学習では、事前に与えられた教師データに基づき、未知の事例の結果を予測する学習モデルが生成される。学習モデルを用いることで、未知の事例についての結果を予測することができる。機械学習の結果は、複数の文書が類似するか否かの判別のほかに、病気の発症リスクの予測、将来の商品・サービスの需要量の予測、工場における新製品の歩留まりの予測など、様々な用途に利用することができる。情報処理装置１０は、ユーザが操作するクライアントコンピュータでもよいし、クライアントコンピュータからネットワーク経由でアクセスされるサーバコンピュータでもよい。

なお、以下では、情報処理装置１０が機械学習に用いる教師データの選択および機械学習を行うものとして説明するが、機械学習については情報処理装置１０とは異なる情報処理装置で行われるようにしてもよい。

情報処理装置１０は、記憶部１１および制御部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性の半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性のストレージでもよい。制御部１２は、例えば、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、制御部１２は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの特定用途の電子回路を含んでもよい。プロセッサは、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プログラムには、例えば、後述する教師データの機械学習を情報処理装置１０に実行させるプログラムが含まれる。複数のプロセッサの集合（マルチプロセッサ）を「プロセッサ」と呼ぶこともある。

機械学習には、ＳＶＭ、ニューラルネットワーク、回帰判別などの機械学習アルゴリズムが用いられる。
記憶部１１は、教師ありの機械学習を行うための教師データである複数の教師データ要素を記憶する。図１には、ｎ個の教師データ要素２０ａ１，２０ａ２，…，２０ａｎの例が示されている。教師データ要素２０ａ１〜２０ａｎとして、画像や文書などを用いることができる。

制御部１２は、以下の処理を行う。
まず、制御部１２は、記憶部１１に記憶されている教師データ要素２０ａ１〜２０ａｎを読み出して、教師データ要素２０ａ１〜２０ａｎから、それぞれが教師データ要素２０ａ１〜２０ａｎのうちの１つ以上に含まれている複数の特徴候補を抽出する。

図１では、教師データ要素２０ａ１〜２０ａｎに、特徴候補Ａ，Ｂ，Ｃが含まれている例が示されている。教師データ要素２０ａ１〜２０ａｎにおいて、何を特徴候補Ａ〜Ｃとするかについては、機械学習により何を学習するかに応じて予め決められている。例えば、制御部１２は、２つの文書が類似するかどうかを判別する学習モデルを生成する際、単語や単語の組み合わせを抽出対象である特徴とする。また、制御部１２は、２つの画像が類似するかどうかを判別する学習モデルを生成する際、画素値や画素値の組み合わせを抽出対象である特徴とする。

そして、制御部１２は、教師データ要素２０ａ１〜２０ａｎにおける特徴候補Ａ〜Ｃのそれぞれの出現頻度に基づいて、機械学習における特徴候補Ａ〜Ｃのそれぞれの重要度を算出する。重要度は、例えば、全教師データ要素２０ａ１〜２０ａｎにおける出現頻度が低い特徴候補ほど大きな値をもつ。なお、制御部１２は、出現頻度が低すぎる特徴候補についてはノイズとみなし、重要度を０としてもよい。

図１には、教師データ要素２０ａ１に含まれる特徴候補Ａ，Ｂの重要度の例が示されている。図１の例では、特徴候補Ａの重要度は０．１、特徴候補Ｂの重要度は５となっている。つまり、全教師データ要素２０ａ１〜２０ａｎにおいて、特徴候補Ｂの出現頻度は、特徴候補Ａの出現頻度よりも低い。

重要度は、特徴候補Ａ〜Ｃが単語または単語の組み合わせである場合、例えば、逆文書頻度（ｉｄｆ：inverse document frequency）などを用いることができる。分類に役立たない特徴候補であっても、単語数が多くなればなるほど出現頻度は小さくなる傾向がある。そのため、制御部１２は、ｉｄｆを特徴候補の長さ（単語数）で割ることで正規化したものを重要度としてもよい。ｉｄｆ値を単語数で割って正規化することで、単語数が多いだけで分類に役立たない特徴候補についても重要度が大きくなることを抑制できる。

さらに、制御部１２は、教師データ要素２０ａ１〜２０ａｎのそれぞれに含まれる特徴候補に対して算出された重要度を用いて、教師データ要素２０ａ１〜２０ａｎのそれぞれの情報量（以下、ポテンシャル情報量と呼ぶ場合もある）を算出する。

情報量は、例えば、教師データ要素２０ａ１〜２０ａｎのそれぞれに含まれる特徴候補に対して算出された重要度の合計値である。
図１の例では、教師データ要素２０ａ１の情報量は２０．３、教師データ要素２０ａ２の情報量は４０．５、教師データ要素２０ａｎの情報量は３５．２と算出されている。

次に、制御部１２は、教師データ要素２０ａ１〜２０ａｎのそれぞれの情報量に基づいて、教師データ要素２０ａ１〜２０ａｎの中から機械学習に使用する教師データ要素を選択する。

例えば、制御部１２は、教師データ要素２０ａ１〜２０ａｎのうち、情報量が最も大きい教師データ要素から情報量がｋ番目（ｋは２以上の自然数）に大きい教師データ要素までを含む教師データ集合を生成する。または、制御部１２は、教師データ要素２０ａ１〜２０ａｎのうち、情報量が閾値以上である教師データ要素を選択して教師データ集合を生成する。さらに制御部１２は、その教師データ集合に情報量の大きい順に教師データ要素を順に追加していくことで複数の教師データ集合を生成する。

例えば、図１の教師データ集合２１ａには、情報量が最も大きい教師データ要素２０ａ２から、情報量がｋ番目に大きい教師データ要素２０ａｎが含まれている。次に生成される教師データ集合２１ｂには、ｋ＋１番目に大きい情報量（３４．５）をもつ教師データ要素２０ａｉが追加されている。また、その次に生成される教師データ集合２１ｃには、ｋ＋２番目に大きい情報量（３２．０）をもつ教師データ要素２０ａｊが追加される。

ｋは、例えば、後述する学習モデルの評価値の算出の際に用いる教師データ要素数の最小値である。制御部１２が評価値を算出する際に、１０−分割交差検証を用いる場合、ｋ＝１０となる。

そして、制御部１２は、複数の教師データ集合のそれぞれに基づく機械学習により複数の学習モデルを生成する。
例えば、制御部１２は、教師データ集合２１ａに基づき、２つの文書が類似するかどうかを判別する学習モデル２２ａを機械学習で生成する。この場合、教師データ集合２１ａに含まれる教師データ要素２０ａ２〜２０ａｎは文書であり、教師データ要素２０ａ２〜２０ａｎのそれぞれには、ある類似グループに属するか否かを示す識別情報が付与されている。例えば、教師データ要素２０ａ２と教師データ要素２０ａｎが類似している場合、両者には類似グループに属することを示す識別情報が付与される。

同様に、教師データ集合２１ｂ，２１ｃに基づいて、学習モデル２２ｂ，２２ｃが生成される。
さらに、制御部１２は、機械学習で生成された学習モデル２２ａ，２２ｂ，２２ｃの性能の評価値を算出する。

例えば、教師データ集合２１ａに含まれる教師データ要素２０ａ２〜２０ａｎが１０個であり、制御部１２が１０−分割交差検証を用いて評価値を算出する場合には、以下のような処理が行われる。

制御部１２は、機械学習を行う際に、教師データ集合２１ａに含まれる教師データ要素２０ａ２〜２０ａｎを、９個の教師データ要素と１個の教師データ要素とに分割する。９個の教師データ要素は訓練データとして、学習モデル２２ａを生成するために用いられる。１個の教師データ要素はテストデータとして、学習モデル２２ａを評価するために用いられる。制御部１２は、１０個の教師データ要素２０ａ２〜２０ａｎのうち、異なる教師データ要素をテストデータとして用いて、学習モデル２２ａの評価を１０回行う。そして、制御部１２は、１０回の評価結果に基づいて、評価値を算出する。

評価値として、例えば、Ｆ値を用いることができる。Ｆ値は、再現率と適合率の平均調和である。
学習モデル２２ｂ，２２ｃに対しても同様に評価値が算出され、例えば、記憶部１１に記憶される。

制御部１２は、このような評価値を、機械学習の結果として、例えば、記憶部１１から取得し、機械学習の結果に基づいて、機械学習の結果が所定の条件を満たすように、教師データ要素２０ａ１〜２０ａｎの部分集合を探索する。例えば、制御部１２は、評価値が最大となる学習モデルが得られる教師データ集合を探索する。なお、機械学習が情報処理装置１０とは異なる情報処理装置で行われる場合には、制御部１２は、その情報処理装置で算出された評価値を取得して、上記の処理を行う。

また、制御部１２は、評価値が最大となる学習モデルを出力する。制御部１２は、評価値が最大となる学習モデルが得られる教師データ集合を出力するようにしてもよい。
図１では、学習モデル２２ａ，２２ｂ，２２ｃのうち、学習モデル２２ｂの評価値が最大となっている例が示されている。このとき制御部１２は、学習モデル２２ｂを出力する。

例えば、学習モデル２２ｂがニューラルネットワークである場合には、機械学習によって得られるニューラルネットワークの各ノード（ニューロン）間の結合の重み値（結合係数と呼ばれる）などが出力される。制御部１２が出力した学習モデル２２ｂは、記憶部１１に記憶されてもよいし、情報処理装置１０の外部に出力されてもよい。

このような学習モデル２２ｂに対して、未知のデータ（文書や画像など）が入力されると、例えば、そのデータが類似グループに属するか否か、などの結果が得られる。
第１の実施の形態の情報処理装置１０は、各特徴候補の重要度を複数の教師データ要素内での出現頻度から算出し、重要度を用いて各教師データ要素の情報量を算出し、機械学習に使用する教師データ要素を選択する。これにより特徴の弱い（情報量が小さい）不適切な教師データ要素を除外でき学習精度を向上できる。

また、第１の実施の形態の情報処理装置１０によれば、情報量の多い教師データ要素に基づいた機械学習により生成される学習モデルが出力される。図１の例では、教師データ要素２０ａｉよりも情報量が小さい教師データ要素２０ａｊを含む教師データ集合２１ｃに基づいて生成された学習モデル２２ｃは出力されない。機械学習の際、情報量が小さい教師データ要素を用いても、学習精度の向上が期待できない。例えば、どんな文書においても出現する単語または単語の組み合わせを多く含む教師データ要素は、２つの文書の類似性を精度よく判定するのにはあまり役に立たない。

第１の実施の形態の情報処理装置１０では、このような情報量が小さい教師データ要素が除外されることで、精度のよい学習モデルが得られる。
なお、制御部１２は、上記のような教師データ集合を１つ生成するたびに、機械学習および評価値の算出を行ってもよい。教師データ要素を大きい順に追加して生成される教師データ集合を用いた場合、はじめは評価値が大きくなっていき、ある時点で、機械学習の学習精度の向上に寄与しない教師データ要素の影響で評価値が下がり始めると考えられる。制御部１２は、評価値が下がり始めたら、教師データ集合の生成や機械学習を終了するようにしてもよい。これにより、学習時間を短縮できる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、情報処理装置のハードウェア例を示すブロック図である。

情報処理装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、画像信号処理部１０４、入力信号処理部１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、画像信号処理部１０４、入力信号処理部１０５、媒体リーダ１０６および通信インタフェース１０７は、バス１０８に接続されている。なお、情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。ＣＰＵ１０１は、第１の実施の形態の制御部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行する演算回路を含むプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。なお、ＣＰＵ１０１は複数のプロセッサコアを備えてもよく、情報処理装置１００は複数のプロセッサを備えてもよく、以下で説明する処理を複数のプロセッサまたはプロセッサコアを用いて並列に実行してもよい。また、複数のプロセッサの集合（マルチプロセッサ）を「プロセッサ」と呼んでもよい。

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。なお、情報処理装置１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。プログラムには、例えば、機械学習を情報処理装置１００に実行させるプログラムが含まれる。なお、情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。

画像信号処理部１０４は、ＣＰＵ１０１からの命令に従って、情報処理装置１００に接続されたディスプレイ１１１に画像を出力する。ディスプレイ１１１としては、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、プラズマディスプレイ（ＰＤＰ：Plasma Display Panel）、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイなどを用いることができる。

入力信号処理部１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を取得し、ＣＰＵ１０１に出力する。入力デバイス１１２としては、マウスやタッチパネルやタッチパッドやトラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、情報処理装置１００に、複数の種類の入力デバイスが接続されていてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、例えば、磁気ディスク、光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）が含まれる。

媒体リーダ１０６は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体１１３は、可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

通信インタフェース１０７は、ネットワーク１１４に接続され、ネットワーク１１４を介して他の情報処理装置と通信を行うインタフェースである。通信インタフェース１０７は、スイッチなどの通信装置とケーブルで接続される有線通信インタフェースでもよいし、基地局と無線リンクで接続される無線通信インタフェースでもよい。

第２の実施の形態の機械学習では、情報処理装置１００は、既知の事例を示す複数の教師データ要素を含むデータを予め収集しておく。情報処理装置１００または他の情報処理装置が、センサデバイスなどの各種デバイスからネットワーク１１４経由でデータを収集してもよい。収集されるデータは、「ビッグデータ」と呼ばれるサイズの大きなデータであってもよい。

以下では、教師データ要素として自然言語を含む文書を用いて、類似の文書を分類する学習モデルを生成する例を説明する。
図３は、教師データ要素として用いられる複数の文書の一例を示す図である。

図３には、プログラミングに関するＷｅｂ上の知識共有コミュニティサイト（例えば、スタックオーバーフローなど）から収集された文書２０ｂ１，２０ｂ２，…，２０ｂｎの例が示されている。文書２０ｂ１〜２０ｂｎは、例えば、バグに関するレポートである。

文書２０ｂ１は、タイトル３０と本文３１を含み、本文３１は、例えば、説明文３１ａ，３１ｂ，３１ｃ、ソースコード３１ｄ、ログ３１ｅを含む。文書２０ｂ２〜２０ｂｎも同様のフォーマットとなっている。

なお、文書２０ｂ１〜２０ｂｎのそれぞれには、例えば、ある類似グループに属するか否かを示す識別情報がタグ付けられている。類似とみなせる複数の文書には、類似グループに属することを示す識別情報がタグ付けされている。情報処理装置１００は、このような識別情報も収集する。

情報処理装置１００は、文書２０ｂ１〜２０ｂｎから複数の特徴候補を抽出する。情報処理装置１００は、例えば、文書２０ｂ１のうち、タイトル３０と説明文３１ａ，３１ｂ，３１ｃから自然言語処理を用いて複数の特徴候補を抽出する。複数の特徴候補は、単語および単語の組み合わせである。情報処理装置１００は、例えば、一文ごとに、単語および単語の組み合わせを特徴候補として抽出する。空白で単語の区切りが判断される。ドットやアンダーバーなどは無視される。特徴候補の最小単位は単語である。また、ある文に含まれる特徴候補の長さの最大値は、その文に含まれる単語の数としてもよいし、最大値が予め決められていてもよい。

なお、ソースコード３１ｄやログ３１ｅは、同じような単語や単語の組み合わせが頻出し過ぎる傾向にあるため、タイトル３０や説明文３１ａ，３１ｂ，３１ｃとともに特徴候補抽出の対象とすることは好ましくない。そのため、情報処理装置１００は、ソースコード３１ｄとログ３１ｅから特徴候補の抽出をしない。

図４は、抽出された特徴候補の一例を示す図である。
特徴候補群４０ａ１，４０ａ２，…，４０ａｎには、文書２０ｂ１〜２０ｂｎから抽出された特徴候補が含まれている。例えば、特徴候補群４０ａ１には、文書２０ｂ１から抽出された特徴候補である、単語と単語の組み合わせが含まれている。特徴候補群４０ａ１の１行目には、タイトル３０から抽出された特徴候補（ドットは無視されるため１つの単語として抽出される）が示されている。２行目以降には、本文３１から抽出されたＮ−ｇｒａｍ（Ｎ＝１，２，…）の特徴候補が示されている。第２の実施の形態の機械学習において、Ｎ−ｇｒａｍは、１つの単語または、Ｎ個の単語の組み合わせを示すものとする。

次に、情報処理装置１００は、全ての文書２０ｂ１〜２０ｂｎにおける各特徴候補の出現頻度を計数する。出現頻度は、文書２０ｂ１〜２０ｂｎのうち、各特徴候補が含まれる文書数を示すものとする。以下では説明の便宜上、文書２０ｂ１〜２０ｂｎの数（ｎ）を１００とする。

図５は、各特徴候補の出現頻度の計数結果の一例を示す図である。
図５に示されている出現頻度の計数結果５０において、文書２０ｂ１のタイトル３０である特徴候補の出現頻度は１、１−ｇｒａｍの特徴候補である“ｉｎ”の出現頻度は１００、“ｔｈｅ”の出現頻度は９０、“ｂｅｌｏｗ”の出現頻度は１２である。また、２−ｇｒａｍの特徴候補である“ｉｎｔｈｅ”の出現頻度は９０、“ｔｈｅｂｅｌｏｗ”の出現頻度は１２である。

次に、情報処理装置１００は、複数の特徴候補の全ての文書２０ｂ１〜２０ｂｎにおける出現頻度に基づいて、機械学習における複数の特徴候補のそれぞれの重要度を算出する。

重要度として、例えば、ｉｄｆ値や、相互情報量を用いることができる。
ある単語または単語の組み合わせのｉｄｆ値であるｉｄｆ（ｔ）は、全文書数をｎとし、ある単語または単語の組み合わせを含む文書数をｄｆ（ｔ）とすると、数式（１）のように算出される。

一方、相互情報量とは、２つの確率変数の相互依存の尺度を表す量である。２つの確率変数として、全文書中においてある単語または単語の組み合わせの出現確率を表す確率変数Ｘと、全文書中において類似グループに属する文書の出現確率を表す確率変数Ｙを用いると、相互情報量Ｉ（Ｘ；Ｙ）は、例えば、数式（２）のように算出される。

数式（２）において、ｐ（ｘ，ｙ）はＸとＹの同時分布関数、ｐ（ｘ）とｐ（ｙ）はそれぞれＸとＹの周辺確率分布関数である。ｘ，ｙは１または０の値をとる。ｘ＝１は、ある文書において、ある単語または単語の組み合わせが出現することを示し、ｘ＝０は、その単語または単語の組み合わせが出現しないことを示す。また、ｙ＝１は、ある文書が類似グループに属することを示し、ｙ＝０は、その文書が類似グループに属さないことを示す。

例えば、ある単語または単語の組み合わせである特徴候補ｔ１が出現する文書の数をＭｔ１とし、全文書数をｎとすると、ｐ（ｘ＝１）は、Ｍｔ１／ｎと算出できる。また特徴候補ｔ１が出現しない文書の数をＭｔ２とすると、ｐ（ｘ＝０）は、Ｍｔ２／ｎと算出できる。一方、類似グループｇ１に属する文書の数をＭｇ１とすると、ｐ（ｙ＝１）は、Ｍｇ１／ｎと算出できる。また、類似グループｇ１に属さない文書の数をＭｇ０とすると、ｐ（ｙ＝０）は、Ｍｇ０／ｎと算出できる。さらに、特徴候補ｔ１が出現し、類似グループｇ１に属する文書の数をＭ１１とすると、ｐ（１，１）は、Ｍ１１／ｎと算出できる。特徴候補ｔ１が出現せず、類似グループｇ１に属する文書の数をＭ０１とすると、ｐ（０，１）は、Ｍ０１／ｎと算出できる。また、特徴候補ｔ１が出現し、類似グループｇ１に属さない文書の数をＭ１０とすると、ｐ（１，０）は、Ｍ１０／ｎと算出できる。また、特徴候補ｔ１が出現せず、類似グループｇ１に属さない文書の数をＭ００とすると、ｐ（０，０）は、Ｍ００／ｎと算出できる。相互情報量Ｉ（Ｘ；Ｙ）の値が大きいほど、類似グループｇ１の特徴を表すような特徴候補ｔ１であるとみなすことができる。

図６は、特徴候補ごとの重要度の算出結果の一例を示す図である。
図６に示されている重要度の算出結果５１には、特徴候補である単語または単語の組み合わせごとのｉｄｆ値に基づく重要度の例が示されている。なお、図６の例では、数式（１）において、ｎ＝１００、ｌｏｇの底が１０であるときの各特徴候補のｉｄｆ値を、単語数で割ることで正規化した値が、重要度として表されている。

例えば、前述の図５に示したように特徴候補“ｂｅｌｏｗ”の出現頻度は１２であるため、ｉｄｆ値は、数式（１）より、０．９２となる。特徴候補“ｂｅｌｏｗ”の単語数は１であるため、重要度は、図６に示すように０．９２となる。また、前述の図５に示したように特徴候補“ｔｈｅｂｅｌｏｗ”の出現頻度は１２であるため、ｉｄｆ値は、数式（１）より、０．９２となる。特徴候補“ｔｈｅｂｅｌｏｗ”の単語数は２であるため、重要度は、図６に示すように０．４６となる。

分類に役立たない特徴候補であっても、単語数が多くなればなるほど出現頻度は小さくなる傾向がある。情報処理装置１００は、各特徴候補のｉｄｆ値を単語数で割って正規化することで、単語数が多いだけで分類に役立たない特徴候補についても重要度が大きくなることを抑制できる。

次に、情報処理装置１００は、文書２０ｂ１〜２０ｂｎのそれぞれに含まれる１または複数の特徴候補の重要度を加算して、文書２０ｂ１〜２０ｂｎのそれぞれにおいて、重要度の合計値であるポテンシャル情報量を算出する。

図７は、ポテンシャル情報量の算出結果の一例を示す図である。
ポテンシャル情報量の算出結果５２において、例えば、“ドキュメント１：９．８”は、文書２０ｂ１のポテンシャル情報量が９．８であることを表している。また、“ドキュメント２：３１．８”は、文書２０ｂ２のポテンシャル情報量が３１．８であることを表している。

その後、情報処理装置１００は、文書２０ｂ１〜２０ｂｎを、ポテンシャル情報量が大きい順にソートする。
図８は、ソート結果の一例を示す図である。

ソート結果５３には、“ドキュメント１”、“ドキュメント２”などと表記されている文書２０ｂ１〜２０ｂｎが、ポテンシャル情報量の一番大きい“ドキュメント２”（文書２０ｂ２）から順に配列されている。

次に、情報処理装置１００は、ソート結果５３に基づき、複数の教師データ集合を生成する。
図９は、生成された複数の教師データ集合の一例を示す図である。

図９には、情報処理装置１００が、１０−分割交差検証により、学習モデルの評価値を算出する際に用いる９１個の教師データ集合５４ａ１，５４ａ２，…，５４ａ９１の例が示されている。

教師データ集合５４ａ１には、１０個の文書が、ポテンシャル情報量が大きい順に配列されている。教師データ集合５４ａ１では、一番大きいポテンシャル情報量をもつ“ドキュメント２”が先頭に配列されている。また、教師データ集合５４ａ１では、１０番目に大きいポテンシャル情報量をもつ“ドキュメント９２”が最後尾に配列されている。次に生成される教師データ集合５４ａ２には、１１番目に大きいポテンシャル情報量をもつ“ドキュメント６５”が追加されている。最後に生成される教師データ集合５４ａ９１の最後尾には、最も小さいポテンシャル情報量をもつ“ドキュメント３４”が追加されている。

そして、情報処理装置１００は、例えば、上記のような教師データ集合５４ａ１〜５４ａ９１のそれぞれに基づき機械学習を行う。
まず、情報処理装置１００は、教師データ集合５４ａ１を１０分割することで得られる１０個の分割要素のうち、９個の分割要素を訓練データとして用いて、２つの文書が類似するかどうかを判別する学習モデルを機械学習で生成する。機械学習には、例えば、ＳＶＭ、ニューラルネットワーク、回帰判別などの機械学習アルゴリズムが用いられる。

そして、情報処理装置１００は、１０個の分割要素のうち、１個の分割要素をテストデータとして用いて、学習モデルを評価する。例えば、情報処理装置１００は、テストデータとして用いられる１個の分割要素に含まれる文書について、学習モデルを用いた予測処理によって、その文書が、類似グループに属するか否かを判定する。

情報処理装置１００は、１０個の分割要素のうち、異なる分割要素をテストデータとして用いて、同様の処理を１０回行う。そして、情報処理装置１００は、評価値を算出する。評価値として、例えば、Ｆ値を用いることができる。Ｆ値は、再現率と適合率の平均調和であり、再現率Ｐと適合率Ｒを用いて、数式（３）のように算出される。

再現率は、類似グループに属する文書のうち、学習モデルの評価の際に正しく類似グループに属すると判定された文書の割合である。適合率は、全判定回数に対して、正しく類似グループに属するまたは類似グループに属さないと判定できた回数の割合である。

例えば、教師データ集合５４ａ１に、類似グループに属する文書が７つ含まれていて、学習モデルの評価の際に正しく類似グループに属すると判定された文書が３つである場合には、再現率Ｐは３／７となる。また、１０−分割交差検証による１０回の判定のうち、６回正しい判定結果が得られた場合、適合率Ｒは０．６となる。

同様の処理が、教師データ集合５４ａ２〜５４ａ９１についても行われる。なお、教師データ集合５４ａ２〜５４ａ９１には１１以上の文書が含まれているため、１０−分割交差検証の際には、１０個の分割要素のうち、少なくとも１つの分割要素には２つ以上の文書が含まれることになる。

その後、情報処理装置１００は、評価値が最大となる学習モデルを出力する。
図１０は、教師データ集合に含まれる文書数とＦ値との一例の関係を示す図である。
図１０において、横軸は文書数を表し、縦軸はＦ値を表している。図１０の例では、文書数が５９のときのＦ値が最大となっている。このため、情報処理装置１００は、文書数が５９である教師データ集合に基づき生成された学習モデルを出力する。例えば、１０−分割交差検証の際には、１つの教師データ集合に対して、９個の分割要素を訓練データとして学習モデルが生成され１個の分割処理をテストデータとして評価する処理が１０回行われる。つまり１０個の学習モデルのそれぞれに対して評価が行われるが、正しい値が得られた学習モデルが１つまたは複数出力される。

例えば、学習モデルがニューラルネットワークである場合には、機械学習によって得られるニューラルネットワークの各ノード（ニューロン）間の結合係数などが出力される。学習モデルがＳＶＭで得られたものである場合には、学習モデルに含まれる係数などが出力される。情報処理装置１００は、例えば、通信インタフェース１０７を用いて、学習モデルをネットワーク１１４に接続されている他の情報処理装置に送信する。また、情報処理装置１００は、学習モデルをＨＤＤ１０３に記憶させるようにしてもよい。

上記のような処理を行う情報処理装置１００は、例えば、以下のような機能ブロック図で表せる。
図１１は、情報処理装置の機能例を示す機能ブロック図である。

情報処理装置１００は、教師データ記憶部１２１、学習モデル記憶部１２２、特徴候補抽出部１２３、重要度算出部１２４、情報量算出部１２５、教師データ集合生成部１２６、機械学習部１２７、評価値算出部１２８、学習モデル出力部１２９を有する。教師データ記憶部１２１および学習モデル記憶部１２２は、例えば、ＲＡＭ１０２またはＨＤＤ１０３に確保した記憶領域を用いて実装できる。特徴候補抽出部１２３、重要度算出部１２４、情報量算出部１２５、教師データ集合生成部１２６、機械学習部１２７、評価値算出部１２８、および学習モデル出力部１２９は、例えば、ＣＰＵ１０１が実行するプログラムモジュールを用いて実装できる。

教師データ記憶部１２１は、教師あり機械学習を行うときに用いられる教師データである複数の教師データ要素を記憶する。複数の教師データ要素として、画像や文書などを用いることができる。教師データ記憶部１２１に記憶されたデータは、情報処理装置１００または他の情報処理装置が各種デバイスから収集したものでもよいし、情報処理装置１００または他の情報処理装置に対してユーザが入力したものでもよい。

学習モデル記憶部１２２は、学習モデル出力部１２９が出力した学習モデル（評価値が最大となる学習モデル）を記憶する。
特徴候補抽出部１２３は、教師データ記憶部１２１に記憶された複数の教師データ要素から複数の特徴候補を抽出する。教師データ要素が文書のとき、特徴候補は、例えば図４に示したように、単語または単語の組み合わせである。

重要度算出部１２４は、複数の特徴候補の全教師データ要素における出現頻度に基づく重要度を複数の特徴候補のそれぞれについて算出する。前述したように、重要度は、例えば、ｉｄｆ値や相互情報量に基づいて算出される。重要度は、例えば図５に示したように、ｉｄｆ値を特徴候補の長さ（単語数）で正規化したものであってもよい。

情報量算出部１２５は、複数の教師データ要素のそれぞれに含まれる１または複数の特徴候補の重要度を積算して、複数の教師データ要素のそれぞれにおける重要度の合計値であるポテンシャル情報量を算出する。教師データ要素が文書の場合、例えば図７に示したようなポテンシャル情報量の算出結果５２が得られる。

教師データ集合生成部１２６は、ポテンシャル情報量が大きい順に教師データ要素をソートする。そして、ポテンシャル情報量が大きい順に１つずつ追加して得られる複数の教師データ集合を生成する。教師データ要素が文書の場合、例えば図９に示したような教師データ集合５４ａ１〜５４ａ９１が得られる。

機械学習部１２７は、複数の教師データ集合のそれぞれに基づき機械学習を行う。例えば、機械学習部１２７は、複数の教師データ集合のそれぞれに基づき、２つの文書が類似するかどうかを判別する学習モデルを機械学習で生成する。

評価値算出部１２８は、機械学習で生成された学習モデルの性能の評価値を算出する。評価値算出部１２８は、評価値として、例えば、Ｆ値を算出する。
学習モデル出力部１２９は、評価値が最大となる学習モデルを出力する。例えば、図１０に示した例では、文書数が５９の教師データ集合に基づき生成された学習モデルの評価値（Ｆ値）が最大になっているため、この学習モデルを出力する。学習モデル出力部１２９が出力した学習モデルは、学習モデル記憶部１２２に記憶されてもよいし、情報処理装置１００の外部に出力されてもよい。

図１２は、第２の実施の形態の情報処理装置による情報処理の一例の流れを示すフローチャートである。
（Ｓ１０）特徴候補抽出部１２３は、教師データ記憶部１２１に記憶された複数の教師データ要素から複数の特徴候補を抽出する。

（Ｓ１１）重要度算出部１２４は、ステップＳ１０の処理で抽出された複数の特徴候補の全教師データ要素における出現頻度に基づき、機械学習における重要度を複数の特徴候補のそれぞれについて算出する。

（Ｓ１２）情報量算出部１２５は、ステップＳ１１の処理で算出された、複数の教師データ要素のそれぞれに含まれる１または複数の特徴候補の重要度を積算して、複数の教師データ要素のそれぞれにおける重要度の合計値であるポテンシャル情報量を算出する。

（Ｓ１３）教師データ集合生成部１２６は、ステップＳ１２の処理で算出されたポテンシャル情報量が大きい順に教師データ要素をソートする。
（Ｓ１４）教師データ集合生成部１２６は、ステップＳ１３の処理でソートした教師データ要素を、ポテンシャル情報量が大きい順に１つずつ追加して得られる複数の教師データ集合を生成する。評価値を算出する際に１０−分割交差検証が行われる場合には、教師データ集合に含まれる教師データ要素の数の初期値は１０以上である。

（Ｓ１５）機械学習部１２７は、複数の教師データ集合から、例えば、教師データ要素の少ない順に１つずつ教師データ集合を選択する。
（Ｓ１６）機械学習部１２７は、選択した教師データ集合に基づき機械学習を行い、学習モデルを生成する。機械学習部１２７は、例えば、選択した１つの教師データ集合に基づき機械学習を行い、学習モデルを生成する。

（Ｓ１７）評価値算出部１２８は、機械学習で生成された学習モデルの性能の評価値を算出する。評価値算出部１２８は、評価値として、例えば、Ｆ値を算出する。
（Ｓ１８）学習モデル出力部１２９は、前回選択された教師データ集合に基づき生成された学習モデルの評価値よりも、今回選択された教師データ集合に基づき生成された学習モデルの評価値が悪化したか否かを判定する。評価値が悪化していないときには、ステップＳ１５からの処理が繰り返される。評価値が悪化したときには、ステップＳ１９の処理が行われる。

（Ｓ１９）評価値が悪化したとき（評価値が悪化する学習モデルを検出したとき）、学習モデル出力部１２９は、前回選択された教師データ集合に基づき生成された学習モデルを、評価値が最大の学習モデルであるとして出力し、処理（機械学習処理）を終了する。出力された学習モデルに対して、未知のデータ（文書や画像など）が入力されると、例えば、そのデータが類似グループに属するか否か、などの結果が得られる。

なお、図１２に示されている処理では、教師データ要素の少ない順に選択された教師データ集合に基づき生成された学習モデルの評価値が順番に算出されていったときに、一旦評価値が悪化したら、そのまま悪化し続けるものと仮定されている。

なお、ステップＳ１４の処理で、教師データ集合生成部１２６は、図９に示したような全ての教師データ集合５４ａ１〜５４ａ９１を一度に生成しなくてもよい。例えば、教師データ集合生成部１２６は、教師データ集合５４ａ１〜５４ａ９１を１つずつ生成し、１つ生成するごとに、ステップＳ１６〜Ｓ１８の処理が行われるようにしてもよい。その場合、評価値が悪化した時点で、教師データ集合生成部１２６は、教師データ集合の生成を停止するようにしてもよい。

また、情報処理装置１００、同様の機械学習を複数回行う際に、前回の機械学習で評価値が最大となり出力された学習モデルを生成するために用いられた教師データ集合に含まれる文書群のポテンシャル情報量を参照してもよい。その場合、情報処理装置１００は、その教師データ集合に含まれる文書群のポテンシャル情報量と同様のポテンシャル情報量をもつ文書群を含む教師データ集合を用いて学習モデルを生成および評価して、評価値が最大の学習モデルを検出するようにしてもよい。これにより、学習時間を短縮できる。

また、ステップＳ１６，Ｓ１７の処理は、情報処理装置１００とは異なる外部の情報処理装置が行ってもよい。その場合、情報処理装置１００は、外部の情報処理装置から評価値を取得して、ステップＳ１８の処理を行う。

以上のような第２の実施の形態の情報処理装置によれば、ポテンシャル情報量の大きい教師データ要素が優先的に選択された教師データ集合に基づいて機械学習を行うことが可能となる。これにより特徴の弱い（ポテンシャル情報量が小さい）不適切な教師データ要素を除外でき学習精度を向上できる。

また、情報処理装置１００によれば、ポテンシャル情報量の大きい教師データ要素が優先的に集められた教師データ集合に基づいた機械学習により生成される学習モデルが出力される。例えば、図１０の例では、含まれる文書数が５９である教師データ集合の各文書よりもポテンシャル情報量の小さい文書を含む教師データ集合（文書数が６０〜１００であるもの）に基づいて生成された学習モデルは出力されない。情報処理装置１００では、このようなポテンシャル情報量が小さい教師データ要素（文書）が除外されるため、精度のよい学習モデルが得られる。

また、図１２に示したように、情報処理装置１００は、評価値が悪化した時点で機械学習を終了することで、学習時間を短縮できる。
なお、前述のように、第１の実施の形態の情報処理は、情報処理装置１０にプログラムを実行させることで実現できる。第２の実施の形態の情報処理は、情報処理装置１００にプログラムを実行させることで実現できる。

プログラムは、コンピュータ読み取り可能な記録媒体（例えば、記録媒体１１３）に記録しておくことができる。記録媒体として、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどを使用できる。磁気ディスクには、ＦＤおよびＨＤＤが含まれる。光ディスクには、ＣＤ、ＣＤ−Ｒ（Recordable）／ＲＷ（Rewritable）、ＤＶＤおよびＤＶＤ−Ｒ／ＲＷが含まれる。プログラムは、可搬型の記録媒体に記録されて配布されることがある。その場合、可搬型の記録媒体から他の記録媒体（例えば、ＨＤＤ１０３）にプログラムをコピーして実行してもよい。

１０情報処理装置
１１記憶部
１２制御部
２０ａ１〜２０ａｎ教師データ要素
２１ａ，２１ｂ，２１ｃ教師データ集合
２２ａ，２２ｂ，２２ｃ学習モデル

Claims

複数の教師データ要素を記憶する記憶部と、
前記複数の教師データ要素から、それぞれが前記複数の教師データ要素のうちの１つ以上に含まれている複数の特徴候補を抽出し、
前記複数の教師データ要素における前記複数の特徴候補それぞれの出現頻度に基づいて、機械学習における前記複数の特徴候補それぞれの重要度を算出し、
前記複数の教師データ要素それぞれに含まれる特徴候補に対して算出された前記重要度を用いて、前記複数の教師データ要素それぞれの情報量を算出し、
前記複数の教師データ要素それぞれの前記情報量に基づいた順序により、前記複数の教師データ要素の中から機械学習に使用する教師データ要素を追加して得られる複数の教師データ集合を生成し、
前記複数の教師データ集合の何れかを選択する処理を、選択した教師データ集合を用いた機械学習の結果が所定の条件を満たすまで繰り返す制御部と、
を有する情報処理装置。
前記使用する教師データ要素の選択では、前記情報量が大きい方から所定個の教師データ要素または前記情報量が閾値以上である教師データ要素を選択する、
請求項１記載の情報処理装置。
前記使用する教師データ要素の選択では、第１の教師データ要素を含み前記第１の教師データ要素より前記情報量の小さい第２の教師データ要素を含まない第１の教師データ集合と、前記第１および第２の教師データ要素を含む第２の教師データ集合とを生成し、
前記制御部はさらに、前記第１の教師データ集合を用いて実行された第１の機械学習の結果と前記第２の教師データ集合を用いて実行された第２の機械学習の結果とを取得し、前記第１および第２の機械学習の結果に基づいて、機械学習の結果が前記所定の条件を満たすような前記複数の教師データ要素の部分集合を探索する、
請求項１記載の情報処理装置。
コンピュータが実行する情報処理方法であって、
複数の教師データ要素から、それぞれが前記複数の教師データ要素のうちの１つ以上に含まれている複数の特徴候補を抽出し、
前記複数の教師データ要素における前記複数の特徴候補それぞれの出現頻度に基づいて、機械学習における前記複数の特徴候補それぞれの重要度を算出し、
前記複数の教師データ要素それぞれに含まれる特徴候補に対して算出された前記重要度を用いて、前記複数の教師データ要素それぞれの情報量を算出し、
前記複数の教師データ要素それぞれの前記情報量に基づいた順序により、前記複数の教師データ要素の中から機械学習に使用する教師データ要素を追加して得られる複数の教師データ集合を生成し、
前記複数の教師データ集合の何れかを選択する処理を、選択した教師データ集合を用いた機械学習の結果が所定の条件を満たすまで繰り返す、
情報処理方法。
コンピュータに、
複数の教師データ要素から、それぞれが前記複数の教師データ要素のうちの１つ以上に含まれている複数の特徴候補を抽出し、
前記複数の教師データ要素における前記複数の特徴候補それぞれの出現頻度に基づいて、機械学習における前記複数の特徴候補それぞれの重要度を算出し、
前記複数の教師データ要素それぞれに含まれる特徴候補に対して算出された前記重要度を用いて、前記複数の教師データ要素それぞれの情報量を算出し、
前記複数の教師データ要素それぞれの前記情報量に基づいた順序により、前記複数の教師データ要素の中から機械学習に使用する教師データ要素を追加して得られる複数の教師データ集合を生成し、
前記複数の教師データ集合の何れかを選択する処理を、選択した教師データ集合を用いた機械学習の結果が所定の条件を満たすまで繰り返す、
処理を実行させるプログラム。