JP5676692B2

JP5676692B2 - 機械学習装置、機械学習方法、およびプログラム

Info

Publication number: JP5676692B2
Application number: JP2013127850A
Authority: JP
Inventors: 伸幸清水
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2013-06-18
Filing date: 2013-06-18
Publication date: 2015-02-25
Anticipated expiration: 2033-06-18
Also published as: JP2015001968A

Description

本発明は、機械学習による分類精度を向上させる機械学習装置等に関するものである。

従来の機械学習装置において、正例のデータと負例のデータを用いて機械学習を行う機械学習装置等が開発されている（例えば、特許文献１参照）。

特開２０１３−０２５３９８号公報

従来、正解データである正例のデータと、正解か不正解か分からないデータであり、正例より数の多いデータである負例のデータとを用いて機械学習を行う機械学習装置において、機械学習に用いるデータに含まれない特徴を有する分類対象のデータを分類する場合に、その分類対象のデータは、機械学習によって得られた情報を用いて適切に分類できないという課題があった。

上記課題に対し、本発明の目的は、機械学習に用いるデータに含まれない特徴を有する分類対象のデータであっても、機械学習によって得られた情報を用いて、より適切に分類できるようにすることである。

本第一の発明の機械学習装置等は、正解データ集合Ｐに含まれる正解データｐを正例のデータとして扱い、正解データ集合Ｐ’に含まれる正解データｐ’および不正解データ集合Ｎに含まれる不正解データｎが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習装置であって、学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習装置である。

また、本第二の発明の機械学習装置は、第一の発明に対して、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合を有し、スコアは、分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合とを用いて算出される値であり、学習に用いるそれぞれの正解データｐの素性の０でない各要素の値と、要素に対応する重み情報とを掛け合わせて算出される正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である制限情報を設定する制限情報設定手段と、制限情報と学習データ集合に含まれる学習データとを用いて、学習結果情報を作成する機械学習手段とを具備する、機械学習装置である。

また、本第三の発明の機械学習装置は、第二の発明に対して、ランキング学習は、所定の値よりスコアが大きい場合に正例と分類されるようにする機械学習であり、制限情報設定手段は、正例部分スコアが正の値になるように、制限情報を設定する、機械学習装置である。

また、本第四の発明の機械学習装置は、第三の発明に対して、学習データ集合に含まれる各学習データが有する素性の要素の値は、すべて０以上であり、制限情報設定手段は、学習に用いるそれぞれの正解データｐの素性の０でない各要素の値と、要素に対応するすべての重み情報が正の値になるように制限情報を設定する、機械学習装置である。

また、本第五の発明の機械学習装置は、第一から第四のいずれか一項の発明に対して、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合と、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報とを含み、分類対象データを受け付ける分類対象データ受付手段と、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の代表値に設定する重み設定手段と、分類対象データ受付手段が受け付けた分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合と、学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出し、分類対象データを分類する分類手段とを具備する、機械学習装置である。

また、本第六の発明の機械学習装置は、第五の発明に対して、重み設定手段は、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の中央値に設定する、機械学習装置である。

また、本第七の発明の機械学習装置は、第五の発明に対して、重み設定手段は、非共通素性要素重み情報を、学習結果情報に含まれる重み情報の平均値に設定する、機械学習装置である。

また、本第八の発明の機械学習装置は、第五から第七の発明に対して、重み設定手段は、分類手段によって正例に分類された未学習要素保有データのスコアが負例寄りになるように、非共通素性要素重み情報を調整する、いずれか一項記載の機械学習装置である。

また、本第九の発明の機械学習装置は、第八の発明に対して、分類対象データ受付手段は、学習データ集合に含まれる一部の学習データである分類対象データの集合である分類対象データ集合を、少なくとも１以上の分類対象データが異なるように繰り返し受け付け、分類手段は、分類対象データ受付手段が受け付けた分類対象データ集合ごとに、分類対象データ集合に含まれる分類対象データを、学習データ集合に含まれる学習データのうち、分類対象データ集合に含まれる分類対象データ以外の学習データを用いて作成された学習結果情報を用いて分類し、重み設定手段は、分類手段によって、未学習要素保有データが正例に分類されるごとに、非共通素性要素重み情報を調整する、機械学習装置である。

また、本第十の発明の機械学習方法は、正解データ集合Ｐに含まれる正解データｐを正例のデータとして扱い、正解データ集合Ｐ’に含まれる正解データｐ’および不正解データ集合Ｎに含まれる不正解データｎが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習方法であって、学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習方法である。

また、本第十一の発明の機械学習方法は、第十の発明に対して、制限情報設定手段と、機械学習手段とを用いて処理される機械学習方法であって、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合を有し、スコアは、分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合とを用いて算出される値であり、制限情報設定手段が、学習に用いるそれぞれの正解データｐの素性の０でない各要素の値と、要素に対応する重み情報とを掛け合わせて算出される正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である制限情報を設定する制限情報設定ステップと、機械学習手段が、制限情報と学習データ集合に含まれる学習データとを用いて、学習結果情報を作成する機械学習ステップとを具備する、機械学習方法である。

また、本第十二の発明の機械学習方法は、第十または第十一項の発明に対して、分類対象データ受付手段と、重み設定手段と、分類手段とを用いて処理される機械学習方法であって、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合と、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報とを含み、分類対象データ受付手段が、分類対象データを受け付ける分類対象データ受付ステップと、重み設定手段が、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の代表値に設定する重み設定ステップと、分類手段が、分類対象データ受付ステップで受け付けた分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合と、学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出し、分類対象データを分類する分類ステップとを具備する、機械学習方法である。

本発明による機械学習装置等によれば、機械学習に用いるデータに含まれない特徴を有する分類対象のデータであっても、機械学習によって得られた情報を用いて、より適切に分類できる。

実施の形態１における機械学習装置のブロック図ＰＵ学習におけるランキング学習結果を用いた二値分類の一例を示す図同実施の形態における制限情報設定手段による処理の結果の一例を示す図同実施の形態における重み設定手段による処理の結果の一例を示す図同実施の形態における機械学習装置の動作の一例を示すフローチャート同実施の形態におけるコンピュータシステムの外観の一例を示す図同実施の形態におけるコンピュータシステムの構成の一例を示す図

以下、機械学習装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、正解データを正例のデータと扱い、正解か不正解かが不明なデータを負例と扱う機械学習であるＰＵ学習（ＰｏｓｉｔｉｖｅＵｎｌａｂｅｌｅｄ学習）時に，学習データに含まれていなかった素性の要素を有するデータを分類する場合に、そのデータの分類に使用する値であるスコアを下げる調整を行う機械学習装置１について説明する。なお、本実施の形態では、ＰＵ学習は、正例のデータより、負例のデータの方が多い学習である。

図１は、本実施の形態における機械学習装置１のブロック図である。機械学習装置１は、学習データ格納手段１０１、制限情報設定手段１０２、学習結果情報格納手段１０３、機械学習手段１０４、分類対象データ受付手段１０５、重み設定手段１０６、分類手段１０７を備える。

学習データ格納手段１０１には、学習データ集合が格納される。学習データ格納手段１０１に格納される学習データ集合は、正例のデータの数が負例のデータの数よりも少ない学習データの集合である。正例および負例は、二値分類を学習する機械学習において、二値の一方、および他方を示す概念である。正例および負例は、二値に分けるために便宜上用いられている名称であるため、学習されるデータの内容とは関係しても良く、関係しなくても良い。なお、正例は、正解、Ｐｏｓｉｔｉｖｅ、またはＴｒｕｅ等と記載される。負例は、不正解、Ｎｅｇａｔｉｖｅ、またはＦａｌｓｅ等と記載される。正解データおよび不正解データの内容、または用語等は、学習の事例によって異なる。例えば、ユーザに対して有効な広告を機械学習する事例の場合は、ユーザにクリックされた広告を示す情報を正解データとし、クリックされなかった広告を示す情報を不明データとしても良い。なお、この場合の不明データは、正解データ、または不正解データのどちらのデータか分類されていないデータである。例えば、不明データの正解データは、ユーザにとって興味のある広告を示す情報であるのに、何かの事情でクリックされなかった広告を示す情報であっても良い。また、不明データの不正解データは、ユーザにとって興味の無い広告を示す情報であっても良い。なお、機械学習手段１０４で行う機械学習は、学習データ集合が有する正解データ集合Ｐに含まれる正解データｐを正例のデータとして扱い、学習データ集合が有する正解データ集合Ｐ’に含まれる正解データｐ’および学習データ集合が有する不正解データ集合Ｎに含まれる不正解データｎが混在した不明データを負例のデータとして扱うランキング学習である。ここでいう混在とは、正解データｐ’および不正解データｎが、それぞれいくつずつ含まれているか分からない状態であることを示しているものとする。

ランキング学習は、学習データどうしの順位を学習することで、分類対象データの順位を推定するためのスコアを算出できるようにする機械学習である。ランキング学習は、正例、または負例のどちらか一方のデータのスコアが、他方のデータのスコアより高くなるように学習を行う。一般的なランキング学習では、正例のスコアの方が負例のスコアより高くなるように学習を行う。また、ランキング学習は、ＡＵＣを最適化する機械学習である。ＡＵＣは、Ａｒｅａｕｎｄｅｒｔｈｅｃｕｒｖｅ（曲線下面積）の略であり、分類器が分類した際の精度を示す指標である。なお、ＡＵＣは、０．０から１．０の間の値をとり、１．０に近いほど分類精度が高いことを示す。なお、ＡＵＣの値は、テストデータをランダムに分類する分類器の場合は、０．５となる。ＡＵＣは公知であるため、その詳細な説明は省略する。なお、分類対象データとは、学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いて分類されるデータのことである。機械学習は、学習データ集合に含まれる学習データの少なくとも一部を用いて行う。そのため、分類対象データは、学習データ集合に含まれる学習に用いた学習データであっても良く、学習データ集合に含まれる学習に用いていない学習データであっても良く、それら以外のデータであっても良い。

スコアは、分類対象データを、正例または負例に分類するために用いられる値である。また、スコアは、分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合とを用いて算出される値である。素性は、機械学習に用いるデータの特徴である。例えば、｛性別：１，年齢：２０，身長：１６５，・・・｝といった人物の特徴を示すデータ、および、｛特許：３，公報：２，情報：２３，・・・｝といった文書内に含まれる形態素の出現回数で文書の特徴を示すデータがある場合に、本実施の形態では、「性別」や「年齢」、および「特許」や「公報」等を素性の要素といい、それぞれの素性の要素に対応する値を素性の要素の値ということとした。例えば、『素性の要素「身長」の値は、「１６５」である』という。なお、学習データ、および分類対象データは、ベクトルを用いて表現できる。例えば、上記例は、（１，２０，１６５，・・・）、および、（３，２，２３）のように表現できる。素性、および素性を用いた機械学習は、公知技術であるため、詳細な説明を省略する。

重み集合は、ランキング学習によって作成された学習結果情報に含まれる重み情報の集合のことである。重み情報は、機械学習によって算出された値であり、学習に用いた学習データの素性のすべての要素それぞれに対応する重みを示す値である。例えば、正例のデータの素性の要素の値がすべて正の値であり、正例のデータのスコアが、負例のデータより高くなる機械学習の場合に、重み情報は、多くの正例のデータで大きな値を有する素性の要素に対応する重み情報ほど大きな値になる情報である。

以下、任意の素性の要素をｘ_ｉと記載することもある。また、ｘ_ｉに対応する重み情報をｗ_ｉと記載することもある。このｉは、素性の要素の数の範囲で変化する変数であり、ｘ_ｉはｉ番目の素性の要素を示す。ランキング学習の一般的なスコアは、要素の値とその要素に対応する重み情報が示す値との積を算出し、分類対象データに含まれるすべての要素について、その積の値を合計した値である。具体的には、スコアは、Σ_ｉ＝１ ^{（素性の要素の数）}（ｗ_ｉ×ｘ_ｉ）のようにして算出される。なお、スコアは、その積の値にＲを四則演算することで、補正した値であっても良い。また、Ｒは任意の実数であるものとする。以下、ｗ_ｉ×ｘ_ｉを部分スコアともいう。

ランキング学習のスコアを用いて二値分類を行う場合は、機械学習に用いた学習データ集合に含まれる正例のデータおよび負例のデータを、誤って分類しないように分けることができるスコアの境界を用いて二値分類を行っても良い。「誤って分類しないように分けることができるスコアの境界」は、例えば、誤って分類されるデータの数が最小になるスコアの境界であっても良く、正例のデータ、または負例のデータのどちらか一方を誤りなく分類なく分けることができるスコアの境界であっても良い。なお、ランキング学習の詳細は、公知技術であるため、説明を省略する。

また、スコアが大きいほど正例と判断されやすい二値分類を行うランキング学習によって作成された学習結果を用いた分類のイメージを図２に示す。図２では、分類に用いたデータのうち、正解データｐと類似するデータの集合をｓＰ、正解データｐ’と類似するデータの集合をｓＰ’、不正解データｎと類似するデータの集合をｓＮ、学習データ集合に含まれるいずれのデータにも類似しないデータの集合をＺとした。「正解データｐと類似するデータ」は、正解データｐの素性のベクトルとコサイン類似度等の類似度が高い素性のベクトルを有するデータであり、結果として正解データｐと同じようなスコアが算出されるデータである。「正解データｐ’と類似するデータ」および「不正解データｎと類似するデータ」についても、それぞれ同様であるものとする。「学習データ集合に含まれるいずれのデータにも類似しないデータ」は、例えば、学習に用いた、いずれの学習データにも含まれない素性の要素を有するデータであっても良く、学習データの素性のベクトルとコサイン類似度等の類似度が低い素性のベクトルを有するデータであっても良い。なお、コサイン類似度等のベクトルの類似度を図る方法は、公知技術であるため、説明は省略する。以下、「学習に用いた、いずれの学習データにも含まれない素性の要素」を非共通素性要素ともいうものとする。非共通素性要素は、例えば、文書から抽出された形態素を素性の要素にして構成された学習データ、および分類データを用いる場合では、学習データに対応する文書には記載されていない形態素で、かつ、分類データに対応する文書には記載されている形態素が、非共通組成要素である。以下、非共通素性要素を有する分類対象データを未学習要素保有データともいうものとする。なお、未学習要素保有データは、ＵｎｓｅｅｎＦｅａｔｕｒｅと言い換えても良い。また、図２の集合ｓＰには、正解データｐが含まれていても良く、集合ｓＰ’には、正解データｐ’が含まれていても良く、集合ｓＮには、不正解データｎが含まれていても良い。また、図２では、説明の都合上横軸方向にもデータが配置される二次元のグラフのように示しているが、実際には、縦方向のみの一次元のグラフであるものとする。

制限情報設定手段１０２は、制限情報を設定する。制限情報は、機械学習手段１０４で用いられる情報であり、機械学習における重み情報の値の設定範囲を制限する情報である。制限情報は、学習に用いるそれぞれの正解データｐの素性の０でない各要素の値と、その要素に対応する重み情報とを掛け合わせて算出される部分スコアである正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である。「学習に用いるそれぞれの正解データｐの素性の０でない」要素は、学習に用いるすべての正解データｐの素性の要素の値において、０以外の値と対応する素性の要素である。以下、この素性の要素１つずつを正例要素とも記載する。

制限情報設定手段１０２は、上述のように、正例要素とその正例要素に対応する重み情報から算出される正例部分スコアの符号を、正例と判断されるスコアと同じ符号にすることで、正解データｐと正解データｐに類似するデータを正例と判断されやすくする制限を設定する。つまり、制限情報設定手段１０２は、図３のように集合ｓＰと集合ｓＰ’のスコアを上昇させることで、集合Ｚに含まれるデータを負例と判断されやすくする制限を設定する。なお、ここで、集合ｓＰ’のスコアが上昇するのは、正解データｐと正解データ’とは、データの属性が類似する可能性が高いと考えられるからである。

「正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるよう」な制限情報は、例えば、スコアの値が大きいほど正例と判断されるランキング学習の場合は、正例部分スコアの符号がプラスになるように、正例要素に対応する重みの符号を制限する情報であっても良く、スコアの値が小さいほど正例と判断されるランキング学習の場合は、正例部分スコアの符号がマイナスになるように、正例要素に対応する重みの符号を制限する情報であっても良い。具体的には、制限情報は、スコアが高いほど正例と判断され得る場合に、学習時に算出された最も高いスコアの符号と、ｘ_ｉ×ｗ_ｉの符号が同じになるように制限する情報であっても良く、スコアが低いほど正例と判断され得る場合に、学習時に算出された最も低いスコアの符号と、ｘ_ｉ×ｗ_ｉの符号が同じになるように制限する情報であっても良い。

以下、スコアの値が大きいほど正例と判断されるランキング学習の場合について、主に説明するものとする。ランキング学習が、所定の値よりスコアが大きい場合に正例と分類されるようにする機械学習である場合には、制限情報設定手段１０２は、正例部分スコアが正の値になるように、制限情報を設定しても良い。例えば、この場合であって、学習データ集合に含まれる各学習データが有する素性の要素の値がすべて０以上であるときは、制限情報は、各正例要素に対応するすべての重み情報が正の値になるように制限する情報であっても良い。つまり、制限情報は、すべてのｘ_ｉが正の数である場合は、正例要素に対応するすべてのｗ_ｉも正の値になるよう制限する情報であっても良い。例えば、文書内に出現する形態素を素性の要素にし、その形態素の出現回数が素性の要素の値とした場合等は、上記のようにすべてのｘ_ｉが正の数となる。また、すべてのｘ_ｉが正の数である場合の制限情報は、ｗ_ｉの値を、０より大きな実数ｄより大きな値に制限する情報であっても良い。なお、このｄは、経験則上小さな値であることが好適である。

学習結果情報格納手段１０３には、学習結果情報が格納される。学習結果情報格納手段１０３には、機械学習手段１０４が作成した学習結果情報が格納されることが好適であるが、図示しない受付部を介して、図示しない処理部、または外部の装置で作成された学習結果情報が格納されても良い。

機械学習手段１０４は、制限情報と学習データ集合に含まれる一部、または全部の学習データとを用いて、学習結果情報を作成する。機械学習手段１０４が行う機械学習は、ランキング学習である。学習結果情報は、上述のように学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報を含む重み集合を有する情報である。なお、制限情報で示されるような制限を用いて機械学習を行う方法は、例えば、制限を設けた最適化問題を解く方法と同様の方法と考えることもでき、そのような方法は公知技術であるため、詳細な説明を省略する。

なお、学習結果情報は、その重み集合以外に、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報を含んでいても良い。非共通素性要素重み情報は、機械学習時に取得された重み情報以外の重み情報である。非共通素性要素重み情報は、例えば、（ｘ_１，ｘ_２，・・・ｘ_ｎ）のような素性の要素が機械学習時に取得された場合に、学習時に取得されなかったｎ＋１番目以降の素性の要素であるｘ_ｎ＋ｊに対応する重み情報である。なお、ｊは、１以上の自然数である。非共通素性要素重み情報は、マスタのように１のみ存在する情報であっても良く、分類の際に非共通素性要素が取得されるごとに追加される情報であっても良い。非共通素性要素重み情報が「マスタのように１のみ存在する情報」の場合は、非共通組成要素重み情報は、学習結果情報に１だけ含まれる情報である。この場合で、例えば分類対象データ（ｘ_１，ｘ_２，・・・ｘ_ｎ，ｘ_ｎ＋１，ｘ_ｎ＋２）のスコアを算出するとき、非共通素性要素重み情報は、ｘ_ｎ＋１，ｘ_ｎ＋２両方に対応する重みとして用いられる。非共通素性要素重み情報が「分類の際に非共通素性要素が取得されるごとに追加される情報」の場合は、非共通組成要素重み情報は、新たな非共通素性要素が取得されるごとに増加する情報である。この場合で、例えば分類対象データ（ｘ_１，ｘ_２，・・・ｘ_ｎ，ｘ_ｎ＋１，ｘ_ｎ＋２）のスコアを算出するとき、学習結果情報には、新たに、非共通素性要素重み情報ｗ_ｎ＋１とｗ_ｎ＋２とが追加される。追加された非共通素性重み情報は、ｘ_ｎ＋１に対応するｗ_ｎ＋１、およびｘ_ｎ＋２に対応するｗ_ｎ＋２のようにして用いられる。なお、この場合であっても、ｗ_ｎ＋１、ｗ_ｎ＋２、およびｗ_ｎ＋３以降の非共通素性重み情報の値は、すべて同じ値である。非共通素性要素重み情報は、未学習要素保有データが負例に分類されやすい制限が行われることが好適である。なぜなら、ＰＵ学習の結果を用いた分類の場合は、分類対象データは、負例のデータである確率の方が高いため、非共通素性要素重み情報を負例寄りになるよう調整を行うことが分類精度を上げることにつながると考えられるからである。なお、これまでの機械学習の場合は、非共通素性要素重み情報は、０に設定され、非共通素性要素の値は、分類時に考慮されていなかった。そのため、非共通組成重み情報を調整することは、分類精度を向上するための要素になり得ると考えられる。なお、学習手段１０４は、学習結果情報を学習結果情報格納手段１０３に格納しても良い。

分類対象データ受付手段１０５は、分類対象データを受け付ける。分類対象データ受付手段１０５は、分類対象データを１ずつ受け付けても良く、１以上の分類対象データである分類対象データ集合を受け付けても良い。分類対象データ受付手段１０５は、学習データ格納手段１０１、またはそれ以外の格納手段に格納されている学習データ集合に含まれる一部の学習データを分類対象データとして受け付けても良く、図示しない格納手段や外部の格納手段等から分類対象データを受け付けても良い。

重み設定手段１０６は、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の代表値に設定する。代表値は、重み集合の平均値であっても良く、重み集合の中央値であっても良く、重み集合の最頻値であっても良い。なお、代表値には、最小値、および最大値のような端点は含まれないものである。

なお、重み設定手段１０６は、分類手段１０７によって正例に分類された未学習要素保有データのスコアが負例寄りになるように、非共通素性要素重み情報を調整する。重み設定手段１０６が行う調整は、重み集合の代表値、または以前に調整された非共通素性要素重み情報の値に対して、−Ｍ×Ｓを加えることであっても良く、あらかじめ決められた負の数の列を順番に加えることであっても良い。なお、Ｍは、任意の自然数を示し、Ｓは任意の正の実数を示すものとする。また、Ｍは、重み設定手段１０６によって調整された回数等であっても良い。重み設定手段１０６は、同じ未学習要素保有データが、非共通素性要素重み情報を調整した後にも正例に分類された場合は、再度調整を行っても良く、行わなくても良い。なお、重み設定手段１０６は、あらかじめ決められた条件を満たすまで調整を続けても良い。あらかじめ決められた条件は、例えば、すべての未学習要素保有データが負例に分類されることであっても良く、調整があらかじめ決められた回数行われることであっても良く、非共通組成要素重み情報の値があらかじめ決められた閾値より小さくなることであっても良く、正例に分類される未学習要素保有データの数があらかじめ決められた個数以下になることであっても良く、正例に分類される未学習要素保有データの数があらかじめ決められた割合以下になることであっても良い。例えば、図４は、重み設定手段１０６によって、非共通素性要素重み情報の値の設定や調整がされた学習結果を用いた分類結果を示している。そのような設定や調整が行われることで、図４で示されるように、集合Ｚに含まれる未学習要素保有データのスコアが下がり、すべての未学習要素保有データが負例に分類されている。上記設定や調整が行われることで、未学習要素保有データのスコアが下がるのには、２点の理由がある。１点目の理由は、本実施の形態におけるＰＵ学習では、負例のデータの方が正例のデータより多いため、重み集合の代表値が低い値になり、非共通素性要素を用いて算出した部分スコアの値が下がると考えられるからである。２点目の理由は、未学習要素保有データが正例に分類された場合に、未学習要素保有データのスコアを下げるように、非共通素性要素重み情報の値を調整するからである。

分類手段１０７は、分類対象データ受付手段１０５が受け付けた分類対象データのスコアを算出し、そのスコアを用いて分類する。なお、分類手段１０７は、分類対象データ受付手段１０５が受け付けた分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合と、学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出する。また、分類手段１０７は、分類する分類対象データが、未学習要素保有データかどうかを判断しても良い。この場合は、分類手段１０７は、０でない非共通素性要素の値を少なくとも有する分類対象データを未学習要素保有データと判断しても良い。分類手段１０７が未学習要素保有データを正例に分類した場合は、分類手段１０７は、重み設定手段１０６に通知し、非共通素性要素重み情報が調整されるようにしても良い。なお、分類手段１０７は、非共通素性要素重み情報が調整されるきっかけとなった、正例に分類された未学習要素保有データを、調整後の非共通素性要素重み情報を用いて再度分類しても良い。

なお、本実施の形態では、交差検証を行うことで、非共通素性要素重み情報の値を調整しても良い。以下、交差検証を行う場合について説明する。交差検証とは、１のデータの集合を、学習に用いるデータの集合と分類に用いるデータの集合とに分け、その分け方を変えながら、学習、分類、評価、調整を繰り返して分類精度を向上させる手法である。

分類対象データ受付手段１０５は、学習データ集合に含まれる一部の学習データである分類対象データの集合である分類対象データ集合を、少なくとも１以上の分類対象データが異なるように繰り返し受け付けても良い。交差検証を行う場合の分類対象データ受付手段１０５は、分類対象データを繰り返し受け付ける際に、毎回同じ学習データ集合から分類対象データ集合を受け付けるものとする。この場合に、分類対象データ受付手段１０５が受け付けなかった、その学習データの集合に含まれる学習データは、受け付けた分類対象データを分類するための学習結果情報を作成する際の学習データとして用いられる。分類対象データ受付手段１０５が受け付ける分類対象データは、図示しない処理手段によって分割された、学習データ集合の一部であっても良く、人手で分割された学習データ集合の一部であっても良い。なお、ここでいう学習データ集合は、学習データ格納手段１０１に格納されている学習データ集合であっても良く、図示しない格納手段、または外部の格納装置に格納されている学習データ集合であっても良い。図示しない格納手段、または外部の格納装置に学習データ集合が格納されている場合は、分類対象データ受付手段１０５が受け付けなかった学習データを学習データ格納手段１０１に蓄積する図示しない処理部によって、学習データ格納手段１０１に学習データ集合が蓄積されるものとする。なお、分類対象データ受付手段１０５は、受け付けた分類対象データの集合を記憶することで、２回目以降の受け付けの際には、少なくとも一部が異なる分類対象データの集合を受け付けるようにしても良い。

分類手段１０７は、分類対象データ受付手段１０５が受け付けた分類対象データ集合ごとに、その分類対象データ集合に含まれる分類対象データを、学習データ集合に含まれる学習データのうち、その分類対象データ集合に含まれる分類対象データ以外の学習データを用いて作成された学習結果情報を用いて分類しても良い。そして、重み設定手段１０６は、分類手段１０７によって、未学習要素保有データが正例に分類されるごとに、非共通素性要素重み情報を調整しても良い。なお、重み設定手段１０６は、２回目以降の学習結果情報を用いた分類が行われる場合に、非共通組成要素重み情報をこれまで調整した値に設定しても良い。

機械学習装置１が、交差検証を行う場合の具体例について、以下に説明する。まず、図示しない処理手段は、学習データ集合を集合Ａと集合Ｂとランダムに分ける。学習手段１０４は、集合Ａに含まれる学習データを用いて機械学習を行い、学習結果情報を作成する。重み設定手段１０６は、その学習結果情報に含まれる非共通素性要素重み情報の値を、その学習結果情報に含まれる重み集合の代表値に設定する。そして、分類手段１０７は、集合Ｂに含まれている分類対象データを分類する。分類手段１０７が分類する際に、未学習要素保有データが正例に分類された場合は、重み設定手段１０６が、非共通組成要素重み情報の値を調整する。分類手段１０７がすべての分類対象データを分類し終えると、学習手段１０４は、集合Ｂに含まれる学習データを用いて再度機械学習を行い、学習結果情報を作成する。２回目以降の学習の際は、重み設定手段１０６は、非共通組成要素重み情報の値を、前回の分類の際に調整した値に設定する。そして、分類手段１０７は、集合Ａに含まれている分類対象データを分類する。分類手段１０７が分類する際に、未学習要素保有データが正例に分類された場合は、同様に重み設定手段１０６が、非共通組成要素重み情報の値を調整する。上記説明では、学習データ集合を、集合Ａおよび集合Ｂの二つの集合に分けたが、全く同じ集合に分けない限り、どのように分けても良い。

学習データ格納手段１０１、および学習結果情報格納手段１０３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

学習データ格納手段１０１に学習データ集合情報が記憶される過程は問わない。例えば、記録媒体を介して学習データ集合情報が学習データ格納手段１０１で記憶されるようになっても良く、通信回線等を介して送信された学習データ集合情報が学習データ格納手段１０１で記憶されるようになっても良く、あるいは、入力デバイスを介して入力された学習データ集合情報が学習データ格納手段１０１で記憶されるようになっても良い。

制限情報設定手段１０２、機械学習手段１０４、重み設定手段１０６、および分類手段１０７は、通常、ＭＰＵやメモリ等から実現され得る。制限情報設定手段１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、機械学習装置１の動作について図５のフローチャートを用いて説明する。
（ステップＳ２０１）図示しない処理手段は、学習データ格納手段１０１に格納されている学習データ集合を分類対象データの集合と学習に用いるデータの集合とに分割する。そして、分類対象データ受付手段１０５は、分割された集合の一方を受け付ける。なお、図示しない処理手段は、分割した集合の情報を記憶することで、２回目以降の受け付けの際には、少なくとも一部が異なる集合に分割するようにする。

（ステップＳ２０２）制限情報設定手段１０２は、制限情報を設定する。

（ステップＳ２０３）機械学習手段１０４は、ステップＳ２０１で分割された学習に用いる学習データの集合と、ステップＳ２０２で設定された制限情報とを用いて機械学習を行い、学習結果情報を作成する。

（ステップＳ２０４）学習手段１０４は、ステップＳ２０３で作成された学習結果情報を学習結果情報格納手段１０３に蓄積する。

（ステップＳ２０５）重み設定手段１０６は、非共通組成要素重み情報をステップＳ２０３で作成した学習結果情報に含まれる重み集合の代表値に設定する。なお、重み設定手段１０６は、ステップＳ２１１で非共通素性重み情報を調整した場合は、非共通組成要素重み情報をその調整した値に設定する。

（ステップＳ２０６）分類手段１０７は、カウンタｎに１を代入する。

（ステップＳ２０７）分類手段１０７は、ステップＳ２０１で受け付けた分類対象データにｎ番目の分類対象データがあるかどうかを判断する。ｎ番目の分類対象データがあった場合は、ステップＳ２０８へ進み、ｎ番目の分類対象データがない場合はステップＳ２１３へ進む。

（ステップＳ２０８）分類手段１０７は、ｎ番目の分類対象データを、正例、または負例に分類する。なお、分類手段１０７は、ステップＳ２１１で、非共通素性重み情報が調整されている場合は、その調整後の非共通素性重み情報を用いて分類する。

（ステップＳ２０９）重み設定手段１０６は、ステップＳ２０８でｎ番目の分類対象データが正例、または負例のどちらに分類されたかを確認する。正例に分類された場合は、ステップＳ２１０へ進み、負例に分類された場合は、ステップＳ２１２へ進む。なお、ステップＳ２０９の処理は、分類手段１０７が行っても良い。

（ステップＳ２１０）重み設定手段１０６は、ｎ番目の分類対象データが未学習要素保有データかどうか判断する。未学習要素保有データであった場合は、ステップＳ２１１へ進み、未学習要素保有データではなかった場合は、ステップＳ２１２へ進む。なお、ステップＳ２１０の処理は、分類手段１０７が行っても良い。

（ステップＳ２１１）重み設定手段１０６は、未学習要素保有データのスコアが下がるように、非共通素性重み情報の値を調整する。

（ステップＳ２１２）分類手段１０７は、カウンタｎを１だけインクリメントする。そして、ステップＳ２０７へ戻る。

（ステップＳ２１３）重み設定手段１０６は、交差検証を継続するかどうかに関するあらかじめ決められた条件を満たしたかどうかを判断する。条件を満たした場合は、ステップＳ２０１へ戻り、条件を満たさなかった場合は、ステップＳ２１４へ進む。

（ステップＳ２１４）分類手段１０７は、ステップＳ２０８の分類結果に関する情報を出力する。そして、処理を終了する。

本実施の形態の実験結果について説明する。本実験では、本実施の形態における制限情報設定手段１０２が制限情報を設定したランキング学習と、通常のランキング学習とを比較した。本実験では、文書データからキーワードを抽出した。なお、本実験では、論文の概要を記した２０００個の文書データのうち、１０００個のデータを学習に用い、５００個のデータを調整に用い、５００個のデータをテストに用いた。また、本実験における素性の要素は、抽出するキーワードの前後の形態素の品詞、文字列、品詞や文字列の出現頻度、および品詞や文字列の文書中での出現箇所等とした。また、本実験は、ＰＵ学習の実験であるため、正例となるキーワードの一部を人手で選出した。機械学習手段１０４は、学習用の１０００個のデータを用いて機械学習を行った。そして、機械学習手段１０４は、取得した学習結果情報を学習結果情報格納手段１０３に格納した。分類手段１０７は、その学習結果情報を用いて調整用の５００個のデータを分類した。この分類結果を評価したうえで、さらなる評価向上を目指すため、当初、機械学習手段１０４に何も制限情報を設定していなかった制限情報設定手段１０２は、人手で入力された、正例素性要素に対応する重み情報が１より大きな値になるように制限する設定情報を設定した。機械学習手段１０４は、制限情報が設定された状態で、再度、学習用の１０００個のデータを用いて機械学習を行った。その結果、正例素性要素に対応する重み情報が１より大きな値になるよう制限して作成された学習結果情報を用いて、調整用の５００個のデータを分類したところ、制限なしで学習した最初の結果より高い評価を得ることができたため、この設定情報を採用した。なお、本実験における分類精度は、ＡＵＣを用いて算出した。本実験の結果は、テストに用いた５００個のデータで、本実施の形態によるランキング学習のＡＵＣが「９５．８０」、通常のランキング学習のＡＵＣが「９５．７５」となった。以上から、制限情報設定手段１０２が制限情報を設定することで、分類の精度が上昇することが分かった。つまり、本実験によって、分類境界のスコアが上昇し、未学習要素保有データが負例に分類されるようになったことが分かった。これにより、制限情報設定手段１０２が制限情報を設定することで、未学習要素保有データに対しても、ロバスト性の高い学習結果情報を得られるようになったことが分かった。なお、本実験では、重み設定手段１０６による重みの調整は行っていない。

以上、本実施の形態によれば、機械学習によって得られた重みの情報を調整することで、機械学習に用いるデータに含まれない特徴を有する分類用のデータであっても、機械学習によって得られた情報を用いて分類できる。つまり、ロバスト性の高い学習結果情報を作成できる。また、正例のデータを正例、および正例のデータか負例のデータかが不明なデータを負例として用いてＰＵ学習を行う際に、未学習要素保有データのスコアが負例寄りになるように調整できる。これにより、未学習要素保有データの分類精度が向上する。また、制限情報設定手段１０２が、正解データｐのスコアが正例寄りになるように正例部分スコアを制限する。これにより、分類境界を上昇、または下降させることができ、結果的に未学習要素保有データの分類精度を向上させることができる。また、スコアが高いほど正例になり得る場合は、制限情報設定手段１０２が、正解データｐのスコアを上げるように正例部分スコアを制限する。これにより、分類境界を上昇させることができ、結果的に未学習要素保有データの分類精度を向上させることができる。また、スコアが高いほど正例になり得る場合は、制限情報設定手段１０２が、正解データｐのスコアを上げるように重み情報を正の値に制限する。これにより、分類境界を上昇させることができ、結果的に未学習要素保有データの分類精度が向上する。また、重み設定手段１０６が、非共通組成要素重み情報の値を重み集合の中央値や平均値等の代表値に設定する。これにより、未学習要素保有データのスコアを下げることができ、未学習要素保有データの分類精度が向上する。また、スコアが高いほど正例になり得る場合は、重み設定手段１０６が、正例に分類された分類対象データのスコアを下げるように非共通組成要素重み情報を調整できる。これにより、未学習要素保有データのスコアを下げることができ、未学習要素保有データの分類精度が向上する。また、分類対象データ受付手段１０５が、複数の分類対象データを受け付けることで、交差検証を行う。これにより、多くのパターンで、非共通組成要素重み情報を調整できる。

また、本実施の形態において、機械学習装置１は、学習結果情報を出力する第一の出力手段を有していても良い。第一の出力手段は、機械学習手段１０４が作成した学習結果情報を出力する。第一の出力手段は、学習結果情報を学習結果情報格納手段１０３に蓄積するのが好適であるが、学習結果情報格納手段１０３以外の格納手段や外部の装置に出力しても良い。第一の出力手段は、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を行っても良い。

また、本実施の形態において、機械学習装置１は、分類結果を出力する第二の出力手段を有していても良い。第二の出力手段は、分類手段１０７が分類した分類結果を示す情報を出力する。第二の出力手段は、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を行っても良い。

また、本実施の形態において、学習結果情報格納手段１０３と、分類対象データ受付手段１０５と、重み設定手段１０６と分類手段１０７とを含む場合について説明したが、機械学習装置１は、学習結果情報格納手段１０３と、分類対象データ受付手段１０５と、重み設定手段１０６と分類手段１０７とを含まなくても良い。学習結果情報格納手段１０３と、分類対象データ受付手段１０５と、重み設定手段１０６と分類手段１０７とを含まない場合は、機械学習装置１は、学習結果情報を作成し、外部の装置等に出力する装置であっても良い。

また、本実施の形態において、学習データ格納手段１０１と制限情報設定手段１０２と、機械学習手段１０４とを含む場合について説明したが、機械学習装置１は、学習データ格納手段１０１と制限情報設定手段１０２と、機械学習手段１０４とを含まなくても良い。学習データ格納手段１０１と制限情報設定手段１０２と、機械学習手段１０４と含まない場合は、学習結果情報格納手段１０３は、外部の装置等から学習データを受け付けても良く、分類対象データ受付手段１０５は、外部の装置等から分類対象データを受け付けても良い。

また、本実施の形態において、学習データ格納手段１０１を含む場合について説明したが、機械学習装置１は、学習データ格納手段１０１を含まなくても良い。学習データ格納手段１０１を含まない場合は、学習データは外部の格納装置に格納されていても良い。機械学習手段１０４等は、図示しないネットワークを介して、外部の格納装置に格納されている学習データを取得しても良い。

また、本実施の形態において、学習結果情報格納手段１０３を含む場合について説明したが、機械学習装置１は、学習結果情報格納手段１０３を含まなくても良い。学習結果情報格納手段１０３を含まない場合は、学習結果情報は外部の格納装置に格納されていても良い。分類手段１０７等は、図示しないネットワークを介して、外部の格納装置に格納されている学習結果情報を取得しても良い。

また、本実施の形態における機械学習装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、プログラムは、コンピュータを、正解データ集合Ｐに含まれる正解データｐを正例のデータとして扱い、正解データ集合Ｐ’に含まれる正解データｐ’および不正解データ集合Ｎに含まれる不正解データｎが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習装置として機能させるためのプログラムであって、学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いて分類される分類対象データを、正例または負例に分類するために用いられるスコアを、学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成するためのプログラムである。

また、本実施の形態における機械学習装置１を実現するソフトウェアは、以下のようなプログラムであっても良い。つまり、プログラムは、このプログラムにおいて、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合を有し、スコアは、分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合とを用いて算出される値であり、コンピュータを、学習に用いるそれぞれの正解データｐの素性の０でない各要素の値と、要素に対応する重み情報とを掛け合わせて算出される正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である制限情報を設定する制限情報設定手段、制限情報と学習データ集合に含まれる学習データとを用いて、学習結果情報を作成する機械学習手段として機能させるプログラムであっても良い。

また、本実施の形態における機械学習装置１を実現するソフトウェアは、以下のようなプログラムであっても良い。つまり、プログラムは、これらのプログラムにおいて、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合と、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報とを含み、コンピュータを、分類対象データを受け付ける分類対象データ受付手段、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の代表値に設定する重み設定手段、分類対象データ受付手段が受け付けた分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合と、学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出し、分類対象データを分類する分類手段として機能させるためのプログラムであっても良い。

なお、本実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されても良く、または、複数の装置によって分散処理されることによって実現されても良い。また、本実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の手段で実現されても良いことは言うまでもない。

また、本実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行手段が読み出して実行することによって、各構成要素が実現され得る。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得手段や、情報を出力する出力手段等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。

図７は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。

図７において、コンピュータシステム１１００は、ＣＤ−ＲＯＭドライブ１１０５、ＦＤドライブ１１０６を含むコンピュータ１１０１と、キーボード１１０２と、マウス１１０３と、モニタ１１０４とを備える。

図８は、コンピュータシステム１１００の内部構成を示す図である。図８において、コンピュータ１１０１は、ＣＤ−ＲＯＭドライブ１１０５、ＦＤドライブ１１０６に加えて、ＭＰＵ１１１１と、ブートアッププログラム等のプログラムを蓄積するためのＲＯＭ１１１２と、ＭＰＵ１１１１に接続され、アプリケーションプログラムの命令を一時的に蓄積すると共に、一時記憶空間を提供するＲＡＭ１１１３と、アプリケーションプログラム、システムプログラム、およびデータを蓄積するハードディスク１１１４と、ＭＰＵ１１１１と、ＲＯＭ１１１２等を相互に接続するバス１１１５とを備える。なお、コンピュータ１１０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいても良い。

コンピュータシステム１１００に、上記実施の形態による本発明等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１１２１、またはＦＤ１１２２に蓄積されて、ＣＤ−ＲＯＭドライブ１１０５、またはＦＤドライブ１１０６に挿入され、ハードディスク１１１４に転送されても良い。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ１１０１に送信され、ハードディスク１１１４に蓄積されても良い。プログラムは実行の際にＲＡＭ１１１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ１１２１やＦＤ１１２２、またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ１１０１に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム１１００がどのように動作するのかについては周知であり、詳細な説明は省略する。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。また、本発明における各手段の「手段」は、「部」や「回路」と読み替えても良い。

以上のように、本発明にかかる機械学習装置等は、機械学習に用いるデータに含まれない特徴を有する分類対象のデータであっても、機械学習によって得られた情報を用いて、より適切に分類できるという効果を有し、機械学習装置等として有用である。

１機械学習装置
１０１学習データ格納手段
１０２制限情報設定手段
１０３学習結果情報格納手段
１０４機械学習手段
１０５分類対象データ受付手段
１０６設定手段
１０７分類手段

Claims

正解データ集合Ｐに含まれる正解データｐを正例のデータとして扱い、正解データ集合Ｐ’に含まれる正解データｐ’および不正解データ集合Ｎに含まれる不正解データｎが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習装置であって、
前記学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、前記学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習装置。
前記学習結果情報は、
前記学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合を有し、
前記スコアは、
前記分類対象データに含まれる素性のすべての要素の値と、前記学習結果情報に含まれる重み集合とを用いて算出される値であり、
学習に用いるそれぞれの正解データｐの素性の０でない各要素の値と、当該要素に対応する重み情報とを掛け合わせて算出される正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である制限情報を設定する制限情報設定手段と、
前記制限情報と前記学習データ集合に含まれる学習データとを用いて、前記学習結果情報を作成する機械学習手段とを具備する、請求項１記載の機械学習装置。
前記ランキング学習は、
所定の値よりスコアが大きい場合に正例と分類されるようにする機械学習であり、
前記制限情報設定手段は、
前記正例部分スコアが正の値になるように、前記制限情報を設定する、請求項２記載の機械学習装置。
前記学習データ集合に含まれる各学習データが有する素性の要素の値は、
すべて０以上であり、
前記制限情報設定手段は、
学習に用いるそれぞれの正解データｐの素性の０でない各要素の値と、当該要素に対応するすべての重み情報が正の値になるように制限情報を設定する、請求項３記載の機械学習装置。
前記学習結果情報は、
前記学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合と、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報とを含み、
前記分類対象データを受け付ける分類対象データ受付手段と、
前記非共通素性要素重み情報を、前記学習結果情報に含まれる重み集合の代表値に設定する重み設定手段と、
前記分類対象データ受付手段が受け付けた分類対象データに含まれる素性のすべての要素の値と、前記学習結果情報に含まれる重み集合と、当該学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出し、当該分類対象データを分類する分類手段とを具備する、請求項１から請求項４のいずれか一項記載の機械学習装置。
前記重み設定手段は、
前記非共通素性要素重み情報を、前記学習結果情報に含まれる重み集合の中央値に設定する、請求項５記載の機械学習装置。
前記重み設定手段は、
前記非共通素性要素重み情報を、前記学習結果情報に含まれる重み情報の平均値に設定する、請求項５記載の機械学習装置。
前記重み設定手段は、
前記分類手段によって正例に分類された未学習要素保有データのスコアが負例寄りになるように、前記非共通素性要素重み情報を調整する、請求項５から請求項７記載のいずれか一項記載の機械学習装置。
前記分類対象データ受付手段は、
前記学習データ集合に含まれる一部の学習データである分類対象データの集合である分類対象データ集合を、少なくとも１以上の分類対象データが異なるように繰り返し受け付け、
前記分類手段は、
前記分類対象データ受付手段が受け付けた分類対象データ集合ごとに、当該分類対象データ集合に含まれる分類対象データを、前記学習データ集合に含まれる学習データのうち、当該分類対象データ集合に含まれる分類対象データ以外の学習データを用いて作成された前記学習結果情報を用いて分類し、
前記重み設定手段は、
前記分類手段によって、未学習要素保有データが正例に分類されるごとに、前記非共通素性要素重み情報を調整する、請求項８記載の機械学習装置。
正解データ集合Ｐに含まれる正解データｐを正例のデータとして扱い、正解データ集合Ｐ’に含まれる正解データｐ’および不正解データ集合Ｎに含まれる不正解データｎが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習方法であって、
前記学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、前記学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習方法。
コンピュータを、
正解データ集合Ｐに含まれる正解データｐを正例のデータとして扱い、正解データ集合Ｐ’に含まれる正解データｐ’および不正解データ集合Ｎに含まれる不正解データｎが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習装置として機能させるためのプログラムであって、
前記学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、前記学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習装置として機能させるためのプログラム。