JP5676692B2 - 機械学習装置、機械学習方法、およびプログラム - Google Patents

機械学習装置、機械学習方法、およびプログラム Download PDF

Info

Publication number
JP5676692B2
JP5676692B2 JP2013127850A JP2013127850A JP5676692B2 JP 5676692 B2 JP5676692 B2 JP 5676692B2 JP 2013127850 A JP2013127850 A JP 2013127850A JP 2013127850 A JP2013127850 A JP 2013127850A JP 5676692 B2 JP5676692 B2 JP 5676692B2
Authority
JP
Japan
Prior art keywords
data
learning
weight
information
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013127850A
Other languages
English (en)
Other versions
JP2015001968A (ja
Inventor
伸幸 清水
伸幸 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2013127850A priority Critical patent/JP5676692B2/ja
Publication of JP2015001968A publication Critical patent/JP2015001968A/ja
Application granted granted Critical
Publication of JP5676692B2 publication Critical patent/JP5676692B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、機械学習による分類精度を向上させる機械学習装置等に関するものである。
従来の機械学習装置において、正例のデータと負例のデータを用いて機械学習を行う機械学習装置等が開発されている(例えば、特許文献1参照)。
特開2013−025398号公報
従来、正解データである正例のデータと、正解か不正解か分からないデータであり、正例より数の多いデータである負例のデータとを用いて機械学習を行う機械学習装置において、機械学習に用いるデータに含まれない特徴を有する分類対象のデータを分類する場合に、その分類対象のデータは、機械学習によって得られた情報を用いて適切に分類できないという課題があった。
上記課題に対し、本発明の目的は、機械学習に用いるデータに含まれない特徴を有する分類対象のデータであっても、機械学習によって得られた情報を用いて、より適切に分類できるようにすることである。
本第一の発明の機械学習装置等は、正解データ集合Pに含まれる正解データpを正例のデータとして扱い、正解データ集合P’に含まれる正解データp’および不正解データ集合Nに含まれる不正解データnが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習装置であって、学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習装置である。
また、本第二の発明の機械学習装置は、第一の発明に対して、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合を有し、スコアは、分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合とを用いて算出される値であり、学習に用いるそれぞれの正解データpの素性の0でない各要素の値と、要素に対応する重み情報とを掛け合わせて算出される正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である制限情報を設定する制限情報設定手段と、制限情報と学習データ集合に含まれる学習データとを用いて、学習結果情報を作成する機械学習手段とを具備する、機械学習装置である。
また、本第三の発明の機械学習装置は、第二の発明に対して、ランキング学習は、所定の値よりスコアが大きい場合に正例と分類されるようにする機械学習であり、制限情報設定手段は、正例部分スコアが正の値になるように、制限情報を設定する、機械学習装置である。
また、本第四の発明の機械学習装置は、第三の発明に対して、学習データ集合に含まれる各学習データが有する素性の要素の値は、すべて0以上であり、制限情報設定手段は、学習に用いるそれぞれの正解データpの素性の0でない各要素の値と、要素に対応するすべての重み情報が正の値になるように制限情報を設定する、機械学習装置である。
また、本第五の発明の機械学習装置は、第一から第四のいずれか一項の発明に対して、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合と、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報とを含み、分類対象データを受け付ける分類対象データ受付手段と、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の代表値に設定する重み設定手段と、分類対象データ受付手段が受け付けた分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合と、学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出し、分類対象データを分類する分類手段とを具備する、機械学習装置である。
また、本第六の発明の機械学習装置は、第五の発明に対して、重み設定手段は、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の中央値に設定する、機械学習装置である。
また、本第七の発明の機械学習装置は、第五の発明に対して、重み設定手段は、非共通素性要素重み情報を、学習結果情報に含まれる重み情報の平均値に設定する、機械学習装置である。
また、本第八の発明の機械学習装置は、第五から第七の発明に対して、重み設定手段は、分類手段によって正例に分類された未学習要素保有データのスコアが負例寄りになるように、非共通素性要素重み情報を調整する、いずれか一項記載の機械学習装置である。
また、本第九の発明の機械学習装置は、第八の発明に対して、分類対象データ受付手段は、学習データ集合に含まれる一部の学習データである分類対象データの集合である分類対象データ集合を、少なくとも1以上の分類対象データが異なるように繰り返し受け付け、分類手段は、分類対象データ受付手段が受け付けた分類対象データ集合ごとに、分類対象データ集合に含まれる分類対象データを、学習データ集合に含まれる学習データのうち、分類対象データ集合に含まれる分類対象データ以外の学習データを用いて作成された学習結果情報を用いて分類し、重み設定手段は、分類手段によって、未学習要素保有データが正例に分類されるごとに、非共通素性要素重み情報を調整する、機械学習装置である。
また、本第十の発明の機械学習方法は、正解データ集合Pに含まれる正解データpを正例のデータとして扱い、正解データ集合P’に含まれる正解データp’および不正解データ集合Nに含まれる不正解データnが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習方法であって、学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習方法である。
また、本第十一の発明の機械学習方法は、第十の発明に対して、制限情報設定手段と、機械学習手段とを用いて処理される機械学習方法であって、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合を有し、スコアは、分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合とを用いて算出される値であり、制限情報設定手段が、学習に用いるそれぞれの正解データpの素性の0でない各要素の値と、要素に対応する重み情報とを掛け合わせて算出される正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である制限情報を設定する制限情報設定ステップと、機械学習手段が、制限情報と学習データ集合に含まれる学習データとを用いて、学習結果情報を作成する機械学習ステップとを具備する、機械学習方法である。
また、本第十二の発明の機械学習方法は、第十または第十一項の発明に対して、分類対象データ受付手段と、重み設定手段と、分類手段とを用いて処理される機械学習方法であって、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合と、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報とを含み、分類対象データ受付手段が、分類対象データを受け付ける分類対象データ受付ステップと、重み設定手段が、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の代表値に設定する重み設定ステップと、分類手段が、分類対象データ受付ステップで受け付けた分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合と、学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出し、分類対象データを分類する分類ステップとを具備する、機械学習方法である。
本発明による機械学習装置等によれば、機械学習に用いるデータに含まれない特徴を有する分類対象のデータであっても、機械学習によって得られた情報を用いて、より適切に分類できる。
実施の形態1における機械学習装置のブロック図 PU学習におけるランキング学習結果を用いた二値分類の一例を示す図 同実施の形態における制限情報設定手段による処理の結果の一例を示す図 同実施の形態における重み設定手段による処理の結果の一例を示す図 同実施の形態における機械学習装置の動作の一例を示すフローチャート 同実施の形態におけるコンピュータシステムの外観の一例を示す図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
以下、機械学習装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、正解データを正例のデータと扱い、正解か不正解かが不明なデータを負例と扱う機械学習であるPU学習(Positive Unlabeled学習)時に,学習データに含まれていなかった素性の要素を有するデータを分類する場合に、そのデータの分類に使用する値であるスコアを下げる調整を行う機械学習装置1について説明する。なお、本実施の形態では、PU学習は、正例のデータより、負例のデータの方が多い学習である。
図1は、本実施の形態における機械学習装置1のブロック図である。機械学習装置1は、学習データ格納手段101、制限情報設定手段102、学習結果情報格納手段103、機械学習手段104、分類対象データ受付手段105、重み設定手段106、分類手段107を備える。
学習データ格納手段101には、学習データ集合が格納される。学習データ格納手段101に格納される学習データ集合は、正例のデータの数が負例のデータの数よりも少ない学習データの集合である。正例および負例は、二値分類を学習する機械学習において、二値の一方、および他方を示す概念である。正例および負例は、二値に分けるために便宜上用いられている名称であるため、学習されるデータの内容とは関係しても良く、関係しなくても良い。なお、正例は、正解、Positive、またはTrue等と記載される。負例は、不正解、Negative、またはFalse等と記載される。正解データおよび不正解データの内容、または用語等は、学習の事例によって異なる。例えば、ユーザに対して有効な広告を機械学習する事例の場合は、ユーザにクリックされた広告を示す情報を正解データとし、クリックされなかった広告を示す情報を不明データとしても良い。なお、この場合の不明データは、正解データ、または不正解データのどちらのデータか分類されていないデータである。例えば、不明データの正解データは、ユーザにとって興味のある広告を示す情報であるのに、何かの事情でクリックされなかった広告を示す情報であっても良い。また、不明データの不正解データは、ユーザにとって興味の無い広告を示す情報であっても良い。なお、機械学習手段104で行う機械学習は、学習データ集合が有する正解データ集合Pに含まれる正解データpを正例のデータとして扱い、学習データ集合が有する正解データ集合P’に含まれる正解データp’および学習データ集合が有する不正解データ集合Nに含まれる不正解データnが混在した不明データを負例のデータとして扱うランキング学習である。ここでいう混在とは、正解データp’および不正解データnが、それぞれいくつずつ含まれているか分からない状態であることを示しているものとする。
ランキング学習は、学習データどうしの順位を学習することで、分類対象データの順位を推定するためのスコアを算出できるようにする機械学習である。ランキング学習は、正例、または負例のどちらか一方のデータのスコアが、他方のデータのスコアより高くなるように学習を行う。一般的なランキング学習では、正例のスコアの方が負例のスコアより高くなるように学習を行う。また、ランキング学習は、AUCを最適化する機械学習である。AUCは、Area under the curve(曲線下面積)の略であり、分類器が分類した際の精度を示す指標である。なお、AUCは、0.0から1.0の間の値をとり、1.0に近いほど分類精度が高いことを示す。なお、AUCの値は、テストデータをランダムに分類する分類器の場合は、0.5となる。AUCは公知であるため、その詳細な説明は省略する。なお、分類対象データとは、学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いて分類されるデータのことである。機械学習は、学習データ集合に含まれる学習データの少なくとも一部を用いて行う。そのため、分類対象データは、学習データ集合に含まれる学習に用いた学習データであっても良く、学習データ集合に含まれる学習に用いていない学習データであっても良く、それら以外のデータであっても良い。
スコアは、分類対象データを、正例または負例に分類するために用いられる値である。また、スコアは、分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合とを用いて算出される値である。素性は、機械学習に用いるデータの特徴である。例えば、{性別:1,年齢:20,身長:165,・・・}といった人物の特徴を示すデータ、および、{特許:3,公報:2,情報:23,・・・}といった文書内に含まれる形態素の出現回数で文書の特徴を示すデータがある場合に、本実施の形態では、「性別」や「年齢」、および「特許」や「公報」等を素性の要素といい、それぞれの素性の要素に対応する値を素性の要素の値ということとした。例えば、『素性の要素「身長」の値は、「165」である』という。なお、学習データ、および分類対象データは、ベクトルを用いて表現できる。例えば、上記例は、(1,20,165,・・・)、および、(3,2,23)のように表現できる。素性、および素性を用いた機械学習は、公知技術であるため、詳細な説明を省略する。
重み集合は、ランキング学習によって作成された学習結果情報に含まれる重み情報の集合のことである。重み情報は、機械学習によって算出された値であり、学習に用いた学習データの素性のすべての要素それぞれに対応する重みを示す値である。例えば、正例のデータの素性の要素の値がすべて正の値であり、正例のデータのスコアが、負例のデータより高くなる機械学習の場合に、重み情報は、多くの正例のデータで大きな値を有する素性の要素に対応する重み情報ほど大きな値になる情報である。
以下、任意の素性の要素をxと記載することもある。また、xに対応する重み情報をwと記載することもある。このiは、素性の要素の数の範囲で変化する変数であり、xはi番目の素性の要素を示す。ランキング学習の一般的なスコアは、要素の値とその要素に対応する重み情報が示す値との積を算出し、分類対象データに含まれるすべての要素について、その積の値を合計した値である。具体的には、スコアは、Σi=1 (素性の要素の数)(w×x)のようにして算出される。なお、スコアは、その積の値にRを四則演算することで、補正した値であっても良い。また、Rは任意の実数であるものとする。以下、w×xを部分スコアともいう。
ランキング学習のスコアを用いて二値分類を行う場合は、機械学習に用いた学習データ集合に含まれる正例のデータおよび負例のデータを、誤って分類しないように分けることができるスコアの境界を用いて二値分類を行っても良い。「誤って分類しないように分けることができるスコアの境界」は、例えば、誤って分類されるデータの数が最小になるスコアの境界であっても良く、正例のデータ、または負例のデータのどちらか一方を誤りなく分類なく分けることができるスコアの境界であっても良い。なお、ランキング学習の詳細は、公知技術であるため、説明を省略する。
また、スコアが大きいほど正例と判断されやすい二値分類を行うランキング学習によって作成された学習結果を用いた分類のイメージを図2に示す。図2では、分類に用いたデータのうち、正解データpと類似するデータの集合をsP、正解データp’と類似するデータの集合をsP’、不正解データnと類似するデータの集合をsN、学習データ集合に含まれるいずれのデータにも類似しないデータの集合をZとした。「正解データpと類似するデータ」は、正解データpの素性のベクトルとコサイン類似度等の類似度が高い素性のベクトルを有するデータであり、結果として正解データpと同じようなスコアが算出されるデータである。「正解データp’と類似するデータ」および「不正解データnと類似するデータ」についても、それぞれ同様であるものとする。「学習データ集合に含まれるいずれのデータにも類似しないデータ」は、例えば、学習に用いた、いずれの学習データにも含まれない素性の要素を有するデータであっても良く、学習データの素性のベクトルとコサイン類似度等の類似度が低い素性のベクトルを有するデータであっても良い。なお、コサイン類似度等のベクトルの類似度を図る方法は、公知技術であるため、説明は省略する。以下、「学習に用いた、いずれの学習データにも含まれない素性の要素」を非共通素性要素ともいうものとする。非共通素性要素は、例えば、文書から抽出された形態素を素性の要素にして構成された学習データ、および分類データを用いる場合では、学習データに対応する文書には記載されていない形態素で、かつ、分類データに対応する文書には記載されている形態素が、非共通組成要素である。以下、非共通素性要素を有する分類対象データを未学習要素保有データともいうものとする。なお、未学習要素保有データは、Unseen Featureと言い換えても良い。また、図2の集合sPには、正解データpが含まれていても良く、集合sP’には、正解データp’が含まれていても良く、集合sNには、不正解データnが含まれていても良い。また、図2では、説明の都合上横軸方向にもデータが配置される二次元のグラフのように示しているが、実際には、縦方向のみの一次元のグラフであるものとする。
制限情報設定手段102は、制限情報を設定する。制限情報は、機械学習手段104で用いられる情報であり、機械学習における重み情報の値の設定範囲を制限する情報である。制限情報は、学習に用いるそれぞれの正解データpの素性の0でない各要素の値と、その要素に対応する重み情報とを掛け合わせて算出される部分スコアである正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である。「学習に用いるそれぞれの正解データpの素性の0でない」要素は、学習に用いるすべての正解データpの素性の要素の値において、0以外の値と対応する素性の要素である。以下、この素性の要素1つずつを正例要素とも記載する。
制限情報設定手段102は、上述のように、正例要素とその正例要素に対応する重み情報から算出される正例部分スコアの符号を、正例と判断されるスコアと同じ符号にすることで、正解データpと正解データpに類似するデータを正例と判断されやすくする制限を設定する。つまり、制限情報設定手段102は、図3のように集合sPと集合sP’のスコアを上昇させることで、集合Zに含まれるデータを負例と判断されやすくする制限を設定する。なお、ここで、集合sP’のスコアが上昇するのは、正解データpと正解データ’とは、データの属性が類似する可能性が高いと考えられるからである。
「正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるよう」な制限情報は、例えば、スコアの値が大きいほど正例と判断されるランキング学習の場合は、正例部分スコアの符号がプラスになるように、正例要素に対応する重みの符号を制限する情報であっても良く、スコアの値が小さいほど正例と判断されるランキング学習の場合は、正例部分スコアの符号がマイナスになるように、正例要素に対応する重みの符号を制限する情報であっても良い。具体的には、制限情報は、スコアが高いほど正例と判断され得る場合に、学習時に算出された最も高いスコアの符号と、x×wの符号が同じになるように制限する情報であっても良く、スコアが低いほど正例と判断され得る場合に、学習時に算出された最も低いスコアの符号と、x×wの符号が同じになるように制限する情報であっても良い。
以下、スコアの値が大きいほど正例と判断されるランキング学習の場合について、主に説明するものとする。ランキング学習が、所定の値よりスコアが大きい場合に正例と分類されるようにする機械学習である場合には、制限情報設定手段102は、正例部分スコアが正の値になるように、制限情報を設定しても良い。例えば、この場合であって、学習データ集合に含まれる各学習データが有する素性の要素の値がすべて0以上であるときは、制限情報は、各正例要素に対応するすべての重み情報が正の値になるように制限する情報であっても良い。つまり、制限情報は、すべてのxが正の数である場合は、正例要素に対応するすべてのwも正の値になるよう制限する情報であっても良い。例えば、文書内に出現する形態素を素性の要素にし、その形態素の出現回数が素性の要素の値とした場合等は、上記のようにすべてのxが正の数となる。また、すべてのxが正の数である場合の制限情報は、wの値を、0より大きな実数dより大きな値に制限する情報であっても良い。なお、このdは、経験則上小さな値であることが好適である。
学習結果情報格納手段103には、学習結果情報が格納される。学習結果情報格納手段103には、機械学習手段104が作成した学習結果情報が格納されることが好適であるが、図示しない受付部を介して、図示しない処理部、または外部の装置で作成された学習結果情報が格納されても良い。
機械学習手段104は、制限情報と学習データ集合に含まれる一部、または全部の学習データとを用いて、学習結果情報を作成する。機械学習手段104が行う機械学習は、ランキング学習である。学習結果情報は、上述のように学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報を含む重み集合を有する情報である。なお、制限情報で示されるような制限を用いて機械学習を行う方法は、例えば、制限を設けた最適化問題を解く方法と同様の方法と考えることもでき、そのような方法は公知技術であるため、詳細な説明を省略する。
なお、学習結果情報は、その重み集合以外に、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報を含んでいても良い。非共通素性要素重み情報は、機械学習時に取得された重み情報以外の重み情報である。非共通素性要素重み情報は、例えば、(x,x,・・・x)のような素性の要素が機械学習時に取得された場合に、学習時に取得されなかったn+1番目以降の素性の要素であるxn+jに対応する重み情報である。なお、jは、1以上の自然数である。非共通素性要素重み情報は、マスタのように1のみ存在する情報であっても良く、分類の際に非共通素性要素が取得されるごとに追加される情報であっても良い。非共通素性要素重み情報が「マスタのように1のみ存在する情報」の場合は、非共通組成要素重み情報は、学習結果情報に1だけ含まれる情報である。この場合で、例えば分類対象データ(x,x,・・・x,xn+1,xn+2)のスコアを算出するとき、非共通素性要素重み情報は、xn+1,xn+2両方に対応する重みとして用いられる。非共通素性要素重み情報が「分類の際に非共通素性要素が取得されるごとに追加される情報」の場合は、非共通組成要素重み情報は、新たな非共通素性要素が取得されるごとに増加する情報である。この場合で、例えば分類対象データ(x,x,・・・x,xn+1,xn+2)のスコアを算出するとき、学習結果情報には、新たに、非共通素性要素重み情報wn+1とwn+2とが追加される。追加された非共通素性重み情報は、xn+1に対応するwn+1、およびxn+2に対応するwn+2のようにして用いられる。なお、この場合であっても、wn+1、wn+2、およびwn+3以降の非共通素性重み情報の値は、すべて同じ値である。非共通素性要素重み情報は、未学習要素保有データが負例に分類されやすい制限が行われることが好適である。なぜなら、PU学習の結果を用いた分類の場合は、分類対象データは、負例のデータである確率の方が高いため、非共通素性要素重み情報を負例寄りになるよう調整を行うことが分類精度を上げることにつながると考えられるからである。なお、これまでの機械学習の場合は、非共通素性要素重み情報は、0に設定され、非共通素性要素の値は、分類時に考慮されていなかった。そのため、非共通組成重み情報を調整することは、分類精度を向上するための要素になり得ると考えられる。なお、学習手段104は、学習結果情報を学習結果情報格納手段103に格納しても良い。
分類対象データ受付手段105は、分類対象データを受け付ける。分類対象データ受付手段105は、分類対象データを1ずつ受け付けても良く、1以上の分類対象データである分類対象データ集合を受け付けても良い。分類対象データ受付手段105は、学習データ格納手段101、またはそれ以外の格納手段に格納されている学習データ集合に含まれる一部の学習データを分類対象データとして受け付けても良く、図示しない格納手段や外部の格納手段等から分類対象データを受け付けても良い。
重み設定手段106は、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の代表値に設定する。代表値は、重み集合の平均値であっても良く、重み集合の中央値であっても良く、重み集合の最頻値であっても良い。なお、代表値には、最小値、および最大値のような端点は含まれないものである。
なお、重み設定手段106は、分類手段107によって正例に分類された未学習要素保有データのスコアが負例寄りになるように、非共通素性要素重み情報を調整する。重み設定手段106が行う調整は、重み集合の代表値、または以前に調整された非共通素性要素重み情報の値に対して、−M×Sを加えることであっても良く、あらかじめ決められた負の数の列を順番に加えることであっても良い。なお、Mは、任意の自然数を示し、Sは任意の正の実数を示すものとする。また、Mは、重み設定手段106によって調整された回数等であっても良い。重み設定手段106は、同じ未学習要素保有データが、非共通素性要素重み情報を調整した後にも正例に分類された場合は、再度調整を行っても良く、行わなくても良い。なお、重み設定手段106は、あらかじめ決められた条件を満たすまで調整を続けても良い。あらかじめ決められた条件は、例えば、すべての未学習要素保有データが負例に分類されることであっても良く、調整があらかじめ決められた回数行われることであっても良く、非共通組成要素重み情報の値があらかじめ決められた閾値より小さくなることであっても良く、正例に分類される未学習要素保有データの数があらかじめ決められた個数以下になることであっても良く、正例に分類される未学習要素保有データの数があらかじめ決められた割合以下になることであっても良い。例えば、図4は、重み設定手段106によって、非共通素性要素重み情報の値の設定や調整がされた学習結果を用いた分類結果を示している。そのような設定や調整が行われることで、図4で示されるように、集合Zに含まれる未学習要素保有データのスコアが下がり、すべての未学習要素保有データが負例に分類されている。上記設定や調整が行われることで、未学習要素保有データのスコアが下がるのには、2点の理由がある。1点目の理由は、本実施の形態におけるPU学習では、負例のデータの方が正例のデータより多いため、重み集合の代表値が低い値になり、非共通素性要素を用いて算出した部分スコアの値が下がると考えられるからである。2点目の理由は、未学習要素保有データが正例に分類された場合に、未学習要素保有データのスコアを下げるように、非共通素性要素重み情報の値を調整するからである。
分類手段107は、分類対象データ受付手段105が受け付けた分類対象データのスコアを算出し、そのスコアを用いて分類する。なお、分類手段107は、分類対象データ受付手段105が受け付けた分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合と、学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出する。また、分類手段107は、分類する分類対象データが、未学習要素保有データかどうかを判断しても良い。この場合は、分類手段107は、0でない非共通素性要素の値を少なくとも有する分類対象データを未学習要素保有データと判断しても良い。分類手段107が未学習要素保有データを正例に分類した場合は、分類手段107は、重み設定手段106に通知し、非共通素性要素重み情報が調整されるようにしても良い。なお、分類手段107は、非共通素性要素重み情報が調整されるきっかけとなった、正例に分類された未学習要素保有データを、調整後の非共通素性要素重み情報を用いて再度分類しても良い。
なお、本実施の形態では、交差検証を行うことで、非共通素性要素重み情報の値を調整しても良い。以下、交差検証を行う場合について説明する。交差検証とは、1のデータの集合を、学習に用いるデータの集合と分類に用いるデータの集合とに分け、その分け方を変えながら、学習、分類、評価、調整を繰り返して分類精度を向上させる手法である。
分類対象データ受付手段105は、学習データ集合に含まれる一部の学習データである分類対象データの集合である分類対象データ集合を、少なくとも1以上の分類対象データが異なるように繰り返し受け付けても良い。交差検証を行う場合の分類対象データ受付手段105は、分類対象データを繰り返し受け付ける際に、毎回同じ学習データ集合から分類対象データ集合を受け付けるものとする。この場合に、分類対象データ受付手段105が受け付けなかった、その学習データの集合に含まれる学習データは、受け付けた分類対象データを分類するための学習結果情報を作成する際の学習データとして用いられる。分類対象データ受付手段105が受け付ける分類対象データは、図示しない処理手段によって分割された、学習データ集合の一部であっても良く、人手で分割された学習データ集合の一部であっても良い。なお、ここでいう学習データ集合は、学習データ格納手段101に格納されている学習データ集合であっても良く、図示しない格納手段、または外部の格納装置に格納されている学習データ集合であっても良い。図示しない格納手段、または外部の格納装置に学習データ集合が格納されている場合は、分類対象データ受付手段105が受け付けなかった学習データを学習データ格納手段101に蓄積する図示しない処理部によって、学習データ格納手段101に学習データ集合が蓄積されるものとする。なお、分類対象データ受付手段105は、受け付けた分類対象データの集合を記憶することで、2回目以降の受け付けの際には、少なくとも一部が異なる分類対象データの集合を受け付けるようにしても良い。
分類手段107は、分類対象データ受付手段105が受け付けた分類対象データ集合ごとに、その分類対象データ集合に含まれる分類対象データを、学習データ集合に含まれる学習データのうち、その分類対象データ集合に含まれる分類対象データ以外の学習データを用いて作成された学習結果情報を用いて分類しても良い。そして、重み設定手段106は、分類手段107によって、未学習要素保有データが正例に分類されるごとに、非共通素性要素重み情報を調整しても良い。なお、重み設定手段106は、2回目以降の学習結果情報を用いた分類が行われる場合に、非共通組成要素重み情報をこれまで調整した値に設定しても良い。
機械学習装置1が、交差検証を行う場合の具体例について、以下に説明する。まず、図示しない処理手段は、学習データ集合を集合Aと集合Bとランダムに分ける。学習手段104は、集合Aに含まれる学習データを用いて機械学習を行い、学習結果情報を作成する。重み設定手段106は、その学習結果情報に含まれる非共通素性要素重み情報の値を、その学習結果情報に含まれる重み集合の代表値に設定する。そして、分類手段107は、集合Bに含まれている分類対象データを分類する。分類手段107が分類する際に、未学習要素保有データが正例に分類された場合は、重み設定手段106が、非共通組成要素重み情報の値を調整する。分類手段107がすべての分類対象データを分類し終えると、学習手段104は、集合Bに含まれる学習データを用いて再度機械学習を行い、学習結果情報を作成する。2回目以降の学習の際は、重み設定手段106は、非共通組成要素重み情報の値を、前回の分類の際に調整した値に設定する。そして、分類手段107は、集合Aに含まれている分類対象データを分類する。分類手段107が分類する際に、未学習要素保有データが正例に分類された場合は、同様に重み設定手段106が、非共通組成要素重み情報の値を調整する。上記説明では、学習データ集合を、集合Aおよび集合Bの二つの集合に分けたが、全く同じ集合に分けない限り、どのように分けても良い。
学習データ格納手段101、および学習結果情報格納手段103は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
学習データ格納手段101に学習データ集合情報が記憶される過程は問わない。例えば、記録媒体を介して学習データ集合情報が学習データ格納手段101で記憶されるようになっても良く、通信回線等を介して送信された学習データ集合情報が学習データ格納手段101で記憶されるようになっても良く、あるいは、入力デバイスを介して入力された学習データ集合情報が学習データ格納手段101で記憶されるようになっても良い。
制限情報設定手段102、機械学習手段104、重み設定手段106、および分類手段107は、通常、MPUやメモリ等から実現され得る。制限情報設定手段102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、機械学習装置1の動作について図5のフローチャートを用いて説明する。
(ステップS201)図示しない処理手段は、学習データ格納手段101に格納されている学習データ集合を分類対象データの集合と学習に用いるデータの集合とに分割する。そして、分類対象データ受付手段105は、分割された集合の一方を受け付ける。なお、図示しない処理手段は、分割した集合の情報を記憶することで、2回目以降の受け付けの際には、少なくとも一部が異なる集合に分割するようにする。
(ステップS202)制限情報設定手段102は、制限情報を設定する。
(ステップS203)機械学習手段104は、ステップS201で分割された学習に用いる学習データの集合と、ステップS202で設定された制限情報とを用いて機械学習を行い、学習結果情報を作成する。
(ステップS204)学習手段104は、ステップS203で作成された学習結果情報を学習結果情報格納手段103に蓄積する。
(ステップS205)重み設定手段106は、非共通組成要素重み情報をステップS203で作成した学習結果情報に含まれる重み集合の代表値に設定する。なお、重み設定手段106は、ステップS211で非共通素性重み情報を調整した場合は、非共通組成要素重み情報をその調整した値に設定する。
(ステップS206)分類手段107は、カウンタnに1を代入する。
(ステップS207)分類手段107は、ステップS201で受け付けた分類対象データにn番目の分類対象データがあるかどうかを判断する。n番目の分類対象データがあった場合は、ステップS208へ進み、n番目の分類対象データがない場合はステップS213へ進む。
(ステップS208)分類手段107は、n番目の分類対象データを、正例、または負例に分類する。なお、分類手段107は、ステップS211で、非共通素性重み情報が調整されている場合は、その調整後の非共通素性重み情報を用いて分類する。
(ステップS209)重み設定手段106は、ステップS208でn番目の分類対象データが正例、または負例のどちらに分類されたかを確認する。正例に分類された場合は、ステップS210へ進み、負例に分類された場合は、ステップS212へ進む。なお、ステップS209の処理は、分類手段107が行っても良い。
(ステップS210)重み設定手段106は、n番目の分類対象データが未学習要素保有データかどうか判断する。未学習要素保有データであった場合は、ステップS211へ進み、未学習要素保有データではなかった場合は、ステップS212へ進む。なお、ステップS210の処理は、分類手段107が行っても良い。
(ステップS211)重み設定手段106は、未学習要素保有データのスコアが下がるように、非共通素性重み情報の値を調整する。
(ステップS212)分類手段107は、カウンタnを1だけインクリメントする。そして、ステップS207へ戻る。
(ステップS213)重み設定手段106は、交差検証を継続するかどうかに関するあらかじめ決められた条件を満たしたかどうかを判断する。条件を満たした場合は、ステップS201へ戻り、条件を満たさなかった場合は、ステップS214へ進む。
(ステップS214)分類手段107は、ステップS208の分類結果に関する情報を出力する。そして、処理を終了する。
本実施の形態の実験結果について説明する。本実験では、本実施の形態における制限情報設定手段102が制限情報を設定したランキング学習と、通常のランキング学習とを比較した。本実験では、文書データからキーワードを抽出した。なお、本実験では、論文の概要を記した2000個の文書データのうち、1000個のデータを学習に用い、500個のデータを調整に用い、500個のデータをテストに用いた。また、本実験における素性の要素は、抽出するキーワードの前後の形態素の品詞、文字列、品詞や文字列の出現頻度、および品詞や文字列の文書中での出現箇所等とした。また、本実験は、PU学習の実験であるため、正例となるキーワードの一部を人手で選出した。機械学習手段104は、学習用の1000個のデータを用いて機械学習を行った。そして、機械学習手段104は、取得した学習結果情報を学習結果情報格納手段103に格納した。分類手段107は、その学習結果情報を用いて調整用の500個のデータを分類した。この分類結果を評価したうえで、さらなる評価向上を目指すため、当初、機械学習手段104に何も制限情報を設定していなかった制限情報設定手段102は、人手で入力された、正例素性要素に対応する重み情報が1より大きな値になるように制限する設定情報を設定した。機械学習手段104は、制限情報が設定された状態で、再度、学習用の1000個のデータを用いて機械学習を行った。その結果、正例素性要素に対応する重み情報が1より大きな値になるよう制限して作成された学習結果情報を用いて、調整用の500個のデータを分類したところ、制限なしで学習した最初の結果より高い評価を得ることができたため、この設定情報を採用した。なお、本実験における分類精度は、AUCを用いて算出した。本実験の結果は、テストに用いた500個のデータで、本実施の形態によるランキング学習のAUCが「95.80」、通常のランキング学習のAUCが「95.75」となった。以上から、制限情報設定手段102が制限情報を設定することで、分類の精度が上昇することが分かった。つまり、本実験によって、分類境界のスコアが上昇し、未学習要素保有データが負例に分類されるようになったことが分かった。これにより、制限情報設定手段102が制限情報を設定することで、未学習要素保有データに対しても、ロバスト性の高い学習結果情報を得られるようになったことが分かった。なお、本実験では、重み設定手段106による重みの調整は行っていない。
以上、本実施の形態によれば、機械学習によって得られた重みの情報を調整することで、機械学習に用いるデータに含まれない特徴を有する分類用のデータであっても、機械学習によって得られた情報を用いて分類できる。つまり、ロバスト性の高い学習結果情報を作成できる。また、正例のデータを正例、および正例のデータか負例のデータかが不明なデータを負例として用いてPU学習を行う際に、未学習要素保有データのスコアが負例寄りになるように調整できる。これにより、未学習要素保有データの分類精度が向上する。また、制限情報設定手段102が、正解データpのスコアが正例寄りになるように正例部分スコアを制限する。これにより、分類境界を上昇、または下降させることができ、結果的に未学習要素保有データの分類精度を向上させることができる。また、スコアが高いほど正例になり得る場合は、制限情報設定手段102が、正解データpのスコアを上げるように正例部分スコアを制限する。これにより、分類境界を上昇させることができ、結果的に未学習要素保有データの分類精度を向上させることができる。また、スコアが高いほど正例になり得る場合は、制限情報設定手段102が、正解データpのスコアを上げるように重み情報を正の値に制限する。これにより、分類境界を上昇させることができ、結果的に未学習要素保有データの分類精度が向上する。また、重み設定手段106が、非共通組成要素重み情報の値を重み集合の中央値や平均値等の代表値に設定する。これにより、未学習要素保有データのスコアを下げることができ、未学習要素保有データの分類精度が向上する。また、スコアが高いほど正例になり得る場合は、重み設定手段106が、正例に分類された分類対象データのスコアを下げるように非共通組成要素重み情報を調整できる。これにより、未学習要素保有データのスコアを下げることができ、未学習要素保有データの分類精度が向上する。また、分類対象データ受付手段105が、複数の分類対象データを受け付けることで、交差検証を行う。これにより、多くのパターンで、非共通組成要素重み情報を調整できる。
また、本実施の形態において、機械学習装置1は、学習結果情報を出力する第一の出力手段を有していても良い。第一の出力手段は、機械学習手段104が作成した学習結果情報を出力する。第一の出力手段は、学習結果情報を学習結果情報格納手段103に蓄積するのが好適であるが、学習結果情報格納手段103以外の格納手段や外部の装置に出力しても良い。第一の出力手段は、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を行っても良い。
また、本実施の形態において、機械学習装置1は、分類結果を出力する第二の出力手段を有していても良い。第二の出力手段は、分類手段107が分類した分類結果を示す情報を出力する。第二の出力手段は、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を行っても良い。
また、本実施の形態において、学習結果情報格納手段103と、分類対象データ受付手段105と、重み設定手段106と分類手段107とを含む場合について説明したが、機械学習装置1は、学習結果情報格納手段103と、分類対象データ受付手段105と、重み設定手段106と分類手段107とを含まなくても良い。学習結果情報格納手段103と、分類対象データ受付手段105と、重み設定手段106と分類手段107とを含まない場合は、機械学習装置1は、学習結果情報を作成し、外部の装置等に出力する装置であっても良い。
また、本実施の形態において、学習データ格納手段101と制限情報設定手段102と、機械学習手段104とを含む場合について説明したが、機械学習装置1は、学習データ格納手段101と制限情報設定手段102と、機械学習手段104とを含まなくても良い。学習データ格納手段101と制限情報設定手段102と、機械学習手段104と含まない場合は、学習結果情報格納手段103は、外部の装置等から学習データを受け付けても良く、分類対象データ受付手段105は、外部の装置等から分類対象データを受け付けても良い。
また、本実施の形態において、学習データ格納手段101を含む場合について説明したが、機械学習装置1は、学習データ格納手段101を含まなくても良い。学習データ格納手段101を含まない場合は、学習データは外部の格納装置に格納されていても良い。機械学習手段104等は、図示しないネットワークを介して、外部の格納装置に格納されている学習データを取得しても良い。
また、本実施の形態において、学習結果情報格納手段103を含む場合について説明したが、機械学習装置1は、学習結果情報格納手段103を含まなくても良い。学習結果情報格納手段103を含まない場合は、学習結果情報は外部の格納装置に格納されていても良い。分類手段107等は、図示しないネットワークを介して、外部の格納装置に格納されている学習結果情報を取得しても良い。
また、本実施の形態における機械学習装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、プログラムは、コンピュータを、正解データ集合Pに含まれる正解データpを正例のデータとして扱い、正解データ集合P’に含まれる正解データp’および不正解データ集合Nに含まれる不正解データnが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習装置として機能させるためのプログラムであって、学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いて分類される分類対象データを、正例または負例に分類するために用いられるスコアを、学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成するためのプログラムである。
また、本実施の形態における機械学習装置1を実現するソフトウェアは、以下のようなプログラムであっても良い。つまり、プログラムは、このプログラムにおいて、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合を有し、スコアは、分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合とを用いて算出される値であり、コンピュータを、学習に用いるそれぞれの正解データpの素性の0でない各要素の値と、要素に対応する重み情報とを掛け合わせて算出される正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である制限情報を設定する制限情報設定手段、制限情報と学習データ集合に含まれる学習データとを用いて、学習結果情報を作成する機械学習手段として機能させるプログラムであっても良い。
また、本実施の形態における機械学習装置1を実現するソフトウェアは、以下のようなプログラムであっても良い。つまり、プログラムは、これらのプログラムにおいて、学習結果情報は、学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合と、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報とを含み、コンピュータを、分類対象データを受け付ける分類対象データ受付手段、非共通素性要素重み情報を、学習結果情報に含まれる重み集合の代表値に設定する重み設定手段、分類対象データ受付手段が受け付けた分類対象データに含まれる素性のすべての要素の値と、学習結果情報に含まれる重み集合と、学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出し、分類対象データを分類する分類手段として機能させるためのプログラムであっても良い。
なお、本実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されても良く、または、複数の装置によって分散処理されることによって実現されても良い。また、本実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の手段で実現されても良いことは言うまでもない。
また、本実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行手段が読み出して実行することによって、各構成要素が実現され得る。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得手段や、情報を出力する出力手段等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
図7は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。
図7において、コンピュータシステム1100は、CD−ROMドライブ1105、FDドライブ1106を含むコンピュータ1101と、キーボード1102と、マウス1103と、モニタ1104とを備える。
図8は、コンピュータシステム1100の内部構成を示す図である。図8において、コンピュータ1101は、CD−ROMドライブ1105、FDドライブ1106に加えて、MPU1111と、ブートアッププログラム等のプログラムを蓄積するためのROM1112と、MPU1111に接続され、アプリケーションプログラムの命令を一時的に蓄積すると共に、一時記憶空間を提供するRAM1113と、アプリケーションプログラム、システムプログラム、およびデータを蓄積するハードディスク1114と、MPU1111と、ROM1112等を相互に接続するバス1115とを備える。なお、コンピュータ1101は、LANへの接続を提供する図示しないネットワークカードを含んでいても良い。
コンピュータシステム1100に、上記実施の形態による本発明等の機能を実行させるプログラムは、CD−ROM1121、またはFD1122に蓄積されて、CD−ROMドライブ1105、またはFDドライブ1106に挿入され、ハードディスク1114に転送されても良い。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1101に送信され、ハードディスク1114に蓄積されても良い。プログラムは実行の際にRAM1113にロードされる。なお、プログラムは、CD−ROM1121やFD1122、またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ1101に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム1100がどのように動作するのかについては周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。また、本発明における各手段の「手段」は、「部」や「回路」と読み替えても良い。
以上のように、本発明にかかる機械学習装置等は、機械学習に用いるデータに含まれない特徴を有する分類対象のデータであっても、機械学習によって得られた情報を用いて、より適切に分類できるという効果を有し、機械学習装置等として有用である。
1 機械学習装置
101 学習データ格納手段
102 制限情報設定手段
103 学習結果情報格納手段
104 機械学習手段
105 分類対象データ受付手段
106 設定手段
107 分類手段

Claims (11)

  1. 正解データ集合Pに含まれる正解データpを正例のデータとして扱い、正解データ集合P’に含まれる正解データp’および不正解データ集合Nに含まれる不正解データnが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習装置であって、
    前記学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、前記学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習装置。
  2. 前記学習結果情報は、
    前記学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合を有し、
    前記スコアは、
    前記分類対象データに含まれる素性のすべての要素の値と、前記学習結果情報に含まれる重み集合とを用いて算出される値であり、
    学習に用いるそれぞれの正解データpの素性の0でない各要素の値と、当該要素に対応する重み情報とを掛け合わせて算出される正例部分スコアの符号が、正例と判断されるスコアと同じ符号になるように、重み集合を作成するための制限である制限情報を設定する制限情報設定手段と、
    前記制限情報と前記学習データ集合に含まれる学習データとを用いて、前記学習結果情報を作成する機械学習手段とを具備する、請求項1記載の機械学習装置。
  3. 前記ランキング学習は、
    所定の値よりスコアが大きい場合に正例と分類されるようにする機械学習であり、
    前記制限情報設定手段は、
    前記正例部分スコアが正の値になるように、前記制限情報を設定する、請求項2記載の機械学習装置。
  4. 前記学習データ集合に含まれる各学習データが有する素性の要素の値は、
    すべて0以上であり、
    前記制限情報設定手段は、
    学習に用いるそれぞれの正解データpの素性の0でない各要素の値と、当該要素に対応するすべての重み情報が正の値になるように制限情報を設定する、請求項3記載の機械学習装置。
  5. 前記学習結果情報は、
    前記学習に用いた各学習データが有する素性の要素に対応する重みを示す重み情報の集合である重み集合と、すべての非共通素性要素に対応する重みを示す非共通素性要素重み情報とを含み、
    前記分類対象データを受け付ける分類対象データ受付手段と、
    前記非共通素性要素重み情報を、前記学習結果情報に含まれる重み集合の代表値に設定する重み設定手段と、
    前記分類対象データ受付手段が受け付けた分類対象データに含まれる素性のすべての要素の値と、前記学習結果情報に含まれる重み集合と、当該学習結果情報に含まれる非共通素性要素重み情報とを用いてスコアを算出し、当該分類対象データを分類する分類手段とを具備する、請求項1から請求項4のいずれか一項記載の機械学習装置。
  6. 前記重み設定手段は、
    前記非共通素性要素重み情報を、前記学習結果情報に含まれる重み集合の中央値に設定する、請求項5記載の機械学習装置。
  7. 前記重み設定手段は、
    前記非共通素性要素重み情報を、前記学習結果情報に含まれる重み情報の平均値に設定する、請求項5記載の機械学習装置。
  8. 前記重み設定手段は、
    前記分類手段によって正例に分類された未学習要素保有データのスコアが負例寄りになるように、前記非共通素性要素重み情報を調整する、請求項5から請求項7記載のいずれか一項記載の機械学習装置。
  9. 前記分類対象データ受付手段は、
    前記学習データ集合に含まれる一部の学習データである分類対象データの集合である分類対象データ集合を、少なくとも1以上の分類対象データが異なるように繰り返し受け付け、
    前記分類手段は、
    前記分類対象データ受付手段が受け付けた分類対象データ集合ごとに、当該分類対象データ集合に含まれる分類対象データを、前記学習データ集合に含まれる学習データのうち、当該分類対象データ集合に含まれる分類対象データ以外の学習データを用いて作成された前記学習結果情報を用いて分類し、
    前記重み設定手段は、
    前記分類手段によって、未学習要素保有データが正例に分類されるごとに、前記非共通素性要素重み情報を調整する、請求項8記載の機械学習装置。
  10. 正解データ集合Pに含まれる正解データpを正例のデータとして扱い、正解データ集合P’に含まれる正解データp’および不正解データ集合Nに含まれる不正解データnが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習方法であって、
    前記学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、前記学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習方法。
  11. コンピュータを、
    正解データ集合Pに含まれる正解データpを正例のデータとして扱い、正解データ集合P’に含まれる正解データp’および不正解データ集合Nに含まれる不正解データnが混在した不明データを負例のデータとして扱い、かつ、正例のデータの数が負例のデータの数よりも少ない学習データ集合に含まれる学習データを用いてランキング学習を行う機械学習装置として機能させるためのプログラムであって、
    前記学習データ集合に含まれる学習データを用いて学習した学習結果情報を用いた分類時に、正例または負例の分類で用いられるスコアを、前記学習に用いた、いずれの学習データにも含まれない素性の要素である非共通素性要素を有する分類対象データである未学習要素保有データの場合に、負例寄りになるよう所定の調整を行った学習結果情報を作成する機械学習装置として機能させるためのプログラム。
JP2013127850A 2013-06-18 2013-06-18 機械学習装置、機械学習方法、およびプログラム Active JP5676692B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013127850A JP5676692B2 (ja) 2013-06-18 2013-06-18 機械学習装置、機械学習方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013127850A JP5676692B2 (ja) 2013-06-18 2013-06-18 機械学習装置、機械学習方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015001968A JP2015001968A (ja) 2015-01-05
JP5676692B2 true JP5676692B2 (ja) 2015-02-25

Family

ID=52296425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013127850A Active JP5676692B2 (ja) 2013-06-18 2013-06-18 機械学習装置、機械学習方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5676692B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6377050B2 (ja) 2015-12-18 2018-08-22 ヤフー株式会社 学習装置、学習方法および学習プログラム
CN113610240A (zh) * 2017-05-05 2021-11-05 第四范式(北京)技术有限公司 利用嵌套机器学习模型来执行预测的方法及系统
CN113570064A (zh) * 2017-05-05 2021-10-29 第四范式(北京)技术有限公司 利用复合机器学习模型来执行预测的方法及系统
KR102189761B1 (ko) * 2018-12-21 2020-12-11 주식회사 엘지씨엔에스 딥러닝 학습 방법 및 서버

Also Published As

Publication number Publication date
JP2015001968A (ja) 2015-01-05

Similar Documents

Publication Publication Date Title
JP6537340B2 (ja) 要約生成装置、要約生成方法、及び要約生成プログラム
US8699789B2 (en) Document classification using multiple views
US9025889B2 (en) Method, apparatus and computer program product for providing pattern detection with unknown noise levels
US10783402B2 (en) Information processing apparatus, information processing method, and storage medium for generating teacher information
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
JP5676692B2 (ja) 機械学習装置、機械学習方法、およびプログラム
JP5862413B2 (ja) 情報変換規則生成プログラム、情報変換規則生成装置および情報変換規則生成方法
CN112257738A (zh) 机器学习模型的训练方法、装置和图像的分类方法、装置
JP6365024B2 (ja) サービス提供装置、方法、及びプログラム
JP2016095640A (ja) 密度計測装置、密度計測方法、およびプログラム
JP2013120441A (ja) 画像識別情報付与プログラム及び画像識別情報付与装置
CN110910325B (zh) 一种基于人工蝴蝶优化算法的医疗影像处理方法及装置
JP2008204374A (ja) クラスタ生成装置およびクラスタ生成プログラム
US9189693B2 (en) Information processing apparatus and information processing method
JP6478301B2 (ja) 画像判別装置、画像判別方法、及びプログラム
JP5809663B2 (ja) 分類精度推定装置、分類精度推定方法、およびプログラム
JP5764094B2 (ja) 画像検索装置、画像検索方法、及び画像検索プログラム
JP2018160165A (ja) 画像処理装置、画像処理方法及びプログラム
JP5490859B2 (ja) ビジュアルキーワード抽出装置、これを用いたBoF表現生成装置、及びビジュアルキーワード抽出方法
JP6453618B2 (ja) 算出装置、方法及びプログラム
JP6719229B2 (ja) コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム
JP2016212684A (ja) パラメータ推定方法、対応割当方法、装置、及びプログラム
CN111597220B (zh) 数据挖掘方法和装置
JP2019109662A (ja) 分類装置、データ構造、分類方法、およびプログラム
JP5418052B2 (ja) 遺伝的処理装置、遺伝的処理方法およびプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141225

R150 Certificate of patent or registration of utility model

Ref document number: 5676692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350