JP2009129279A

JP2009129279A - 機械学習装置及び機械学習方法

Info

Publication number: JP2009129279A
Application number: JP2007304958A
Authority: JP
Inventors: Manabu Satsusano; 学颯々野
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2007-11-26
Filing date: 2007-11-26
Publication date: 2009-06-11
Anticipated expiration: 2027-11-26
Also published as: JP4994199B2

Abstract

【課題】Ｗｅｂ上から取得した文書を利用し、文書分類に係るサポートベクタマシンの精度向上を行うための機械学習装置及び機械学習方法を提供すること。
【解決手段】機械学習装置１は、事例に係るデータと該事例が備える属性とについての既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段２と、前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段３と、前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段４と、を備えることにより、判定精度を向上させる。
【選択図】図１

Description

本発明は、機械学習装置及び機械学習方法に関する。

機械学習の分野における教師あり学習を用いる識別手法の１つであるサポートベクタマシンにおいて、サポートベクタの近いところに、仮想的な事例を人工的に作り出し、それを学習に使う事例集合に追加する手法は精度向上に寄与することが判っている（例えば、特許文献１及び非特許文献１）。
特開２００４−２８７７７６号公報「自然言語処理」言語処理学会、２００６年Ｖｏｌ．１３、Ｎｏ．３、２１−３５頁

しかし、有効な仮想事例を作る手法は、必ずしも明らかではなく、仮想的な事例を人工的に作ることは手間の掛かることであり、作り出せる事例の数にも限りがある。一方、サポートベクタマシンの対象を文書分類の問題に絞ると、事例となる文書はＷｅｂ上から容易に取得可能であるので、これらを用いて上記のような人工的な操作の代わりとすることができれば手間を掛けずに精度向上を行うことができる。

そこで、本発明は、Ｗｅｂ上から取得した文書を利用し、文書分類に係るサポートベクタマシンの精度向上を行うための機械学習装置及び機械学習方法を提供することを目的とする。

本発明者は、文書分類に係るサポートベクタマシンが教師とするラベル付き事例（文書）と、Ｗｅｂ上から取得した事例（文書）との間に距離（近さ）の概念を導入し、その距離が一定の条件を満たすときにその事例（文書）にラベルを付け、サポートベクタマシンの教師に加えるという仕組みを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。

（１）事例に係るデータと該事例が備える属性とについての既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習装置であって、
前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段と、
前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段と、
前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段と、
を備える機械学習装置。

本発明のこのような構成によれば、前記機械学習装置は、事例に係るデータと該事例が特定の属性を備えるか否かとについて既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、前記特定の属性を備えるか否かについて未知の事例を取得し、その事例と特定の属性を備えるか否かとについて既知の事例との距離を評価して、その距離が所定の条件を満たす場合に、当該事例が特定の属性を備えるとみなして判定の基準として利用する。

その結果、人手によらなくても基準とすることができる事例の数が増えるので、自動的に判定精度を向上させることができる。

（２）前記事例は前記データの組として特徴付けられ、前記事例が特定の属性を備えるか否かについての情報は前記事例が特定のカテゴリーに属するか否かを示すラベルであることを特徴とする請求項１に記載の機械学習装置。

本発明のこのような構成によれば、前記機械学習装置は、データの組であるベクタとラベルの組み合わせとして訓練データ（例題）が与えられるサポートベクタマシンを対象として、判定精度の向上に役立てることができる。したがって、事例に係るデータと該事例が特定の属性を備えるか否かとについて既知の情報は、ラベル付き事例に該当する。

（３）前記事例は文書であり、前記事例取得手段は、Ｗｅｂ上から前記文書を取得することを特徴とする請求項１または請求項２に記載の機械学習装置。

本発明のこのような構成によれば、前記機械学習装置は、特に文書分類の問題において、Ｗｅｂ上から取得した文書を利用できるので、Ｗｅｂ上にある豊富な文書資源をサポートベクタマシンの精度向上に役立てることができる。

（４）前記事例取得手段が取得する文書は、所定の時期以後に作成された文書であることを特徴とする請求項３に記載の機械学習装置。

本発明のこのような構成によれば、前記機械学習装置は、Ｗｅｂ上に多数ある文書のうち、作成時期が古い文書を対象から外すので、時代とともに文書の用語や表現が変化していく場合に、適切に対応することができる。

（５）前記事例取得手段は、前記特定の属性に関連するＷｅｂページから前記文書を取得することを特徴とする請求項３または請求項４に記載の機械学習装置。

本発明のこのような構成によれば、前記機械学習装置は、Ｗｅｂ上から任意に取得する文書ではなく、判定しようとする属性に関連のあるＷｅｂサイト等から文書を取得するので、前記属性付与手段が付与する当該文書の属性の過誤が減少し、サポートベクタマシンの精度向上に一層寄与することができる。

（６）前記データは文書に含まれる単語であり、前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項３から請求項５のいずれかに記載の機械学習装置。

本発明のこのような構成によれば、前記距離評価手段は、教師としての事例（前記特定の属性を備えることが既知である文書）とＷｅｂ上から取得した事例（文書）との距離をそれぞれの文書に含まれる単語の出現に係る情報に基づいて評価するので、単語の重複度や出現頻度等を考慮して客観的に評価することができる。その結果、単語の出現の仕方に同様の特徴のある文書を同じカテゴリーに属する文書であると判定することができる。

（７）前記データは文書に含まれる単語であり、前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項３から請求項５のいずれかに記載の機械学習装置。

本発明のこのような構成によれば、前記距離評価手段は、教師としての事例（前記特定の属性を備えることが既知である文書）とＷｅｂ上から取得した事例（文書）との距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価するので、教師としての事例（前記特定の属性を備えることが既知である文書）のみならず、反教師としての事例（前記特定の属性を備えないことが既知である文書）も考慮して評価することができる。その結果、Ｗｅｂ上から取得した文書の教師としての適格性をより安全に認定することができる。

（８）事例に係るデータと該事例が備える属性とについて既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習方法であって、
コンピュータが前記特定の属性を備えるか否かについて未知である事例を取得する事例取得ステップと、
コンピュータが前記取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価ステップと、
コンピュータが前記評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性評価ステップと、
を備える機械学習方法。

この発明によれば、（１）に記載の発明が行う処理をコンピュータを用いて行うので、（１）に記載の発明と同様の効果を発揮することができる。

この発明によれば、文書分類に係るサポートベクタマシンの判定精度を、従来技術のように、仮想的な事例を人工的に作り出すのではなく、Ｗｅｂ上に多数存在する文書を利用して向上させることができるので、手間を掛けずに精度の高い文書分類システムを作ることができる。

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
（第１の実施形態）

［全体図］
図１は、機械学習装置１の機能構成と、同装置１と関連する他の要素との関係を示す図である。同装置１は、事例取得手段２、距離評価手段３及び属性付与手段４から構成される。

事例取得手段２は、インターネット７を介して文書を取得する。この場合、取得する文書に制限を設けなくてもよいが、文書の作成時期が所定の年月日以降のものに限定してもよい。サポートベクタマシンによる判定精度を向上させるのに役立つ訓練事例としては、古い文書は適切でない可能性があるからである。

距離評価手段３は、上記で受け取った文書に含まれる単語の出現状況を調べ、ラベル付き文書記憶装置５上に記録された特定のカテゴリーに属するか否かが既知の文書に含まれる単語の出現状況と比較することにより、両文書が近いかどうかを評価する。比較の対象としては、出現する単語の重複度や出現頻度がある。距離の評価は数値で定量的に表してもよく、また、「近い」または「遠い」というように定性的に表してもよい。

属性付与手段４は、上記で評価した距離が所定の条件を満たす場合は、取得した文書がそのカテゴリーに属するものとみなして、ラベル付き文書記憶装置５に記録する。こうすることにより、文書分類装置６は、特定のカテゴリーに属するか否かが既知の文書に当該文書も加えて、基準すなわち訓練事例として、判定精度を向上させることができる。

ラベル付き文書記憶装置５は機械学習装置１からアクセス可能で、特定のカテゴリーに属するか否かが既知の文書、すなわち既存の訓練事例が記録されている。ラベル付き文書記憶装置５は、機械学習装置１の中にあってもよいが、本実施形態においては同装置１の外にある。

文書分類装置６は、ラベル付き文書記憶装置５に接続されており、同装置５に記録された特定のカテゴリーに属するか否かが既知の文書を基準すなわち訓練事例として、属性が未知の文書の分類を行う。

インターネット７は、機械学習装置１からアクセス可能であり、同装置１はインターネット７を介してＷｅｂページ８にアクセスする。

［機械学習装置１のハードウェア構成］
図２は、本実施形態に係る機械学習装置１のハードウェア構成を示す図である。機械学習装置１は、制御装置２０を構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１（マルチプロセッサ構成ではＣＰＵ２２等複数のＣＰＵが追加されてもよい）、バスライン１０、通信Ｉ／Ｆ（Ｉ／Ｆ：インターフェイス）２３、メインメモリ２４、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）２５、表示装置２６、Ｉ／Ｏコントローラ２７、並びにキーボード及びマウス等の入力装置２８を備える。

制御装置２０は、機械学習装置１を統括的に制御するための装置であり、ハードディスク２９（後述）に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。

通信Ｉ／Ｆ２３は、機械学習装置１が、インターネット７を介してＷｅｂページ８の文書を取得する際に使用するネットワーク・アダプタである。通信Ｉ／Ｆ２３は、モデム、ケーブル・モデム及びイーサネット（登録商標）・アダプタを含んでよい。ＢＩＯＳ２５は、機械学習装置１の起動時にＣＰＵ２１が実行するブートプログラムや、機械学習装置１のハードウェアに依存するプログラム等を記録する。

表示装置２６は、機械学習装置１による演算処理結果等の画面を表示するものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。Ｉ／Ｏコントローラ２７には、ハードディスク２９、及び半導体メモリ３０等の記憶装置３１を接続することができる。入力装置２８は、機械学習装置１の管理者による入力の受け付けを行うものである。ハードディスク２９は、本ハードウェアを機械学習装置１として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブルを記憶する。

以上の例は、機械学習装置１のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを機械学習装置１として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した機械学習装置１により実現される機能は、上述の方法を当該コンピュータにより実行することによって、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。

なお、本発明でいうコンピュータとは、記憶装置、制御装置等を備えた情報処理装置をいい、機械学習装置１は、記憶装置３１、制御装置２０等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。ここで、図１に示した、事例取得手段２、距離評価手段３及び属性付与手段４には主として制御装置２０が対応する。

［文書のベクタ化］
図３は、文書における単語の出現状況を把握するために使用する単語辞書である。単語番号と単語から構成されている。本実施形態においては、単語としては名詞に限ることとする。

図４は、「車」に関する文書における単語の出現頻度表である。文書が与えられたとき、その文書に含まれる単語を、単語辞書（図３）を用いて出現頻度ごとに集計することができる。「車」に関する文書であるか否かが判っている文書が複数ある場合において、これらの文書に含まれる単語の出現頻度を集計したものである。併せて、出現比率も求めている。出現比率は、例えば、全単語数における各単語の出現した回数でもよいし、また全字数における各単語の出現した回数でもよい。それぞれの単語の相対的な出現のしやすさを示すものであれば他の計算方法によるものであってもよい。

このようにして、「車」に関する文書における単語の出現頻度が判れば、この中で、出現比率が所定の比率を超えている単語を選ぶ。例えば、出現比率が７％を超えている単語を選ぶとすると、「エンジン」、「ハンドル」、「メーター」の３つが選ばれる。それぞれの出現比率は１３％、１１％、９％である。そして、このようにして選んだ３つの単語を座標軸として各文書におけるこれらの３つの単語の出現比率を求める。そうすると、各文書は、３次元の空間の点（すなわち、３次元のベクタ）として表すことができる。

「車」に関する文書であっても、すべて同じ比率のなるわけではなく、例えば、ある文書は、「エンジン」１１％、「ハンドル」１０％、「メーター」１１％というようになる。また、別の文書は、例えば、「エンジン」１４％、「ハンドル」１１％、「メーター」８％というようになる。しかし、平均的には、「エンジン」１３％、「ハンドル」１１％、「メーター」９％で表される点の周辺に分布することが予想される。

一方、「車」に関する文書であることが判っている文書に対しては「＋１」、「車」に関する文書でないことが判っている文書に対しては「−１」としてラベルを付けると、「車」に関する文書であるか否かが判っている各文書は、ベクタとラベルの組として把握することができる。そうすると、サポートベクタマシンの理論に基づき、これらを訓練事例として、ラベルの異なる文書（事例）を分離する最適超平面を求めることができる。そして、それに伴い、その最適超平面の決定に関与する文書（事例）を、サポートベクタとして把握することができる。最適超平面の決定方法及びサポートベクタの決定方法については公知であるので省略する（非特許文献１参照）。尚、上述例では、単語の出現頻度により文書をベクタ化したが、所定の単語がその文書中に出現するか否かにより文書をベクタ化することとしても勿論よい。

［Ｗｅｂ上から取得した文書とサポートベクタからの距離］
Ｗｅｂ上から取得した文書（以下、取得文書という）についても同様にベクタとして把握することができる。この場合、「車」に関する文書であるかどうかに問題の対象を絞っているので、「エンジン」、「ハンドル」、「メーター」の出現比率を座標軸とする３次元空間のベクタとして把握される。

３次元空間における２つのベクタ間の距離は、各要素の差の２乗の合計の平方根（ユークリッド距離）として定義することができる。但し、これに限られるものではなく、例えば、各要素の差の絶対値の合計のように定義をしてもよい。距離をどのように定義するかは、対象とする問題に応じて適宜決めればよい。

図５は、ラベル付き文書（訓練事例）と最適超平面を示す図である。白丸はラベルが「＋１」の文書、黒丸はラベルが「−１」の文書を表す。そして、これらのラベルの異なる文書を分離する超平面は直線４０、サポートベクタとなる文書を表すのは白丸４１と、黒丸４２である。

図６は、Ｗｅｂ上から取得した文書を書き入れた図である。ここで、取得文書は四角４３で示している。この取得文書とサポートベクタとの距離ｄを測り、これが所定の条件を満たす場合は、この取得文書とサポートベクタの距離が十分近いと判断して、この文書にサポートベクタと同じラベルを付与する。この場合、ラベルが「＋１」のサポートベクタとの距離が近いので当該文書のラベル「＋１」とする。

［訓練事例への反映］
サポートベクタマシンは、ベクタによって表される事例と、その事例が特定のカテゴリーに属するか否かを表示する指標であるラベルとの組み合わせを１つの訓練事例として、複数個の訓練事例に基づいて学習を行う。

したがって、ラベルが付与された文書は訓練事例となりえる。そこで、上記のサポートベクタとの距離が近いと評価され、そのサポートベクタと同じラベルを付与された取得文書は、訓練事例として利用することができる。その結果、この取得文書を訓練事例として組み入れた文書集合を新たな訓練事例として導き出した最適超平面は、それまでの最適超平面とは異なるものになりえる。

図７は、最適超平面の変化を示す図である。従来の最適超平面を破線４０、新しい最適超平面を実線５０として示している。新しい最適超平面の下では、サポートベクタも変わる可能性があるが、新たなサポートベクタを基準として、新たにＷｅｂ上から取得した文書について同様の操作を繰り返せば、訓練事例の数が増えていくので、次第に「車」に関する文書の属性判断の精度が向上していくと期待できる。

［処理フロー］
図８に基づいて、上記の機械学習のプロセスの流れについて説明する。まず、カテゴリーが「車」であるか否かのラベルのついた複数の文書が与えられており、それらの文書に基づいてサポートベクタマシンの通常の手順で文書分類のための学習を行う（Ｓ１０）。このとき、これらの文書に基づいて、文書をベクタとして把握するための単語と、サポートベクタとなる文書が決定される。

次に、Ｗｅｂ上から文書を取得する（Ｓ２０）。すなわち、機械学習装置１は事例取得手段として機能する。

次に、取得した文書と、サポートベクタとなる文書との距離を評価する（Ｓ３０）。すなわち、機械学習装置１は距離評価手段として機能する。

次に、その距離が所定の条件を満たすかどうか判断し、満たすと判断したとき（Ｓ４０：Ｙｅｓ）は、取得した文書にサポートベクタと同じラベルを付ける（Ｓ５０）。そして、取得した文書をラベルの付いた文書の集合に加えて、それらの文書に基づいて、改めてサポートベクタマシンの通常の手順で文書分類のための学習を行う（Ｓ６０）。すなわち、機械学習装置１は属性付与手段として機能する。

上記の距離が所定の条件を満たさない場合（Ｓ４０：Ｎｏ）は、その取得文書については何も行わずに終了する。

このように本実施形態によれば、文書をベクタ化し、その文書のカテゴリーへの属否をラベル化することで、サポートベクタマシンの処理の対象となる。そして、ベクタが実数値の上を連続的に動き得るのに対し、ラベルが離散的にしか変化しないという特徴を利用し、サポートベクタの近いところに、仮想的な事例を人工的に作り出し、それを訓練事例に追加することにより精度が向上するという既知の知見を、Ｗｅｂ上から取得した文書に適用することが可能となる。

これにより、手間を掛けずに、Ｗｅｂ上に存在する豊富な文書を文書分類に係るサポートベクタマシンの精度向上に役立てることができる。

（第２の実施形態）
第１の実施形態では、文書をベクタ化するにあたり、「車」に関する文書であることが既知である複数の文書（すなわち、ラベルが「＋１」の文書）における単語の出現頻度に基づいて、出現比率の高い単語を選んで、座標軸とした。しかし、本実施形態では、「車」に関する文書でないことが既知である複数の文書（すなわち、ラベルが「−１」の文書）における単語の出現頻度も考慮して、座標軸を選ぶ。

なお、以下の説明及び図面において、前述した第１の実施形態と同様の機能を果たす部分には、同一の符号を付して、重複する説明は適宜省略する。

図９は、ラベルが「−１」の文書における単語頻度表である。

図１０は、図４と図９とにおける出現比率を比較したものである。この表から判ることは、ラベルが「＋１」の文書には「エンジン」、「ハンドル」、「メーター」がよく出現するが、「マウス」、「回線」は殆ど出現しないということである。したがって、文書のベクタ化の座標軸を「エンジン」、「ハンドル」、「メーター」、「マウス」、「回線」の５つとすることで、出現すべき単語のみならず、出現すべきでない単語についての出現状況も考慮した判定が可能となる。

この場合、各文書は、５次元空間におけるベクタとして表現されることになる。こうすると、Ｗｅｂ上から取得した文書に、ラベルが「＋１」の文書には本来出現しない筈の「マウス」や「回線」の単語が出現すると、５次元空間における、ラベルが「＋１」のサポートベクタとの距離が遠くなり、その結果、訓練事例に含められる可能性が減少する。つまり、第１の実施形態に示した方法より精度の高い判断が期待できる。

このように本実施形態によれば、文書のベクタ化において、ポジティブなラベルの文書のみならず、ネガティブなラベルの文書も参考にしてベクタとすべき要素を決めるので、文書についてより的確な判断が可能となるようなベクタ化が可能となる。

その結果、真に訓練事例として相応しい文書をＷｅｂ上から取得することができる。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。例えば、Ｗｅｂ上から取得した文書と、ラベルが既知の文書との距離の定め方については次のような方法を採ることもできる。

図１１は、Ｗｅｂ上から新たに取得した文書と、ラベルが「＋１」の文書との距離を示す図である。ラベルが「＋１」の文書を図１３（ａ）の白丸で示す。各文書はベクタ化されており、このベクタの集合の外延を直線で示している。したがって、この直線に囲まれる多角形はこれらのベクタを含む最小の多角形である。

ここで、取得文書を黒丸で示すと、この黒丸と白丸の集合との距離は、図１３（ｂ）のように、白丸の集合の外延の頂点を構成する白丸（以下、ノードと呼ぶ）との距離として定義することができる。

なお、ノードとの距離に限らず、図１３（ｃ）のように、Ｗｅｂ上から新たに取得した文書を示す黒丸と外延を構成する辺との最近接点（黒丸から外延を構成する辺に垂直に垂らした線と当該辺が交わる点）との距離が黒丸といずれのノードとの距離より小さい場合は、これをこの黒丸と白丸の集合との距離としてもよい。閉領域の境界からの距離が近い文書については、同じく、ラベルが「＋１」とみなしても妥当と考えられるからである。

このようにして、ノードまたは辺との距離でＷｅｂ上から取得した文書とラベルが「＋１」の文書との距離を適宜算出し、この距離が所定の条件を満たすかどうかを判断するようにする。

このような方法によれば、Ｗｅｂ上から取得した文書と、ラベルが既知の文書との距離を、妥当な範囲内で柔軟に考えることができるので、本来訓練事例に追加すべき文書を漏らすことなく取得することができる。

このように、Ｗｅｂ上から取得した文書にラベルを付けることが妥当かどうかを判断するために、ラベルが既知の文書との距離を評価する方法はいろいろ考えられる。いずれの方法がいいかは、対象とする文書の種類や判定の対象となる問題によって異なる可能性がある。また、距離の計算方法自体も種々考えられるし、またその距離を評価する基準も種々考えられる。いずれも、今後、実際の実例を通じて最適化していくべきものであるが、それらはいずれも本発明の技術的範囲に含まれる。

なお、サポートベクタマシンで判定の対象とするカテゴリーに関連するＷｅｂサイトから文書を収集するようにしてもよい。例えば、「車」に関する意見を投稿するブログのようなところから収集した文書は、ほぼ間違いなく「車」に関する文書であると考えられるので、「車」に関する文書の種々の形態の文書を訓練事例として収集することが可能となるからである。

なお、本発明の各実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

本発明の第１の実施形態に係る機械学習装置１の機能構成と関連する他の要素との関係を示す図である。本発明の第１の実施形態に係る機械学習装置１のハードウェア構成を示す図である。本発明の第１の実施形態に係る単語辞書を示す図である。本発明の第１の実施形態に係る単語頻度表を示す図である。本発明の第１の実施形態に係るラベル付き文書（訓練事例）と最適超平面を示す図である。図５にＷｅｂ上から取得した文書を書き入れた図である。本発明の第１の実施形態に係る最適超平面の変化を示す図である。本発明の第１の実施形態に係る機械学習のプロセスの流れを示す図である。本発明の第２の実施形態に係る単語頻度表を示す図である。図４と図９とにおける出現比率を比較したものである。Ｗｅｂ上から新たに取得した文書と、ラベルが「＋１」の文書との距離の一例を示す図である。

符号の説明

１機械学習装置
２事例取得手段
３距離評価手段
４属性付与手段
５ラベル付き文書記憶装置
６文書分類装置
７インターネット
８Ｗｅｂページ
１０バスライン
２０制御装置
２１、２２ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
２３通信Ｉ／Ｆ（Ｉ／Ｆ：インターフェイス）
２４メインメモリ
２５ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）
２６表示装置
２７Ｉ／Ｏコントローラ
２８入力装置
２９ハードディスク
３０半導体メモリ
３１記憶装置

Claims

事例に係るデータと該事例が備える属性とについての既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習装置であって、
前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段と、
前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段と、
前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段と、
を備える機械学習装置。
前記事例は前記データの組として特徴付けられ、前記事例が特定の属性を備えるか否かについての情報は前記事例が特定のカテゴリーに属するか否かを示すラベルであることを特徴とする請求項１に記載の機械学習装置。
前記事例は文書であり、
前記事例取得手段は、Ｗｅｂ上から前記文書を取得することを特徴とする請求項１または請求項２に記載の機械学習装置。
前記事例取得手段が取得する文書は、所定の時期以後に作成された文書であることを特徴とする請求項３に記載の機械学習装置。
前記事例取得手段は、前記特定の属性に関連するＷｅｂページから前記文書を取得することを特徴とする請求項３または請求項４に記載の機械学習装置。
前記データは文書に含まれる単語であり、
前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項３から請求項５のいずれかに記載の機械学習装置。
前記データは文書に含まれる単語であり、
前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項３から請求項５のいずれかに記載の機械学習装置。
事例に係るデータと該事例が備える属性とについて既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習方法であって、
コンピュータが前記特定の属性を備えるか否かについて未知である事例を取得する事例取得ステップと、
コンピュータが前記取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価ステップと、
コンピュータが前記評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性評価ステップと、
を備える機械学習方法。