JP2009129279A - 機械学習装置及び機械学習方法 - Google Patents

機械学習装置及び機械学習方法 Download PDF

Info

Publication number
JP2009129279A
JP2009129279A JP2007304958A JP2007304958A JP2009129279A JP 2009129279 A JP2009129279 A JP 2009129279A JP 2007304958 A JP2007304958 A JP 2007304958A JP 2007304958 A JP2007304958 A JP 2007304958A JP 2009129279 A JP2009129279 A JP 2009129279A
Authority
JP
Japan
Prior art keywords
case
document
machine learning
distance
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007304958A
Other languages
English (en)
Other versions
JP4994199B2 (ja
Inventor
Manabu Satsusano
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007304958A priority Critical patent/JP4994199B2/ja
Publication of JP2009129279A publication Critical patent/JP2009129279A/ja
Application granted granted Critical
Publication of JP4994199B2 publication Critical patent/JP4994199B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】Web上から取得した文書を利用し、文書分類に係るサポートベクタマシンの精度向上を行うための機械学習装置及び機械学習方法を提供すること。
【解決手段】機械学習装置1は、事例に係るデータと該事例が備える属性とについての既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段2と、前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段3と、前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段4と、を備えることにより、判定精度を向上させる。
【選択図】図1

Description

本発明は、機械学習装置及び機械学習方法に関する。
機械学習の分野における教師あり学習を用いる識別手法の1つであるサポートベクタマシンにおいて、サポートベクタの近いところに、仮想的な事例を人工的に作り出し、それを学習に使う事例集合に追加する手法は精度向上に寄与することが判っている(例えば、特許文献1及び非特許文献1)。
特開2004−287776号公報 「自然言語処理」言語処理学会、2006年Vol.13、No.3、21−35頁
しかし、有効な仮想事例を作る手法は、必ずしも明らかではなく、仮想的な事例を人工的に作ることは手間の掛かることであり、作り出せる事例の数にも限りがある。一方、サポートベクタマシンの対象を文書分類の問題に絞ると、事例となる文書はWeb上から容易に取得可能であるので、これらを用いて上記のような人工的な操作の代わりとすることができれば手間を掛けずに精度向上を行うことができる。
そこで、本発明は、Web上から取得した文書を利用し、文書分類に係るサポートベクタマシンの精度向上を行うための機械学習装置及び機械学習方法を提供することを目的とする。
本発明者は、文書分類に係るサポートベクタマシンが教師とするラベル付き事例(文書)と、Web上から取得した事例(文書)との間に距離(近さ)の概念を導入し、その距離が一定の条件を満たすときにその事例(文書)にラベルを付け、サポートベクタマシンの教師に加えるという仕組みを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
(1)事例に係るデータと該事例が備える属性とについての既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習装置であって、
前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段と、
前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段と、
前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段と、
を備える機械学習装置。
本発明のこのような構成によれば、前記機械学習装置は、事例に係るデータと該事例が特定の属性を備えるか否かとについて既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、前記特定の属性を備えるか否かについて未知の事例を取得し、その事例と特定の属性を備えるか否かとについて既知の事例との距離を評価して、その距離が所定の条件を満たす場合に、当該事例が特定の属性を備えるとみなして判定の基準として利用する。
その結果、人手によらなくても基準とすることができる事例の数が増えるので、自動的に判定精度を向上させることができる。
(2)前記事例は前記データの組として特徴付けられ、前記事例が特定の属性を備えるか否かについての情報は前記事例が特定のカテゴリーに属するか否かを示すラベルであることを特徴とする請求項1に記載の機械学習装置。
本発明のこのような構成によれば、前記機械学習装置は、データの組であるベクタとラベルの組み合わせとして訓練データ(例題)が与えられるサポートベクタマシンを対象として、判定精度の向上に役立てることができる。したがって、事例に係るデータと該事例が特定の属性を備えるか否かとについて既知の情報は、ラベル付き事例に該当する。
(3)前記事例は文書であり、前記事例取得手段は、Web上から前記文書を取得することを特徴とする請求項1または請求項2に記載の機械学習装置。
本発明のこのような構成によれば、前記機械学習装置は、特に文書分類の問題において、Web上から取得した文書を利用できるので、Web上にある豊富な文書資源をサポートベクタマシンの精度向上に役立てることができる。
(4)前記事例取得手段が取得する文書は、所定の時期以後に作成された文書であることを特徴とする請求項3に記載の機械学習装置。
本発明のこのような構成によれば、前記機械学習装置は、Web上に多数ある文書のうち、作成時期が古い文書を対象から外すので、時代とともに文書の用語や表現が変化していく場合に、適切に対応することができる。
(5)前記事例取得手段は、前記特定の属性に関連するWebページから前記文書を取得することを特徴とする請求項3または請求項4に記載の機械学習装置。
本発明のこのような構成によれば、前記機械学習装置は、Web上から任意に取得する文書ではなく、判定しようとする属性に関連のあるWebサイト等から文書を取得するので、前記属性付与手段が付与する当該文書の属性の過誤が減少し、サポートベクタマシンの精度向上に一層寄与することができる。
(6)前記データは文書に含まれる単語であり、前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。
本発明のこのような構成によれば、前記距離評価手段は、教師としての事例(前記特定の属性を備えることが既知である文書)とWeb上から取得した事例(文書)との距離をそれぞれの文書に含まれる単語の出現に係る情報に基づいて評価するので、単語の重複度や出現頻度等を考慮して客観的に評価することができる。その結果、単語の出現の仕方に同様の特徴のある文書を同じカテゴリーに属する文書であると判定することができる。
(7)前記データは文書に含まれる単語であり、前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。
本発明のこのような構成によれば、前記距離評価手段は、教師としての事例(前記特定の属性を備えることが既知である文書)とWeb上から取得した事例(文書)との距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価するので、教師としての事例(前記特定の属性を備えることが既知である文書)のみならず、反教師としての事例(前記特定の属性を備えないことが既知である文書)も考慮して評価することができる。その結果、Web上から取得した文書の教師としての適格性をより安全に認定することができる。
(8)事例に係るデータと該事例が備える属性とについて既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習方法であって、
コンピュータが前記特定の属性を備えるか否かについて未知である事例を取得する事例取得ステップと、
コンピュータが前記取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価ステップと、
コンピュータが前記評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性評価ステップと、
を備える機械学習方法。
この発明によれば、(1)に記載の発明が行う処理をコンピュータを用いて行うので、(1)に記載の発明と同様の効果を発揮することができる。
この発明によれば、文書分類に係るサポートベクタマシンの判定精度を、従来技術のように、仮想的な事例を人工的に作り出すのではなく、Web上に多数存在する文書を利用して向上させることができるので、手間を掛けずに精度の高い文書分類システムを作ることができる。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(第1の実施形態)
[全体図]
図1は、機械学習装置1の機能構成と、同装置1と関連する他の要素との関係を示す図である。同装置1は、事例取得手段2、距離評価手段3及び属性付与手段4から構成される。
事例取得手段2は、インターネット7を介して文書を取得する。この場合、取得する文書に制限を設けなくてもよいが、文書の作成時期が所定の年月日以降のものに限定してもよい。サポートベクタマシンによる判定精度を向上させるのに役立つ訓練事例としては、古い文書は適切でない可能性があるからである。
距離評価手段3は、上記で受け取った文書に含まれる単語の出現状況を調べ、ラベル付き文書記憶装置5上に記録された特定のカテゴリーに属するか否かが既知の文書に含まれる単語の出現状況と比較することにより、両文書が近いかどうかを評価する。比較の対象としては、出現する単語の重複度や出現頻度がある。距離の評価は数値で定量的に表してもよく、また、「近い」または「遠い」というように定性的に表してもよい。
属性付与手段4は、上記で評価した距離が所定の条件を満たす場合は、取得した文書がそのカテゴリーに属するものとみなして、ラベル付き文書記憶装置5に記録する。こうすることにより、文書分類装置6は、特定のカテゴリーに属するか否かが既知の文書に当該文書も加えて、基準すなわち訓練事例として、判定精度を向上させることができる。
ラベル付き文書記憶装置5は機械学習装置1からアクセス可能で、特定のカテゴリーに属するか否かが既知の文書、すなわち既存の訓練事例が記録されている。ラベル付き文書記憶装置5は、機械学習装置1の中にあってもよいが、本実施形態においては同装置1の外にある。
文書分類装置6は、ラベル付き文書記憶装置5に接続されており、同装置5に記録された特定のカテゴリーに属するか否かが既知の文書を基準すなわち訓練事例として、属性が未知の文書の分類を行う。
インターネット7は、機械学習装置1からアクセス可能であり、同装置1はインターネット7を介してWebページ8にアクセスする。
[機械学習装置1のハードウェア構成]
図2は、本実施形態に係る機械学習装置1のハードウェア構成を示す図である。機械学習装置1は、制御装置20を構成するCPU(Central Processing Unit)21(マルチプロセッサ構成ではCPU22等複数のCPUが追加されてもよい)、バスライン10、通信I/F(I/F:インターフェイス)23、メインメモリ24、BIOS(Basic Input Output System)25、表示装置26、I/Oコントローラ27、並びにキーボード及びマウス等の入力装置28を備える。
制御装置20は、機械学習装置1を統括的に制御するための装置であり、ハードディスク29(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F23は、機械学習装置1が、インターネット7を介してWebページ8の文書を取得する際に使用するネットワーク・アダプタである。通信I/F23は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。BIOS25は、機械学習装置1の起動時にCPU21が実行するブートプログラムや、機械学習装置1のハードウェアに依存するプログラム等を記録する。
表示装置26は、機械学習装置1による演算処理結果等の画面を表示するものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。I/Oコントローラ27には、ハードディスク29、及び半導体メモリ30等の記憶装置31を接続することができる。入力装置28は、機械学習装置1の管理者による入力の受け付けを行うものである。ハードディスク29は、本ハードウェアを機械学習装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブルを記憶する。
以上の例は、機械学習装置1のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを機械学習装置1として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した機械学習装置1により実現される機能は、上述の方法を当該コンピュータにより実行することによって、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
なお、本発明でいうコンピュータとは、記憶装置、制御装置等を備えた情報処理装置をいい、機械学習装置1は、記憶装置31、制御装置20等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。ここで、図1に示した、事例取得手段2、距離評価手段3及び属性付与手段4には主として制御装置20が対応する。
[文書のベクタ化]
図3は、文書における単語の出現状況を把握するために使用する単語辞書である。単語番号と単語から構成されている。本実施形態においては、単語としては名詞に限ることとする。
図4は、「車」に関する文書における単語の出現頻度表である。文書が与えられたとき、その文書に含まれる単語を、単語辞書(図3)を用いて出現頻度ごとに集計することができる。「車」に関する文書であるか否かが判っている文書が複数ある場合において、これらの文書に含まれる単語の出現頻度を集計したものである。併せて、出現比率も求めている。出現比率は、例えば、全単語数における各単語の出現した回数でもよいし、また全字数における各単語の出現した回数でもよい。それぞれの単語の相対的な出現のしやすさを示すものであれば他の計算方法によるものであってもよい。
このようにして、「車」に関する文書における単語の出現頻度が判れば、この中で、出現比率が所定の比率を超えている単語を選ぶ。例えば、出現比率が7%を超えている単語を選ぶとすると、「エンジン」、「ハンドル」、「メーター」の3つが選ばれる。それぞれの出現比率は13%、11%、9%である。そして、このようにして選んだ3つの単語を座標軸として各文書におけるこれらの3つの単語の出現比率を求める。そうすると、各文書は、3次元の空間の点(すなわち、3次元のベクタ)として表すことができる。
「車」に関する文書であっても、すべて同じ比率のなるわけではなく、例えば、ある文書は、「エンジン」11%、「ハンドル」10%、「メーター」11%というようになる。また、別の文書は、例えば、「エンジン」14%、「ハンドル」11%、「メーター」8%というようになる。しかし、平均的には、「エンジン」13%、「ハンドル」11%、「メーター」9%で表される点の周辺に分布することが予想される。
一方、「車」に関する文書であることが判っている文書に対しては「+1」、「車」に関する文書でないことが判っている文書に対しては「−1」としてラベルを付けると、「車」に関する文書であるか否かが判っている各文書は、ベクタとラベルの組として把握することができる。そうすると、サポートベクタマシンの理論に基づき、これらを訓練事例として、ラベルの異なる文書(事例)を分離する最適超平面を求めることができる。そして、それに伴い、その最適超平面の決定に関与する文書(事例)を、サポートベクタとして把握することができる。最適超平面の決定方法及びサポートベクタの決定方法については公知であるので省略する(非特許文献1参照)。尚、上述例では、単語の出現頻度により文書をベクタ化したが、所定の単語がその文書中に出現するか否かにより文書をベクタ化することとしても勿論よい。
[Web上から取得した文書とサポートベクタからの距離]
Web上から取得した文書(以下、取得文書という)についても同様にベクタとして把握することができる。この場合、「車」に関する文書であるかどうかに問題の対象を絞っているので、「エンジン」、「ハンドル」、「メーター」の出現比率を座標軸とする3次元空間のベクタとして把握される。
3次元空間における2つのベクタ間の距離は、各要素の差の2乗の合計の平方根(ユークリッド距離)として定義することができる。但し、これに限られるものではなく、例えば、各要素の差の絶対値の合計のように定義をしてもよい。距離をどのように定義するかは、対象とする問題に応じて適宜決めればよい。
図5は、ラベル付き文書(訓練事例)と最適超平面を示す図である。白丸はラベルが「+1」の文書、黒丸はラベルが「−1」の文書を表す。そして、これらのラベルの異なる文書を分離する超平面は直線40、サポートベクタとなる文書を表すのは白丸41と、黒丸42である。
図6は、Web上から取得した文書を書き入れた図である。ここで、取得文書は四角43で示している。この取得文書とサポートベクタとの距離dを測り、これが所定の条件を満たす場合は、この取得文書とサポートベクタの距離が十分近いと判断して、この文書にサポートベクタと同じラベルを付与する。この場合、ラベルが「+1」のサポートベクタとの距離が近いので当該文書のラベル「+1」とする。
[訓練事例への反映]
サポートベクタマシンは、ベクタによって表される事例と、その事例が特定のカテゴリーに属するか否かを表示する指標であるラベルとの組み合わせを1つの訓練事例として、複数個の訓練事例に基づいて学習を行う。
したがって、ラベルが付与された文書は訓練事例となりえる。そこで、上記のサポートベクタとの距離が近いと評価され、そのサポートベクタと同じラベルを付与された取得文書は、訓練事例として利用することができる。その結果、この取得文書を訓練事例として組み入れた文書集合を新たな訓練事例として導き出した最適超平面は、それまでの最適超平面とは異なるものになりえる。
図7は、最適超平面の変化を示す図である。従来の最適超平面を破線40、新しい最適超平面を実線50として示している。新しい最適超平面の下では、サポートベクタも変わる可能性があるが、新たなサポートベクタを基準として、新たにWeb上から取得した文書について同様の操作を繰り返せば、訓練事例の数が増えていくので、次第に「車」に関する文書の属性判断の精度が向上していくと期待できる。
[処理フロー]
図8に基づいて、上記の機械学習のプロセスの流れについて説明する。まず、カテゴリーが「車」であるか否かのラベルのついた複数の文書が与えられており、それらの文書に基づいてサポートベクタマシンの通常の手順で文書分類のための学習を行う(S10)。このとき、これらの文書に基づいて、文書をベクタとして把握するための単語と、サポートベクタとなる文書が決定される。
次に、Web上から文書を取得する(S20)。すなわち、機械学習装置1は事例取得手段として機能する。
次に、取得した文書と、サポートベクタとなる文書との距離を評価する(S30)。すなわち、機械学習装置1は距離評価手段として機能する。
次に、その距離が所定の条件を満たすかどうか判断し、満たすと判断したとき(S40:Yes)は、取得した文書にサポートベクタと同じラベルを付ける(S50)。そして、取得した文書をラベルの付いた文書の集合に加えて、それらの文書に基づいて、改めてサポートベクタマシンの通常の手順で文書分類のための学習を行う(S60)。すなわち、機械学習装置1は属性付与手段として機能する。
上記の距離が所定の条件を満たさない場合(S40:No)は、その取得文書については何も行わずに終了する。
このように本実施形態によれば、文書をベクタ化し、その文書のカテゴリーへの属否をラベル化することで、サポートベクタマシンの処理の対象となる。そして、ベクタが実数値の上を連続的に動き得るのに対し、ラベルが離散的にしか変化しないという特徴を利用し、サポートベクタの近いところに、仮想的な事例を人工的に作り出し、それを訓練事例に追加することにより精度が向上するという既知の知見を、Web上から取得した文書に適用することが可能となる。
これにより、手間を掛けずに、Web上に存在する豊富な文書を文書分類に係るサポートベクタマシンの精度向上に役立てることができる。
(第2の実施形態)
第1の実施形態では、文書をベクタ化するにあたり、「車」に関する文書であることが既知である複数の文書(すなわち、ラベルが「+1」の文書)における単語の出現頻度に基づいて、出現比率の高い単語を選んで、座標軸とした。しかし、本実施形態では、「車」に関する文書でないことが既知である複数の文書(すなわち、ラベルが「−1」の文書)における単語の出現頻度も考慮して、座標軸を選ぶ。
なお、以下の説明及び図面において、前述した第1の実施形態と同様の機能を果たす部分には、同一の符号を付して、重複する説明は適宜省略する。
図9は、ラベルが「−1」の文書における単語頻度表である。
図10は、図4と図9とにおける出現比率を比較したものである。この表から判ることは、ラベルが「+1」の文書には「エンジン」、「ハンドル」、「メーター」がよく出現するが、「マウス」、「回線」は殆ど出現しないということである。したがって、文書のベクタ化の座標軸を「エンジン」、「ハンドル」、「メーター」、「マウス」、「回線」の5つとすることで、出現すべき単語のみならず、出現すべきでない単語についての出現状況も考慮した判定が可能となる。
この場合、各文書は、5次元空間におけるベクタとして表現されることになる。こうすると、Web上から取得した文書に、ラベルが「+1」の文書には本来出現しない筈の「マウス」や「回線」の単語が出現すると、5次元空間における、ラベルが「+1」のサポートベクタとの距離が遠くなり、その結果、訓練事例に含められる可能性が減少する。つまり、第1の実施形態に示した方法より精度の高い判断が期待できる。
このように本実施形態によれば、文書のベクタ化において、ポジティブなラベルの文書のみならず、ネガティブなラベルの文書も参考にしてベクタとすべき要素を決めるので、文書についてより的確な判断が可能となるようなベクタ化が可能となる。
その結果、真に訓練事例として相応しい文書をWeb上から取得することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。例えば、Web上から取得した文書と、ラベルが既知の文書との距離の定め方については次のような方法を採ることもできる。
図11は、Web上から新たに取得した文書と、ラベルが「+1」の文書との距離を示す図である。ラベルが「+1」の文書を図13(a)の白丸で示す。各文書はベクタ化されており、このベクタの集合の外延を直線で示している。したがって、この直線に囲まれる多角形はこれらのベクタを含む最小の多角形である。
ここで、取得文書を黒丸で示すと、この黒丸と白丸の集合との距離は、図13(b)のように、白丸の集合の外延の頂点を構成する白丸(以下、ノードと呼ぶ)との距離として定義することができる。
なお、ノードとの距離に限らず、図13(c)のように、Web上から新たに取得した文書を示す黒丸と外延を構成する辺との最近接点(黒丸から外延を構成する辺に垂直に垂らした線と当該辺が交わる点)との距離が黒丸といずれのノードとの距離より小さい場合は、これをこの黒丸と白丸の集合との距離としてもよい。閉領域の境界からの距離が近い文書については、同じく、ラベルが「+1」とみなしても妥当と考えられるからである。
このようにして、ノードまたは辺との距離でWeb上から取得した文書とラベルが「+1」の文書との距離を適宜算出し、この距離が所定の条件を満たすかどうかを判断するようにする。
このような方法によれば、Web上から取得した文書と、ラベルが既知の文書との距離を、妥当な範囲内で柔軟に考えることができるので、本来訓練事例に追加すべき文書を漏らすことなく取得することができる。
このように、Web上から取得した文書にラベルを付けることが妥当かどうかを判断するために、ラベルが既知の文書との距離を評価する方法はいろいろ考えられる。いずれの方法がいいかは、対象とする文書の種類や判定の対象となる問題によって異なる可能性がある。また、距離の計算方法自体も種々考えられるし、またその距離を評価する基準も種々考えられる。いずれも、今後、実際の実例を通じて最適化していくべきものであるが、それらはいずれも本発明の技術的範囲に含まれる。
なお、サポートベクタマシンで判定の対象とするカテゴリーに関連するWebサイトから文書を収集するようにしてもよい。例えば、「車」に関する意見を投稿するブログのようなところから収集した文書は、ほぼ間違いなく「車」に関する文書であると考えられるので、「車」に関する文書の種々の形態の文書を訓練事例として収集することが可能となるからである。
なお、本発明の各実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
本発明の第1の実施形態に係る機械学習装置1の機能構成と関連する他の要素との関係を示す図である。 本発明の第1の実施形態に係る機械学習装置1のハードウェア構成を示す図である。 本発明の第1の実施形態に係る単語辞書を示す図である。 本発明の第1の実施形態に係る単語頻度表を示す図である。 本発明の第1の実施形態に係るラベル付き文書(訓練事例)と最適超平面を示す図である。 図5にWeb上から取得した文書を書き入れた図である。 本発明の第1の実施形態に係る最適超平面の変化を示す図である。 本発明の第1の実施形態に係る機械学習のプロセスの流れを示す図である。 本発明の第2の実施形態に係る単語頻度表を示す図である。 図4と図9とにおける出現比率を比較したものである。 Web上から新たに取得した文書と、ラベルが「+1」の文書との距離の一例を示す図である。
符号の説明
1 機械学習装置
2 事例取得手段
3 距離評価手段
4 属性付与手段
5 ラベル付き文書記憶装置
6 文書分類装置
7 インターネット
8 Webページ
10 バスライン
20 制御装置
21、22 CPU(Central Processing Unit)
23 通信I/F(I/F:インターフェイス)
24 メインメモリ
25 BIOS(Basic Input Output System)
26 表示装置
27 I/Oコントローラ
28 入力装置
29 ハードディスク
30 半導体メモリ
31 記憶装置

Claims (8)

  1. 事例に係るデータと該事例が備える属性とについての既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習装置であって、
    前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段と、
    前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段と、
    前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段と、
    を備える機械学習装置。
  2. 前記事例は前記データの組として特徴付けられ、前記事例が特定の属性を備えるか否かについての情報は前記事例が特定のカテゴリーに属するか否かを示すラベルであることを特徴とする請求項1に記載の機械学習装置。
  3. 前記事例は文書であり、
    前記事例取得手段は、Web上から前記文書を取得することを特徴とする請求項1または請求項2に記載の機械学習装置。
  4. 前記事例取得手段が取得する文書は、所定の時期以後に作成された文書であることを特徴とする請求項3に記載の機械学習装置。
  5. 前記事例取得手段は、前記特定の属性に関連するWebページから前記文書を取得することを特徴とする請求項3または請求項4に記載の機械学習装置。
  6. 前記データは文書に含まれる単語であり、
    前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。
  7. 前記データは文書に含まれる単語であり、
    前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。
  8. 事例に係るデータと該事例が備える属性とについて既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習方法であって、
    コンピュータが前記特定の属性を備えるか否かについて未知である事例を取得する事例取得ステップと、
    コンピュータが前記取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価ステップと、
    コンピュータが前記評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性評価ステップと、
    を備える機械学習方法。
JP2007304958A 2007-11-26 2007-11-26 機械学習装置及び機械学習方法 Active JP4994199B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007304958A JP4994199B2 (ja) 2007-11-26 2007-11-26 機械学習装置及び機械学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007304958A JP4994199B2 (ja) 2007-11-26 2007-11-26 機械学習装置及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2009129279A true JP2009129279A (ja) 2009-06-11
JP4994199B2 JP4994199B2 (ja) 2012-08-08

Family

ID=40820114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007304958A Active JP4994199B2 (ja) 2007-11-26 2007-11-26 機械学習装置及び機械学習方法

Country Status (1)

Country Link
JP (1) JP4994199B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012043285A (ja) * 2010-08-20 2012-03-01 Kddi Corp 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法
JP2017084249A (ja) * 2015-10-30 2017-05-18 株式会社Ubic データ分類システム,方法,プログラムおよびその記録媒体
JP2020135644A (ja) * 2019-02-22 2020-08-31 Kddi株式会社 分類装置、学習装置、分類方法及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111869A (ja) * 1996-10-07 1998-04-28 Fujitsu Ltd 情報分類装置とその方法
JP2000285141A (ja) * 1999-01-27 2000-10-13 Ricoh Co Ltd 画像検索装置,画像分類装置およびそれらの装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002202983A (ja) * 2000-12-28 2002-07-19 Matsushita Electric Ind Co Ltd 分類への帰属度計算基準作成方法及び装置
JP2003150605A (ja) * 2001-11-08 2003-05-23 Fuji Electric Co Ltd 情報収集装置および情報収集プログラム
JP2004021590A (ja) * 2002-06-17 2004-01-22 Fujitsu Ltd データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム
JP2004287776A (ja) * 2003-03-20 2004-10-14 Fujitsu Ltd 文書分類方法、文書分類装置、および文書分類プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111869A (ja) * 1996-10-07 1998-04-28 Fujitsu Ltd 情報分類装置とその方法
JP2000285141A (ja) * 1999-01-27 2000-10-13 Ricoh Co Ltd 画像検索装置,画像分類装置およびそれらの装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002202983A (ja) * 2000-12-28 2002-07-19 Matsushita Electric Ind Co Ltd 分類への帰属度計算基準作成方法及び装置
JP2003150605A (ja) * 2001-11-08 2003-05-23 Fuji Electric Co Ltd 情報収集装置および情報収集プログラム
JP2004021590A (ja) * 2002-06-17 2004-01-22 Fujitsu Ltd データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム
JP2004287776A (ja) * 2003-03-20 2004-10-14 Fujitsu Ltd 文書分類方法、文書分類装置、および文書分類プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012043285A (ja) * 2010-08-20 2012-03-01 Kddi Corp 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法
JP2017084249A (ja) * 2015-10-30 2017-05-18 株式会社Ubic データ分類システム,方法,プログラムおよびその記録媒体
JP2020135644A (ja) * 2019-02-22 2020-08-31 Kddi株式会社 分類装置、学習装置、分類方法及びプログラム
JP7017533B2 (ja) 2019-02-22 2022-02-08 Kddi株式会社 分類装置、学習装置、分類方法及びプログラム

Also Published As

Publication number Publication date
JP4994199B2 (ja) 2012-08-08

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN112507040B (zh) 多元关系生成模型的训练方法、装置、电子设备及介质
WO2020253503A1 (zh) 人才画像的生成方法、装置、设备及存储介质
TW202030685A (zh) 電腦執行的事件風險評估的方法及裝置
JP7285893B2 (ja) 医療データ検証方法、装置及び電子機器
CN106227756A (zh) 一种基于情感分类的股票指数预测方法及系统
JP2018092615A (ja) 畳み込みニューラルネットワークモデルの決定装置及び決定方法
US20200356706A1 (en) Goal-driven computer aided design workflow
JP4994199B2 (ja) 機械学習装置及び機械学習方法
KR102054500B1 (ko) 설계 도면 제공 방법
Ilkhani et al. Extraction test cases by using data mining; reducing the cost of testing
WO2017083038A1 (en) Suggestion-based differential diagnosis
JP6648828B2 (ja) 情報処理システム、情報処理方法、及び、プログラム
Li et al. Automated extraction of domain knowledge in practice: The case of feature extraction from requirements at danfoss
CN112131475A (zh) 一种可解释、可交互的用户画像方法及装置
Barbosa et al. Using performance profiles for the analysis and design of benchmark experiments
US20200174760A1 (en) Automatic code generation
US20220300836A1 (en) Machine Learning Techniques for Generating Visualization Recommendations
Ataman et al. Transforming large-scale participation data through topic modelling in urban design processes
WO2019103773A1 (en) Automatically identifying alternative functional capabilities of designed artifacts
WO2020167156A1 (ru) Способ отладки обученной рекуррентной нейронной сети
JPWO2018235841A1 (ja) グラフ構造解析装置、グラフ構造解析方法、及びプログラム
Silva et al. KNN applied to PDG for source code similarity classification
US11120381B2 (en) Product declaration validation
Bockle et al. Structured evaluation of computer systems

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120312

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120501

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120508

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4994199

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250