JP2007249421A - 情報分類装置 - Google Patents

情報分類装置 Download PDF

Info

Publication number
JP2007249421A
JP2007249421A JP2006069808A JP2006069808A JP2007249421A JP 2007249421 A JP2007249421 A JP 2007249421A JP 2006069808 A JP2006069808 A JP 2006069808A JP 2006069808 A JP2006069808 A JP 2006069808A JP 2007249421 A JP2007249421 A JP 2007249421A
Authority
JP
Japan
Prior art keywords
data
page
input
filter
coupon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006069808A
Other languages
English (en)
Inventor
Yoshihiko Uno
仁彦 羽野
Ichiro Hashiba
一郎 橋場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Recruit Co Ltd
Original Assignee
Recruit Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Recruit Co Ltd filed Critical Recruit Co Ltd
Priority to JP2006069808A priority Critical patent/JP2007249421A/ja
Publication of JP2007249421A publication Critical patent/JP2007249421A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】ユーザが欲する形態のウェブページを、効率よく検索できるようにすること。
【解決手段】複数の要素を含む軸から構成される軸群が設定されていて、入力に対して確率論を用いて選択した出力を行うNB10に対して、クーポンページのサンプルデータ群と、通常ページのサンプルデータ群とを、サンプルデータの種別を示す情報とともに入力した場合に、前記各入力データと前記各情報と前記各要素とに基づいて、NB10から出力される、当該各要素に対する事前確率を、確率値に基づいて選択するフィルタ20を用いて選択し、NB10に入力した各サンプルデータ群を構成する入力データのうち、フィルタ20によって選択された入力データが、クーポンページと通常ページとのいずれであるかを示す情報と一組で、フィルタ20によって選択された事前確率を、ベクトルデータの態様で入力することによって学習されたSVM40を提供する。
【選択図】 図1

Description

本発明は、情報を所定の分類規則に沿って分類する情報分類装置に関する。
情報を所定の分類規則に沿って分類する場合、分類装置が使用される。インターネットの世界において分類装置は、検索エンジンに搭載されている。インターネット上には、膨大な数の情報(ウェブページ)が存在している。インターネットのユーザは、検索エンジンに対してキーワードを入力し、所望のウェブページを抽出している。この場合、検索エンジンは、キーワードを参照して分類規則を特定し、この分類規則に沿って情報を抽出する。ウェブページの中には、飲食店などを中心に用意されている、クーポンページと称されているものがある。クーポンページとは、クーポンが掲載されていて、そのクーポンをプリントアウトして店舗に提示することで、割引サービスなどが受けられるというものである。
ところで、インターネットのユーザは、所望のウェブページを検索するためには、非特許文献1のような検索エンジンを用いる場合がある。検索エンジンは、ユーザから入力されたキーワードが文字列として記載されているウェブページを抽出するものである。したがって、ユーザがクーポンページを検索したい場合には、通常、「クーポン」などのキーワードと、クーポンを利用したい地域又は店舗種別などのキーワードとを検索エンジンに入力することで検索を行う。
従来の検索エンジンは、クーポンページとともに、クーポンページ以外のウェブページ(以下、「通常ページ」と称する。)も抽出してしまう。「クーポン」などの用語が用いられている場合があるため、単にクーポンページのみならず、通常ページも合わせて検索結果とされる場合がある。たとえば、ここで検索結果となる通常ページには、クーポンという文字を含むウェブログ(blog)や、クーポンページを紹介する総合サイトなどがある。このように、従来の手法では、ユーザが欲する形態のページ以外が抽出され、ユーザは抽出されたページから所望のページを探しださなければならなかった。
このため、検索エンジンによる検索精度を高めることが望まれている。検索エンジンには、検索精度を高めるために、サポートベクトルマシン(Support Vector Machine:以下、「SVM」と称する。)又はナイーブベイズ(naïve Bayesian:以下、「NB」と称する。)を利用することができる。SVM又はNBを利用した検索エンジンの例が、特許文献1に開示されている。
特許文献1には、SVM又はNBに対して所望の学習を行い、学習済のSVM又は学習済のNBを利用して、ウェブサイト情報を分類する技術が開示されている。ただし、特許文献1には、SVM又はNBに対する学習については触れられていない点に留意されたい。
http://www.google.co.jp/ 特開2005−302041
SVM又はNBを有効利用するためには、高品質の学習処理、すなわち高品質のトレーニングデータを用意することが不可欠である。一般にトレーニングデータは技術者の経験と感に基づいて用意されるが、理想的な学習処理に寄与するトレーニングデータを用意することは非常に困難であった。すなわち理想的な学習処理が行われないため、SVM又はNBを利用した検索エンジンの検索精度が高くならない。結果、情報の分類精度の向上が困難であった。
SVMを利用した検索エンジンを用いて精度の高い分類処理を行うためには、SVMの優れた学習環境を用意することが不可欠である、という課題が存在する。
本発明は、このような課題を解決し、精度の高い分類処理を実行することができる情報分類装置を提供することを目的とする。
上記課題を解決するためには、SVMを学習する際に用いるトレーニングデータを生成するため、NBを利用することを見出した。
具体的には、NBの利用とは、NBから出力されるデータを、SVMのトレーニングデータとして利用することを意味する。
本発明においては、NBの出力データの内、所定の抽出ロジックを用いて抽出したデータのみをトレーニングデータとして用いる。このように抽出されたデータをトレーニングデータとして用いることにより、SVMに対して高い学習効果を得られる。
本発明は、典型的には、NBと、NBを所定の条件で動作させたときに得られる出力データからトレーニングデータを抽出するフィルタと、このトレーニングデータで学習したSVMとを用いて分類精度の高い分類装置を得る。
このような分類装置を、例えば検索エンジンとして利用すると、検索精度の高い検索エンジンを得ることができる。
このような検索エンジンを用意すれば、ユーザが特定の情報、例えばクーポン券そのものの情報を欲している場合、クーポン券が設定されたページのみを検索結果として提示することができる。
なお、SVM用のトレーニングデータを生成するため、NB以外に、ベイズ理論などの確率論を用いる装置や隠れマルコフモデル(HMM)を用いる装置を用いることができる。さらに、SVMに代えて、CRF(Conditional Random Fields)などの装置を用いることができる。
以上の内容を踏まえた結果、本発明の情報分類装置は、
入力に対して確率論を用いて選択した出力を行う第1フィルタと、
前記第1フィルタからの出力を確率値に基づいて選択する第2フィルタと、を用いて学習させたことを特徴とする。
本発明によると、ユーザが欲する形態のウェブページを、効率よく検索できるようになることはもとより、インターネット検索サービス全般で、効果的な検索が行えるようになる。
前記第1フィルタは、複数の要素を含む軸から構成される軸群が設定されており、
第1入力データ群を各々が第1入力データであることを示す情報とともに入力され、かつ、第2入力データ群を各々が第2入力データであることを示す情報とともに入力される。
前記第2フィルタは、前記第1フィルタの出力のうち、所定範囲の確率値に対応する出力を通過させる。
したがって、情報分類装置は、前記第2フィルタを通過した出力と、当該出力が第1入力データと第2入力データとのいずれであるかを示す情報とを示すベクトルデータを入力することによって学習されたものとなる。
情報分類装置は、ベクトルデータを扱うことが多いので、前記第2フィルタを通過した出力に対応する前記第1フィルタへの入力を、ベクトルデータに変換する変換手段を備えるとよい。
さらに、本発明は、情報分類装置と、
前記情報分類装置との間でネットワークを介して接続されている端末から入力されるキーワードを含むデータを検索する検索手段と、
前記検索手段によって検索されたデータをベクトルデータに変換する変換器と、
前記変換器によって変換されたベクトルデータを前記情報分類装置に入力することで、前記検索手段によって検索されたデータが第1入力データであるか第2入力データであるかを判定する判定システムである。
さらにまた、本発明は、上記情報分類装置と、
第1及び第2入力データの中から当該第1入力データに合致するデータを検索する検索手段と、
前記検索手段によって検索されたデータをベクトルデータに変換する変換器と、
前記変換機によって変換されたベクトルデータを前記情報分類装置に入力することで前記第1入力データに対応するベクトルデータであると判定されたベクトルデータのデータが格納される情報記憶装置と、
前記情報分類装置との間でネットワークを介して接続されている端末から入力されるキーワードをキーとして前記データベースから読み出したデータを当該端末に送信する送信手段とを備える、判定システムである。
このような種々の判定システムによると、ユーザが欲する形態のデータを、効果的に、ユーザに提供することができるようになる。特に、判定システムでウェブページの中からクーポンページを検索できるような学習を、情報分類装置に対して行うと、店舗毎に各々非定型で作成されたクーポンページを割り出すことができるようになる。
発明の実施の形態
以下、本発明の実施形態について、図面を参照して説明する。なお、各図において、同様の部分には、同一符号を付している。
本実施形態では、先に、情報分類装置に備えられているSVMと、SVMの学習手法について説明し、その後、情報分類装置自体について説明する。
図1は、本発明の実施形態のSVMの学習手法の説明図である。図1に示すNB10には、予め、管理者によって所望の軸群が設定されている。軸群については後述する。NB10は、管理者等によって入力される、クーポンページのサンプルデータ群と、通常ページのサンプルデータ群とを受け付ける。各サンプルデータ群は、各々、たとえば、3000サンプルくらいから構成される。
NB10は、サンプルデータの種別を示す情報(例えば、クーポン券が掲示されたページであるか否か等の、情報の属性が把握できる情報)も受け付ける。すなわち、NB10は、クーポンページである場合には、当該サンプルデータがクーポンページであることを示すクーポン属性情報も受け付ける一方、サンプルデータが通常ページである場合には、当該サンプルデータが通常ページであることを示すクーポン外属性情報も受け付ける。なお、NB10に対する、サンプルデータ群及び対応する情報の入力順序は、限定されるものではない。SVMをクーポン券判別用に使用するのではなく、例えば求人情報の判別、旅行情報の判別、住宅情報の判別などに使用したい場合は、その使用目的に応じて、旅行情報とそれ以外の情報、住宅情報とそれ以外の情報を意図的にサンプルデータとして用意し、旅行情報や住宅情報のサンプルデータには、NB10が旅行情報や住宅情報であることを検知できるように属性情報を用意し、NB10を動作させる。すなわち、NB10の動作環境を変更することにより、判別させた情報に応じた専用のSVM、例えば旅行情報判別用や住宅情報判別用のSVMを作ることができる。
ここで、NB10は、以下の数式に係る演算を行うソフトウェア手段から構成される。
(数1)
Pg(w)=(b/NBad)/(kg/ngood)+(b/NBad
ただし、Pg(w)はあるトークンwの通常ページの確率、bはwが通常ページとして登場した回数、gはwがクーポンページとして登場した回数、kは定数(本実施形態では例えば「k=2」とした)、NBadは通常ページの総数、ngoodはクーポンページとして登場した回数である。
つぎに、NB10は、受け付けた各サンプルデータ群と対応する属性情報と予め設定されている軸群(素性候補群)とに基づいて、以下の事前確率を出力する。事前確率の一部は、後述するSVM40を学習するために用いるトレーニングデータとして用いられる。
ここで、軸群とは、上記管理者等によって任意に設定されるものである。たとえば、「単語」「HTMLであるか否か」「ファイルサイズ○○以上」「URLにcouponという語が含まれているか否か」「他の割引券との併用不可という旨が記載されているか否か」「coupon. gifなどのファイル名の画像が貼り付けられているか否か」などが、当該軸群を構成する軸の設定事項となる。軸の設定は、クーポンページの特性に依存したものであってもよいし、そうでなくてもよい。具体例として、「単語」に対する上記事前確率を出力する手法について説明する。
図2は、図1のNB10から出力されるトレーニングデータ(a)の説明図である。たとえば、NB10に入力されるサンプルデータ群が、3000枚のクーポンページと3000枚の通常ページとから構成されているとする。この場合、NB10は、まず、当該各サンプルデータ群を構成する合計6000枚の各ページ内に、それぞれ含まれているすべての単語を抽出する。そして、図2に示すように、抽出した各単語に対して、「単語1」〜「単語n」というような識別子を割り当てる。
つぎに、NB10は、抽出した「単語1」〜「単語n」に対して、それぞれそれらが含まれているページが、クーポンページである(或いは、クーポンページでない)という事前確率を、NB10に入力される既述の情報に基づいて求める。
たとえば、「単語1」が「クーポン」という単語である場合を例に説明すると、「クーポン」という単語が、サンプルデータのうち3000枚のクーポンページのうち2400枚に含まれている一方で、サンプルデータのうち3000枚の通常ページのうち120枚に含まれていたとする。この場合には[2400/(2400+120)≒95.2%]が、クーポンページである事前確率となる。
事前確率は、以下のように判定処理で用いることができる。すなわち、判定対象であるウェブページ(サンプルデータでない任意のウェブページ)に「クーポン」という単語が含まれている場合には、当該ウェブページがクーポンページである確率は、約95.2%となることを意味するので、「クーポン」という単語の有無を、ウェブページがクーポンページであるか否かを割り出すために用いることは有効である。
同様に、「単語2」〜「単語n」に対しても、それらの各単語が含まれているページが、クーポンページである事前確率を求めていき、所定の確率以上のものを用いる(或いは用いない)ことで、サンプルデータでない任意のウェブページが、クーポンページであるか否かを高確率で判定することが可能となる。NB10から出力されるトレーニングデータ(a)は、フィルタ20によってフィルタリングされる。
図3は、図1のフィルタ20から出力されるトレーニングデータ(b)の説明図である。図3には、図2に示す事前確率データを、事前確率の確率値を基準に並び替えたものである。単語aは、たとえばサンプルデータであるクーポンページのすべてに含まれる一方で、サンプルデータである通常ページのすべてに含まれないことを示している。同様に、単語bは、たとえばサンプルデータであるクーポンページの95%に含まれる一方で、サンプルデータである通常ページの5%にしか含まれないことを示している。
フィルタ20は、学習データ作成装置30に入力されるトレーニングデータ(b)を選択するためのフィルタリングを行う。具体的には、本実施形態では、たとえば、クーポンページである事前確率が95%以上、及び、クーポンページである事前確率が5%以下のトレーニングデータ(b)を通すように、フィルタ20を設定している。この例では、単語a,bに係るトレーニングデータと、単語c,dに係るトレーニングデータとが通される。
なお、フィルタ20の設定は、選択後のトレーニングデータ(b)の必要数から割り出している。ここでは、トレーニングデータ(b)の必要数を、約300枚ずつにするようにしてある。つまり、クーポンページ約3000枚と通常ページ約3000枚との合計約6000枚のサンプルデータから、300枚ずつを選択するためには、95%以上及び5%以下のトレーニングデータ(b)を選択することが必要であった。また、フィルタ20の設定は、たとえば、クーポンページである事前確率が95%以上のトレーニングデータだけを通すようにしてもよいし、95%以上のトレーニングデータだけを通すようにしてもよい。
フィルタ20から出力されたトレーニングデータ(b)は、学習データ作成装置30に入力される。また、学習データ作成装置30は、NB10に入力されたサンプルデータのうち、フィルタ20から出力されたトレーニングデータ(b)に対応するサンプルデータが入力される。
学習データ作成装置30は、入力されたサンプルデータをベクトルデータに変換する変換手段を備えている。この変換手段は、典型的な一例としては、サンプルデータがHTMLファイルの場合に、ベクトルデータを得るためのものである。なお、サンプルデータが元々ベクトルデータである場合には変換手段を用いる必要はないし、サンプルデータがHTMLファイル以外のファイルであっても、ベクトルデータに変換するものであればよい。
図4は、図1の学習データ作成装置30で作成される学習データ(ベクトルデータ(c))の説明図である。図4には、複数のサンプルデータの各々に対して、単語a〜dなどがそれぞれ、幾つ含まれているかを示している。この例では、学習データ作成装置30に入力されるクーポンページ1(1は識別子)のサンプルデータには、単語aが10個含まれ、単語bが9個含まれ、単語cが0個含まれ、単語dが1個含まれていることを示している。
ここから、クーポンページ1には、95%以上のトレーニングデータ(b)に係る単語a,bが多く含まれている一方で、5%以下のトレーニングデータ(b)に係る単語c,dがほとんど含まれていないことが判る。クーポンページ2の場合にもこの傾向がある。
これに対して、学習データ作成装置30に入力される通常ページ1は、95%以上のトレーニングデータ(b)に係る単語a,bがほとんど含まれていない一方で、5%以下のトレーニングデータ(b)に係る単語c,dが多く含まれていることが判る。通常ページ2の場合にも、この傾向がある。
上記の4つの例を、それぞれベクトルデータで示すと、たとえば、つぎのように4次元のベクトルデータとなる。
{ページn|a,b,c,d}=
{クーポンページ1|10, 9, 0, 1}
{クーポンページ2| 8, 7, 2, 1}
{ 通常ページ1| 2, 1, 6, 9}
{ 通常ページ2| 0, 3,10,20}
学習データ作成装置30は、上記のように作成したベクトルデータを、SVM40に設定する。SVM40は、カーネルパラメータを最適化させることで、より良い結果を得ることができる。
図5は、SVM40のカーネルパラメータを最適化させる手法を説明するためのコンター図である。図5には、ソフトマージンパラメーターCの値(コスト値)と、動径基底関数(Radial Basis Function:RBF)カーネル関数γの値(特徴空間の次元数kの逆数)と、精度(%)との関係を示す図である。
図5に示すように、ソフトマージンパラメーターCとRBFカーネル関数γとを適正に選択することで、精度を向上させることができる。ただし、現状では、ソフトマージンパラメーターC等は、適正に選択する理論的な方法は見出されておらず、経験的に見つけ出すしかないものとされている。
以上説明したように、SVM40に対して、所望のベクトルデータを設定し、かつ、選択的にSVM40のカーネルパラメータを最適化することで、SVM40の学習が完了する。
以上、本実施形態では、主として、「単語」という軸に着目してSMV40にベクトルデータを設定するまでの例を説明したが、「サイズファイル○○以上」のような軸に対しても同様に処理を行ってSMV40にベクトルデータを設定する。また、本実施形態では、軸群には、5000程度の軸を含めていて、このため、実際には、上記ベクトルデータは4次元のみから成るのではなく、5000次元程度になる。
つぎに、ウェブページを分類するシステム(情報分類装置)について説明する。
図6は、第2ステージの説明図であり、第1ステージで学習済のSVM40を含むウェブページ判定システムを示している。まず、ユーザが、クーポンページを検索したい場合には、パーソナルコンピュータ(以下、「PC」と称する。)100などを通じて、「クーポン」などのキーワードと、クーポンを利用したい地域又は店舗種別などのキーワードとを、インターネットなどのネットワーク500を介して、ウェブページ判定装置400へ送信する。
ウェブページ判定装置400では、PC100から送信されてきたキーワードを受信すると、検索手段60が、それらキーワードをキーに検索エンジン200を用いて、種々のウェブページが格納されているデータベース(DB)300内を検索する。第2ステージにおける、ここまでの説明は、従前からなされている、検索エンジンを用いてクーポンページを検索する手法と同様である。つぎに、検索手段60は、これらのキーワードを含むウェブページを、検索結果として、変換器50へ出力する。
変換器50は、検索手段60から出力された検索結果を、ベクトルデータに変換する。変換器50は、学習データ作成装置30に備えられている変換手段と同様のものでよい。ただし、変換器50によって変換されるベクトルデータの次元が、第1ステージで変換されたベクトルデータと同次元でなければならない点に留意されたい。変換器50は、変換後のベクトルデータを、SVM40に入力する。
SVM40は、第1ステージを経ることによって、既述の学習がなされているので、変換器50から出力されたベクトルデータが、クーポンページに対応するベクトルデータであるか否かを、高確率で判定することができる。SVM40は、クーポンページと判定したウェブページだけを出力する。
ウェブページ判定装置400は、SVM40によって出力されたウェブページを特定できる情報(たとえば、ページタイトル又はURL)が掲載されたページを作成して、ネットワーク500を介して、パーソナルコンピュータ100へ送信する。
パーソナルコンピュータ100は、ウェブページ判定装置400から送信されたページをディスプレイに表示する。これにより、ユーザは、自己が欲するクーポンページを紹介するページを見ることが可能と成る。
或いは、SVM40は、クーポンページと判定したウェブページに対して、クーポンページであると判定した旨の情報を付加して、判定対象のウェブページすべてを出力する。
ウェブページ判定装置400は、SVM40によって出力されたウェブページを特定できる情報(たとえば、URL)が掲載され、かつ、クーポンページであると判定した旨の情報が付加されている場合には、当該情報に対応するページタイトルなどに、クーポンページである可能性が高い旨のマーク(クーポンマーク)を付したページを作成したり、クーポンページであると判定した旨の情報が付加の有無に応じてウェブページをグルーピングしたページを作成したりして、ネットワーク500を介して、パーソナルコンピュータ100へ送信する。
パーソナルコンピュータ100は、ウェブページ判定装置400から送信されたページをディスプレイに表示する。これにより、ユーザは、表示されているページ内のページタイトルのうち、いずれがクーポンページに係るものであるかを把握することが可能と成る。
なお、第2ステージの内容は、上記例に限定されるものではない。以下、第2ステージのいくつかの例を説明する。
図7は、図6の変形例を示す図である。図7に示すウェブページ判定システムは、図6に示すウェブページ判定装置400に、クーポンページデータベース70を設けている。
このウェブページ判定システムは、ユーザがクーポンページを検索するのに先立って、ウェブページ判定装置400の検索手段60が、「クーポン」或いは図2に示す所望の単語をキーワードとして、当該キーワードをキーに検索エンジン200を用いて、データベース300内を検索する。そして、検索手段60は、これらのキーワードを含むウェブページを、検索結果として、変換器50へ出力する。
変換器50は、検索手段60から出力された検索結果を、ベクトルデータに変換する。変換器50は、学習データ作成装置30に備えられている変換手段と同様のものでよい。変換器50は、変換後のベクトルデータを、SVM40に入力する。
SVM40は、第1ステージを経ることによって学習されているので、変換器50から出力されたベクトルデータが、クーポンページに対応するベクトルデータであるか否かを判定することができる。
SVM40は、検索手段60によって検索されたウェブページのうち、クーポンページに対応するベクトルデータであると判定されたウェブページを、クーポンページデータベース70に記憶する。
この状態で、ユーザがクーポンページを検索したいと考え、PC100などを通じて、「クーポン」などのキーワードと、クーポンを利用したい地域又は店舗種別などのキーワードとを、インターネットなどのネットワーク500を介して、ウェブページ判定装置400へ送信するであろう。
ウェブページ判定装置400では、クーポンを利用したい地域又は店舗種別などのキーワードをキーに、クーポンページデータベース70を検索する。そして、クーポンページデータベース70に記憶されているウェブページのうち、上記キーワードが含まれているウェブページを、ネットワーク500を介して、パーソナルコンピュータ100へ出力する。
パーソナルコンピュータ100は、ウェブページ判定装置400から出力されたウェブページをディスプレイに表示する。この結果、ユーザは、自己が欲するクーポンページを、効率よく見ることが可能と成る。
図8は、図6の別の変形例を示す図である。なお、図8に示すウェブページ判定システムは、データの流れに着目した図であり、システム構成は図6に示したものと同様である。このウェブページ判定システムは、タイムセールを行っていて、しかも、クーポンが使えるスーパーマーケットをユーザが調べたいと考えた場合に好適なものである。
まず、複数の店舗からデータベース300に対して、当該店舗でのタイムセール情報が送信される。この状態で、ユーザは、タイムセールを行っていて、しかも、クーポンが使えるスーパーマーケットを調べたいと考えた場合には、PC100を用いて、「スーパー」「タイムセール」「クーポン」などのキーワードを、インターネットなどのネットワーク500を介して、ウェブページ判定装置400へ送信する。
ウェブページ判定装置400では、図6を用いて説明したように、PC100から送信されてきたキーワードに基づいてデータベース300内が検索され、その結果、「スーパー」「タイムセール」に関するウェブページのベクトルデータがSVM40に入力される。以下、図6を用いて説明した動作がなされると、パーソナルコンピュータ100のディスプレイには、ウェブページ判定装置400から送信された、「スーパー」「タイムセール」に関するクーポンページのページタイトルが掲示されたウェブページが表示されることになる。
図9は、図6に示すウェブページ判定システムによるウェブページの判定結果を示す図である。図9には、この他に、比較例として、後述する手法を用いて学習させたSVM40を有するウェブページ判定システムの判定結果も示している。なお、SVM40は、C−SVMを用い、SVMソフトウェアにはLibSVMを用いた。さらに、形態素解析ソフトウェアには茶筅(商品名)を用いた。また、図9には、SVM40のカーネルパラメータの所望の設定を行っていない場合の判定結果を示している。
ここで、χ2乗検定とは、wを対象単語が出現する事象、cを対象クラスが付与されている事象とするとき、「wとcは互いに独立である」という帰無仮説のもとで、文章中に出現する単語と付与されているクラスの創刊をx2乗値で評価する方法である。
ここでの情報利得比は、決定木学習システムC4.5におけるクラスに対応する評価値に用いた。通常の意味での決定木学習システムC4.5における属性選択を行うための指標でない点に留意されたい。
また、サンプルデータとして、無作為に抽出したグルメ系のウェブページの中から選択した、クーポンページと通常ページとを各々300ページを用いて、既述の第1ステージによってSVM40を学習した。さらに、ナイーブベイズ10には、軸群として、HTMLファイルであることと形態素(名詞)とを設定した。
また、判定対象のデータとして、中心クローラを巡回させることで無作為に抽出したグルメ系の2000ページを用いた。なお、人間が確認したところ、この2000ページのウェブページの内訳は、クーポンページが131ページ、通常ページが1869ページであった。
図9(a)にはクーポンページを正しく判断できる再現率を示し、図9(b)には適合率を示している。図9の
「1」は得られた形態素を無条件に全て使用して学習させたSVM、
「2」はχ2乗値が100以上の形態素を用いて学習させたSVM、
「3」はχ2乗値が6以上の形態素を用いて学習させたSVM、
「4」は情報利得比が3.0×10−5以上の形態素を用いて学習させたSVM、
「5」は情報利得比が2.8×10−6以上の形態素を用いて学習させたSVM、
「6」は図3で説明した「95%以上」のサンプルデータ及びトレーニングデータで学習をさせたSVM、
「7」は図3で説明した「95%以上」及び「5%以下」のサンプルデータ及びトレーニングデータで学習をさせたSVM、
をそれぞれ用いた場合の結果である。
なお、χ2乗値の算出には、Kok Leongらによる「Feature Selectiona Perceptron Learning Usability Case Study for Text Categorization、Proc of ACM SIGIR'97, 1997」を用いた。情報利得比の算出似は、森辰則による「検索結果表示向け文書要約における情報利得比に基づく語の重要度計算」を用いた。
ここで、軸数の多少2種類の実験を行ったのは、軸数の違いによる分類精度への影響を排除するためであり、それぞれの方法で選定される軸数ができるだけ近づくように選定条件の閾値を定義してある。具体的には、「1」〜「7」の軸数は、それぞれ「35513」「721」「6911」「909」「6802」「884」「6861」とした。
図9(a)に示すように、再現率は、「1」「6」「7」の場合に相対的に優れた結果が得られる。特に、「7」の場合には非常に優れた結果となった。
図9(b)に示すように、適合率は、「1」「4」「7」の場合に相対的に優れた結果が得られる。中でも、「7」の場合が最も優れた結果となった。
図10は、図1のSVM40のカーネルパラメータを最適化した場合の判定結果を示す図である。カーネルパラメータを最適化した以外は、図9に示す判定結果を得るための条件のままである。なお、「1」〜「7」の各最適値(c、γ)は、それぞれ、「−3.46、−2.08」「4.85、−11.1」「10.3、−18.0」「6.93、−14.6」「11.8、−20.1」「0.00、−2.08」「6.93、−9.70」とした。
図10(a)に示すように、SVM40のカーネルパラメータを最適化するだけで、再現率は、全体的に底上げされて向上する傾向にある。また、元々、非常に優れた結果を示していた「7」は、SVM40のカーネルパラメータを最適化しても、非常に優れた結果を示していることがわかる。
図10(b)に示すように、SVM40のカーネルパラメータを最適化するだけで、適合率も、全体的に底上げされて向上する傾向にある。また、元々、非常に優れた結果を示していた「7」も、SVM40のカーネルパラメータを最適化しても、優れた結果となった。
この「7」に着眼すると、SVM40のカーネルパラメータを最適化した場合には、再現率は90%が維持され、かつ、適合率は40%程度にまで向上した。
さらに、サンプルデータの数を増やして、同様の判定実験を行った。具体的には、サンプルデータのクーポンページを131ページ、サンプルデータの通常ページを1869ページとした。この結果、再現率は98%に向上し、適合率は72%に向上した。
なお、本実施形態では、ウェブページの中からクーポンページを選択する場合を例に説明したが、選択対象はクーポンページに限定されず、就職ページ、掲示板ページ、オフィシャルサイト、レビューページ、リクルーティングページとすることもできる。
本発明は、情報分野、分類分野などに利用可能であり、とりわけ、情報分野の拡大、分類処理の効率化に利用可能である。
本発明の実施形態のSVMの学習手法の説明図である。 図1のNB10から出力されるトレーニングデータ(a)の説明図である。 図1のフィルタ20から出力されるトレーニングデータ(b)の説明図である。 図1の学習データ作成装置30で作成される学習データの説明図である。 SVM40のカーネルパラメータを最適化させる手法を説明するためのコンター図である。 図1のSVM40を含むウェブページ判定システムを示す図である。 図6の変形例を示す図である。 図6の別の変形例を示す図である。 図6に示すウェブページ判定システムによるウェブページの判定結果を示す図である。 図1のSVM40のカーネルパラメータを最適化した場合の判定結果を示す図である。
符号の説明
10 NB
20 フィルタ
30 学習データ作成装置
40 SVM
50 変換器
60 検索手段
70 クーポンページデータベース
100 パーソナルコンピュータ
200 検索エンジン
300 データベース
400 ウェブページ判定装置
500 ネットワーク

Claims (7)

  1. 入力に対して確率論を用いて選択した出力を行う第1フィルタと、
    前記第1フィルタからの出力を確率値に基づいて選択する第2フィルタと、を用いて学習させたことを特徴とする情報分類装置。
  2. 前記第1フィルタは、複数の要素を含む軸から構成される軸群が設定されており、
    第1入力データ群が、各々が第1入力データであることを示す情報とともに入力され、かつ、
    第2入力データ群が、各々が第2入力データであることを示す情報とともに入力される、請求項1記載の情報分類装置。
  3. 前記第2フィルタは、前記第1フィルタの出力のうち、所定範囲の確率値に該当する出力が通過される、請求項1又は2記載の情報分類装置。
  4. 前記第2フィルタを通過した出力と、当該出力が第1入力データと第2入力データとのいずれに対応するかを示す情報とによって学習された、請求項1から3のいずれか記載の情報分類装置。
  5. 前記第2フィルタを通過した出力に対応する前記第1フィルタへの入力を、ベクトルデータに変換する変換手段を備える、請求項1から4のいずれか記載の情報分類装置。
  6. 請求項1から5のいずれか記載の情報分類装置と、
    前記情報分類装置との間でネットワークを介して接続されている端末から入力されるキーワードを含むデータを検索する検索手段と、
    前記検索手段によって検索されたデータをベクトルデータに変換する変換器と、
    前記変換器によって変換されたベクトルデータを前記情報分類装置に入力することで、前記検索手段によって検索されたデータが第1入力データであるか第2入力データであるかを判定する判定システム。
  7. 請求項1から5のいずれか記載の情報分類装置と、
    第1及び第2入力データの中から当該第1入力データに合致するデータを検索する検索手段と、
    前記検索手段によって検索されたデータをベクトルデータに変換する変換器と、
    前記変換機によって変換されたベクトルデータを前記情報分類装置に入力することで前記第1入力データに対応するベクトルデータであると判定されたベクトルデータのデータが格納される情報記憶装置と、
    前記情報分類装置との間でネットワークを介して接続されている端末から入力されるキーワードをキーとして前記データベースから読み出したデータを当該端末に送信する送信手段とを備える、判定システム。
JP2006069808A 2006-03-14 2006-03-14 情報分類装置 Withdrawn JP2007249421A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006069808A JP2007249421A (ja) 2006-03-14 2006-03-14 情報分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006069808A JP2007249421A (ja) 2006-03-14 2006-03-14 情報分類装置

Publications (1)

Publication Number Publication Date
JP2007249421A true JP2007249421A (ja) 2007-09-27

Family

ID=38593679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006069808A Withdrawn JP2007249421A (ja) 2006-03-14 2006-03-14 情報分類装置

Country Status (1)

Country Link
JP (1) JP2007249421A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011530118A (ja) * 2008-08-01 2011-12-15 グーグル・インコーポレーテッド 検索クエリーに応答したディスカッションスレッドへの投稿の提供
CN102426585A (zh) * 2011-08-09 2012-04-25 中国科学技术信息研究所 一种基于贝叶斯网络的网页自动分类方法
US9053192B2 (en) 2013-05-28 2015-06-09 International Business Machines Corporation Minimization of surprisal context data through application of customized surprisal context filters
US9176998B2 (en) 2013-05-28 2015-11-03 International Business Machines Corporation Minimization of surprisal context data through application of a hierarchy of reference artifacts
CN109001702A (zh) * 2018-06-04 2018-12-14 桂林电子科技大学 无载波超宽带雷达人体动作识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011530118A (ja) * 2008-08-01 2011-12-15 グーグル・インコーポレーテッド 検索クエリーに応答したディスカッションスレッドへの投稿の提供
CN102426585A (zh) * 2011-08-09 2012-04-25 中国科学技术信息研究所 一种基于贝叶斯网络的网页自动分类方法
US9053192B2 (en) 2013-05-28 2015-06-09 International Business Machines Corporation Minimization of surprisal context data through application of customized surprisal context filters
US9176998B2 (en) 2013-05-28 2015-11-03 International Business Machines Corporation Minimization of surprisal context data through application of a hierarchy of reference artifacts
CN109001702A (zh) * 2018-06-04 2018-12-14 桂林电子科技大学 无载波超宽带雷达人体动作识别方法
CN109001702B (zh) * 2018-06-04 2022-05-13 桂林电子科技大学 无载波超宽带雷达人体动作识别方法

Similar Documents

Publication Publication Date Title
CN100535898C (zh) 问答式文献检索系统和方法
US10410224B1 (en) Determining item feature information from user content
JP5241828B2 (ja) 辞書の単語及び熟語の判定
CN100444168C (zh) 数据仓库装置、用于构造其的方法及从中检索数据的方法
Setiawan et al. Feature expansion using word embedding for tweet topic classification
US20120323905A1 (en) Ranking data utilizing attributes associated with semantic sub-keys
JP2007122719A (ja) 複数の言語を連動する自動完成推薦語提供システムおよび方法
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
US10242033B2 (en) Extrapolative search techniques
KR20210103401A (ko) 관심 지점에 관련된 정보를 사용자에게 제공하기 위한 방법 및 시스템
CN102890701A (zh) 情感数据使用的系统和方法
US20110119261A1 (en) Searching using semantic keys
JP2011108085A (ja) 知識構築装置およびプログラム
JP2014106661A (ja) ユーザ状態予測装置及び方法及びプログラム
US20070016564A1 (en) Database search engine
Karim et al. A step towards information extraction: Named entity recognition in Bangla using deep learning
JP2007249421A (ja) 情報分類装置
JP2007011604A (ja) 不具合診断システム及びプログラム
US9875298B2 (en) Automatic generation of a search query
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
JP7305566B2 (ja) 情報処理装置、情報処理システム、および情報処理プログラム
JP2008541272A (ja) 署名生成および関連性を有するマッチングエンジン
JP5179564B2 (ja) クエリセグメント位置決定装置
JP5757551B2 (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090602