JP2007249421A

JP2007249421A - 情報分類装置

Info

Publication number: JP2007249421A
Application number: JP2006069808A
Authority: JP
Inventors: Yoshihiko Uno; 仁彦羽野; Ichiro Hashiba; 一郎橋場
Original assignee: Recruit Co Ltd
Current assignee: Recruit Co Ltd
Priority date: 2006-03-14
Filing date: 2006-03-14
Publication date: 2007-09-27

Abstract

【課題】ユーザが欲する形態のウェブページを、効率よく検索できるようにすること。
【解決手段】複数の要素を含む軸から構成される軸群が設定されていて、入力に対して確率論を用いて選択した出力を行うＮＢ１０に対して、クーポンページのサンプルデータ群と、通常ページのサンプルデータ群とを、サンプルデータの種別を示す情報とともに入力した場合に、前記各入力データと前記各情報と前記各要素とに基づいて、ＮＢ１０から出力される、当該各要素に対する事前確率を、確率値に基づいて選択するフィルタ２０を用いて選択し、ＮＢ１０に入力した各サンプルデータ群を構成する入力データのうち、フィルタ２０によって選択された入力データが、クーポンページと通常ページとのいずれであるかを示す情報と一組で、フィルタ２０によって選択された事前確率を、ベクトルデータの態様で入力することによって学習されたＳＶＭ４０を提供する。
【選択図】図１

Description

本発明は、情報を所定の分類規則に沿って分類する情報分類装置に関する。

情報を所定の分類規則に沿って分類する場合、分類装置が使用される。インターネットの世界において分類装置は、検索エンジンに搭載されている。インターネット上には、膨大な数の情報（ウェブページ）が存在している。インターネットのユーザは、検索エンジンに対してキーワードを入力し、所望のウェブページを抽出している。この場合、検索エンジンは、キーワードを参照して分類規則を特定し、この分類規則に沿って情報を抽出する。ウェブページの中には、飲食店などを中心に用意されている、クーポンページと称されているものがある。クーポンページとは、クーポンが掲載されていて、そのクーポンをプリントアウトして店舗に提示することで、割引サービスなどが受けられるというものである。

ところで、インターネットのユーザは、所望のウェブページを検索するためには、非特許文献１のような検索エンジンを用いる場合がある。検索エンジンは、ユーザから入力されたキーワードが文字列として記載されているウェブページを抽出するものである。したがって、ユーザがクーポンページを検索したい場合には、通常、「クーポン」などのキーワードと、クーポンを利用したい地域又は店舗種別などのキーワードとを検索エンジンに入力することで検索を行う。

従来の検索エンジンは、クーポンページとともに、クーポンページ以外のウェブページ（以下、「通常ページ」と称する。）も抽出してしまう。「クーポン」などの用語が用いられている場合があるため、単にクーポンページのみならず、通常ページも合わせて検索結果とされる場合がある。たとえば、ここで検索結果となる通常ページには、クーポンという文字を含むウェブログ（ｂｌｏｇ）や、クーポンページを紹介する総合サイトなどがある。このように、従来の手法では、ユーザが欲する形態のページ以外が抽出され、ユーザは抽出されたページから所望のページを探しださなければならなかった。

このため、検索エンジンによる検索精度を高めることが望まれている。検索エンジンには、検索精度を高めるために、サポートベクトルマシン（Support Vector Machine：以下、「ＳＶＭ」と称する。）又はナイーブベイズ（naïve Bayesian：以下、「ＮＢ」と称する。）を利用することができる。ＳＶＭ又はＮＢを利用した検索エンジンの例が、特許文献１に開示されている。

特許文献１には、ＳＶＭ又はＮＢに対して所望の学習を行い、学習済のＳＶＭ又は学習済のＮＢを利用して、ウェブサイト情報を分類する技術が開示されている。ただし、特許文献１には、ＳＶＭ又はＮＢに対する学習については触れられていない点に留意されたい。

http://www.google.co.jp/ 特開２００５−３０２０４１

ＳＶＭ又はＮＢを有効利用するためには、高品質の学習処理、すなわち高品質のトレーニングデータを用意することが不可欠である。一般にトレーニングデータは技術者の経験と感に基づいて用意されるが、理想的な学習処理に寄与するトレーニングデータを用意することは非常に困難であった。すなわち理想的な学習処理が行われないため、ＳＶＭ又はＮＢを利用した検索エンジンの検索精度が高くならない。結果、情報の分類精度の向上が困難であった。

ＳＶＭを利用した検索エンジンを用いて精度の高い分類処理を行うためには、ＳＶＭの優れた学習環境を用意することが不可欠である、という課題が存在する。

本発明は、このような課題を解決し、精度の高い分類処理を実行することができる情報分類装置を提供することを目的とする。

上記課題を解決するためには、ＳＶＭを学習する際に用いるトレーニングデータを生成するため、ＮＢを利用することを見出した。

具体的には、ＮＢの利用とは、ＮＢから出力されるデータを、ＳＶＭのトレーニングデータとして利用することを意味する。

本発明においては、ＮＢの出力データの内、所定の抽出ロジックを用いて抽出したデータのみをトレーニングデータとして用いる。このように抽出されたデータをトレーニングデータとして用いることにより、ＳＶＭに対して高い学習効果を得られる。

本発明は、典型的には、ＮＢと、ＮＢを所定の条件で動作させたときに得られる出力データからトレーニングデータを抽出するフィルタと、このトレーニングデータで学習したＳＶＭとを用いて分類精度の高い分類装置を得る。

このような分類装置を、例えば検索エンジンとして利用すると、検索精度の高い検索エンジンを得ることができる。

このような検索エンジンを用意すれば、ユーザが特定の情報、例えばクーポン券そのものの情報を欲している場合、クーポン券が設定されたページのみを検索結果として提示することができる。

なお、ＳＶＭ用のトレーニングデータを生成するため、ＮＢ以外に、ベイズ理論などの確率論を用いる装置や隠れマルコフモデル（ＨＭＭ）を用いる装置を用いることができる。さらに、ＳＶＭに代えて、ＣＲＦ（Conditional Random Fields）などの装置を用いることができる。

以上の内容を踏まえた結果、本発明の情報分類装置は、
入力に対して確率論を用いて選択した出力を行う第１フィルタと、
前記第１フィルタからの出力を確率値に基づいて選択する第２フィルタと、を用いて学習させたことを特徴とする。

本発明によると、ユーザが欲する形態のウェブページを、効率よく検索できるようになることはもとより、インターネット検索サービス全般で、効果的な検索が行えるようになる。

前記第１フィルタは、複数の要素を含む軸から構成される軸群が設定されており、
第１入力データ群を各々が第１入力データであることを示す情報とともに入力され、かつ、第２入力データ群を各々が第２入力データであることを示す情報とともに入力される。

前記第２フィルタは、前記第１フィルタの出力のうち、所定範囲の確率値に対応する出力を通過させる。

したがって、情報分類装置は、前記第２フィルタを通過した出力と、当該出力が第１入力データと第２入力データとのいずれであるかを示す情報とを示すベクトルデータを入力することによって学習されたものとなる。

情報分類装置は、ベクトルデータを扱うことが多いので、前記第２フィルタを通過した出力に対応する前記第１フィルタへの入力を、ベクトルデータに変換する変換手段を備えるとよい。

さらに、本発明は、情報分類装置と、
前記情報分類装置との間でネットワークを介して接続されている端末から入力されるキーワードを含むデータを検索する検索手段と、
前記検索手段によって検索されたデータをベクトルデータに変換する変換器と、
前記変換器によって変換されたベクトルデータを前記情報分類装置に入力することで、前記検索手段によって検索されたデータが第１入力データであるか第２入力データであるかを判定する判定システムである。

さらにまた、本発明は、上記情報分類装置と、
第１及び第２入力データの中から当該第１入力データに合致するデータを検索する検索手段と、
前記検索手段によって検索されたデータをベクトルデータに変換する変換器と、
前記変換機によって変換されたベクトルデータを前記情報分類装置に入力することで前記第１入力データに対応するベクトルデータであると判定されたベクトルデータのデータが格納される情報記憶装置と、
前記情報分類装置との間でネットワークを介して接続されている端末から入力されるキーワードをキーとして前記データベースから読み出したデータを当該端末に送信する送信手段とを備える、判定システムである。

このような種々の判定システムによると、ユーザが欲する形態のデータを、効果的に、ユーザに提供することができるようになる。特に、判定システムでウェブページの中からクーポンページを検索できるような学習を、情報分類装置に対して行うと、店舗毎に各々非定型で作成されたクーポンページを割り出すことができるようになる。

発明の実施の形態

以下、本発明の実施形態について、図面を参照して説明する。なお、各図において、同様の部分には、同一符号を付している。

本実施形態では、先に、情報分類装置に備えられているＳＶＭと、ＳＶＭの学習手法について説明し、その後、情報分類装置自体について説明する。

図１は、本発明の実施形態のＳＶＭの学習手法の説明図である。図１に示すＮＢ１０には、予め、管理者によって所望の軸群が設定されている。軸群については後述する。ＮＢ１０は、管理者等によって入力される、クーポンページのサンプルデータ群と、通常ページのサンプルデータ群とを受け付ける。各サンプルデータ群は、各々、たとえば、３０００サンプルくらいから構成される。

ＮＢ１０は、サンプルデータの種別を示す情報（例えば、クーポン券が掲示されたページであるか否か等の、情報の属性が把握できる情報）も受け付ける。すなわち、ＮＢ１０は、クーポンページである場合には、当該サンプルデータがクーポンページであることを示すクーポン属性情報も受け付ける一方、サンプルデータが通常ページである場合には、当該サンプルデータが通常ページであることを示すクーポン外属性情報も受け付ける。なお、ＮＢ１０に対する、サンプルデータ群及び対応する情報の入力順序は、限定されるものではない。ＳＶＭをクーポン券判別用に使用するのではなく、例えば求人情報の判別、旅行情報の判別、住宅情報の判別などに使用したい場合は、その使用目的に応じて、旅行情報とそれ以外の情報、住宅情報とそれ以外の情報を意図的にサンプルデータとして用意し、旅行情報や住宅情報のサンプルデータには、ＮＢ１０が旅行情報や住宅情報であることを検知できるように属性情報を用意し、ＮＢ１０を動作させる。すなわち、ＮＢ１０の動作環境を変更することにより、判別させた情報に応じた専用のＳＶＭ、例えば旅行情報判別用や住宅情報判別用のＳＶＭを作ることができる。

ここで、ＮＢ１０は、以下の数式に係る演算を行うソフトウェア手段から構成される。
（数１）
Ｐｇ（ｗ）＝（ｂ／ＮＢ_ａｄ）／（ｋｇ／ｎ_ｇｏｏｄ）＋（ｂ／ＮＢ_ａｄ）
ただし、Ｐｇ（ｗ）はあるトークンｗの通常ページの確率、ｂはｗが通常ページとして登場した回数、ｇはｗがクーポンページとして登場した回数、ｋは定数（本実施形態では例えば「ｋ＝２」とした）、ＮＢ_ａｄは通常ページの総数、ｎ_ｇｏｏｄはクーポンページとして登場した回数である。

つぎに、ＮＢ１０は、受け付けた各サンプルデータ群と対応する属性情報と予め設定されている軸群（素性候補群）とに基づいて、以下の事前確率を出力する。事前確率の一部は、後述するＳＶＭ４０を学習するために用いるトレーニングデータとして用いられる。

ここで、軸群とは、上記管理者等によって任意に設定されるものである。たとえば、「単語」「ＨＴＭＬであるか否か」「ファイルサイズ○○以上」「ＵＲＬにcouponという語が含まれているか否か」「他の割引券との併用不可という旨が記載されているか否か」「coupon. gifなどのファイル名の画像が貼り付けられているか否か」などが、当該軸群を構成する軸の設定事項となる。軸の設定は、クーポンページの特性に依存したものであってもよいし、そうでなくてもよい。具体例として、「単語」に対する上記事前確率を出力する手法について説明する。

図２は、図１のＮＢ１０から出力されるトレーニングデータ（ａ）の説明図である。たとえば、ＮＢ１０に入力されるサンプルデータ群が、３０００枚のクーポンページと３０００枚の通常ページとから構成されているとする。この場合、ＮＢ１０は、まず、当該各サンプルデータ群を構成する合計６０００枚の各ページ内に、それぞれ含まれているすべての単語を抽出する。そして、図２に示すように、抽出した各単語に対して、「単語１」〜「単語ｎ」というような識別子を割り当てる。

つぎに、ＮＢ１０は、抽出した「単語１」〜「単語ｎ」に対して、それぞれそれらが含まれているページが、クーポンページである（或いは、クーポンページでない）という事前確率を、ＮＢ１０に入力される既述の情報に基づいて求める。

たとえば、「単語１」が「クーポン」という単語である場合を例に説明すると、「クーポン」という単語が、サンプルデータのうち３０００枚のクーポンページのうち２４００枚に含まれている一方で、サンプルデータのうち３０００枚の通常ページのうち１２０枚に含まれていたとする。この場合には［２４００／（２４００＋１２０）≒９５．２％］が、クーポンページである事前確率となる。

事前確率は、以下のように判定処理で用いることができる。すなわち、判定対象であるウェブページ（サンプルデータでない任意のウェブページ）に「クーポン」という単語が含まれている場合には、当該ウェブページがクーポンページである確率は、約９５．２％となることを意味するので、「クーポン」という単語の有無を、ウェブページがクーポンページであるか否かを割り出すために用いることは有効である。

同様に、「単語２」〜「単語ｎ」に対しても、それらの各単語が含まれているページが、クーポンページである事前確率を求めていき、所定の確率以上のものを用いる（或いは用いない）ことで、サンプルデータでない任意のウェブページが、クーポンページであるか否かを高確率で判定することが可能となる。ＮＢ１０から出力されるトレーニングデータ（ａ）は、フィルタ２０によってフィルタリングされる。

図３は、図１のフィルタ２０から出力されるトレーニングデータ（ｂ）の説明図である。図３には、図２に示す事前確率データを、事前確率の確率値を基準に並び替えたものである。単語ａは、たとえばサンプルデータであるクーポンページのすべてに含まれる一方で、サンプルデータである通常ページのすべてに含まれないことを示している。同様に、単語ｂは、たとえばサンプルデータであるクーポンページの９５％に含まれる一方で、サンプルデータである通常ページの５％にしか含まれないことを示している。

フィルタ２０は、学習データ作成装置３０に入力されるトレーニングデータ（ｂ）を選択するためのフィルタリングを行う。具体的には、本実施形態では、たとえば、クーポンページである事前確率が９５％以上、及び、クーポンページである事前確率が５％以下のトレーニングデータ（ｂ）を通すように、フィルタ２０を設定している。この例では、単語ａ，ｂに係るトレーニングデータと、単語ｃ，ｄに係るトレーニングデータとが通される。

なお、フィルタ２０の設定は、選択後のトレーニングデータ（ｂ）の必要数から割り出している。ここでは、トレーニングデータ（ｂ）の必要数を、約３００枚ずつにするようにしてある。つまり、クーポンページ約３０００枚と通常ページ約３０００枚との合計約６０００枚のサンプルデータから、３００枚ずつを選択するためには、９５％以上及び５％以下のトレーニングデータ（ｂ）を選択することが必要であった。また、フィルタ２０の設定は、たとえば、クーポンページである事前確率が９５％以上のトレーニングデータだけを通すようにしてもよいし、９５％以上のトレーニングデータだけを通すようにしてもよい。

フィルタ２０から出力されたトレーニングデータ（ｂ）は、学習データ作成装置３０に入力される。また、学習データ作成装置３０は、ＮＢ１０に入力されたサンプルデータのうち、フィルタ２０から出力されたトレーニングデータ（ｂ）に対応するサンプルデータが入力される。

学習データ作成装置３０は、入力されたサンプルデータをベクトルデータに変換する変換手段を備えている。この変換手段は、典型的な一例としては、サンプルデータがＨＴＭＬファイルの場合に、ベクトルデータを得るためのものである。なお、サンプルデータが元々ベクトルデータである場合には変換手段を用いる必要はないし、サンプルデータがＨＴＭＬファイル以外のファイルであっても、ベクトルデータに変換するものであればよい。

図４は、図１の学習データ作成装置３０で作成される学習データ（ベクトルデータ（ｃ））の説明図である。図４には、複数のサンプルデータの各々に対して、単語ａ〜ｄなどがそれぞれ、幾つ含まれているかを示している。この例では、学習データ作成装置３０に入力されるクーポンページ１（１は識別子）のサンプルデータには、単語ａが１０個含まれ、単語ｂが９個含まれ、単語ｃが０個含まれ、単語ｄが１個含まれていることを示している。

ここから、クーポンページ１には、９５％以上のトレーニングデータ（ｂ）に係る単語ａ，ｂが多く含まれている一方で、５％以下のトレーニングデータ（ｂ）に係る単語ｃ，ｄがほとんど含まれていないことが判る。クーポンページ２の場合にもこの傾向がある。

これに対して、学習データ作成装置３０に入力される通常ページ１は、９５％以上のトレーニングデータ（ｂ）に係る単語ａ，ｂがほとんど含まれていない一方で、５％以下のトレーニングデータ（ｂ）に係る単語ｃ，ｄが多く含まれていることが判る。通常ページ２の場合にも、この傾向がある。

上記の４つの例を、それぞれベクトルデータで示すと、たとえば、つぎのように４次元のベクトルデータとなる。

｛ページｎ｜ａ，ｂ，ｃ，ｄ｝＝
｛クーポンページ１｜１０，９，０，１｝
｛クーポンページ２｜８，７，２，１｝
｛通常ページ１｜２，１，６，９｝
｛通常ページ２｜０，３，１０，２０｝
学習データ作成装置３０は、上記のように作成したベクトルデータを、ＳＶＭ４０に設定する。ＳＶＭ４０は、カーネルパラメータを最適化させることで、より良い結果を得ることができる。

図５は、ＳＶＭ４０のカーネルパラメータを最適化させる手法を説明するためのコンター図である。図５には、ソフトマージンパラメーターＣの値（コスト値）と、動径基底関数（Radial Basis Function：ＲＢＦ）カーネル関数γの値（特徴空間の次元数ｋの逆数）と、精度（％）との関係を示す図である。

図５に示すように、ソフトマージンパラメーターＣとＲＢＦカーネル関数γとを適正に選択することで、精度を向上させることができる。ただし、現状では、ソフトマージンパラメーターＣ等は、適正に選択する理論的な方法は見出されておらず、経験的に見つけ出すしかないものとされている。

以上説明したように、ＳＶＭ４０に対して、所望のベクトルデータを設定し、かつ、選択的にＳＶＭ４０のカーネルパラメータを最適化することで、ＳＶＭ４０の学習が完了する。

以上、本実施形態では、主として、「単語」という軸に着目してＳＭＶ４０にベクトルデータを設定するまでの例を説明したが、「サイズファイル○○以上」のような軸に対しても同様に処理を行ってＳＭＶ４０にベクトルデータを設定する。また、本実施形態では、軸群には、５０００程度の軸を含めていて、このため、実際には、上記ベクトルデータは４次元のみから成るのではなく、５０００次元程度になる。

つぎに、ウェブページを分類するシステム（情報分類装置）について説明する。

図６は、第２ステージの説明図であり、第１ステージで学習済のＳＶＭ４０を含むウェブページ判定システムを示している。まず、ユーザが、クーポンページを検索したい場合には、パーソナルコンピュータ（以下、「ＰＣ」と称する。）１００などを通じて、「クーポン」などのキーワードと、クーポンを利用したい地域又は店舗種別などのキーワードとを、インターネットなどのネットワーク５００を介して、ウェブページ判定装置４００へ送信する。

ウェブページ判定装置４００では、ＰＣ１００から送信されてきたキーワードを受信すると、検索手段６０が、それらキーワードをキーに検索エンジン２００を用いて、種々のウェブページが格納されているデータベース（ＤＢ）３００内を検索する。第２ステージにおける、ここまでの説明は、従前からなされている、検索エンジンを用いてクーポンページを検索する手法と同様である。つぎに、検索手段６０は、これらのキーワードを含むウェブページを、検索結果として、変換器５０へ出力する。

変換器５０は、検索手段６０から出力された検索結果を、ベクトルデータに変換する。変換器５０は、学習データ作成装置３０に備えられている変換手段と同様のものでよい。ただし、変換器５０によって変換されるベクトルデータの次元が、第１ステージで変換されたベクトルデータと同次元でなければならない点に留意されたい。変換器５０は、変換後のベクトルデータを、ＳＶＭ４０に入力する。

ＳＶＭ４０は、第１ステージを経ることによって、既述の学習がなされているので、変換器５０から出力されたベクトルデータが、クーポンページに対応するベクトルデータであるか否かを、高確率で判定することができる。ＳＶＭ４０は、クーポンページと判定したウェブページだけを出力する。

ウェブページ判定装置４００は、ＳＶＭ４０によって出力されたウェブページを特定できる情報（たとえば、ページタイトル又はＵＲＬ）が掲載されたページを作成して、ネットワーク５００を介して、パーソナルコンピュータ１００へ送信する。

パーソナルコンピュータ１００は、ウェブページ判定装置４００から送信されたページをディスプレイに表示する。これにより、ユーザは、自己が欲するクーポンページを紹介するページを見ることが可能と成る。

或いは、ＳＶＭ４０は、クーポンページと判定したウェブページに対して、クーポンページであると判定した旨の情報を付加して、判定対象のウェブページすべてを出力する。

ウェブページ判定装置４００は、ＳＶＭ４０によって出力されたウェブページを特定できる情報（たとえば、ＵＲＬ）が掲載され、かつ、クーポンページであると判定した旨の情報が付加されている場合には、当該情報に対応するページタイトルなどに、クーポンページである可能性が高い旨のマーク（クーポンマーク）を付したページを作成したり、クーポンページであると判定した旨の情報が付加の有無に応じてウェブページをグルーピングしたページを作成したりして、ネットワーク５００を介して、パーソナルコンピュータ１００へ送信する。

パーソナルコンピュータ１００は、ウェブページ判定装置４００から送信されたページをディスプレイに表示する。これにより、ユーザは、表示されているページ内のページタイトルのうち、いずれがクーポンページに係るものであるかを把握することが可能と成る。

なお、第２ステージの内容は、上記例に限定されるものではない。以下、第２ステージのいくつかの例を説明する。

図７は、図６の変形例を示す図である。図７に示すウェブページ判定システムは、図６に示すウェブページ判定装置４００に、クーポンページデータベース７０を設けている。

このウェブページ判定システムは、ユーザがクーポンページを検索するのに先立って、ウェブページ判定装置４００の検索手段６０が、「クーポン」或いは図２に示す所望の単語をキーワードとして、当該キーワードをキーに検索エンジン２００を用いて、データベース３００内を検索する。そして、検索手段６０は、これらのキーワードを含むウェブページを、検索結果として、変換器５０へ出力する。

変換器５０は、検索手段６０から出力された検索結果を、ベクトルデータに変換する。変換器５０は、学習データ作成装置３０に備えられている変換手段と同様のものでよい。変換器５０は、変換後のベクトルデータを、ＳＶＭ４０に入力する。

ＳＶＭ４０は、第１ステージを経ることによって学習されているので、変換器５０から出力されたベクトルデータが、クーポンページに対応するベクトルデータであるか否かを判定することができる。

ＳＶＭ４０は、検索手段６０によって検索されたウェブページのうち、クーポンページに対応するベクトルデータであると判定されたウェブページを、クーポンページデータベース７０に記憶する。

この状態で、ユーザがクーポンページを検索したいと考え、ＰＣ１００などを通じて、「クーポン」などのキーワードと、クーポンを利用したい地域又は店舗種別などのキーワードとを、インターネットなどのネットワーク５００を介して、ウェブページ判定装置４００へ送信するであろう。

ウェブページ判定装置４００では、クーポンを利用したい地域又は店舗種別などのキーワードをキーに、クーポンページデータベース７０を検索する。そして、クーポンページデータベース７０に記憶されているウェブページのうち、上記キーワードが含まれているウェブページを、ネットワーク５００を介して、パーソナルコンピュータ１００へ出力する。

パーソナルコンピュータ１００は、ウェブページ判定装置４００から出力されたウェブページをディスプレイに表示する。この結果、ユーザは、自己が欲するクーポンページを、効率よく見ることが可能と成る。

図８は、図６の別の変形例を示す図である。なお、図８に示すウェブページ判定システムは、データの流れに着目した図であり、システム構成は図６に示したものと同様である。このウェブページ判定システムは、タイムセールを行っていて、しかも、クーポンが使えるスーパーマーケットをユーザが調べたいと考えた場合に好適なものである。

まず、複数の店舗からデータベース３００に対して、当該店舗でのタイムセール情報が送信される。この状態で、ユーザは、タイムセールを行っていて、しかも、クーポンが使えるスーパーマーケットを調べたいと考えた場合には、ＰＣ１００を用いて、「スーパー」「タイムセール」「クーポン」などのキーワードを、インターネットなどのネットワーク５００を介して、ウェブページ判定装置４００へ送信する。

ウェブページ判定装置４００では、図６を用いて説明したように、ＰＣ１００から送信されてきたキーワードに基づいてデータベース３００内が検索され、その結果、「スーパー」「タイムセール」に関するウェブページのベクトルデータがＳＶＭ４０に入力される。以下、図６を用いて説明した動作がなされると、パーソナルコンピュータ１００のディスプレイには、ウェブページ判定装置４００から送信された、「スーパー」「タイムセール」に関するクーポンページのページタイトルが掲示されたウェブページが表示されることになる。

図９は、図６に示すウェブページ判定システムによるウェブページの判定結果を示す図である。図９には、この他に、比較例として、後述する手法を用いて学習させたＳＶＭ４０を有するウェブページ判定システムの判定結果も示している。なお、ＳＶＭ４０は、Ｃ−ＳＶＭを用い、ＳＶＭソフトウェアにはＬｉｂＳＶＭを用いた。さらに、形態素解析ソフトウェアには茶筅（商品名）を用いた。また、図９には、ＳＶＭ４０のカーネルパラメータの所望の設定を行っていない場合の判定結果を示している。

ここで、χ２乗検定とは、ｗを対象単語が出現する事象、ｃを対象クラスが付与されている事象とするとき、「ｗとｃは互いに独立である」という帰無仮説のもとで、文章中に出現する単語と付与されているクラスの創刊をｘ２乗値で評価する方法である。

ここでの情報利得比は、決定木学習システムＣ４．５におけるクラスに対応する評価値に用いた。通常の意味での決定木学習システムＣ４．５における属性選択を行うための指標でない点に留意されたい。

また、サンプルデータとして、無作為に抽出したグルメ系のウェブページの中から選択した、クーポンページと通常ページとを各々３００ページを用いて、既述の第１ステージによってＳＶＭ４０を学習した。さらに、ナイーブベイズ１０には、軸群として、ＨＴＭＬファイルであることと形態素（名詞）とを設定した。

また、判定対象のデータとして、中心クローラを巡回させることで無作為に抽出したグルメ系の２０００ページを用いた。なお、人間が確認したところ、この２０００ページのウェブページの内訳は、クーポンページが１３１ページ、通常ページが１８６９ページであった。

図９（ａ）にはクーポンページを正しく判断できる再現率を示し、図９（ｂ）には適合率を示している。図９の
「１」は得られた形態素を無条件に全て使用して学習させたＳＶＭ、
「２」はχ２乗値が１００以上の形態素を用いて学習させたＳＶＭ、
「３」はχ２乗値が６以上の形態素を用いて学習させたＳＶＭ、
「４」は情報利得比が３．０×１０^−５以上の形態素を用いて学習させたＳＶＭ、
「５」は情報利得比が２．８×１０^−６以上の形態素を用いて学習させたＳＶＭ、
「６」は図３で説明した「９５％以上」のサンプルデータ及びトレーニングデータで学習をさせたＳＶＭ、
「７」は図３で説明した「９５％以上」及び「５％以下」のサンプルデータ及びトレーニングデータで学習をさせたＳＶＭ、
をそれぞれ用いた場合の結果である。

なお、χ２乗値の算出には、Kok Leongらによる「Feature Selectiona Perceptron Learning Usability Case Study for Text Categorization、Proc of ACM SIGIR'97, 1997」を用いた。情報利得比の算出似は、森辰則による「検索結果表示向け文書要約における情報利得比に基づく語の重要度計算」を用いた。

ここで、軸数の多少２種類の実験を行ったのは、軸数の違いによる分類精度への影響を排除するためであり、それぞれの方法で選定される軸数ができるだけ近づくように選定条件の閾値を定義してある。具体的には、「１」〜「７」の軸数は、それぞれ「３５５１３」「７２１」「６９１１」「９０９」「６８０２」「８８４」「６８６１」とした。

図９（ａ）に示すように、再現率は、「１」「６」「７」の場合に相対的に優れた結果が得られる。特に、「７」の場合には非常に優れた結果となった。

図９（ｂ）に示すように、適合率は、「１」「４」「７」の場合に相対的に優れた結果が得られる。中でも、「７」の場合が最も優れた結果となった。

図１０は、図１のＳＶＭ４０のカーネルパラメータを最適化した場合の判定結果を示す図である。カーネルパラメータを最適化した以外は、図９に示す判定結果を得るための条件のままである。なお、「１」〜「７」の各最適値（ｃ、γ）は、それぞれ、「−３．４６、−２．０８」「４．８５、−１１．１」「１０．３、−１８．０」「６．９３、−１４．６」「１１．８、−２０．１」「０．００、−２．０８」「６．９３、−９．７０」とした。

図１０（ａ）に示すように、ＳＶＭ４０のカーネルパラメータを最適化するだけで、再現率は、全体的に底上げされて向上する傾向にある。また、元々、非常に優れた結果を示していた「７」は、ＳＶＭ４０のカーネルパラメータを最適化しても、非常に優れた結果を示していることがわかる。

図１０（ｂ）に示すように、ＳＶＭ４０のカーネルパラメータを最適化するだけで、適合率も、全体的に底上げされて向上する傾向にある。また、元々、非常に優れた結果を示していた「７」も、ＳＶＭ４０のカーネルパラメータを最適化しても、優れた結果となった。

この「７」に着眼すると、ＳＶＭ４０のカーネルパラメータを最適化した場合には、再現率は９０％が維持され、かつ、適合率は４０％程度にまで向上した。

さらに、サンプルデータの数を増やして、同様の判定実験を行った。具体的には、サンプルデータのクーポンページを１３１ページ、サンプルデータの通常ページを１８６９ページとした。この結果、再現率は９８％に向上し、適合率は７２％に向上した。

なお、本実施形態では、ウェブページの中からクーポンページを選択する場合を例に説明したが、選択対象はクーポンページに限定されず、就職ページ、掲示板ページ、オフィシャルサイト、レビューページ、リクルーティングページとすることもできる。

本発明は、情報分野、分類分野などに利用可能であり、とりわけ、情報分野の拡大、分類処理の効率化に利用可能である。

本発明の実施形態のＳＶＭの学習手法の説明図である。図１のＮＢ１０から出力されるトレーニングデータ（ａ）の説明図である。図１のフィルタ２０から出力されるトレーニングデータ（ｂ）の説明図である。図１の学習データ作成装置３０で作成される学習データの説明図である。ＳＶＭ４０のカーネルパラメータを最適化させる手法を説明するためのコンター図である。図１のＳＶＭ４０を含むウェブページ判定システムを示す図である。図６の変形例を示す図である。図６の別の変形例を示す図である。図６に示すウェブページ判定システムによるウェブページの判定結果を示す図である。図１のＳＶＭ４０のカーネルパラメータを最適化した場合の判定結果を示す図である。

符号の説明

１０ＮＢ
２０フィルタ
３０学習データ作成装置
４０ＳＶＭ
５０変換器
６０検索手段
７０クーポンページデータベース
１００パーソナルコンピュータ
２００検索エンジン
３００データベース
４００ウェブページ判定装置
５００ネットワーク

Claims

入力に対して確率論を用いて選択した出力を行う第１フィルタと、
前記第１フィルタからの出力を確率値に基づいて選択する第２フィルタと、を用いて学習させたことを特徴とする情報分類装置。
前記第１フィルタは、複数の要素を含む軸から構成される軸群が設定されており、
第１入力データ群が、各々が第１入力データであることを示す情報とともに入力され、かつ、
第２入力データ群が、各々が第２入力データであることを示す情報とともに入力される、請求項１記載の情報分類装置。
前記第２フィルタは、前記第１フィルタの出力のうち、所定範囲の確率値に該当する出力が通過される、請求項１又は２記載の情報分類装置。
前記第２フィルタを通過した出力と、当該出力が第１入力データと第２入力データとのいずれに対応するかを示す情報とによって学習された、請求項１から３のいずれか記載の情報分類装置。
前記第２フィルタを通過した出力に対応する前記第１フィルタへの入力を、ベクトルデータに変換する変換手段を備える、請求項１から４のいずれか記載の情報分類装置。
請求項１から５のいずれか記載の情報分類装置と、
前記情報分類装置との間でネットワークを介して接続されている端末から入力されるキーワードを含むデータを検索する検索手段と、
前記検索手段によって検索されたデータをベクトルデータに変換する変換器と、
前記変換器によって変換されたベクトルデータを前記情報分類装置に入力することで、前記検索手段によって検索されたデータが第１入力データであるか第２入力データであるかを判定する判定システム。
請求項１から５のいずれか記載の情報分類装置と、
第１及び第２入力データの中から当該第１入力データに合致するデータを検索する検索手段と、
前記検索手段によって検索されたデータをベクトルデータに変換する変換器と、
前記変換機によって変換されたベクトルデータを前記情報分類装置に入力することで前記第１入力データに対応するベクトルデータであると判定されたベクトルデータのデータが格納される情報記憶装置と、
前記情報分類装置との間でネットワークを介して接続されている端末から入力されるキーワードをキーとして前記データベースから読み出したデータを当該端末に送信する送信手段とを備える、判定システム。