JP5764080B2

JP5764080B2 - Ｗｅｂ検索システムおよびＷｅｂ検索方法

Info

Publication number: JP5764080B2
Application number: JP2012046547A
Authority: JP
Inventors: 尚泰小俣; 聡一関根
Original assignee: Kurimoto Ltd
Current assignee: Kurimoto Ltd
Priority date: 2012-03-02
Filing date: 2012-03-02
Publication date: 2015-08-12
Anticipated expiration: 2032-03-02
Also published as: JP2013182466A

Description

本発明は、Ｗｅｂ検索システムおよびＷｅｂ検索方法に関し、特に、インターネット上に公開された入札情報の検索に好適なシステムおよび方法に関する。

インターネットには莫大な数の情報が溢れている。その中から必要な情報を効率よく見つけるためのツールとしてＷｅｂ検索システムがある。一般的なＷｅｂ検索システムは、あらかじめインターネット上のＷｅｂページを収集してインデックスを作成しておき、ユーザから検索キーワードが与えられたとき、インデックス内を検索することによりそのキーワードを含むＷｅｂページのＵＲＬをリストアップする。

上記のようなＷｅｂ検索システムではユーザがキーワード検索機能を駆使しなければならない。そのため、キーワードがうまく想起できない場合、意図した情報抽出がしづらいという問題がある。かかる問題を解消する技術として、Ｗｅｂページでよく用いられるＨＴＭＬの文書構造に注目してタグ構成を考慮した類似性を定義し、その類似性を基にクラスタリングを行って類似するＷｅｂページのグループを得ているものがある（例えば、特許文献１参照）。また、発注者のサーバに公開された情報を基に作成されたデータから独自のデータベースへ登録し、ユーザが必要とする入札情報の検索・配信を可能にした入札支援システムがある（例えば、特許文献２参照）。

特開２００４−３１０３６０号公報特開２０１０−４９４８７号公報

我が国では入札契約適正化法の施行以来、入札情報のインターネット上での公開が進んでいる。したがって、工事受注者にとって、インターネット上に公開された入札情報をいかに容易かつ高精度に入手するかが重要となる。

キーワードによる検索ではユーザにキーワードの想起および入力の負担がかかるため、サンプル文書に類似するＷｅｂページを抽出する方式が望ましい。しかし、入札情報はＨＴＭＬファイルよりもむしろＰＤＦ（登録商標）や表計算ソフトのファイル形式で公開されることが多いため、特許文献１のようなＨＴＭＬの文書構造の類似性に基づく検索ではＨＴＭＬ以外の入札情報がうまく検索できないおそれがある。また、特許文献２のように発注者が公開したデータから検索属性に対する情報の抽出を行ってシステムへデータ登録するには人手を要してしまう。

かかる問題に鑑み、本発明は、インターネット上のＷｅｂページを容易かつ高精度に検索するＷｅｂ検索システムおよびＷｅｂ検索方法を提供することを目的とする。

本発明の一局面に従ったＷｅｂ検索システムは、インターネット上のＷｅｂページを収集するＷｅｂクロール手段と、サンプル文書を基に作成した第１のベクトル空間上で、前記Ｗｅｂクロール手段が収集した各Ｗｅｂページを文書ベクトルで表して前記サンプル文書との類似度を算出して類似度の高いＷｅｂページを抽出する情報フィルタと、前記情報フィルタが抽出したＷｅｂページを基に作成した第２のベクトル空間上で、前記情報フィルタが抽出したＷｅｂページのクラスタリングを行うクラスタリング手段と、前記クラスタリングの結果を教師信号として多クラス分類器を作成し、当該多クラス分類器を用いて、前記Ｗｅｂクロール手段が新たに収集した未知のＷｅｂページが前記第２のベクトル空間におけるいずれのクラスタに属するかを識別するクラスタ識別手段とを備えている。

これによると、キーワードを入力しなくともサンプル文書と類似したＷｅｂページが抽出され、そのクラスタリング結果を教師信号として多クラス分類器が作成され、当該多クラス分類器を用いて、未知のＷｅｂページが属するべきクラスタを識別することができる。したがって、Ｗｅｂ検索に係るユーザ負担が軽減されるとともに高精度な検索結果を得ることができる。

例えば、前記サンプル文書が入札情報であり、前記情報フィルタは、発注機関ごとに異なるサンプル文書を用いて前記類似度を算出するものであってもよい。

また、前記クラスタ識別手段は、前記クラスタリングによって得られた複数のクラスタのうちユーザによって指定されたクラスタを前記第２のベクトル空間における要監視クラスタとして保存する機能、および前記未知のＷｅｂページが前記要監視クラスタに属する場合、前記未知のＷｅｂページをユーザに通知する機能を有していてもよい。

以上のように、本発明によるとインターネット上のＷｅｂページを容易かつ高精度に検索することができる。

本発明の一実施形態に係るＷｅｂ検索システムの構成図ある自治体のＷｅｂサイトのリンク構造を示す模式図入札情報フィルタで作成されるベクトル空間におけるサンプル文書および各Ｗｅｂページを表す模式図検索クライアントで作成されるベクトル空間におけるＷｅｂページのクラスタリングを表す模式図入札情報検索サービスのサイト画面例を表す図図４に示したベクトル空間において推定されたクラスタ境界を表す模式図

以下、図面を参照しながら本発明を実施するための形態について説明する。なお、本発明は、以下の実施形態に限定されるものではない。

図１は、本発明の一実施形態に係るＷｅｂ検索システムの構成を示す。本実施形態に係るＷｅｂ検索システム１００は、発注機関（例えば、市町村などの自治体）がインターネット上に公開した入札情報を効率よく検索するものであり、Ｗｅｂクローラサーバ１０、インデックスサーバ２０、およびＷｅｂＵＩサーバ３０を備えている。図中のサーバ間の実線は電気通信回線を表し、各サーバは例えばＨＴＴＰ（HyperText Transfer Protocol）で互いに通信する。図中の破線はデータや処理の流れを表している。

Ｗｅｂクローラサーバ１０ではさまざまなプログラムモジュールが稼働する。中でもＷｅｂクローラ１２、入札情報フィルタ１４、およびクラスタ識別器１６の３つがＷｅｂ検索に関するプログラムモジュールに該当する。

Ｗｅｂクローラ１２は、インターネット上のＷｅｂサイト（例えば、発注機関のホームページ）からハイパーリンクを探索しながらＷｅｂページを収集する。収集するＷｅｂページは、ＨＴＭＬなどのマークアップ言語で記述されたファイルだけではなく、ハイパーリンク先のさまざまなデータ形式のファイルも含む。Ｗｅｂクローラ１２は、例えば、各種ドキュメント文書、ＰＤＦ（登録商標）文書、表計算ソフトのファイル形式文書などを収集する。

図２は、ある自治体のＷｅｂサイトのリンク構造を示す模式図である。一般に、自治体のＷｅｂサイトには市民向けサイト、事業者向けサイト、市政情報などさまざまな種類の情報が含まれており、入札情報はその中のごく一部である。図２の例では、事業者向けサイトのリンク先の入札・契約サイトのリンク先の発注予定、入札案件、入札結果の各情報が入札情報に該当する。発注予定は半期ごとに公開され、その内容はその自治体が発注予定の公共事業の予定リストである。入札公告は発注ごとに公開され、各公共事業の具体的な発注内容を含む。入札結果は入札後速やかに公開され、その内容は落札業者、落札価格などを含む。

入札情報フィルタ１４は、Ｗｅｂクローラ１２が収集したさまざまなＷｅｂページの中から入札情報に関するＷｅｂページを抽出する。具体的には、入札情報フィルタ１４は、ベクトル空間法に従って、Ｗｅｂクローラ１２が収集した各Ｗｅｂページについてサンプル文書との類似度を算出することで入札情報を抽出する。ベクトル空間法とは、文書を多次元空間上のベクトルとして表現し、二つのベクトルを比較することにより類似度を調べるものである。すなわち、入札情報フィルタ１４は、サンプル文書を基に作成したベクトル空間上で各Ｗｅｂページを文書ベクトルで表して、サンプル文書の文書ベクトルとの類似度を算出する。サンプル文書は、その発注機関で過去に公開された入札情報である。

文書ベクトルは、例えば、ｎ次元（例えば、１０００次元）のベクトルであり、ベクトルの各要素は各索引語の有無を表す。入札情報フィルタ１４によるＷｅｂページの文書ベクトル化は次のようにして行う。サンプル文書からｎ個（例えば、１０００個）の索引語を抽出する。このとき、形態素解析によってテキストを分かち書きしてもよいし、Ｎ−Ｇｒａｍにより機械的にテキストをＮ文字の文字列に切り分けてもよい。また、サンプル文書がイメージファイルである場合にはＯＣＲ（Optical Character Reader）により文字イメージをテキスト化するとよい。各Ｗｅｂページからも形態素解析やＮ−Ｇｒａｍにより文字列を抽出する。Ｗｅｂページがイメージファイルである場合にはＯＣＲによりテキスト化する。そして、Ｗｅｂページに各索引語が含まれるか否かを解析してＷｅｂページの文書ベクトルが生成される。

サンプル文書は一つでも複数でもよい。サンプル文書が複数ある場合には、入札情報フィルタ１４は、それらサンプル文書の重心ベクトルを求め、当該重心ベクトルと各Ｗｅｂページの文書ベクトルとの類似度を算出する。なお、発注機関によって入札情報の内容が異なるため、発注機関ごとにサンプル文書を用意することが望ましい。

図３は、入札情報フィルタ１４で作成されるベクトル空間におけるサンプル文書および各Ｗｅｂページを表す模式図である。ベクトル空間１４０が入札情報フィルタ１４で作成されるベクトル空間であり、ベクトル空間１４０においてＴで表した文書がサンプル文書であり、点はこれらサンプル文書の重心ベクトルを表す。丸は収集したＷｅｂページの文書ベクトルを表し、１から１２までの数字は重心ベクトルとの類似度順位を表す。重心ベクトルとの距離が近い文書ベクトルほど類似度が高い。また、１２個の文書ベクトルのうち太線で描いた文書ベクトルは正解、すなわち、実際にユーザが欲するＷｅｂページ（例えば、入札情報）であり、細線で描いた文書ベクトルは不正解のＷｅｂページである。重心ベクトルに近い位置に正解のＷｅｂページが集中している。このように、ベクトル空間法により、サンプル文書との類似度に基づいて所望のＷｅｂページを抽出することができる。

図１に戻り、入札情報フィルタ１４が抽出したＷｅｂページは、サンプル文書との類似度が付与されてインデックスサーバ２０に登録される。インデックスサーバ２０では全文検索エンジン２２が稼働する。全文検索エンジン２２は、Ｗｅｂクローラサーバ１０から与えられたＷｅｂページからインデックスを作成する。インデックスの作成では、Ｗｅｂページ中の単語の解析処理やハイパーリンク構造解析などを通じて、Ｗｅｂページからユーザの検索要求と照合するためのデータを抽出する。このように、インデックスとは、検索対象となるべきインターネット上の原データに対する写像であり、Ｗｅｂページ内に存在する情報を抽出し、検索のためにあらかじめ構造化したデータである。

ＷｅｂＵＩサーバ３０では検索クライアント３２が稼働する。検索クライアント３２は、ユーザ側のＰＣや携帯端末などで動作するＷｅｂブラウザを通じてユーザにＷｅｂ検索のためのインタフェースを提供する。検索クライアント３２は、ユーザから検索要求を受けて、当該要求を全文検索エンジン２２に照会して検索結果をユーザに返す。このとき、検索クライアント３２は、全文検索エンジン２２から検索条件に合致したＷｅｂページを取得し、ベクトル空間法に従って、これら取得したＷｅｂページを基にベクトル空間を作成する。そして、検索クライアント３２は、当該作成したベクトル空間上で全文検索エンジン２２から得たＷｅｂページに対してクラスタリングを行い、当該クラスタリングを反映したユーザインタフェースを作成する。クラスタリングは、階層的凝集クラスタリング、Ｋ平均法、ウォード法などを利用して行うことができる。

検索クライアント３２によるＷｅｂページの文書ベクトル化は、上述した入札情報フィルタ１４によるＷｅｂページの文書ベクトル化と同様に行うことができる。ただし、検索クライアント３２ではサンプル文書からではなく、全文検索エンジン２２から取得した各Ｗｅｂページから任意の個数の索引語が抽出される。

ベクトル空間の次元数が無限大であれば、理論的には、入札情報フィルタ１４が作成するベクトル空間と検索クライアント３２が作成するベクトル空間とを共通化することができる。しかし、現実には各サーバの処理能力に限界があるため、上述のように、入札情報フィルタ１４と検索クライアント３２は、同一のＷｅｂページを相異なる有限次元のベクトル空間上にマッピングする。

検索クライアント３２が作成するベクトル空間の次元数は、入札情報フィルタ１４が作成するベクトル空間の次元数と等しい必要はない。各ベクトル空間の次元数をいくつにするかは各サーバの処理能力に応じて決めればよい。

図４は、検索クライアント３２で作成されるベクトル空間におけるＷｅｂページのクラスタリングを表す模式図である。ベクトル空間３２０が検索クライアント３２で作成されるベクトル空間であり、丸は検索エンジン２２から取得したＷｅｂページの文書ベクトルを表し、１から８までの数字は上述の類似度順位を表す。図４の例では、図３中の番号１０から１２までの文書ベクトルは類似度が低いためクラスタリング対象から除外されている。このように、検索クライアント３２は、類似度が比較的高いＷｅｂページに限定してクラスタリングを行ってもよい。

例えば、図４の例では、目標クラスタ数が４のとき、番号１，２の文書ベクトルからなるクラスタＣ１、番号３，５の文書ベクトルからなるクラスタＣ２、番号４，６，８の文書ベクトルからなるクラスタＣ３、および番号７の文書ベクトルからなるクラスタＣ４の４つのクラスタが得られる。なお、検索結果からいくつのクラスタを生成するかは任意であり、目標クラスタ数は検索条件の一つとしてユーザから与えられる。あるいは、目標クラスタ数としてシステムデフォルト値を用いてもよい。

図５は、入札情報検索サービスのサイト画面例を示す。当該画面は、検索クライアント３２によって作成されてユーザ側のＷｅｂブラウザに表示される。当該画面例は神戸市の入札公告を検索した結果を示しており、クラスタリングによって検索結果がいくつかのカテゴリ（クラスタ）に分類されている。このように、本実施形態に係るＷｅｂ検索システムでは、検索のためのキーワードを入力しなくてもサンプル文書さえ登録しておけば、サンプル文書に類似する順に検索結果が提示され、さらに、互いに類似するＷｅｂページが同一のカテゴリにまとめられる。

各カテゴリには「このカテゴリをメール配信する」と表示されたリンクがあり、当該リンクをクリックするとメール配信の設定ができるようになっている。メール配信の設定をしておけば、今後、Ｗｅｂクローラサーバ１０が当該カテゴリに属する新たなＷｅｂページを収集するごとに当該新たなＷｅｂページがユーザにメール通知される。

図１に戻り、Ｗｅｂクローラサーバ１０におけるクラスタ識別器１６は、未知のＷｅｂページが、検索クライアント３２によるクラスタリングによって生成されたいずれのクラスタに属するかを識別する。さらに、クラスタ識別器１６は、未知のＷｅｂページがユーザ所望のクラスタに属する場合には当該未知のＷｅｂページをユーザに通知する。具体的には、クラスタ識別器１６は、検索クライアント３２によるクラスタリングの結果を教師信号として多クラス分類器を作成し、当該多クラス分類器を用いて未知のＷｅｂページのクラスタを識別する。

多クラス分類器として、例えば、サポートベクターマシン（ＳＶＭ）を用いることができる。ＳＶＭは基本的には２クラスの識別問題を対象にして定式化されたものであるが、２クラスの判別モデルを組み合わせることで多クラス分類が可能である。組み合わせ方として１対多方式と１対１方式とがある。１対多方式とは、全クラスに対して、ある一つのクラスとそれ以外のクラスに分ける識別平面を作成し、これらの識別平面のうち最も高い判別値を返すクラスを出力するという方法である。ｎクラスの問題の場合、識別平面の数はｎとなる。一方、１対１方式とは、各クラスごとに対となる識別平面を作成し、多数決により出力を決定する方法である。識別平面の数はｎ（ｎ−１）／２となる。

検索クライアント３２によって任意の数のクラスタが生成されるが、クラスタリングアルゴリズムではベクトル空間におけるクラスタ境界を推定することができない。そこで、クラスタ識別器１６は、検索クライアント３２によるクラスタリング結果を教師信号として多クラス分類器を作成し、検索クライアント３２で作成されたベクトル空間上でのクラスタの境界を推定する。例えば、図４の例の場合、クラスタ識別器１６によって図６に示したようなクラスタ境界が推定される。

クラスタ境界とはＳＶＭの場合の識別平面であり、具体的には識別関数で表される。未知の文書ベクトルが検索クライアント３２で作成されたベクトル空間におけるいずれのクラスタに属するかは、当該未知の文書ベクトルを識別関数の引数として与えたときの識別関数の出力から識別することができる。

クラスタ識別器１６は、多クラス分類器の作成によって得た識別関数を保存する。当該識別関数は、検索クライアント３２によってクラスタリングが行われたベクトル空間を分割する識別平面に該当する。以後、Ｗｅｂクローラサーバ１０が新たなＷｅｂページを収集したとき、クラスタ識別器１６は、識別関数を適用して当該新たなＷｅｂページが検索クライアント３２で作成されたベクトル空間におけるいずれのクラスタに属するかを識別する。具体的には、Ｗｅｂクローラサーバ１０が新たに収集したＷｅｂページは、サンプル文書との類似度が付与されてインデックスサーバ２０に登録される。クラスタ識別器１６は、インデックスサーバ２０における全文検索エンジン２２から当該新たなＷｅｂページを取得し、当該取得したＷｅｂページが検索クライアント３２で作成されたベクトル空間におけるいずれのクラスタに属するかを識別する。

さらに、クラスタ識別器１６は、ユーザが興味を持つクラスタ集合を保存してもよい。ユーザが興味を持つクラスタ集合は、例えば、図５に示したユーザインタフェースにおいて、ユーザが「このカテゴリをメール配信する」と表示されたリンクをクリックしてメール通知を設定した場合、クラスタ識別器１６は当該カテゴリに該当するクラスタを要監視クラスタとして保存する。以後、クラスタ識別器１６は、Ｗｅｂクローラサーバ１０が新たに収集したＷｅｂページが当該要監視クラスタに属する場合、設定されたアドレスに、当該Ｗｅｂページに関する情報をメール通知する。なお、クラスタ識別器１６が保存するクラスタ集合はユーザの指示により適宜変更可能である。

以上説明した本実施形態に係るＷｅｂ検索システムによるＷｅｂページ収集以降の処理手順をまとめると次のようになる。

≪クラスタ分析フロー≫
Ｎ件の文書ベクトルを要素とする文書ベクトル集合Ｄ＝｛ｄ_１,ｄ_２,…,ｄ_Ｎ｝についてクラスタ分析を行うことを考える。目標クラスタ数がｋのとき、検索クライアント３２はｋ個のクラスタＣ_１，Ｃ_２，…，Ｃ_ｋを生成する。このとき、任意の文書ベクトルｄ_ｉが属するクラスタをＣ_ｄｉとする。クラスタ識別器１６は、図５の例の「このカテゴリをメール配信する」がクリックされたカテゴリをユーザが興味を持つクラスタ集合Ｕとして保存する。

≪多クラス分類器作成フロー≫
クラスタ識別器１６は、文書ベクトル集合Ｄから文書行列Ｍ＝［ｄ_１ｄ_２ … ｄ_Ｎ］を生成する。文書ベクトル集合Ｄの各要素ｄ_ｉがｎ次元のベクトルとなるように次元削減を行ってもよい。ここで、ｎは、ｎ≦ｒａｎｋ（Ｍ）であるような自然数であり、識別関数の精度が最大となるような、なるべく小さい数とする。

クラスタ識別器１６は、Ｎ件の文書ベクトル集合Ｄを訓練サンプル、Ｃ_ｄｉを教師信号とし多クラス分類器を作成する。この際、ある文書ベクトルｘがどのクラスタに属するかを推定するための識別関数ｆ（ｘ）を得る。クラスタ識別器１６は、識別関数ｆ（ｘ）を保存する。

≪識別フロー≫
未知の文書から得られる文書ベクトルｘが属するクラスタＣ_ｘは、識別関数ｆ（ｘ）の出力として得られる。識別関数から得られたクラスタがクラスタ集合Ｕに含まれる場合は、文書ベクトルｘはユーザが興味を持つ文書であると推定できる。

以上のように本実施形態に係るＷｅｂ検索システムでは、サンプル文書から検索属性に対する情報の抽出作業が不要である。また、ユーザは発注機関のＷｅｂサイトを巡回することなく、単一のＷｅｂサイトで横断的に情報を検索することができる。また、欲しい情報に合致するキーワードが想起できなくても、自動的にカテゴリ分けされた検索結果を得て、さらに、そのカテゴリに属する新たな情報が公開された場合には通知を受けることができる。

なお、入札情報検索に特化して説明したが、本発明に係るＷｅｂ検索システムは入札情報検索に限定されない。入札情報フィルタ１４を別の情報フィルタ、例えば、就職情報を抽出する情報フィルタに置き換えることで、就職情報検索システムとして利用することができる。

本発明に係るＷｅｂ検索システムおよびＷｅｂ検索方法は、インターネット上のＷｅｂページを容易かつ高精度に検索することができるため、入札情報検索システムとして有用である。

１００Ｗｅｂ検索システム
１２Ｗｅｂクローラ（Ｗｅｂクロール手段）
１４入札情報フィルタ（情報フィルタ）
１６クラスタ識別器（クラスタ識別手段）
３２検索クライアント（クラスタリング手段）
１４０ベクトル空間（第１のベクトル空間）
３２０ベクトル空間（第２のベクトル空間）

Claims

Ｗｅｂページを検索するＷｅｂ検索システムであって、
インターネット上のＷｅｂページを収集するＷｅｂクロール手段と、
サンプル文書を基に作成した第１のベクトル空間上で、前記Ｗｅｂクロール手段が収集した各Ｗｅｂページを文書ベクトルで表して前記サンプル文書との類似度を算出して類似度の高いＷｅｂページを抽出する情報フィルタと、
前記情報フィルタが抽出したＷｅｂページを基に作成した第２のベクトル空間上で、前記情報フィルタが抽出したＷｅｂページのクラスタリングを行うクラスタリング手段と、
前記クラスタリングの結果を教師信号として多クラス分類器を作成し、当該多クラス分類器を用いて、前記Ｗｅｂクロール手段が新たに収集した未知のＷｅｂページが前記第２のベクトル空間におけるいずれのクラスタに属するかを識別するクラスタ識別手段とを備え、
前記クラスタ識別手段は、前記クラスタリングによって得られた複数のクラスタのうちユーザによって指定されたクラスタを前記第２のベクトル空間における要監視クラスタとして保存する機能、および前記未知のＷｅｂページが前記要監視クラスタに属する場合、前記未知のＷｅｂページをユーザに通知する機能を有する
ことを特徴とするＷｅｂ検索システム。
請求項１に記載のＷｅｂ検索システムにおいて、
前記サンプル文書が入札情報であり、
前記情報フィルタは、発注機関ごとに異なるサンプル文書を用いて前記類似度を算出する
ことを特徴とするＷｅｂ検索システム。
Ｗｅｂページを検索するＷｅｂ検索方法であって、
インターネット上のＷｅｂページを収集するステップと、
サンプル文書を基に作成した第１のベクトル空間上で、前記収集した各Ｗｅｂページを文書ベクトルで表して前記サンプル文書との類似度を算出して類似度の高いＷｅｂページを抽出するステップと、
前記抽出したＷｅｂページを基に作成した第２のベクトル空間上で、前記抽出したＷｅｂページのクラスタリングを行うステップと、
前記クラスタリングの結果を教師信号として多クラス分類器を作成するステップと、
前記多クラス分類器を用いて、新たに収集した未知のＷｅｂページが前記第２のベクトル空間におけるいずれのクラスタに属するかを識別するステップと、
前記クラスタリングによって得られた複数のクラスタのうちユーザによって指定されたクラスタを前記第２のベクトル空間における要監視クラスタとして保存するステップと、
前記未知のＷｅｂページが前記要監視クラスタに属する場合、前記未知のＷｅｂページをユーザに通知するステップとを備えている
ことを特徴とするＷｅｂ検索方法。
請求項３に記載のＷｅｂ検索方法において、
前記サンプル文書が入札情報であり、
発注機関ごとに異なるサンプル文書を用いて前記類似度を算出する
ことを特徴とするＷｅｂ検索方法。