JP5764080B2 - Web検索システムおよびWeb検索方法 - Google Patents

Web検索システムおよびWeb検索方法 Download PDF

Info

Publication number
JP5764080B2
JP5764080B2 JP2012046547A JP2012046547A JP5764080B2 JP 5764080 B2 JP5764080 B2 JP 5764080B2 JP 2012046547 A JP2012046547 A JP 2012046547A JP 2012046547 A JP2012046547 A JP 2012046547A JP 5764080 B2 JP5764080 B2 JP 5764080B2
Authority
JP
Japan
Prior art keywords
web
cluster
web page
document
vector space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012046547A
Other languages
English (en)
Other versions
JP2013182466A (ja
Inventor
尚泰 小俣
尚泰 小俣
聡一 関根
聡一 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kurimoto Ltd
Original Assignee
Kurimoto Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kurimoto Ltd filed Critical Kurimoto Ltd
Priority to JP2012046547A priority Critical patent/JP5764080B2/ja
Publication of JP2013182466A publication Critical patent/JP2013182466A/ja
Application granted granted Critical
Publication of JP5764080B2 publication Critical patent/JP5764080B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、Web検索システムおよびWeb検索方法に関し、特に、インターネット上に公開された入札情報の検索に好適なシステムおよび方法に関する。
インターネットには莫大な数の情報が溢れている。その中から必要な情報を効率よく見つけるためのツールとしてWeb検索システムがある。一般的なWeb検索システムは、あらかじめインターネット上のWebページを収集してインデックスを作成しておき、ユーザから検索キーワードが与えられたとき、インデックス内を検索することによりそのキーワードを含むWebページのURLをリストアップする。
上記のようなWeb検索システムではユーザがキーワード検索機能を駆使しなければならない。そのため、キーワードがうまく想起できない場合、意図した情報抽出がしづらいという問題がある。かかる問題を解消する技術として、Webページでよく用いられるHTMLの文書構造に注目してタグ構成を考慮した類似性を定義し、その類似性を基にクラスタリングを行って類似するWebページのグループを得ているものがある(例えば、特許文献1参照)。また、発注者のサーバに公開された情報を基に作成されたデータから独自のデータベースへ登録し、ユーザが必要とする入札情報の検索・配信を可能にした入札支援システムがある(例えば、特許文献2参照)。
特開2004−310360号公報 特開2010−49487号公報
我が国では入札契約適正化法の施行以来、入札情報のインターネット上での公開が進んでいる。したがって、工事受注者にとって、インターネット上に公開された入札情報をいかに容易かつ高精度に入手するかが重要となる。
キーワードによる検索ではユーザにキーワードの想起および入力の負担がかかるため、サンプル文書に類似するWebページを抽出する方式が望ましい。しかし、入札情報はHTMLファイルよりもむしろPDF(登録商標)や表計算ソフトのファイル形式で公開されることが多いため、特許文献1のようなHTMLの文書構造の類似性に基づく検索ではHTML以外の入札情報がうまく検索できないおそれがある。また、特許文献2のように発注者が公開したデータから検索属性に対する情報の抽出を行ってシステムへデータ登録するには人手を要してしまう。
かかる問題に鑑み、本発明は、インターネット上のWebページを容易かつ高精度に検索するWeb検索システムおよびWeb検索方法を提供することを目的とする。
本発明の一局面に従ったWeb検索システムは、インターネット上のWebページを収集するWebクロール手段と、サンプル文書を基に作成した第1のベクトル空間上で、前記Webクロール手段が収集した各Webページを文書ベクトルで表して前記サンプル文書との類似度を算出して類似度の高いWebページを抽出する情報フィルタと、前記情報フィルタが抽出したWebページを基に作成した第2のベクトル空間上で、前記情報フィルタが抽出したWebページのクラスタリングを行うクラスタリング手段と、前記クラスタリングの結果を教師信号として多クラス分類器を作成し、当該多クラス分類器を用いて、前記Webクロール手段が新たに収集した未知のWebページが前記第2のベクトル空間におけるいずれのクラスタに属するかを識別するクラスタ識別手段とを備えている。
これによると、キーワードを入力しなくともサンプル文書と類似したWebページが抽出され、そのクラスタリング結果を教師信号として多クラス分類器が作成され、当該多クラス分類器を用いて、未知のWebページが属するべきクラスタを識別することができる。したがって、Web検索に係るユーザ負担が軽減されるとともに高精度な検索結果を得ることができる。
例えば、前記サンプル文書が入札情報であり、前記情報フィルタは、発注機関ごとに異なるサンプル文書を用いて前記類似度を算出するものであってもよい。
また、前記クラスタ識別手段は、前記クラスタリングによって得られた複数のクラスタのうちユーザによって指定されたクラスタを前記第2のベクトル空間における要監視クラスタとして保存する機能、および前記未知のWebページが前記要監視クラスタに属する場合、前記未知のWebページをユーザに通知する機能を有していてもよい。
以上のように、本発明によるとインターネット上のWebページを容易かつ高精度に検索することができる。
本発明の一実施形態に係るWeb検索システムの構成図 ある自治体のWebサイトのリンク構造を示す模式図 入札情報フィルタで作成されるベクトル空間におけるサンプル文書および各Webページを表す模式図 検索クライアントで作成されるベクトル空間におけるWebページのクラスタリングを表す模式図 入札情報検索サービスのサイト画面例を表す図 図4に示したベクトル空間において推定されたクラスタ境界を表す模式図
以下、図面を参照しながら本発明を実施するための形態について説明する。なお、本発明は、以下の実施形態に限定されるものではない。
図1は、本発明の一実施形態に係るWeb検索システムの構成を示す。本実施形態に係るWeb検索システム100は、発注機関(例えば、市町村などの自治体)がインターネット上に公開した入札情報を効率よく検索するものであり、Webクローラサーバ10、インデックスサーバ20、およびWebUIサーバ30を備えている。図中のサーバ間の実線は電気通信回線を表し、各サーバは例えばHTTP(HyperText Transfer Protocol)で互いに通信する。図中の破線はデータや処理の流れを表している。
Webクローラサーバ10ではさまざまなプログラムモジュールが稼働する。中でもWebクローラ12、入札情報フィルタ14、およびクラスタ識別器16の3つがWeb検索に関するプログラムモジュールに該当する。
Webクローラ12は、インターネット上のWebサイト(例えば、発注機関のホームページ)からハイパーリンクを探索しながらWebページを収集する。収集するWebページは、HTMLなどのマークアップ言語で記述されたファイルだけではなく、ハイパーリンク先のさまざまなデータ形式のファイルも含む。Webクローラ12は、例えば、各種ドキュメント文書、PDF(登録商標)文書、表計算ソフトのファイル形式文書などを収集する。
図2は、ある自治体のWebサイトのリンク構造を示す模式図である。一般に、自治体のWebサイトには市民向けサイト、事業者向けサイト、市政情報などさまざまな種類の情報が含まれており、入札情報はその中のごく一部である。図2の例では、事業者向けサイトのリンク先の入札・契約サイトのリンク先の発注予定、入札案件、入札結果の各情報が入札情報に該当する。発注予定は半期ごとに公開され、その内容はその自治体が発注予定の公共事業の予定リストである。入札公告は発注ごとに公開され、各公共事業の具体的な発注内容を含む。入札結果は入札後速やかに公開され、その内容は落札業者、落札価格などを含む。
入札情報フィルタ14は、Webクローラ12が収集したさまざまなWebページの中から入札情報に関するWebページを抽出する。具体的には、入札情報フィルタ14は、ベクトル空間法に従って、Webクローラ12が収集した各Webページについてサンプル文書との類似度を算出することで入札情報を抽出する。ベクトル空間法とは、文書を多次元空間上のベクトルとして表現し、二つのベクトルを比較することにより類似度を調べるものである。すなわち、入札情報フィルタ14は、サンプル文書を基に作成したベクトル空間上で各Webページを文書ベクトルで表して、サンプル文書の文書ベクトルとの類似度を算出する。サンプル文書は、その発注機関で過去に公開された入札情報である。
文書ベクトルは、例えば、n次元(例えば、1000次元)のベクトルであり、ベクトルの各要素は各索引語の有無を表す。入札情報フィルタ14によるWebページの文書ベクトル化は次のようにして行う。サンプル文書からn個(例えば、1000個)の索引語を抽出する。このとき、形態素解析によってテキストを分かち書きしてもよいし、N−Gramにより機械的にテキストをN文字の文字列に切り分けてもよい。また、サンプル文書がイメージファイルである場合にはOCR(Optical Character Reader)により文字イメージをテキスト化するとよい。各Webページからも形態素解析やN−Gramにより文字列を抽出する。Webページがイメージファイルである場合にはOCRによりテキスト化する。そして、Webページに各索引語が含まれるか否かを解析してWebページの文書ベクトルが生成される。
サンプル文書は一つでも複数でもよい。サンプル文書が複数ある場合には、入札情報フィルタ14は、それらサンプル文書の重心ベクトルを求め、当該重心ベクトルと各Webページの文書ベクトルとの類似度を算出する。なお、発注機関によって入札情報の内容が異なるため、発注機関ごとにサンプル文書を用意することが望ましい。
図3は、入札情報フィルタ14で作成されるベクトル空間におけるサンプル文書および各Webページを表す模式図である。ベクトル空間140が入札情報フィルタ14で作成されるベクトル空間であり、ベクトル空間140においてTで表した文書がサンプル文書であり、点はこれらサンプル文書の重心ベクトルを表す。丸は収集したWebページの文書ベクトルを表し、1から12までの数字は重心ベクトルとの類似度順位を表す。重心ベクトルとの距離が近い文書ベクトルほど類似度が高い。また、12個の文書ベクトルのうち太線で描いた文書ベクトルは正解、すなわち、実際にユーザが欲するWebページ(例えば、入札情報)であり、細線で描いた文書ベクトルは不正解のWebページである。重心ベクトルに近い位置に正解のWebページが集中している。このように、ベクトル空間法により、サンプル文書との類似度に基づいて所望のWebページを抽出することができる。
図1に戻り、入札情報フィルタ14が抽出したWebページは、サンプル文書との類似度が付与されてインデックスサーバ20に登録される。インデックスサーバ20では全文検索エンジン22が稼働する。全文検索エンジン22は、Webクローラサーバ10から与えられたWebページからインデックスを作成する。インデックスの作成では、Webページ中の単語の解析処理やハイパーリンク構造解析などを通じて、Webページからユーザの検索要求と照合するためのデータを抽出する。このように、インデックスとは、検索対象となるべきインターネット上の原データに対する写像であり、Webページ内に存在する情報を抽出し、検索のためにあらかじめ構造化したデータである。
WebUIサーバ30では検索クライアント32が稼働する。検索クライアント32は、ユーザ側のPCや携帯端末などで動作するWebブラウザを通じてユーザにWeb検索のためのインタフェースを提供する。検索クライアント32は、ユーザから検索要求を受けて、当該要求を全文検索エンジン22に照会して検索結果をユーザに返す。このとき、検索クライアント32は、全文検索エンジン22から検索条件に合致したWebページを取得し、ベクトル空間法に従って、これら取得したWebページを基にベクトル空間を作成する。そして、検索クライアント32は、当該作成したベクトル空間上で全文検索エンジン22から得たWebページに対してクラスタリングを行い、当該クラスタリングを反映したユーザインタフェースを作成する。クラスタリングは、階層的凝集クラスタリング、K平均法、ウォード法などを利用して行うことができる。
検索クライアント32によるWebページの文書ベクトル化は、上述した入札情報フィルタ14によるWebページの文書ベクトル化と同様に行うことができる。ただし、検索クライアント32ではサンプル文書からではなく、全文検索エンジン22から取得した各Webページから任意の個数の索引語が抽出される。
ベクトル空間の次元数が無限大であれば、理論的には、入札情報フィルタ14が作成するベクトル空間と検索クライアント32が作成するベクトル空間とを共通化することができる。しかし、現実には各サーバの処理能力に限界があるため、上述のように、入札情報フィルタ14と検索クライアント32は、同一のWebページを相異なる有限次元のベクトル空間上にマッピングする。
検索クライアント32が作成するベクトル空間の次元数は、入札情報フィルタ14が作成するベクトル空間の次元数と等しい必要はない。各ベクトル空間の次元数をいくつにするかは各サーバの処理能力に応じて決めればよい。
図4は、検索クライアント32で作成されるベクトル空間におけるWebページのクラスタリングを表す模式図である。ベクトル空間320が検索クライアント32で作成されるベクトル空間であり、丸は検索エンジン22から取得したWebページの文書ベクトルを表し、1から8までの数字は上述の類似度順位を表す。図4の例では、図3中の番号10から12までの文書ベクトルは類似度が低いためクラスタリング対象から除外されている。このように、検索クライアント32は、類似度が比較的高いWebページに限定してクラスタリングを行ってもよい。
例えば、図4の例では、目標クラスタ数が4のとき、番号1,2の文書ベクトルからなるクラスタC1、番号3,5の文書ベクトルからなるクラスタC2、番号4,6,8の文書ベクトルからなるクラスタC3、および番号7の文書ベクトルからなるクラスタC4の4つのクラスタが得られる。なお、検索結果からいくつのクラスタを生成するかは任意であり、目標クラスタ数は検索条件の一つとしてユーザから与えられる。あるいは、目標クラスタ数としてシステムデフォルト値を用いてもよい。
図5は、入札情報検索サービスのサイト画面例を示す。当該画面は、検索クライアント32によって作成されてユーザ側のWebブラウザに表示される。当該画面例は神戸市の入札公告を検索した結果を示しており、クラスタリングによって検索結果がいくつかのカテゴリ(クラスタ)に分類されている。このように、本実施形態に係るWeb検索システムでは、検索のためのキーワードを入力しなくてもサンプル文書さえ登録しておけば、サンプル文書に類似する順に検索結果が提示され、さらに、互いに類似するWebページが同一のカテゴリにまとめられる。
各カテゴリには「このカテゴリをメール配信する」と表示されたリンクがあり、当該リンクをクリックするとメール配信の設定ができるようになっている。メール配信の設定をしておけば、今後、Webクローラサーバ10が当該カテゴリに属する新たなWebページを収集するごとに当該新たなWebページがユーザにメール通知される。
図1に戻り、Webクローラサーバ10におけるクラスタ識別器16は、未知のWebページが、検索クライアント32によるクラスタリングによって生成されたいずれのクラスタに属するかを識別する。さらに、クラスタ識別器16は、未知のWebページがユーザ所望のクラスタに属する場合には当該未知のWebページをユーザに通知する。具体的には、クラスタ識別器16は、検索クライアント32によるクラスタリングの結果を教師信号として多クラス分類器を作成し、当該多クラス分類器を用いて未知のWebページのクラスタを識別する。
多クラス分類器として、例えば、サポートベクターマシン(SVM)を用いることができる。SVMは基本的には2クラスの識別問題を対象にして定式化されたものであるが、2クラスの判別モデルを組み合わせることで多クラス分類が可能である。組み合わせ方として1対多方式と1対1方式とがある。1対多方式とは、全クラスに対して、ある一つのクラスとそれ以外のクラスに分ける識別平面を作成し、これらの識別平面のうち最も高い判別値を返すクラスを出力するという方法である。nクラスの問題の場合、識別平面の数はnとなる。一方、1対1方式とは、各クラスごとに対となる識別平面を作成し、多数決により出力を決定する方法である。識別平面の数はn(n−1)/2となる。
検索クライアント32によって任意の数のクラスタが生成されるが、クラスタリングアルゴリズムではベクトル空間におけるクラスタ境界を推定することができない。そこで、クラスタ識別器16は、検索クライアント32によるクラスタリング結果を教師信号として多クラス分類器を作成し、検索クライアント32で作成されたベクトル空間上でのクラスタの境界を推定する。例えば、図4の例の場合、クラスタ識別器16によって図6に示したようなクラスタ境界が推定される。
クラスタ境界とはSVMの場合の識別平面であり、具体的には識別関数で表される。未知の文書ベクトルが検索クライアント32で作成されたベクトル空間におけるいずれのクラスタに属するかは、当該未知の文書ベクトルを識別関数の引数として与えたときの識別関数の出力から識別することができる。
クラスタ識別器16は、多クラス分類器の作成によって得た識別関数を保存する。当該識別関数は、検索クライアント32によってクラスタリングが行われたベクトル空間を分割する識別平面に該当する。以後、Webクローラサーバ10が新たなWebページを収集したとき、クラスタ識別器16は、識別関数を適用して当該新たなWebページが検索クライアント32で作成されたベクトル空間におけるいずれのクラスタに属するかを識別する。具体的には、Webクローラサーバ10が新たに収集したWebページは、サンプル文書との類似度が付与されてインデックスサーバ20に登録される。クラスタ識別器16は、インデックスサーバ20における全文検索エンジン22から当該新たなWebページを取得し、当該取得したWebページが検索クライアント32で作成されたベクトル空間におけるいずれのクラスタに属するかを識別する。
さらに、クラスタ識別器16は、ユーザが興味を持つクラスタ集合を保存してもよい。ユーザが興味を持つクラスタ集合は、例えば、図5に示したユーザインタフェースにおいて、ユーザが「このカテゴリをメール配信する」と表示されたリンクをクリックしてメール通知を設定した場合、クラスタ識別器16は当該カテゴリに該当するクラスタを要監視クラスタとして保存する。以後、クラスタ識別器16は、Webクローラサーバ10が新たに収集したWebページが当該要監視クラスタに属する場合、設定されたアドレスに、当該Webページに関する情報をメール通知する。なお、クラスタ識別器16が保存するクラスタ集合はユーザの指示により適宜変更可能である。
以上説明した本実施形態に係るWeb検索システムによるWebページ収集以降の処理手順をまとめると次のようになる。
≪クラスタ分析フロー≫
N件の文書ベクトルを要素とする文書ベクトル集合D={d,d,…,d}についてクラスタ分析を行うことを考える。目標クラスタ数がkのとき、検索クライアント32はk個のクラスタC,C,…,Cを生成する。このとき、任意の文書ベクトルdが属するクラスタをCdiとする。クラスタ識別器16は、図5の例の「このカテゴリをメール配信する」がクリックされたカテゴリをユーザが興味を持つクラスタ集合Uとして保存する。
≪多クラス分類器作成フロー≫
クラスタ識別器16は、文書ベクトル集合Dから文書行列M=[d … d]を生成する。文書ベクトル集合Dの各要素dがn次元のベクトルとなるように次元削減を行ってもよい。ここで、nは、n≦rank(M)であるような自然数であり、識別関数の精度が最大となるような、なるべく小さい数とする。
クラスタ識別器16は、N件の文書ベクトル集合Dを訓練サンプル、Cdiを教師信号とし多クラス分類器を作成する。この際、ある文書ベクトルxがどのクラスタに属するかを推定するための識別関数f(x)を得る。クラスタ識別器16は、識別関数f(x)を保存する。
≪識別フロー≫
未知の文書から得られる文書ベクトルxが属するクラスタCは、識別関数f(x)の出力として得られる。識別関数から得られたクラスタがクラスタ集合Uに含まれる場合は、文書ベクトルxはユーザが興味を持つ文書であると推定できる。
以上のように本実施形態に係るWeb検索システムでは、サンプル文書から検索属性に対する情報の抽出作業が不要である。また、ユーザは発注機関のWebサイトを巡回することなく、単一のWebサイトで横断的に情報を検索することができる。また、欲しい情報に合致するキーワードが想起できなくても、自動的にカテゴリ分けされた検索結果を得て、さらに、そのカテゴリに属する新たな情報が公開された場合には通知を受けることができる。
なお、入札情報検索に特化して説明したが、本発明に係るWeb検索システムは入札情報検索に限定されない。入札情報フィルタ14を別の情報フィルタ、例えば、就職情報を抽出する情報フィルタに置き換えることで、就職情報検索システムとして利用することができる。
本発明に係るWeb検索システムおよびWeb検索方法は、インターネット上のWebページを容易かつ高精度に検索することができるため、入札情報検索システムとして有用である。
100 Web検索システム
12 Webクローラ(Webクロール手段)
14 入札情報フィルタ(情報フィルタ)
16 クラスタ識別器(クラスタ識別手段)
32 検索クライアント(クラスタリング手段)
140 ベクトル空間(第1のベクトル空間)
320 ベクトル空間(第2のベクトル空間)

Claims (4)

  1. Webページを検索するWeb検索システムであって、
    インターネット上のWebページを収集するWebクロール手段と、
    サンプル文書を基に作成した第1のベクトル空間上で、前記Webクロール手段が収集した各Webページを文書ベクトルで表して前記サンプル文書との類似度を算出して類似度の高いWebページを抽出する情報フィルタと、
    前記情報フィルタが抽出したWebページを基に作成した第2のベクトル空間上で、前記情報フィルタが抽出したWebページのクラスタリングを行うクラスタリング手段と、
    前記クラスタリングの結果を教師信号として多クラス分類器を作成し、当該多クラス分類器を用いて、前記Webクロール手段が新たに収集した未知のWebページが前記第2のベクトル空間におけるいずれのクラスタに属するかを識別するクラスタ識別手段とを備え
    前記クラスタ識別手段は、前記クラスタリングによって得られた複数のクラスタのうちユーザによって指定されたクラスタを前記第2のベクトル空間における要監視クラスタとして保存する機能、および前記未知のWebページが前記要監視クラスタに属する場合、前記未知のWebページをユーザに通知する機能を有する
    ことを特徴とするWeb検索システム。
  2. 請求項1に記載のWeb検索システムにおいて、
    前記サンプル文書が入札情報であり、
    前記情報フィルタは、発注機関ごとに異なるサンプル文書を用いて前記類似度を算出する
    ことを特徴とするWeb検索システム。
  3. Webページを検索するWeb検索方法であって、
    インターネット上のWebページを収集するステップと、
    サンプル文書を基に作成した第1のベクトル空間上で、前記収集した各Webページを文書ベクトルで表して前記サンプル文書との類似度を算出して類似度の高いWebページを抽出するステップと、
    前記抽出したWebページを基に作成した第2のベクトル空間上で、前記抽出したWebページのクラスタリングを行うステップと、
    前記クラスタリングの結果を教師信号として多クラス分類器を作成するステップと、
    前記多クラス分類器を用いて、新たに収集した未知のWebページが前記第2のベクトル空間におけるいずれのクラスタに属するかを識別するステップと
    前記クラスタリングによって得られた複数のクラスタのうちユーザによって指定されたクラスタを前記第2のベクトル空間における要監視クラスタとして保存するステップと、
    前記未知のWebページが前記要監視クラスタに属する場合、前記未知のWebページをユーザに通知するステップとを備えている
    ことを特徴とするWeb検索方法。
  4. 請求項に記載のWeb検索方法において、
    前記サンプル文書が入札情報であり、
    発注機関ごとに異なるサンプル文書を用いて前記類似度を算出する
    ことを特徴とするWeb検索方法。
JP2012046547A 2012-03-02 2012-03-02 Web検索システムおよびWeb検索方法 Active JP5764080B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012046547A JP5764080B2 (ja) 2012-03-02 2012-03-02 Web検索システムおよびWeb検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012046547A JP5764080B2 (ja) 2012-03-02 2012-03-02 Web検索システムおよびWeb検索方法

Publications (2)

Publication Number Publication Date
JP2013182466A JP2013182466A (ja) 2013-09-12
JP5764080B2 true JP5764080B2 (ja) 2015-08-12

Family

ID=49273062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012046547A Active JP5764080B2 (ja) 2012-03-02 2012-03-02 Web検索システムおよびWeb検索方法

Country Status (1)

Country Link
JP (1) JP5764080B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015203960A (ja) * 2014-04-14 2015-11-16 株式会社toor 部分情報抽出システム
US10489377B2 (en) * 2015-02-11 2019-11-26 Best Collect, S.A. De C.V. Automated intelligent data scraping and verification
JP2017174329A (ja) * 2016-03-25 2017-09-28 Kddi株式会社 情報管理装置、情報管理方法及びコンピュータプログラム
JP6976183B2 (ja) * 2018-01-29 2021-12-08 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム
CN108647993B (zh) * 2018-04-09 2022-03-25 西南民族大学 一种识别招投标过程中投标者之间关系的方法
CN111047268A (zh) * 2018-10-11 2020-04-21 上海汽车集团股份有限公司 一种投标方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223454A (ja) * 2002-01-29 2003-08-08 Mitsubishi Electric Corp テンプレート提供システム、テンプレート提供方法及びプログラム
JP5212007B2 (ja) * 2008-10-10 2013-06-19 株式会社リコー 画像分類学習装置、画像分類学習方法、および画像分類学習システム
JP2011034417A (ja) * 2009-08-04 2011-02-17 Kddi Corp 迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US20120041955A1 (en) * 2010-08-10 2012-02-16 Nogacom Ltd. Enhanced identification of document types

Also Published As

Publication number Publication date
JP2013182466A (ja) 2013-09-12

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
Mokhtari et al. A bibliometric analysis and visualization of the Journal of Documentation: 1945–2018
Purves et al. The design and implementation of SPIRIT: a spatially aware search engine for information retrieval on the Internet
JP5764080B2 (ja) Web検索システムおよびWeb検索方法
US20080147642A1 (en) System for discovering data artifacts in an on-line data object
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
CN110637316B (zh) 用于预期对象识别的系统和方法
JP2004062446A (ja) 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN102037464A (zh) 具有最多点击的下一个对象的搜索结果
CN102687138A (zh) 搜索建议聚类和呈现
US20080147588A1 (en) Method for discovering data artifacts in an on-line data object
US20080147641A1 (en) Method for prioritizing search results retrieved in response to a computerized search query
CN102521233A (zh) 自适应图像检索数据库
JP2008117010A (ja) 文書作成支援装置、文書作成支援システム
CA2956627A1 (en) System and engine for seeded clustering of news events
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
Soto et al. Exploratory visual analysis and interactive pattern extraction from semi-structured data
Jepsen et al. Characteristics of scientific Web publications: Preliminary data gathering and analysis
CN106934046A (zh) 一种出版物发行分析系统和方法
US8904272B2 (en) Method of multi-document aggregation and presentation
Casali et al. An assistant to populate repositories: gathering educational digital objects and metadata extraction
JP4667889B2 (ja) データマップ作成サーバ、およびデータマップ作成プログラム
JP2015194955A (ja) 入札情報検索システム
Arora et al. A synonym based approach of data mining in search engine optimization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150612

R150 Certificate of patent or registration of utility model

Ref document number: 5764080

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250