JP5764080B2 - Web検索システムおよびWeb検索方法 - Google Patents
Web検索システムおよびWeb検索方法 Download PDFInfo
- Publication number
- JP5764080B2 JP5764080B2 JP2012046547A JP2012046547A JP5764080B2 JP 5764080 B2 JP5764080 B2 JP 5764080B2 JP 2012046547 A JP2012046547 A JP 2012046547A JP 2012046547 A JP2012046547 A JP 2012046547A JP 5764080 B2 JP5764080 B2 JP 5764080B2
- Authority
- JP
- Japan
- Prior art keywords
- web
- cluster
- web page
- document
- vector space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 23
- 239000013598 vector Substances 0.000 claims description 87
- 230000008520 organization Effects 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000005054 agglomeration Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
N件の文書ベクトルを要素とする文書ベクトル集合D={d1,d2,…,dN}についてクラスタ分析を行うことを考える。目標クラスタ数がkのとき、検索クライアント32はk個のクラスタC1,C2,…,Ckを生成する。このとき、任意の文書ベクトルdiが属するクラスタをCdiとする。クラスタ識別器16は、図5の例の「このカテゴリをメール配信する」がクリックされたカテゴリをユーザが興味を持つクラスタ集合Uとして保存する。
クラスタ識別器16は、文書ベクトル集合Dから文書行列M=[d1 d2 … dN]を生成する。文書ベクトル集合Dの各要素diがn次元のベクトルとなるように次元削減を行ってもよい。ここで、nは、n≦rank(M)であるような自然数であり、識別関数の精度が最大となるような、なるべく小さい数とする。
未知の文書から得られる文書ベクトルxが属するクラスタCxは、識別関数f(x)の出力として得られる。識別関数から得られたクラスタがクラスタ集合Uに含まれる場合は、文書ベクトルxはユーザが興味を持つ文書であると推定できる。
12 Webクローラ(Webクロール手段)
14 入札情報フィルタ(情報フィルタ)
16 クラスタ識別器(クラスタ識別手段)
32 検索クライアント(クラスタリング手段)
140 ベクトル空間(第1のベクトル空間)
320 ベクトル空間(第2のベクトル空間)
Claims (4)
- Webページを検索するWeb検索システムであって、
インターネット上のWebページを収集するWebクロール手段と、
サンプル文書を基に作成した第1のベクトル空間上で、前記Webクロール手段が収集した各Webページを文書ベクトルで表して前記サンプル文書との類似度を算出して類似度の高いWebページを抽出する情報フィルタと、
前記情報フィルタが抽出したWebページを基に作成した第2のベクトル空間上で、前記情報フィルタが抽出したWebページのクラスタリングを行うクラスタリング手段と、
前記クラスタリングの結果を教師信号として多クラス分類器を作成し、当該多クラス分類器を用いて、前記Webクロール手段が新たに収集した未知のWebページが前記第2のベクトル空間におけるいずれのクラスタに属するかを識別するクラスタ識別手段とを備え、
前記クラスタ識別手段は、前記クラスタリングによって得られた複数のクラスタのうちユーザによって指定されたクラスタを前記第2のベクトル空間における要監視クラスタとして保存する機能、および前記未知のWebページが前記要監視クラスタに属する場合、前記未知のWebページをユーザに通知する機能を有する
ことを特徴とするWeb検索システム。 - 請求項1に記載のWeb検索システムにおいて、
前記サンプル文書が入札情報であり、
前記情報フィルタは、発注機関ごとに異なるサンプル文書を用いて前記類似度を算出する
ことを特徴とするWeb検索システム。 - Webページを検索するWeb検索方法であって、
インターネット上のWebページを収集するステップと、
サンプル文書を基に作成した第1のベクトル空間上で、前記収集した各Webページを文書ベクトルで表して前記サンプル文書との類似度を算出して類似度の高いWebページを抽出するステップと、
前記抽出したWebページを基に作成した第2のベクトル空間上で、前記抽出したWebページのクラスタリングを行うステップと、
前記クラスタリングの結果を教師信号として多クラス分類器を作成するステップと、
前記多クラス分類器を用いて、新たに収集した未知のWebページが前記第2のベクトル空間におけるいずれのクラスタに属するかを識別するステップと、
前記クラスタリングによって得られた複数のクラスタのうちユーザによって指定されたクラスタを前記第2のベクトル空間における要監視クラスタとして保存するステップと、
前記未知のWebページが前記要監視クラスタに属する場合、前記未知のWebページをユーザに通知するステップとを備えている
ことを特徴とするWeb検索方法。 - 請求項3に記載のWeb検索方法において、
前記サンプル文書が入札情報であり、
発注機関ごとに異なるサンプル文書を用いて前記類似度を算出する
ことを特徴とするWeb検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012046547A JP5764080B2 (ja) | 2012-03-02 | 2012-03-02 | Web検索システムおよびWeb検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012046547A JP5764080B2 (ja) | 2012-03-02 | 2012-03-02 | Web検索システムおよびWeb検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013182466A JP2013182466A (ja) | 2013-09-12 |
JP5764080B2 true JP5764080B2 (ja) | 2015-08-12 |
Family
ID=49273062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012046547A Active JP5764080B2 (ja) | 2012-03-02 | 2012-03-02 | Web検索システムおよびWeb検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5764080B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015203960A (ja) * | 2014-04-14 | 2015-11-16 | 株式会社toor | 部分情報抽出システム |
US10489377B2 (en) * | 2015-02-11 | 2019-11-26 | Best Collect, S.A. De C.V. | Automated intelligent data scraping and verification |
JP2017174329A (ja) * | 2016-03-25 | 2017-09-28 | Kddi株式会社 | 情報管理装置、情報管理方法及びコンピュータプログラム |
JP6976183B2 (ja) * | 2018-01-29 | 2021-12-08 | ヤフー株式会社 | 抽出装置、抽出方法、及び抽出プログラム |
CN108647993B (zh) * | 2018-04-09 | 2022-03-25 | 西南民族大学 | 一种识别招投标过程中投标者之间关系的方法 |
CN111047268A (zh) * | 2018-10-11 | 2020-04-21 | 上海汽车集团股份有限公司 | 一种投标方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003223454A (ja) * | 2002-01-29 | 2003-08-08 | Mitsubishi Electric Corp | テンプレート提供システム、テンプレート提供方法及びプログラム |
JP5212007B2 (ja) * | 2008-10-10 | 2013-06-19 | 株式会社リコー | 画像分類学習装置、画像分類学習方法、および画像分類学習システム |
JP2011034417A (ja) * | 2009-08-04 | 2011-02-17 | Kddi Corp | 迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム |
JP5284990B2 (ja) * | 2010-01-08 | 2013-09-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム |
US20120041955A1 (en) * | 2010-08-10 | 2012-02-16 | Nogacom Ltd. | Enhanced identification of document types |
-
2012
- 2012-03-02 JP JP2012046547A patent/JP5764080B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013182466A (ja) | 2013-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663254B2 (en) | System and engine for seeded clustering of news events | |
Mokhtari et al. | A bibliometric analysis and visualization of the Journal of Documentation: 1945–2018 | |
Purves et al. | The design and implementation of SPIRIT: a spatially aware search engine for information retrieval on the Internet | |
JP5764080B2 (ja) | Web検索システムおよびWeb検索方法 | |
US20080147642A1 (en) | System for discovering data artifacts in an on-line data object | |
US20080147631A1 (en) | Method and system for collecting and retrieving information from web sites | |
CN110637316B (zh) | 用于预期对象识别的系统和方法 | |
JP2004062446A (ja) | 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN102037464A (zh) | 具有最多点击的下一个对象的搜索结果 | |
CN102687138A (zh) | 搜索建议聚类和呈现 | |
US20080147588A1 (en) | Method for discovering data artifacts in an on-line data object | |
US20080147641A1 (en) | Method for prioritizing search results retrieved in response to a computerized search query | |
CN102521233A (zh) | 自适应图像检索数据库 | |
JP2008117010A (ja) | 文書作成支援装置、文書作成支援システム | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN116384889A (zh) | 基于自然语言处理技术的情报大数据智能分析方法 | |
Soto et al. | Exploratory visual analysis and interactive pattern extraction from semi-structured data | |
Jepsen et al. | Characteristics of scientific Web publications: Preliminary data gathering and analysis | |
CN106934046A (zh) | 一种出版物发行分析系统和方法 | |
US8904272B2 (en) | Method of multi-document aggregation and presentation | |
Casali et al. | An assistant to populate repositories: gathering educational digital objects and metadata extraction | |
JP4667889B2 (ja) | データマップ作成サーバ、およびデータマップ作成プログラム | |
JP2015194955A (ja) | 入札情報検索システム | |
Arora et al. | A synonym based approach of data mining in search engine optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150519 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5764080 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |