JP2013515977A - 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 - Google Patents
複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 Download PDFInfo
- Publication number
- JP2013515977A JP2013515977A JP2011542972A JP2011542972A JP2013515977A JP 2013515977 A JP2013515977 A JP 2013515977A JP 2011542972 A JP2011542972 A JP 2011542972A JP 2011542972 A JP2011542972 A JP 2011542972A JP 2013515977 A JP2013515977 A JP 2013515977A
- Authority
- JP
- Japan
- Prior art keywords
- records
- record
- geometric
- layout
- ranking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
【選択図】図1
Description
に変換される。ユーザの照会も同様に、所定の領域に対して規定される項目の一部を含むことができない。この場合は、欠損項目に対応する変数の値はφといった特定の零値(上述したような)で好適に割当てられる。例えば、価格又は特定の建物の面積に拘らずロンドンでの3寝室のマンションを探索でき、価格又は特定の建物の面積の欠損値は好適には零値に変換される。
を受信する場合、照会の類似の割合:
は好適には、データベースにおいて複数のレコード904の各々のレコードに対して計算される。類似の割合は、項目の変数の各々の照会及びレコードの対に対する類似の割合の積:
である。項目の類似の割合は異なる項目の型について別々に算出される。
を用いて算出できる。非数値的項目については、類似の割合は余弦類似度又は逆ドキュメント頻度(IDF)のようなテキスト類似度のアルゴリズムによって算出してもよい。
を受け取る。値0又は1が得られないことは明らかである(この項目に対する照会において同一の値を有するレコードは高くランク付けされるべきであるので、関連性がないとは見なされないが、最大のランク付けは受けられない)。
を介して算出される。ここで属性変数をランク付けるベクトルA =<a1,a2,...,am>は、相対重み付けベクトルW=<w1,w2,...,wm>で乗算される。属性変数aiは、特定の特性(属性)に従ったレコードのランク付けを表した実数:
である。重み付け因子Wiはランク付けの計算における属性の相対的な重み付けを表わす。重み付け因子は、
といった実数:
である。特定の属性は任意には、類似性比較モジュール1002によって決定されるような、レコードの幾何学的特性、「新しさ」、信頼度及び/又は人気による情報源のウェブサイトのランク付け、レコードの完全性、ならびにウェブサイト内のレコードの顕著性等のうちの1以上での任意の重み付けを特徴としてもよい。
Claims (15)
- 複数のウェブサイトからデータを自動集約するための方法であって:
i.複数の関連サイトからの前記データについて自動的かつ定期的に照会するステップと;
ii.該照会ステップによる結果を分析するステップであって、前記結果が少なくとも1のドキュメントを含み、該分析ステップが前記ドキュメントのページレイアウトを幾何学的に分析するステップを具え、該幾何学的な分析ステップが:
前記ドキュメントの1以上の幾何学的特性を特定するステップと;
前記ドキュメントのレイアウトを特定するために前記1以上の幾何学的特性を分析するステップと;
前記レイアウト内にある複数のレコード格納部を探索するステップと;
意味解析によって、及び前記1以上の幾何学的特性によって、少なくとも1のレコード格納部からレコードの関連性を特定するステップと;
を具えるステップと;
iii.データベースに該関連レコードのデータを記憶するステップと;
iv.ユーザからの要望に応じて、前記データを前記データベースから検索するステップと;
を具えることを特徴とする方法。 - 請求項1に記載の方法において、前記レイアウト内にある複数のレコード格納部を探索する前記ステップが:
各々のレコード格納部から複数のレコードを同定するステップと;
前記レコードをグループに分けるステップであって、各々のグループが同一の幾何学的パターンであるステップと;
を更に具え、前記方法が:
前記各々のグループの代表部の意味解析を行うステップと;
前記意味解析の結果によって関連データが同定される場合にデータベースに前記データと該パターンとを保存するステップと;
を更に具えることを特徴とする方法。 - 請求項2に記載の方法において、他のページで前記パターンが同一のグループは、当該グループからのデータが更なる意味解析を行わずに取得されるため、意味的特徴が同一であると推測されることを特徴とする方法。
- 請求項1に記載の方法において、前記レイアウト内にある複数のレコード格納部を探索する前記ステップが:
該格納部領域の大きさ;及び前記ドキュメントのレイアウトの幾何学的中心に対する格納部の幾何学的中心の近接性;のランク付けを行うステップと;
選択したレコード格納部を形成するために、前記関連性を特定する前記ステップが前記選択したレコード格納部で実行されるように、前記ランク付けに応じてレコード格納部を選択するステップと;
を更に具えることを特徴とする方法。 - 請求項4に記載の方法において、前記レコードの前記関連性を特定する前記ステップが:
前記選択したレコード格納部内で複数のレコードを同定するステップと;
幾何学的パターンの同一なレコードが同一のグループに属することを同定するために、前記複数のレコードをグループに前記幾何学的パターンに応じてグループ化するステップと;
各々のグループの代表レコードで意味解析を行うステップと;
前記代表レコードに関連性がある場合に、該レコードのグループからのデータを保存するステップと;
を具えることを特徴とする方法。 - 請求項5に記載の方法において、前記幾何学的パターンに応じてグループ化するステップが:前記レコード格納部内で幾何学的な矩形又は他の幾何学的な形状を同定することによって;かつ前記矩形又は他の幾何学的に規定された形状を順序づけすることによって;行われることを特徴とする方法。
- 請求項6に記載の方法が:
ユーザからの照会を受信し、当該照会を複数のレコードと比較するステップと;
前記照会を比較する前記ステップのために、前記幾何学的パターンに応じて複数のレコードのランク付けを行うステップと;
を更に具えることを特徴とする方法。 - 請求項7に記載の方法が:「新しさ」、信頼度及び/又は人気による情報源のウェブサイトのランク付け、レコードの完全性、あるいは前記ウェブサイトでの前記レコードの顕著性のうちの1以上に応じて複数のレコードのランク付けを行うステップを更に具えることを特徴とする方法。
- 請求項7に記載の方法が、複数の加重属性に応じて前記複数のレコードのランク付けを行うステップを更に具えることを特徴とする方法。
- 請求項7に記載の方法が:
前記複数のレコードのランク付けを行う前記ステップが1以上の関連レコードのグループに対してのみに行われるように、前記複数のレコードのランク付けを行う前記ステップの前に前記複数のレコードを前記1以上の関連レコードのグループと1以上の非関連レコードのグループとに分けるステップであって、前記複数のレコードを分ける前記ステップが前記照会を複数の項目に分解するために前記ユーザの照会を分析するステップを具えるステップと;
前記レコードを複数の項目に分解するために各々のレコードを分析するステップと;
前記項目の数値を、前記ユーザの照会及び前記レコードと比較するステップと;
を更に具えることを特徴とする方法。 - 請求項10に記載の方法において、前記照会を複数のレコードと比較する前記ステップが:
各々のレコード及び前記照会を変数のベクトルとして表わすステップであって、前記変数の加重に差異があるステップと;
その類似性を特定するように前記変数のベクトルを比較するステップと;
を更に具えることを特徴とする方法。 - データベースの照会の結果を含むページレイアウトを幾何学的に分析するための方法であって、当該方法が:
a.前記レイアウト内にある少なくとも1のレコード格納部を、前記レイアウトに応じて前記レコード格納部を同定することによって特定するステップと;
b.複数のレコード格納部が特定された場合に、前記レイアウトのレコードの大きさを比較するか、あるいはページの最も規則的な領域を推定するかのいずれかによって、レコード格納部を選択するステップと;
c.前記レコード格納部内のレコードをグループに分けるステップであって、各々のグループの幾何学的パターンが同一であるステップと;
d.意味解析によって前記レコードを分析するステップと;
を具え、前記意味解析が複数のキーワードに応じて分析するステップを具えることを特徴とする方法。 - 請求項12に記載の方法において、前記選択したレコード格納部内の矩形部が同定されることを特徴とする方法。
- 請求項13に記載の方法において、該同定が前記レコード格納部の内部の前記レコードを順序づけすることによって、かつ、境界線を用いて前記レコードを分離することによってなされることを特徴とする方法。
- 複数のウェブサイトからデータを自動集約するためのシステムであって:
a.関連ウェブサイトの提供されたリストからデータを取得するためのクローラの処理部と;
b.前記データを分析するための幾何学的分析器の処理部であって、前記データが少なくとも1のドキュメントを含み、該分析が前記ドキュメントのページレイアウトの幾何学的な分析を含み、該幾何学的な分析が:
前記ドキュメントの1以上の幾何学的特性の特定と;
幾何学的パターンを検出するための前記1以上の幾何学的特性の分析と;
前記レイアウト内の複数のレコード格納部の探索と;
前記幾何学的パターンによる、少なくとも1のレコード格納部からのレコードの関連性の特定と;
を含む、幾何学的分析器の処理部と;
c.前記関連レコードをテキスト通りに分析するための意味層と;
d.前記意味層によって検索される情報を記憶するためのデータベースと;
を具えることを特徴とするシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US19386208P | 2008-12-31 | 2008-12-31 | |
PCT/IL2009/001218 WO2010076785A1 (en) | 2008-12-31 | 2009-12-27 | System and method for aggregating data from a plurality of web sites |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013515977A true JP2013515977A (ja) | 2013-05-09 |
JP5501373B2 JP5501373B2 (ja) | 2014-05-21 |
Family
ID=42286118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011542972A Expired - Fee Related JP5501373B2 (ja) | 2008-12-31 | 2009-12-27 | 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8880498B2 (ja) |
EP (1) | EP2380099A1 (ja) |
JP (1) | JP5501373B2 (ja) |
CN (1) | CN102317937A (ja) |
RU (1) | RU2011130218A (ja) |
WO (1) | WO2010076785A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021096802A (ja) * | 2019-12-13 | 2021-06-24 | 翼 加藤 | 検索装置、検索アプリケーション及び検索方法 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006108069A2 (en) | 2005-04-06 | 2006-10-12 | Google, Inc. | Searching through content which is accessible through web-based forms |
US10380652B1 (en) | 2008-10-18 | 2019-08-13 | Clearcapital.Com, Inc. | Method and system for providing a home data index model |
US8484286B1 (en) * | 2009-11-16 | 2013-07-09 | Hydrabyte, Inc | Method and system for distributed collecting of information from a network |
WO2012006509A1 (en) * | 2010-07-09 | 2012-01-12 | Google Inc. | Table search using recovered semantic information |
US9183573B2 (en) * | 2011-06-03 | 2015-11-10 | Facebook, Inc. | Überfeed |
US20130019195A1 (en) * | 2011-07-12 | 2013-01-17 | Oracle International Corporation | Aggregating multiple information sources (dashboard4life) |
US10083247B2 (en) | 2011-10-01 | 2018-09-25 | Oracle International Corporation | Generating state-driven role-based landing pages |
US10210465B2 (en) * | 2011-11-11 | 2019-02-19 | Facebook, Inc. | Enabling preference portability for users of a social networking system |
DE112012005598T5 (de) * | 2012-03-08 | 2014-10-16 | Hewlett-Packard Development Company, L.P. | Identifizieren und Einstufen von Lösungen aus mehreren Datenquellen |
US20130238972A1 (en) * | 2012-03-09 | 2013-09-12 | Nathan Woodman | Look-alike website scoring |
US8688713B1 (en) | 2012-03-22 | 2014-04-01 | Google Inc. | Resource identification from organic and structured content |
US20130311440A1 (en) * | 2012-05-15 | 2013-11-21 | International Business Machines Corporation | Comparison search queries |
CN102750372A (zh) * | 2012-06-15 | 2012-10-24 | 翁时锋 | 自动获取网页结构化信息的分析方法 |
US9582494B2 (en) | 2013-02-22 | 2017-02-28 | Altilia S.R.L. | Object extraction from presentation-oriented documents using a semantic and spatial approach |
US9733638B2 (en) * | 2013-04-05 | 2017-08-15 | Symbotic, LLC | Automated storage and retrieval system and control system thereof |
US9317873B2 (en) | 2014-03-28 | 2016-04-19 | Google Inc. | Automatic verification of advertiser identifier in advertisements |
US11080777B2 (en) * | 2014-03-31 | 2021-08-03 | Monticello Enterprises LLC | System and method for providing a social media shopping experience |
US11115529B2 (en) | 2014-04-07 | 2021-09-07 | Google Llc | System and method for providing and managing third party content with call functionality |
US20150287099A1 (en) | 2014-04-07 | 2015-10-08 | Google Inc. | Method to compute the prominence score to phone numbers on web pages and automatically annotate/attach it to ads |
US10817884B2 (en) * | 2014-05-08 | 2020-10-27 | Google Llc | Building topic-oriented audiences |
JP6386089B2 (ja) | 2014-06-26 | 2018-09-05 | グーグル エルエルシー | 最適化されたブラウザレンダリングプロセス |
CN106662986B (zh) | 2014-06-26 | 2019-06-21 | 谷歌有限责任公司 | 优化的浏览器渲染过程 |
EP3161668B1 (en) | 2014-06-26 | 2020-08-05 | Google LLC | Batch-optimized render and fetch architecture |
US20160048548A1 (en) * | 2014-08-13 | 2016-02-18 | Microsoft Corporation | Population of graph nodes |
US10529031B2 (en) * | 2014-09-25 | 2020-01-07 | Sai Suresh Ganesamoorthi | Method and systems of implementing a ranked health-content article feed |
US20160125081A1 (en) * | 2014-10-31 | 2016-05-05 | Yahoo! Inc. | Web crawling |
US10083295B2 (en) * | 2014-12-23 | 2018-09-25 | Mcafee, Llc | System and method to combine multiple reputations |
US10643258B2 (en) * | 2014-12-24 | 2020-05-05 | Keep Holdings, Inc. | Determining commerce entity pricing and availability based on stylistic heuristics |
US11570188B2 (en) * | 2015-12-28 | 2023-01-31 | Sixgill Ltd. | Dark web monitoring, analysis and alert system and method |
US10469424B2 (en) | 2016-10-07 | 2019-11-05 | Google Llc | Network based data traffic latency reduction |
US11023526B2 (en) * | 2017-06-02 | 2021-06-01 | International Business Machines Corporation | System and method for graph search enhancement |
US11461829B1 (en) | 2019-06-27 | 2022-10-04 | Amazon Technologies, Inc. | Machine learned system for predicting item package quantity relationship between item descriptions |
CN111291155A (zh) * | 2020-01-17 | 2020-06-16 | 青梧桐有限责任公司 | 基于文本相似度的同名小区辨别方法及系统 |
CN112734165A (zh) * | 2020-12-18 | 2021-04-30 | 中国平安财产保险股份有限公司 | 智能化的功能展示方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108846A (ja) * | 2000-09-27 | 2002-04-12 | Fuji Xerox Co Ltd | 文書画像処理装置、文書画像処理方法、および記録媒体 |
JP2003216647A (ja) * | 2002-01-18 | 2003-07-31 | Matsushita Electric Ind Co Ltd | 電子店舗における商品検索装置及び電子店舗サービス提供装置、媒体、情報集合体 |
JP2004086849A (ja) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | 情報処理装置および方法 |
JP2006179003A (ja) * | 2004-12-22 | 2006-07-06 | Ricoh Co Ltd | 意味論的文書スマートネール |
US20080033996A1 (en) * | 2006-08-03 | 2008-02-07 | Anandsudhakar Kesari | Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content |
US20080098300A1 (en) * | 2006-10-24 | 2008-04-24 | Brilliant Shopper, Inc. | Method and system for extracting information from web pages |
JP2008262506A (ja) * | 2007-04-13 | 2008-10-30 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5659732A (en) * | 1995-05-17 | 1997-08-19 | Infoseek Corporation | Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents |
US6067552A (en) * | 1995-08-21 | 2000-05-23 | Cnet, Inc. | User interface system and method for browsing a hypertext database |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
US6275820B1 (en) * | 1998-07-16 | 2001-08-14 | Perot Systems Corporation | System and method for integrating search results from heterogeneous information resources |
WO2001046870A1 (en) * | 1999-12-08 | 2001-06-28 | Amazon.Com, Inc. | System and method for locating and displaying web-based product offerings |
US7240067B2 (en) * | 2000-02-08 | 2007-07-03 | Sybase, Inc. | System and methodology for extraction and aggregation of data from dynamic content |
EP1269347A1 (en) * | 2000-03-31 | 2003-01-02 | Kapow APS | Method of retrieving attributes from at least two data sources |
US7346858B1 (en) * | 2000-07-24 | 2008-03-18 | The Hive Group | Computer hierarchical display of multiple data characteristics |
US7231381B2 (en) * | 2001-03-13 | 2007-06-12 | Microsoft Corporation | Media content search engine incorporating text content and user log mining |
US7246306B2 (en) * | 2002-06-21 | 2007-07-17 | Microsoft Corporation | Web information presentation structure for web page authoring |
US7251648B2 (en) * | 2002-06-28 | 2007-07-31 | Microsoft Corporation | Automatically ranking answers to database queries |
US20060047649A1 (en) * | 2003-12-29 | 2006-03-02 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US7672958B2 (en) * | 2005-01-14 | 2010-03-02 | Im2, Inc. | Method and system to identify records that relate to a pre-defined context in a data set |
US8583632B2 (en) * | 2005-03-09 | 2013-11-12 | Medio Systems, Inc. | Method and system for active ranking of browser search engine results |
WO2006108069A2 (en) * | 2005-04-06 | 2006-10-12 | Google, Inc. | Searching through content which is accessible through web-based forms |
US20060282455A1 (en) * | 2005-06-13 | 2006-12-14 | It Interactive Services Inc. | System and method for ranking web content |
US20070078814A1 (en) * | 2005-10-04 | 2007-04-05 | Kozoru, Inc. | Novel information retrieval systems and methods |
US8065286B2 (en) * | 2006-01-23 | 2011-11-22 | Chacha Search, Inc. | Scalable search system using human searchers |
US20070208732A1 (en) * | 2006-02-07 | 2007-09-06 | Future Vistas, Inc. | Telephonic information retrieval systems and methods |
US20070294240A1 (en) * | 2006-06-07 | 2007-12-20 | Microsoft Corporation | Intent based search |
US8510298B2 (en) * | 2006-08-04 | 2013-08-13 | Thefind, Inc. | Method for relevancy ranking of products in online shopping |
US7917492B2 (en) * | 2007-09-21 | 2011-03-29 | Limelight Networks, Inc. | Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system |
US8707167B2 (en) * | 2006-11-15 | 2014-04-22 | Ebay Inc. | High precision data extraction |
US7930302B2 (en) * | 2006-11-22 | 2011-04-19 | Intuit Inc. | Method and system for analyzing user-generated content |
US8392446B2 (en) | 2007-05-31 | 2013-03-05 | Yahoo! Inc. | System and method for providing vector terms related to a search query |
US20090077180A1 (en) * | 2007-09-14 | 2009-03-19 | Flowers John S | Novel systems and methods for transmitting syntactically accurate messages over a network |
US8117208B2 (en) | 2007-09-21 | 2012-02-14 | The Board Of Trustees Of The University Of Illinois | System for entity search and a method for entity scoring in a linked document database |
KR100938830B1 (ko) | 2007-12-18 | 2010-01-26 | 한국과학기술정보연구원 | 지식베이스 구축 방법 및 그 서버 |
US20090265611A1 (en) * | 2008-04-18 | 2009-10-22 | Yahoo ! Inc. | Web page layout optimization using section importance |
US20100169352A1 (en) * | 2008-12-31 | 2010-07-01 | Flowers John S | Novel systems and methods for transmitting syntactically accurate messages over a network |
US8874552B2 (en) | 2009-11-29 | 2014-10-28 | Rinor Technologies Inc. | Automated generation of ontologies |
-
2009
- 2009-09-27 US US12/567,773 patent/US8880498B2/en not_active Expired - Fee Related
- 2009-12-27 JP JP2011542972A patent/JP5501373B2/ja not_active Expired - Fee Related
- 2009-12-27 RU RU2011130218/08A patent/RU2011130218A/ru unknown
- 2009-12-27 WO PCT/IL2009/001218 patent/WO2010076785A1/en active Application Filing
- 2009-12-27 EP EP09807502A patent/EP2380099A1/en not_active Ceased
- 2009-12-27 CN CN2009801568512A patent/CN102317937A/zh active Pending
-
2014
- 2014-09-28 US US14/499,188 patent/US9430569B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108846A (ja) * | 2000-09-27 | 2002-04-12 | Fuji Xerox Co Ltd | 文書画像処理装置、文書画像処理方法、および記録媒体 |
JP2003216647A (ja) * | 2002-01-18 | 2003-07-31 | Matsushita Electric Ind Co Ltd | 電子店舗における商品検索装置及び電子店舗サービス提供装置、媒体、情報集合体 |
JP2004086849A (ja) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | 情報処理装置および方法 |
JP2006179003A (ja) * | 2004-12-22 | 2006-07-06 | Ricoh Co Ltd | 意味論的文書スマートネール |
US20080033996A1 (en) * | 2006-08-03 | 2008-02-07 | Anandsudhakar Kesari | Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content |
US20080098300A1 (en) * | 2006-10-24 | 2008-04-24 | Brilliant Shopper, Inc. | Method and system for extracting information from web pages |
JP2008262506A (ja) * | 2007-04-13 | 2008-10-30 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200600049009; 張建偉、外3名: '例示データに基づく選択的ウェブクローリング手法について' 情報処理学会研究報告(2005-DBS-137(II)) 第2005巻,第68号, 20050715, p.337-344, 社団法人情報処理学会 * |
CSNG200900266001; 中根史敬、外3名: 'Webからのスキーマ抽出に関する基礎検討' 電子情報通信学会 第19回データ工学ワークショップ論文集 [online] , 20080407, p.1-7, 電子情報通信学会データ工学研究専門委員会 * |
JPN6013050725; 張建偉、外3名: '例示データに基づく選択的ウェブクローリング手法について' 情報処理学会研究報告(2005-DBS-137(II)) 第2005巻,第68号, 20050715, p.337-344, 社団法人情報処理学会 * |
JPN6013050726; 中根史敬、外3名: 'Webからのスキーマ抽出に関する基礎検討' 電子情報通信学会 第19回データ工学ワークショップ論文集 [online] , 20080407, p.1-7, 電子情報通信学会データ工学研究専門委員会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021096802A (ja) * | 2019-12-13 | 2021-06-24 | 翼 加藤 | 検索装置、検索アプリケーション及び検索方法 |
JP7002804B2 (ja) | 2019-12-13 | 2022-01-20 | 翼 加藤 | 検索装置、検索アプリケーション及び検索方法 |
US11556602B2 (en) | 2019-12-13 | 2023-01-17 | Tsubasa KATO | Search device, search application, and search method |
Also Published As
Publication number | Publication date |
---|---|
JP5501373B2 (ja) | 2014-05-21 |
US9430569B2 (en) | 2016-08-30 |
US8880498B2 (en) | 2014-11-04 |
CN102317937A (zh) | 2012-01-11 |
US20100169301A1 (en) | 2010-07-01 |
EP2380099A1 (en) | 2011-10-26 |
US20150134636A1 (en) | 2015-05-14 |
RU2011130218A (ru) | 2013-02-10 |
WO2010076785A4 (en) | 2010-10-07 |
WO2010076785A1 (en) | 2010-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5501373B2 (ja) | 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 | |
US8473473B2 (en) | Object oriented data and metadata based search | |
JP5572596B2 (ja) | 検索結果内におけるプレーストコンテンツの順序付けのパーソナライズ | |
US8190601B2 (en) | Identifying task groups for organizing search results | |
US8832102B2 (en) | Methods and apparatuses for clustering electronic documents based on structural features and static content features | |
JP5721818B2 (ja) | 検索におけるモデル情報群の使用 | |
US20120047123A1 (en) | System and method for document analysis, processing and information extraction | |
US20070294240A1 (en) | Intent based search | |
US8732165B1 (en) | Automatic determination of whether a document includes an image gallery | |
KR100797232B1 (ko) | 계층적 데이터 지향 네비게이션 시스템 및 정보 인출 방법 | |
KR100859918B1 (ko) | 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치 | |
US9977816B1 (en) | Link-based ranking of objects that do not include explicitly defined links | |
US9223897B1 (en) | Adjusting ranking of search results based on utility | |
US20080147631A1 (en) | Method and system for collecting and retrieving information from web sites | |
US8121970B1 (en) | Method for identifying primary product objects | |
US20150302090A1 (en) | Method and System for the Structural Analysis of Websites | |
US10585931B1 (en) | Dynamic determination of data facets | |
KR100987330B1 (ko) | 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법 | |
Li | Internet tourism resource retrieval using PageRank search ranking algorithm | |
JP5368900B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
US8190602B1 (en) | Searching a database of selected and associated resources | |
Rana et al. | Analysis of web mining technology and their impact on semantic web | |
Bo et al. | Spatio-temporal visualization system of news events based on GIS | |
Tripathy et al. | Notice of Violation of IEEE Publication Principles: An efficient method of eliminating noisy information in web pages for data mining | |
Zhuang et al. | Web-based image retrieval: A hybrid approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131015 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5501373 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |