JP2017138958A - テーマ型Webコーパス - Google Patents
テーマ型Webコーパス Download PDFInfo
- Publication number
- JP2017138958A JP2017138958A JP2016223173A JP2016223173A JP2017138958A JP 2017138958 A JP2017138958 A JP 2017138958A JP 2016223173 A JP2016223173 A JP 2016223173A JP 2016223173 A JP2016223173 A JP 2016223173A JP 2017138958 A JP2017138958 A JP 2017138958A
- Authority
- JP
- Japan
- Prior art keywords
- server
- client
- url
- web
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】サーチエンジンのインデックスを記憶するサーバが、テーマに対応しかつ少なくとも1つのキーワードの論理和からなる構造化クエリを、クライアントから受信し、インデックス中においてクエリに合致するすべてのページのURLからなるグループを決定する。サーバが、クライアントに、グループにおけるURLをストリームとして送信することによりテーマ型Webコーパスの構築を改善する。
【選択図】図3
Description
スにサポートされているすべてのクエリの論理和。テーマ型コーパスは、Qのクエリの結果(すなわち、そのようなすべてのドキュメントであり、それ以上ではない)に現れ得るすべてのドキュメントからなる。以下のアルゴリズムは、図3の方法を用いてどのようにCを構築するかを説明したものである。
0. 空のリストLを作成する
1. インデックスにサポートされるべきクエリq’を収集する。これは、想定されるユ
ーザへのインタビューや、サーチエンジンやSBAの仕様に基づいて行うことができる。
2. 1で見つかったクエリを選言標準形dで記載する。q’は、ブール式であるため、
dが存在し、一意である。
3. dにおける各連言節cについて、仮にcがLの要素を含んでいなければ(c中のその式を、その項の連言節で置換する。例えば、[a]がLに含まれる場合、[’a b
c’ AND d]は取り除かれる):
3.1 置換後のcもサポートされるようにcの項の代理を探す。(例えば、株式市場における会社コードを、その他のすべての会社コードで置き換える。代理の数が多い場合、典型的には、このステップはスクリプト化する必要がある。)
3.2 可能な代理のすべての組み合わせを用いて、連言節c1・・・cnを生成する。
3.3 本発明によるシステムでクエリc1・・・cnのそれぞれを実行し、その結果をコーパスに加える。
3.4 L中のc1・・・cnを記憶する。
4. (a)サポートされるクエリがそれ以上みつからなくなるまで、あるいは(b)サポートされ3.0を満たすようなクエリがそれ以上みつからなくなるまで1から繰り返す。
理論的には、項の数が有限であることを理由にこの方法は終了する。実際には、ANDがない、またはANDの数が少ないクエリを使用して開始すると、4.bですぐに停止する。本方法では有用なページのみが収集される。クローリングに基づく方法では、ページを収集する前に有用かどうかを知ることができないため、有用ではないページも収集される。先行技術のクローリング(集中クローリングを含む)は、本方法に比べて適合率が低い。例では、本方法の適合率は100%である。本方法の再現率は、参照Webインデックスのサイズによってのみ制限される。仮に参照WebインデックスがすべてのWebページを含むなら、本方法の再現率は、100%となり得る。実際には、参照Webインデックスは網羅的ではない。実装時には、本方法は、320億ページのWebインデックスを使用できる。参照インデックスに欠けたページがあると、方法における再現率が低下する。参照Webインデックスを構築するのにコストがかかるため、本方法は、参照Webインデックスがすでに利用可能な場合、または複数のテーマ型インデックスが参照Webインデックスに基づいて構築される場合、特に費用対効果が高くなる。クローリングは、Webサイトサーバの遅延を招く。各ステップにおいて、クローラは、クロールする新しいページのURLを収集するためにWebページをロードする必要がある。本方法では、典型的には、各クエリに応答して一度に大量のWebページを収集する。
Claims (12)
- サーチエンジンのインデックスを記憶するサーバによって実行される、テーマに関連するWebコーパスのページのURLをクライアントに送信するための、コンピュータに実装された方法であって、
前記テーマに対応し、かつ少なくとも1つのキーワードの論理和からなる構造化クエリを、前記クライアントから受信するステップと、
前記インデックス中において、前記クエリに合致するすべてのページのURLからなるグループを決定するステップであって、
前記インデックスから前記クエリの論理和における前記キーワードを読み出し、それによって前記インデックスから少なくとも一組のURLを取得するステップと、次いで、
前記取得した少なくとも一組のURLに対して、前記クエリの論理和に対応する集合演算のスキームを実行し、それによってURLのグループを導き出す本質ステップと、
前記クライアントに、前記グループにおける前記URLをストリームとして送信するステップと
を含むコンピュータに実装された方法。 - 前記クライアントに前記グループにおける前記URLをストリームとして送信するステップが、
前記クライアントとのネットワーク接続を確立するステップと、
前記ネットワーク接続上で前記グループにおける前記URLをストリーミングするステップと、次いで、
前記ネットワーク接続を終了するステップと
を含む、請求項1に記載のコンピュータに実装された方法。 - 前記ネットワーク接続がHTTP接続である
請求項2に記載のコンピュータに実装された方法。 - テーマに関連するWebコーパスを構築するための、コンピュータに実装された方法であって、
クライアントが、前記テーマに対応し、かつ少なくとも1つのキーワードの論理和からなる構造化クエリをサーチエンジンのインデックスを記憶するサーバに送信するステップと、次いで、
前記サーバが、前記構造化クエリに基づき、請求項1、2、または3の方法に従って、前記WebコーパスのページのURLをストリームとして前記クライアントに送信するステップと
を含むコンピュータに実装された方法。 - 前記クライアントが、前記サーバからストリームとして受信したURLを、ローカルに保存するステップをさらに含む
請求項4に記載のコンピュータに実装された方法。 - 前記クライアントが、前記サーバから受信したURLのページをクロールすること、または、前記サーバから受信したURLをWebクローラに送信するステップをさらに含む
請求項4または5に記載のコンピュータに実装された方法。 - クライアントによって実行される、テーマに関連するWebコーパスを構築するための、コンピュータに実装された方法であって、
前記テーマに対応し、かつ少なくとも1つのキーワードの論理和からなる構造化クエリをサーバに送信するステップと、次いで、
前記サーバから前記WebコーパスのページのURLをストリームとして受信するステップと
を含むコンピュータに実装された方法。 - 前記サーバからストリームとして受信したURLを、ローカルに保存するステップをさらに含む
請求項7に記載のコンピュータに実装された方法。 - 前記サーバから受信したURLのページをクロールすること、または、前記サーバから受信したURLをWebクローラに送信するステップをさらに含む
請求項7または8に記載のコンピュータに実装された方法。 - 請求項1〜9のいずれかに記載の方法を実行するための命令を含むコンピュータプログラム。
- 請求項10に記載のコンピュータプログラムを記録したコンピュータ読み取り可能な媒体。
- 請求項10に記載のコンピュータプログラムを記録したメモリに接続されたプロセッサを備えるシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15306826.7A EP3171281A1 (en) | 2015-11-17 | 2015-11-17 | Thematic web corpus |
EP15306826.7 | 2015-11-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017138958A true JP2017138958A (ja) | 2017-08-10 |
JP6917138B2 JP6917138B2 (ja) | 2021-08-11 |
Family
ID=55068923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016223173A Active JP6917138B2 (ja) | 2015-11-17 | 2016-11-16 | テーマ型Webコーパス |
Country Status (4)
Country | Link |
---|---|
US (1) | US10783196B2 (ja) |
EP (1) | EP3171281A1 (ja) |
JP (1) | JP6917138B2 (ja) |
CN (1) | CN107025261B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271477B (zh) * | 2018-09-05 | 2020-07-24 | 杭州数湾信息科技有限公司 | 一种借助互联网构建分类语料库的方法及系统 |
US11269879B2 (en) * | 2020-01-13 | 2022-03-08 | Google Llc | Optimal query scheduling according to data freshness requirements |
US11687710B2 (en) * | 2020-04-03 | 2023-06-27 | Braincat, Inc. | Systems and methods for cloud-based productivity tools |
US11394799B2 (en) | 2020-05-07 | 2022-07-19 | Freeman Augustus Jackson | Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007129500A (ja) * | 2005-11-03 | 2007-05-24 | Usen Corp | Cm付コンテンツ視聴システム |
US20110178868A1 (en) * | 2010-01-21 | 2011-07-21 | Priyank Shanker Garg | Enhancing search result pages using content licensed from content providers |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7958457B1 (en) * | 1999-12-20 | 2011-06-07 | Wireless Agents, Llc | Method and apparatus for scheduling presentation of digital content on a personal communication device |
US20060064411A1 (en) * | 2004-09-22 | 2006-03-23 | William Gross | Search engine using user intent |
US8099405B2 (en) * | 2004-12-28 | 2012-01-17 | Sap Ag | Search engine social proxy |
US8281037B2 (en) * | 2005-01-03 | 2012-10-02 | Orb Networks, Inc. | System and method for delivering content to users on a network |
CA2750026C (en) * | 2005-10-14 | 2014-07-22 | Research In Motion Limited | Url document viewing through a plug-in application for a mobile browser on a wireless device |
JP2007304895A (ja) * | 2006-05-12 | 2007-11-22 | Nobuhiko Ido | 検索エンジンを利用した例文作成システムと言語に関する練習問題をコンテンツとするwebサイト構築方法 |
CN101114284B (zh) * | 2006-07-27 | 2010-11-24 | 阿里巴巴集团控股有限公司 | 一种显示网页内容相关信息的方法及系统 |
CN101145153B (zh) * | 2006-09-13 | 2011-03-30 | 阿里巴巴集团控股有限公司 | 一种搜索信息的方法及系统 |
US20080098300A1 (en) * | 2006-10-24 | 2008-04-24 | Brilliant Shopper, Inc. | Method and system for extracting information from web pages |
US20090164418A1 (en) * | 2007-12-19 | 2009-06-25 | Valentina Pulnikova | Retrieval system and method of searching information in the Internet |
US8364664B2 (en) * | 2008-05-12 | 2013-01-29 | Enpulz, L.L.C. | Web browser accessible search engine that identifies search result maxima through user search flow and result content comparison |
US20090287684A1 (en) | 2008-05-14 | 2009-11-19 | Bennett James D | Historical internet |
US8306969B2 (en) * | 2008-09-23 | 2012-11-06 | Microsoft Corporation | Linking search queries to rich media themes |
IL195323A0 (en) * | 2008-11-16 | 2011-08-01 | Clip In Touch Internat Ltd | A device, system and method for creating and transmitting multimedia messages |
JP5349032B2 (ja) * | 2008-12-19 | 2013-11-20 | Kddi株式会社 | 情報選別装置 |
US8214380B1 (en) * | 2009-02-09 | 2012-07-03 | Repio, Inc. | System and method for managing search results |
US7831609B1 (en) * | 2009-08-25 | 2010-11-09 | Vizibility Inc. | System and method for searching, formulating, distributing and monitoring usage of predefined internet search queries |
US8386455B2 (en) * | 2009-09-20 | 2013-02-26 | Yahoo! Inc. | Systems and methods for providing advanced search result page content |
JP5585047B2 (ja) * | 2009-10-28 | 2014-09-10 | ソニー株式会社 | ストリーム受信装置、ストリーム受信方法、ストリーム送信装置、ストリーム送信方法及びコンピュータプログラム |
CN101727485B (zh) * | 2009-12-10 | 2012-11-07 | 湖南科技大学 | 一种基于聚焦搜索的wsdl搜集方法 |
US8626768B2 (en) * | 2010-01-06 | 2014-01-07 | Microsoft Corporation | Automated discovery aggregation and organization of subject area discussions |
US8346755B1 (en) | 2010-05-04 | 2013-01-01 | Google Inc. | Iterative off-line rendering process |
JP5725812B2 (ja) * | 2010-11-25 | 2015-05-27 | キヤノン株式会社 | 文書処理装置、文書処理方法、及びプログラム |
US20140081954A1 (en) * | 2010-11-30 | 2014-03-20 | Kirill Elizarov | Media information system and method |
US9646100B2 (en) * | 2011-03-14 | 2017-05-09 | Verisign, Inc. | Methods and systems for providing content provider-specified URL keyword navigation |
US20120303559A1 (en) * | 2011-05-27 | 2012-11-29 | Ctc Tech Corp. | Creation, use and training of computer-based discovery avatars |
US8849812B1 (en) * | 2011-08-31 | 2014-09-30 | BloomReach Inc. | Generating content for topics based on user demand |
CN105868290B (zh) * | 2012-03-29 | 2020-03-10 | 北京奇虎科技有限公司 | 一种展现搜索结果的方法及装置 |
US20140089090A1 (en) * | 2012-09-21 | 2014-03-27 | Steven Thrasher | Searching data storage systems and devices by theme |
US9436918B2 (en) * | 2013-10-07 | 2016-09-06 | Microsoft Technology Licensing, Llc | Smart selection of text spans |
US9646047B2 (en) * | 2014-09-04 | 2017-05-09 | International Business Machines Corporation | Efficient extraction of intelligence from web data |
CN105022827B (zh) * | 2015-07-23 | 2016-06-15 | 合肥工业大学 | 一种面向领域主题的Web新闻动态聚合方法 |
-
2015
- 2015-11-17 EP EP15306826.7A patent/EP3171281A1/en not_active Ceased
-
2016
- 2016-11-16 JP JP2016223173A patent/JP6917138B2/ja active Active
- 2016-11-17 US US15/354,870 patent/US10783196B2/en active Active
- 2016-11-17 CN CN201611233014.3A patent/CN107025261B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007129500A (ja) * | 2005-11-03 | 2007-05-24 | Usen Corp | Cm付コンテンツ視聴システム |
US20110178868A1 (en) * | 2010-01-21 | 2011-07-21 | Priyank Shanker Garg | Enhancing search result pages using content licensed from content providers |
Also Published As
Publication number | Publication date |
---|---|
US20170140055A1 (en) | 2017-05-18 |
CN107025261B (zh) | 2022-06-14 |
CN107025261A (zh) | 2017-08-08 |
EP3171281A1 (en) | 2017-05-24 |
US10783196B2 (en) | 2020-09-22 |
JP6917138B2 (ja) | 2021-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9785714B2 (en) | Method and/or system for searching network content | |
US8352396B2 (en) | Systems and methods for improving web site user experience | |
US9652550B2 (en) | Indexing application pages of native applications | |
JP6346114B2 (ja) | コミュニティ横断検索の方法、記憶媒体、装置 | |
JP4623820B2 (ja) | ネットワークベース情報検索システム及びドキュメントサーチ促進方法 | |
US8200617B2 (en) | Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata | |
US7657515B1 (en) | High efficiency document search | |
US20110060717A1 (en) | Systems and methods for improving web site user experience | |
JP2009528619A (ja) | ウェブ検索の適合性を高めるためにウェブ検索のユーザの振舞いをマイニングすること | |
KR20160124079A (ko) | 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법 | |
US20080140710A1 (en) | Systems and methods for providing enhanced job searching | |
JP6917138B2 (ja) | テーマ型Webコーパス | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
US10691746B2 (en) | Images for query answers | |
JP4962980B2 (ja) | クリックログを用いた検索結果分類装置及び方法 | |
US7788284B2 (en) | System and method for knowledge based search system | |
JP6162134B2 (ja) | ソーシャルページのトリガー | |
US11176312B2 (en) | Managing content of an online information system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191023 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210622 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6917138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |