JP2017138958A - テーマ型Webコーパス - Google Patents

テーマ型Webコーパス Download PDF

Info

Publication number
JP2017138958A
JP2017138958A JP2016223173A JP2016223173A JP2017138958A JP 2017138958 A JP2017138958 A JP 2017138958A JP 2016223173 A JP2016223173 A JP 2016223173A JP 2016223173 A JP2016223173 A JP 2016223173A JP 2017138958 A JP2017138958 A JP 2017138958A
Authority
JP
Japan
Prior art keywords
server
client
url
web
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016223173A
Other languages
English (en)
Other versions
JP6917138B2 (ja
Inventor
グレイハント ザビエル
Grehant Xavier
グレイハント ザビエル
シャンパーニュ モーガン
Champenois Morgan
シャンパーニュ モーガン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes SE
Original Assignee
Dassault Systemes SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dassault Systemes SE filed Critical Dassault Systemes SE
Publication of JP2017138958A publication Critical patent/JP2017138958A/ja
Application granted granted Critical
Publication of JP6917138B2 publication Critical patent/JP6917138B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】あるテーマについてのWebコーパスを構築するための方法、システム、およびプログラムを提供する。
【解決手段】サーチエンジンのインデックスを記憶するサーバが、テーマに対応しかつ少なくとも1つのキーワードの論理和からなる構造化クエリを、クライアントから受信し、インデックス中においてクエリに合致するすべてのページのURLからなるグループを決定する。サーバが、クライアントに、グループにおけるURLをストリームとして送信することによりテーマ型Webコーパスの構築を改善する。
【選択図】図3

Description

本発明は、Webクローリング用のコンピュータプログラムおよびシステムの分野に関し、より具体的には、あるテーマについてのWebコーパスを構築するための方法、システム、およびプログラムに関する。
Webをクロールして、例えば、任意の種類のドキュメントのコーパス(ドキュメントがWebから取得されることから、一般に「Webコーパス」と呼ばれる)を構築する目的で、多数のシステムおよびプログラムが市場に提供されている。コーパスは、後に検索、分析、および/または、その他任意の用途に利用できる。通常利用可能な技術では、あるテーマに関連するコーパス(すなわち「テーマ型Webコーパス」)などの特化型Webコーパスは、構築することができないか、あるいは適合率(precision)および/または再現率(recall)が不十分となる。
標準的なWebクローリング(図1に示す。ここでは時系列が上から下に表されている。例えばTaubes,Gary−Indexing the internet?Science 269.5229,1995に記載)では、シードURL(seed URLs)から開始して、これらのURLのページをダウンロードし、各ページを解析して、訪れるべきURLをさらに収集する。この方法は、テーマ型コーパスの収集には不十分である。なぜなら、トピック外のページから、おそらく複数のリンクの後に、トピックについてのページ(テーマに関するページ)へリンクしているかもしれないからである。極端な方法の1つは、トピック外のページからのリンクはフォローしないことである。この方法では、再現率(当初Web中に存在したトピックについてのページの総数に対する、最終的に構築されたコーパス内におけるトピックについてのページの数)が低くなる。別の極端な方法は、Web全体をクロールすることをその本質とする。この方法では適合率(クロールしたページの総数に対する、構築したコーパス内におけるトピックについてのページの数。クロールしたページがコーパスに含まれるか否か)が非常に低くなる。
集中的Webクローリング(focused Web crawling)(図2に示す。ここでは時系列が上から下に表されている。例えばNovak,Blaz−A survey of focused Web crawling algorithms−Proceedings of SIKDD 5558,2004に記載)は、同様の方法を維持しつつ、標準的なWebクローリングの欠点を改善するために発明されたものである。集中的クローラは、最終的にトピックについてのページにリンクする別のページにリンクする可能性のあるWebページに対しスコアを付与することをその本質とする追加のステップを用いる。この方法では、概して、上述した極端な方法の妥協点を見出すことが期待されている。しかし、この方法も、適合率および再現率が十分ではない。この方法は、Web全体をクロールする際に適合率を改善するだけである。なぜなら、クロールされるトピック外のページの数を減らすからである。また、トピック外のページで停止する際の再現率を改善する。なぜなら、それらのうちいくつかのページが最終的にトピックについてのページにリンクすることを高い推定確率で許容するからである。
こうした背景において、テーマ型Webコーパスを効率的に構築する解決策の改良、すなわち、計算コスト、適合率、および再現率が妥当な解決策が依然として求められている。
サーチエンジンのインデックスを記憶するサーバによって実行される、コンピュータに実装された方法であって、テーマに関連するWebコーパスのページのURLをクライアントに送信する方法が提供される。当該方法は、テーマに対応し、かつ少なくとも1つのキーワードの論理和からなる構造化クエリを、クライアントから受信するステップを含む。当該方法は、インデックス中において、クエリに合致するすべてのページのURLからなるグループを決定するステップも含む。前記決定は、前記インデックスから前記クエリの論理和における前記キーワードを読み出し、それによって前記インデックスから少なくとも一組のURLを取得するステップと、次いで、前記取得した少なくとも一組のURLに対して、前記クエリの論理和に対応する集合演算のスキームを実行し、それによってURLのグループを導き出す。また、当該方法は、前記クライアントに前記グループにおける前記URLをストリームとして送信するステップを含む。
一例では、前記クライアントに前記グループにおける前記URLをストリームとして送信するステップは、前記クライアントとのネットワーク接続(例えばHTTP接続)を確立するステップと、前記ネットワーク接続上で前記グループにおける前記URLをストリーミングするステップと、次いで、前記ネットワーク接続を終了するステップとを含んでいてもよい。
さらには、テーマに関連するWebコーパスを構築するための、コンピュータに実装された方法が提供される。この方法は、クライアントが、前記テーマに対応し、かつ少なくとも1つのキーワードの論理和からなる構造化クエリをサーチエンジンのインデックスを記憶するサーバに送信するステップと、次いで、前記サーバが、前記構造化クエリに基づき、サーバにより実行される、送信のための上述の方法に従って、クライアントに、前記WebコーパスのページのURLをストリームとして送信するステップとを含む。
一例において、クライアントとサーバが関与するこの方法は、前記クライアントが、前記サーバからストリームとして受信したURLを、ローカルに保存するステップをさらに含む。一例において、クライアントとサーバが関与するこの方法は、前記クライアントが、前記サーバから受信したURLのページをクロールするステップ、または、前記サーバから受信したURLをWebクローラに送信するステップをさらに含む。
さらには、クライアントによって実行される、テーマに関連するWebコーパスを構築するための、コンピュータに実装された方法であって、前記テーマに対応し、かつ少なくとも1つのキーワードの論理和からなる構造化クエリをサーバに送信するステップと、次いで、前記サーバから前記WebコーパスのページのURLをストリームとして受信するステップとを含む方法が提供される。
一例では、クライアントにより実行されるこの方法は、前記サーバからストリームとして受信したURLを、ローカルに保存するステップをさらに含む。
さらには、このような方法のいずれか、またはその組み合わせを実行するための命令を含むコンピュータプログラムが提供される。
さらには、前記コンピュータプログラムを記録したコンピュータ読み取り可能な媒体が提供される。
さらには、前記コンピュータプログラムを記録したメモリに接続されたプロセッサを備えるシステムが提供される。
以下、非限定的な例として、本発明の実施の形態を添付の図面を参照しつつ説明する。
先行技術のクローリング技術における時系列を示す。 先行技術のクローリング技術における時系列を示す。 本方法の一例のフローチャートを示す。 サーバクライアントネットワークの一例を示す。 システムの一例を示す。 Webコーパスを構築するための方法の時系列の一例を示す。
図3のフローチャートは、クライアントサーバシステムによって実行される、コンピュータに実装された方法であって、あるテーマに関連するWebコーパスを構築するための方法の一例を示す。本例の方法は、クライアントが、サーチエンジンのインデックスを記憶するサーバに対し、構造化クエリを送信するステップ(S10)を含む。構造化クエリは、テーマに対応し、かつ、少なくとも1つのキーワードの論理和からなる。次に、当該方法は、サーバが、構造化クエリに基づいて、WebコーパスのページのURLをストリームとしてクライアントに送信するステップ(S20)を含む。送信(S20)は、サーバがクライアントから構造化クエリを受信(S22)すると、インデックス内において当該クエリに合致するすべてのページのURLからなるグループ(すなわち、「グループ」という用語は単に集合を指す)を決定するステップ(S24)を含む。決定(S24)は、インデックスからクエリの論理和のキーワードを読み出し(S242)(すなわち、キーワードをインデックスのエントリと比較し)、それによりインデックスから少なくとも一組のURLを取得し(すなわち、サーチエンジンで、それ自体公知である緩和能力(relaxation capabilities)が用いられていれば、それに応じて、エントリがキーワードに完全に合致するか、あるいはほぼ合致する、インデックスのデータを出力し)、その後、取得したURLの集合に対して、クエリの論理和に対応する、(少なくとも1つの)集合演算のスキームを実行し(S244)、これにより、URLのグループ(すなわち、返されるべきクエリの「結果」)を導き出す。また、送信(S20)は、クライアントに、グループにおけるURLをストリームとして送信するステップ(S26)も含む。送信(S26)は、クライアントとのHTTP接続を確立するステップ(S262)を含む(なお、確立(S262)は、そうした接続を開始するステップに対応する可能性があるが、必ずしもそうとは限らない。なぜなら、HTTP接続は、それ以前に初めて開始されている可能性があり(例えば、送信(S10)以前)、その場合、確立(S262)は、そうした接続の回復/継続に対応するからである)。送信(S26)は、グループにおけるURLをHTTP接続上で(すなわち、HTTP接続を介して)ストリーミングするステップ(S264)も含む。そして、本例における送信(S26)は、HTTP接続を終了するステップ(S266)を含む。本例における方法は、クライアントが、サーバからストリームとして受信したURLを、ローカル(例えばURLを受信したクライアントと同じマシーンの、例えば永続性を有するメモリ上)に記憶するステップ(S30)をさらに含む。そして本方法は、クライアントが、サーバから受信したURLのページをクロールするステップ(S40)をさらに含む(例えば、クライアントと同じマシーン、あるいは他のマシーンによる。このような場合、本方法は、サーバから受信したURLをWebクローラに送信するステップを含むことができる)。
このような方法は、テーマ型Webコーパスの構築を改善する。
特に、クロール(S40)は、グループにおけるURLのページ(テーマに対応する構造化クエリと合致するすべてのページのURLからなるグループ)に対して実行されるため、本方法の、テーマに関する適合率と再現率は比較的高い。実際、当該分野で公知のように、テーマ型Webコーパスは、特定のテーマ/トピックに関連する、(例えば任意の種類の)Webドキュメント/ページの集合である。また、それ自体公知であるように、サーチエンジンインデックス(例えば転置インデックス)は、接続されたサーチエンジンに入力された構造化クエリ(構造化クエリとは、そうした技術において古典的であるように、例えば、サーチエンジンによって提供される所定の文法および/または構文規則があれば、それに応じて、すなわち、それに準拠して記載された少なくとも1つのキーワードの論理和である)を介して、容易に(すなわち、直接的かつ比較的高速に)取得することが可能な、整理されたデータ集合である(あるいは少なくともそれを含む)。図3の方法は、こうした背景を、テーマ型コーパスの構築/作成に生かしている。なぜなら、これは、テーマに対応する構造化クエリを介して行われるからである(すなわち、サーチエンジンおよびそのインデックスが与えられたとき、構造化クエリの結果は、テーマ内のドキュメント、例えば、少なくとも実質的に全てのそのようなドキュメントである)。その目的のために、構造化クエリは、構築するWebコーパスの仕様(例えば、想定しているテーマについての記述)が与えられれば、例えば、ユーザおよび/またはユーザのチームによって、図3の方法に対して、任意の手法で事前に設計することができる。なお、構造化クエリを設計するための特定の手法は、本議論の範疇には含まれない(ただし、一例が、アルゴリズムのステップ1および2において後ほど示されている)。ある意味で、テーマ型Webコーパスは、このような文脈において、S30で記憶した(したがってS40でクロール対象となった可能性のある)URLに対応し、ゆえに構造化クエリの結果(これは、図3の方法の観点からは、任意の方法で予め定義されたものとみることができる)に対応する、ページ/ドキュメントのコーパスとして定義可能であるに過ぎない。そのため、クローリング(S40)は、グループにおけるURL(S26で送信したもの)であって、それ自体少なくとも大部分(すべてでない場合)がテーマに関連するページを示しているURLのうち、少なくとも大部分(例えば、100%でない場合、クロール対象ページの90%超)に対して(順次、あるいはパラレルクローリングを用いて)実行可能であるため、「集中的」であると認定できる。
当該URLがS264においてサーバからクライアントに送信されるため、この方法では、必ずしもサーバに、全てのURLを記憶すること、および/または、最終的な集中的クローリングを実行することを課さない。一例として、本方法では、サーバが、グループを(少なくとも送信(S10)後、すなわちS20内に)永続的に記憶することは除外する。「グループを記憶する」とは、記憶された情報が、グループにおけるURLだけでなく、それらURLの形成する情報、あるいは、グループの一部である情報をも含むことを意味する。言い換えれば、サーバでは、グループは、例えば送信(S26)の前に、せいぜい揮発性メモリに記録されるか、あるいはグループとしては記憶しないことさえある(例えば、単にグループにおけるURLが、例えば揮発性メモリに記録され、記録されるときにストリーム化される)。いずれの場合も、グループが不揮発性メモリに(グループとして)記憶されることはおそらくない。一方、S30では、クライアントはURLを、特にグループとして記憶し、かつ/または、不揮発性(すなわち永続的)メモリに記憶する可能性がある。本方法は、同様に、サーバが当該URLの集中的クローリングを実行することを除外できる(これもまた少なくとも送信(S10)の後、すなわちS20内に行われる。なぜならサーバは、本方法以前、例えば、サーチエンジンを構築する際に、当該URLをクロール済みかもしれないからである。しかしこの場合は、非集中的クローリングである)。一方、S40では、クライアントは、集中的クローリングを行う(なお、クライアントは、想定されるアプリケーションに応じて、関連する情報、例えばURLのグループを、そのような集中的クローリングを行うことが可能なサードパーティに対し、同等な方法で送信するか、あるいは、そのような集中的クローリングを行うことが可能なサーバに後で返すこともでき、図3の方法は、このような態様の一例に過ぎない)。
クエリの結果(すなわち、クエリに合致するすべてのページのURLからなるインデックス内のグループ)を決定するステップ(S24)が、インデックスからクエリの論理和におけるキーワードを読み出すステップ(S242)と、それによりインデックス(すなわち読み出し(S242)の出力)から少なくとも一組のURLを取得し、そして取得した少なくとも一組のURLに対して、クエリの論理和に対応する集合演算のスキームを実行(S244)し、それによりURLのグループ(すなわちスキームS244の出力)を導き出すことからなる(すなわち、正確には、例えば当該URLに対し、後にも組み合わせにおいても、ランキングを追加することがない)ため、図3の方法は、サーバ側から見ると、比較的高速に行われる。実際、それ自体サーチエンジンの分野で公知であるように、サーチエンジンインデックスは、常に、ある形式のS242およびS244を実施し、これらは古典的な手法で実行することが可能であり、広範にわたって詳述する必要はない。しかしながら、古典的なサーチエンジンでは、構造化クエリを送信したクライアントに対して結果を返す前に、さらに、結果をランキングする。このようなランキングには時間がかかり、またハードウェアリソースも消費する(ドキュメントがRAM等を含む一時的なメモリに記憶されるとき、ランキングアルゴリズムがアクセスする)が、本方法では、後のクローリング(S40)を介してテーマ型Webコーパスを構築するという目的にはランキングは不必要であると素早く判断する。したがって、S24は、S242において、クエリの異なるキーワード(例えば、各キーワード)に合致する、(例えばすべての)(URLの)集合についてのインデックスから抽出を行うこと(なお、通常そうであるように、インデックスがいくつかの別個のサーバに格納されている場合、当業者には知られているように、同じキーワードに対して異なる集合が相応に取得される)と、S242において、集合演算の最終的なスキーム(すなわち、集合を入力とする数学的演算)を構造化クエリに従って実行することに限定される(論理和からスキームを導き出す手法は古典的であり、当該分野ではそれ自体公知であるため、ここでは詳述しない)。さらに、古典的なサーチエンジンは、ランキングを実行するがために、通常、S242を完全には実施しない。実際、古典的には、クエリは必ずしもすべてのURLに対して実行される必要はないとされる。まず、たいていの場合において最初の結果ページを取り込むのには十分な小さなサブインデックスに対して、実行する。実際、ランキングには、コンテンツの人気および質を含む、クエリには依存しないいくつかのパラメータが考慮され、たいていのクエリにおいて、コンテンツのうちのいちばん人気が高い、あるいは質が高いページで、最初の結果ページを埋めることができる。例えば、ユーザは、まず最高ランクの結果の第一ページを受信し、次に、より低いランクの結果についてページごとに要求することが可能で、ユーザがさらなる結果を求めると、サーチエンジンインデックスは、集合を計算し集合演算を実行する。一方、図3の方法では、S242が、候補となるすべての集合および/またはURLが決定されるまで、連続的に/途切れることなく実行されてもよく、これにより、この方法では、ユーザが、例えばさらなる結果を要求するために演算と対話するのとは独立して、途切れることなく、S24でクエリのすべての結果を決定する。
当該URLがサーバによってストリームとして送信されるため、図3の方法では、サーバがすべての結果を(不揮発性メモリにさえも)一度に記憶する必要がなく、したがって本方法では除外されてもよく、さらには、クライアント側から見ると高速に実行できる。ストリームの概念は、コンピュータサイエンスの分野で広く知られている。ストリーミング(S26)では、サーバがURLを、それが構造化クエリの結果であると判断するとすぐに送信することになる(これは、まずランキングを行ってからバッチでデータを送信する古典的なサーチエンジンとは対照的である)。典型的には、ストリーミング法は、セッション開始、ストリーム、およびセッション終了をその本質とする。図1の方法では、HTTP接続を介したこのようなストリーミング(S26)の具体例を実施している。HTTP接続が特にうまく機能するが、本方法においては、他のプロトコル(たとえばFTP接続など)、さらに一般的には、任意のネットワーク接続が実施できる。
本方法は、コンピュータにより実施される。これは、方法の各ステップ(または実質的にすべてのステップ)が、少なくとも1つのコンピュータまたは同様の任意のシステム、すなわちコンピュータプログラムが記録されたメモリに結合された少なくとも1つのプロセッサを含むシステムによって実行されることを意味し、当該プログラムは、本方法を実行するための命令を含む。メモリは、データベースを記憶していてもよい。メモリは、そのような記憶に適した任意のハードウェアであり、場合により、物理的に区別可能ないくつかの部分(例えば、プログラム用に1つ、場合によりデータベース用に1つ)を含む。具体的には、本方法は、サーバシステムと通信を行うクライアントシステムにより実行され、これら2つのシステムは、場合によっては区別可能なマシーンであって、また、場合によっては、地理的に離れている可能性もある(例えば、少なくとも、異なる部屋、異なるビル、異なる都市、さらには異なる国など)。これは、クライアントおよびサーバが、典型的にはネットワーク(例えば、インターネット)を介して通信可能に結合されるように構成されたハードウェアおよび/またはソフトウェアを備えることを意味する。図4は、このようなネットワークの一例を示し、ここでは、図3の方法において、任意のクライアントがサーバと関わっていてもよい。
このように、本方法のステップは、場合によっては完全に自動的に、あるいは半自動的に実行される。例えば、本方法の少なくともいくつかのステップは、ユーザとコンピュータの対話を通じて始動されてもよい。求められるユーザとコンピュータの対話レベルは、想定される自動性のレベルに応じたものであって、ユーザの要望を実装する必要性との間でバランスをとるものとしてもよい。例えば、このレベルは、ユーザが定義し、かつ/または、あらかじめ定義するものであってもよい。例えば、本方法は、S10の前に、ユーザまたはチームが構造化クエリを設計し、設計した構造化クエリをクライアントに入力し、その後、S10を始動することを含む。S20は、その後、場合により自動的に、あるいはユーザによって(例えば、予め定義された手法で、または受信(S22)後に手作業で)提供される承認に基づいて、自動的に実行されてもよい。S30は、自動的に、あるいは場合によりユーザの確認後、実行されてもよい。そして、S40は、自動的に実行、あるいは必要に応じていつでも起動できるように、予め定義されていてもよい。例は後述する。
図3は、クライアントおよび/またはサーバを表現可能な、コンピュータシステムの一例を示す。この例のコンピュータは、内部通信バス1000に接続された中央処理装置(CPU)1010と、同じくバスに接続されたランダムアクセスメモリ(RAM)1070とを備える。大容量記憶装置コントローラ1020は、ハードドライブ1030などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを具体的に実現するのに適した大容量メモリ装置は、例として、EPROM、EEPROM及びフラッシュメモリ装置のような半導体メモリ装置、内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク、光磁気ディスク、およびCD−ROMディスク1040を含む、全ての形式の不揮発性メモリを含む。前述のいずれも、特別に設計されたASIC(特定用途向け集積回路)によって補完されてもよいし、組み入れられてもよい。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理する。本例のコンピュータは、さらに、バスに接続されたビデオランダムアクセスメモリ1100と関連付けられたグラフィックス処理装置(GPU)1110を備える。ビデオRAM1100は、当該技術分野において、フレームバッファとしても知られる。コンピュータはまた、カーソル制御装置、キーボードなどの触覚装置1090を含んでいてもよい。カーソル制御装置は、ユーザがディスプレイ1080上の任意の所望の位置にカーソルを選択的に位置させることを可能にするために、コンピュータ内で使用される。さらに、カーソル制御デバイスは、ユーザが様々なコマンドを選択し、制御信号を入力することを可能にする。カーソル制御装置は、システムに制御信号を入力するための多数の信号生成装置を含む。典型的には、カーソル制御装置はマウスであってもよく、マウスのボタンは信号を生成するために使用される。あるいは、または追加的に、コンピュータシステムは、感知パッドおよび/または感知スクリーンを備えてもよい。
コンピュータプログラムは、コンピュータによって実行可能な命令を含んでいてもよく、命令は、上記システムに方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってもよい。プログラムは、例えば、デジタル電子回路、またはコンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。プログラムは、例えばプログラマブルプロセッサによる実行のための機械読み取り可能な記憶装置に具体的に実現された製品のような装置として実装されてもよい。方法ステップは、プログラム可能なプロセッサが命令のプログラムを実行し、入力データを操作して出力を生成することによって方法の機能を実行することによって実行されてもよい。したがって、プロセッサは、データ記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、また、それらにデータおよび命令を送信するようにプログラム可能であってもよく、またそのように接続されていてもよい。アプリケーションプログラムは、高水準の手続き型またはオブジェクト指向のプログラミング言語で、または必要に応じてアセンブリ言語または機械語で実装されていてもよい。いずれの場合も、言語はコンパイラ型言語またはインタープリタ型言語であってもよい。プログラムは、フルインストールプログラムまたは更新プログラムであってもよい。いずれの場合も、プログラムをシステムに適用すると、本方法を実行するための指示が得られる。
「メモリ」という用語は、任意のメモリストレージ、または接続された一連のメモリストレージを指していてもよい。Webインデックスを構築するとは、Webコーパスに索引付けすることを指す。すでに述べたように、コーパスは、ドキュメントの集合である(例えば、公開Web/民間企業)。サーチエンジンのインデックスは、サーチエンジンのインターフェースまたはサーチベースアプリケーション(SBA)を使用して作成されたクエリへの応答を提供するためにドキュメントを選択しランク付けするシステムを指していてもよい。コーパスは、選択およびランキングのためにインデックスに利用可能なドキュメントの集合であってもよい。Webコーパスは、Webページ上のURLを用いて発見される、Webページ、さらにはPDF、画像などのドキュメントを含む、Web上で最初に発見されるドキュメントのコーパスである。Webインデックスは、Webコーパスに基づくインデックスである。テーマ型インデックスは、特定のトピックに関連するクエリ専用のサーチエンジンまたはサーチベースのアプリケーションのインデックスであってもよい。これらには、すべてのプロフェッショナル(B2B)サーチエンジンとSBAが含まれ、これらは少なくとも、ユーザの産業に関連するトピックに特化している。プロフェッショナルサーチエンジン、あるいはSBAは、典型的には、予め定義した使用シナリオをサポートするように構築されており、このシナリオは、インデックスで予想されるクエリに、限定された範囲を設定する。コーパスはドキュメント、例えばWebページ(本方法で想定されている)の集合であり、テーマ型Webコーパスはテーマに関するWebインデックスのコーパス、すなわち、クエリに応答する選択に用いられるインデックスに利用可能なドキュメント(例えばWebページ)である。
例えば、特化型のサーチエンジンやSBAは、テーマ、例えば、投資家が使用する金融資産に関するに情報を提供することに特化していてもよい。クエリは、典型的には、ユーザのポートフォリオに含まれる資産を含む。1つの実装法として、投資家が手動ではクエリを入力しないことが考えられる。クエリは投資家の現在の投資ポートフォリオに基づいて生成される。クエリに応答して、そのポートフォリオに対して影響が最も大きいと考えられるニュースが選択され、最も関連度の高いものから順に返される。特化型サーチエンジンやSBAの開発者やユーザには、すべてのクエリがサポートされているとは限らないことが広く知られている。サーチエンジンまたはSBAインターフェースに、ユーザが自由にクエリを提供できるクエリボックスが表示されている場合、ユーザは、技術的には、サポートされていないクエリを入力できる。例えば、サーチエンジンが金融資産に特化しているにもかかわらず、投資家が突然自分の祖母のことを考え、そのクエリボックスを使用して、祖母の健康状態について調べようとするかもしれない。クエリは[祖母 健康状態]のようなものかもしれない。しかし、このサーチエンジンは金融資産に特化しているため、このクエリに対して関連するページを返さないかもしれない。これはサーチエンジンの欠陥ではなく、使い方が不適切であるに過ぎない。
図3の方法は、具体的には、例えばそのような目的のためにテーマ型Webコーパスを構築することを可能にする。特に、本方法は、ドキュメントのフィルタリングやランキングには関与せず、それはインデックスの責務である。本方法は、サーチエンジンやSBAのインターフェースにも関与しない。テーマ型Webコーパスを構築するとき、図3の方法では、テーマ型Webインデックスに関するクエリに応答して返される可能性のあるWebページの集合を、正確に収集することが可能になる。多くない:インデックスに関するクエリに応答して返されることのないページは無用であり、ストレージおよびRAMの領域を不必要に占有する。少なくない:クエリに関連するWebページがコーパスに存在し、ユーザが、当該クエリに応じて受け取るようにする必要がある(そうでなければ、インデックスの再現率に影響が出る)。上記の広範な議論に示したように、図3の方法は、特別な種類のサーチエンジン(URLストリーミング網羅的サーチエンジン。ストリーミングサーチとしても知られる)が設けられていることを除けば、サーチエンジンの助けを借りるクロールの方法と類似している。Webサーチエンジンは、典型的には、クエリに対して、少数のクエリ結果に関連するリンクおよびサマリーを表示するために使用される、機械読み取り可能なフォーマット(例えば、HTML、XML、またはJSON)のページを用いて応答する。このように、図3の方法のようなWebサーチエンジンの助けを借りたクロールは、そのような複数のページを照会して、各ページ上のリンクを抽出し、これらのリンクをクロールすることをその本質とする。ストリーミングサーチ(S24およびS26)は、コーパスコレクションで用いられる古典的なサーチエンジンの欠点を改善する。Webページのランキングは行わず、結果のページを用いて応答しない。その代わりに、URLがインデックス内で見つかった順に並んだ、URLのストリームを用いて応答する。クローラは、これらのURLによって特定されたページを取得するため、S40で、Webサイトに接触してもよい。適合率が高い:コーパスは、クエリがトピックを正確に記述しており、かつクエリに使用されるインデックスが新しい(インデックスに格納されているページと、現在Web上で提供されている同じページとの間にはほとんど違いがないため、インデックスの応答が正確である)と仮定して、クエリに完全に合致するWebページから構成され得る。再現率が高い:コーパスは、クエリに使用されるインデックスが完全で新しいと仮定すると、クエリに合致するすべてのWebページで構成されている。コストが安い:不要な操作を行う必要がない。主な全体コストは、最初のインデックスを構築するコストである。同じインデックスを用いて構築したテーマ型コーパスの数が多いほど、テーマ型コーパス1つあたりのグローバルコストは安くなる。
一般的なWebサーチエンジンは、典型的には、サーチバーとサーチ結果のリストを提供する。特化型サーチエンジンおよびSBAは、典型的には、高度なナビゲーションとグラフも提供する。ナビゲーションオプションには、カテゴリ別に資産をブラウズすることが含まれる。例えば、トップレベルのカテゴリには、「株式」、「デリバティブ」、「通貨」、「原料」などがある。「株式」をクリックすると、最近のニュースで見つかった株式のリストがユーザのポートフォリオから展開されてもよい。株式をクリックすると、ニュースがフィルタリングされ、選択した株式に関連するニュースのみが表示されてもよい。グラフには、今日のニュースで最も引用されている資産が高いバーで表される、日毎のトップ資産の棒グラフが含まれていてもよい。これらのナビゲーションオプションとグラフは、すべてのドキュメントにおけるすべての資産を検出することによって表示される。ドキュメント内に資産への参照がある場合、インデックスはそれをRAMに記憶してもよい。なぜなら、RAMはディスクよりもはるかに応答性が高く、ナビゲーションオプションとグラフを表示するには、これらの参照を素早く反復する必要があるためである。これらの参照はファセットと呼ばれる。ナビゲーションおよびグラフに使用されるファセットはRAM領域を占有し、それはインデックス内のドキュメントの数とともに増加する。RAM領域は高価であり、しばしば特化型サーチエンジンやSBAのハードウェアインフラのボトルネックになる。インターフェースが豊富であるほど、各ドキュメントからより多くのファセットが抽出される可能性が高くなり、コーパス内のドキュメントごとにより多くのRAM領域を割り当てる必要がある。特化型サーチエンジンやSBAでは、ユーザの典型的な関心事が分かっているため、トピックに関連している可能性のあるナビゲーションオプションやグラフなどを含む、豊富なインターフェースを提供することができる。結果として、より多くのファセットが必要とされ、コーパスのサイズにより多くの注意を払わなければならなくなる。コーパスには、不要なドキュメントが含まれていないほうがよい。結果として、特化型サーチエンジンまたはSBAのインターフェースを介したクエリに応答するインデックスに必要なすべてのドキュメントのみを含むコーパスを提供する手法が真に求められている。そして、図3の方法がそのような必要に応えている。
図3の例に応じた、テーマ型Webコーパスを構築する方法の一例について、図6を参照して説明する。図6は以下に述べる時系列を(上から下に)示している。
テーマ型インデックスによってサポートされる、考えられるすべてのクエリの集合Qが与えられると、このインデックスのための理想的なテーマ型コーパスCは、クエリq=OR(q’,for q’ in Q)に合致するドキュメントの集合となる:インデック
スにサポートされているすべてのクエリの論理和。テーマ型コーパスは、Qのクエリの結果(すなわち、そのようなすべてのドキュメントであり、それ以上ではない)に現れ得るすべてのドキュメントからなる。以下のアルゴリズムは、図3の方法を用いてどのようにCを構築するかを説明したものである。
0. 空のリストLを作成する
1. インデックスにサポートされるべきクエリq’を収集する。これは、想定されるユ
ーザへのインタビューや、サーチエンジンやSBAの仕様に基づいて行うことができる。
2. 1で見つかったクエリを選言標準形dで記載する。q’は、ブール式であるため、
dが存在し、一意である。
3. dにおける各連言節cについて、仮にcがLの要素を含んでいなければ(c中のその式を、その項の連言節で置換する。例えば、[a]がLに含まれる場合、[’a b
c’ AND d]は取り除かれる):
3.1 置換後のcもサポートされるようにcの項の代理を探す。(例えば、株式市場における会社コードを、その他のすべての会社コードで置き換える。代理の数が多い場合、典型的には、このステップはスクリプト化する必要がある。)
3.2 可能な代理のすべての組み合わせを用いて、連言節c1・・・cnを生成する。
3.3 本発明によるシステムでクエリc1・・・cnのそれぞれを実行し、その結果をコーパスに加える。
3.4 L中のc1・・・cnを記憶する。
4. (a)サポートされるクエリがそれ以上みつからなくなるまで、あるいは(b)サポートされ3.0を満たすようなクエリがそれ以上みつからなくなるまで1から繰り返す。
理論的には、項の数が有限であることを理由にこの方法は終了する。実際には、ANDがない、またはANDの数が少ないクエリを使用して開始すると、4.bですぐに停止する。本方法では有用なページのみが収集される。クローリングに基づく方法では、ページを収集する前に有用かどうかを知ることができないため、有用ではないページも収集される。先行技術のクローリング(集中クローリングを含む)は、本方法に比べて適合率が低い。例では、本方法の適合率は100%である。本方法の再現率は、参照Webインデックスのサイズによってのみ制限される。仮に参照WebインデックスがすべてのWebページを含むなら、本方法の再現率は、100%となり得る。実際には、参照Webインデックスは網羅的ではない。実装時には、本方法は、320億ページのWebインデックスを使用できる。参照インデックスに欠けたページがあると、方法における再現率が低下する。参照Webインデックスを構築するのにコストがかかるため、本方法は、参照Webインデックスがすでに利用可能な場合、または複数のテーマ型インデックスが参照Webインデックスに基づいて構築される場合、特に費用対効果が高くなる。クローリングは、Webサイトサーバの遅延を招く。各ステップにおいて、クローラは、クロールする新しいページのURLを収集するためにWebページをロードする必要がある。本方法では、典型的には、各クエリに応答して一度に大量のWebページを収集する。
例示的な特徴を実現する図3の方法の一例について以下に説明する。
本例の第一のステップで、ユーザがクエリを選択してもよい。例えば、ユーザは、最終的にObamaについてのWebドキュメントを取得することを目標とし、そのために「Obama」というクエリを選択する。クエリは、より複雑なものになる可能性がある。例えば、「Obama and ‘Presidential race’ and −Michelle」では、オバマおよび大統領選挙に関連し、ミシェル・オバマには関連しないドキュメントが対象となる。ユーザは、設定インターフェースに提示されたテキストフィールドにクエリを挿入することができる。ユーザは、それが一度限りのクエリであるか、それとも定期的に行うべきかを選択することもできる。後者の場合には、ユーザは、クエリがどの程度の間隔で実行されるべきかを選択する。ユーザは、取得すべきドキュメントの数の上限を選択することもできる。合致するドキュメントの総数は、数億のオーダーになる可能性があり、ユーザは、典型的には、クエリに基づいて収集されるドキュメントの数を数百万に制限する。ソートのステップが含まれていない場合、これらの数百万のドキュメントは、すべての合致するドキュメントの中からランダムに収集されてもよい。より正確には、クエリに合致するドキュメントで、インデックスにおいて最初に見つかったものであってもよい。クエリは、ユーザが管理インターフェース上の「実行」ボタンを押すかクリックしたとき、またはスケジュールされた時間が経過したときに実行されてもよい。クエリは、その後、S10でインデックスに送られ、HTTP(またはHTTPS)リクエストを介して実行される。リクエストは、典型的には、顧客のサーバ(テーマ型コーパスが収集されるべき場所)から始まる外部ネットワークを通って、典型的には遠隔サービスのサーバ上に位置するストリーミングインデックスまで進む。そこにおいてS22でクエリが受信される。
ストリーミングインデックスは、典型的には、以下の2つのステップを用いてクエリを解決する。第一のステップS242において、ルックアップテーブル/転置リスト/辞書と呼ばれる構造体においてクエリのキーワードを検索する。この構造体は、これらのキーワードを含むドキュメントの識別子を指し示す、ソート済みキーワードリストのセットである。キーワードは、検索が早くなるようにソートされている。この構造内において一意の識別子を付けるために、別のプロセスで、Web文書はクロールされ、格納され、インデックス化されている。クローリングとは、それぞれのWebサイトサーバから、Webドキュメントを、(ドキュメントのURLを含むこれらのサーバにHTTPクエリを発行することによって)収集することを意味する。記憶とは、ローカルキャッシュにコピーすることを意味する(ドキュメントを複数回要求するのを避けるため)。インデックス化では、ドキュメントから単語を抽出し(それらを選択し、予め正規化してもよい)、また、転置リストにおける、結果として得られた単語それぞれの前に、ドキュメントのIDを追加する(必要であれば転置リストに単語を追加してもよい)。第二のステップS244において、インデックスはクエリの論理式を解釈し、第一のステップで見つかったドキュメントに対して集合演算を適用する。例えば、「Obama」を含むドキュメントの集合と「Presidential race」を含むドキュメントの集合との交わりから「Michelle」を含む文書の集合を除いた集合を返す。これらの演算は、典型的には、標準的なサーチエンジンによって実行される演算である。標準的なサーチエンジンでは、このステップの後に、関連性が最も高いものから低いものへと、順にドキュメントをランクづけする他のステップが続く。図3の方法では、これらのステップは実施しない。
実際には、上述の2つのステップは、順には実行されない。たとえば、「Obama」を含むドキュメントからなる部分集合を最初にリスト化し、Obamaを含む別のドキュメントの集合を処理する前に、「Presidential race」と「Michelle」も含まれているかどうかに基づいてフィルタリングすることができる。一般に、結果は、ドキュメントが見つかった分散ストレージサーバに対応するバッチによって処理され、それらを処理する処理サーバ上で利用可能なRAMに応じてさらに分類してもよい。さらに、転置リストの階層があってもよく、階層内の最初のリストは、より関連性の高い結果をもたらす傾向があるため、最初に検索される。最上層の転置リストは、典型的には、タイトルなど、Webページの特別な位置にあるキーワード、または他のWebページ上に見つかったリンクで、当該Webページを指し示すリンクにあるキーワードのみを記憶する。これらの内部構造およびインデックスのパフォーマンスを最適化するためのアルゴリズムは、すべて、クエリに合致するドキュメントが取得される順序に影響を与える可能性がある。
ドキュメントを取得する間、インデックスは、クエリによって開始されたHTTP接続を用いてクエリに応答し(これによりS262は、この例では、S10の後に実行される)、ドキュメントのURLが取得されると、それらをストリーミング(S264)する(ドキュメント自体ではない)。接続を開始しクエリを発行したクライアント上のプロセスは、ストリーミングインデックスからURLを受け取る。好ましい実施形態では、このクライアントプロセスはURLをクローラに送信する。クローラは、典型的には同じシステム上で実行される別のプロセスであってもよい。クローラは、S40において、これらのURLに対応するドキュメントをそれぞれのWebサイトから取得することを担当する。別の実施形態では、URLを受け取るプロセスは、S30においてそれらをローカルに(例えば、ディスク上に)記憶し、クローラは、それらをローカルストレージから読み出してS40を実行する。
古典的には、クローラは、取得した各URLを使用してHTTPリクエストを発行することによって動作する。リクエストは、URLをIPアドレスに変換するネームサーバや、宛先IPアドレスに従ってパケットを送信するルータを含む、インターネットインフラを使用して、Webサイトのサーバに送られる。各Webサイトサーバは、リクエストで指定されたURLに対応するドキュメントを用いて応答する(または応答しない)。一例では、クローラは、複数のWebサイトに対して、これらのWebサイトの負荷の限界を守りつつ、並行してドキュメントを要求する手順を実施する。典型的には、2.5秒以内に複数のページを同じWebサイトから要求することはしない。クローラは、典型的には、並行して実行されるプロセスの集合であり、それぞれがWebサイトの部分集合を担当する。例えば、あるプロセスは、名前が「A」などで始まるWebサイトの照会を担当する。一例では、コーパスがドキュメントのインデックスを構築するのに役立ち、クローラは次に、2つのことを行うことができる。(1)受信したドキュメントをローカルキャッシュに記憶する。ローカルキャッシュは単なるローカルストレージであって、ここでは、ドキュメントがそれぞれのURLで識別され、URLで検索できる。(2)ドキュメントを受け取ると、ドキュメントを処理しインデックス化する別のプロセスに、それらをプッシュする。

Claims (12)

  1. サーチエンジンのインデックスを記憶するサーバによって実行される、テーマに関連するWebコーパスのページのURLをクライアントに送信するための、コンピュータに実装された方法であって、
    前記テーマに対応し、かつ少なくとも1つのキーワードの論理和からなる構造化クエリを、前記クライアントから受信するステップと、
    前記インデックス中において、前記クエリに合致するすべてのページのURLからなるグループを決定するステップであって、
    前記インデックスから前記クエリの論理和における前記キーワードを読み出し、それによって前記インデックスから少なくとも一組のURLを取得するステップと、次いで、
    前記取得した少なくとも一組のURLに対して、前記クエリの論理和に対応する集合演算のスキームを実行し、それによってURLのグループを導き出す本質ステップと、
    前記クライアントに、前記グループにおける前記URLをストリームとして送信するステップと
    を含むコンピュータに実装された方法。
  2. 前記クライアントに前記グループにおける前記URLをストリームとして送信するステップが、
    前記クライアントとのネットワーク接続を確立するステップと、
    前記ネットワーク接続上で前記グループにおける前記URLをストリーミングするステップと、次いで、
    前記ネットワーク接続を終了するステップと
    を含む、請求項1に記載のコンピュータに実装された方法。
  3. 前記ネットワーク接続がHTTP接続である
    請求項2に記載のコンピュータに実装された方法。
  4. テーマに関連するWebコーパスを構築するための、コンピュータに実装された方法であって、
    クライアントが、前記テーマに対応し、かつ少なくとも1つのキーワードの論理和からなる構造化クエリをサーチエンジンのインデックスを記憶するサーバに送信するステップと、次いで、
    前記サーバが、前記構造化クエリに基づき、請求項1、2、または3の方法に従って、前記WebコーパスのページのURLをストリームとして前記クライアントに送信するステップと
    を含むコンピュータに実装された方法。
  5. 前記クライアントが、前記サーバからストリームとして受信したURLを、ローカルに保存するステップをさらに含む
    請求項4に記載のコンピュータに実装された方法。
  6. 前記クライアントが、前記サーバから受信したURLのページをクロールすること、または、前記サーバから受信したURLをWebクローラに送信するステップをさらに含む
    請求項4または5に記載のコンピュータに実装された方法。
  7. クライアントによって実行される、テーマに関連するWebコーパスを構築するための、コンピュータに実装された方法であって、
    前記テーマに対応し、かつ少なくとも1つのキーワードの論理和からなる構造化クエリをサーバに送信するステップと、次いで、
    前記サーバから前記WebコーパスのページのURLをストリームとして受信するステップと
    を含むコンピュータに実装された方法。
  8. 前記サーバからストリームとして受信したURLを、ローカルに保存するステップをさらに含む
    請求項7に記載のコンピュータに実装された方法。
  9. 前記サーバから受信したURLのページをクロールすること、または、前記サーバから受信したURLをWebクローラに送信するステップをさらに含む
    請求項7または8に記載のコンピュータに実装された方法。
  10. 請求項1〜9のいずれかに記載の方法を実行するための命令を含むコンピュータプログラム。
  11. 請求項10に記載のコンピュータプログラムを記録したコンピュータ読み取り可能な媒体。
  12. 請求項10に記載のコンピュータプログラムを記録したメモリに接続されたプロセッサを備えるシステム。
JP2016223173A 2015-11-17 2016-11-16 テーマ型Webコーパス Active JP6917138B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15306826.7A EP3171281A1 (en) 2015-11-17 2015-11-17 Thematic web corpus
EP15306826.7 2015-11-17

Publications (2)

Publication Number Publication Date
JP2017138958A true JP2017138958A (ja) 2017-08-10
JP6917138B2 JP6917138B2 (ja) 2021-08-11

Family

ID=55068923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016223173A Active JP6917138B2 (ja) 2015-11-17 2016-11-16 テーマ型Webコーパス

Country Status (4)

Country Link
US (1) US10783196B2 (ja)
EP (1) EP3171281A1 (ja)
JP (1) JP6917138B2 (ja)
CN (1) CN107025261B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271477B (zh) * 2018-09-05 2020-07-24 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统
US11269879B2 (en) * 2020-01-13 2022-03-08 Google Llc Optimal query scheduling according to data freshness requirements
US11687710B2 (en) * 2020-04-03 2023-06-27 Braincat, Inc. Systems and methods for cloud-based productivity tools
US11394799B2 (en) 2020-05-07 2022-07-19 Freeman Augustus Jackson Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007129500A (ja) * 2005-11-03 2007-05-24 Usen Corp Cm付コンテンツ視聴システム
US20110178868A1 (en) * 2010-01-21 2011-07-21 Priyank Shanker Garg Enhancing search result pages using content licensed from content providers

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7958457B1 (en) * 1999-12-20 2011-06-07 Wireless Agents, Llc Method and apparatus for scheduling presentation of digital content on a personal communication device
US20060064411A1 (en) * 2004-09-22 2006-03-23 William Gross Search engine using user intent
US8099405B2 (en) * 2004-12-28 2012-01-17 Sap Ag Search engine social proxy
US8281037B2 (en) * 2005-01-03 2012-10-02 Orb Networks, Inc. System and method for delivering content to users on a network
CA2750026C (en) * 2005-10-14 2014-07-22 Research In Motion Limited Url document viewing through a plug-in application for a mobile browser on a wireless device
JP2007304895A (ja) * 2006-05-12 2007-11-22 Nobuhiko Ido 検索エンジンを利用した例文作成システムと言語に関する練習問題をコンテンツとするwebサイト構築方法
CN101114284B (zh) * 2006-07-27 2010-11-24 阿里巴巴集团控股有限公司 一种显示网页内容相关信息的方法及系统
CN101145153B (zh) * 2006-09-13 2011-03-30 阿里巴巴集团控股有限公司 一种搜索信息的方法及系统
US20080098300A1 (en) * 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
US20090164418A1 (en) * 2007-12-19 2009-06-25 Valentina Pulnikova Retrieval system and method of searching information in the Internet
US8364664B2 (en) * 2008-05-12 2013-01-29 Enpulz, L.L.C. Web browser accessible search engine that identifies search result maxima through user search flow and result content comparison
US20090287684A1 (en) 2008-05-14 2009-11-19 Bennett James D Historical internet
US8306969B2 (en) * 2008-09-23 2012-11-06 Microsoft Corporation Linking search queries to rich media themes
IL195323A0 (en) * 2008-11-16 2011-08-01 Clip In Touch Internat Ltd A device, system and method for creating and transmitting multimedia messages
JP5349032B2 (ja) * 2008-12-19 2013-11-20 Kddi株式会社 情報選別装置
US8214380B1 (en) * 2009-02-09 2012-07-03 Repio, Inc. System and method for managing search results
US7831609B1 (en) * 2009-08-25 2010-11-09 Vizibility Inc. System and method for searching, formulating, distributing and monitoring usage of predefined internet search queries
US8386455B2 (en) * 2009-09-20 2013-02-26 Yahoo! Inc. Systems and methods for providing advanced search result page content
JP5585047B2 (ja) * 2009-10-28 2014-09-10 ソニー株式会社 ストリーム受信装置、ストリーム受信方法、ストリーム送信装置、ストリーム送信方法及びコンピュータプログラム
CN101727485B (zh) * 2009-12-10 2012-11-07 湖南科技大学 一种基于聚焦搜索的wsdl搜集方法
US8626768B2 (en) * 2010-01-06 2014-01-07 Microsoft Corporation Automated discovery aggregation and organization of subject area discussions
US8346755B1 (en) 2010-05-04 2013-01-01 Google Inc. Iterative off-line rendering process
JP5725812B2 (ja) * 2010-11-25 2015-05-27 キヤノン株式会社 文書処理装置、文書処理方法、及びプログラム
US20140081954A1 (en) * 2010-11-30 2014-03-20 Kirill Elizarov Media information system and method
US9646100B2 (en) * 2011-03-14 2017-05-09 Verisign, Inc. Methods and systems for providing content provider-specified URL keyword navigation
US20120303559A1 (en) * 2011-05-27 2012-11-29 Ctc Tech Corp. Creation, use and training of computer-based discovery avatars
US8849812B1 (en) * 2011-08-31 2014-09-30 BloomReach Inc. Generating content for topics based on user demand
CN105868290B (zh) * 2012-03-29 2020-03-10 北京奇虎科技有限公司 一种展现搜索结果的方法及装置
US20140089090A1 (en) * 2012-09-21 2014-03-27 Steven Thrasher Searching data storage systems and devices by theme
US9436918B2 (en) * 2013-10-07 2016-09-06 Microsoft Technology Licensing, Llc Smart selection of text spans
US9646047B2 (en) * 2014-09-04 2017-05-09 International Business Machines Corporation Efficient extraction of intelligence from web data
CN105022827B (zh) * 2015-07-23 2016-06-15 合肥工业大学 一种面向领域主题的Web新闻动态聚合方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007129500A (ja) * 2005-11-03 2007-05-24 Usen Corp Cm付コンテンツ視聴システム
US20110178868A1 (en) * 2010-01-21 2011-07-21 Priyank Shanker Garg Enhancing search result pages using content licensed from content providers

Also Published As

Publication number Publication date
US20170140055A1 (en) 2017-05-18
CN107025261B (zh) 2022-06-14
CN107025261A (zh) 2017-08-08
EP3171281A1 (en) 2017-05-24
US10783196B2 (en) 2020-09-22
JP6917138B2 (ja) 2021-08-11

Similar Documents

Publication Publication Date Title
US9785714B2 (en) Method and/or system for searching network content
US8352396B2 (en) Systems and methods for improving web site user experience
US9652550B2 (en) Indexing application pages of native applications
JP6346114B2 (ja) コミュニティ横断検索の方法、記憶媒体、装置
JP4623820B2 (ja) ネットワークベース情報検索システム及びドキュメントサーチ促進方法
US8200617B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
US7657515B1 (en) High efficiency document search
US20110060717A1 (en) Systems and methods for improving web site user experience
JP2009528619A (ja) ウェブ検索の適合性を高めるためにウェブ検索のユーザの振舞いをマイニングすること
KR20160124079A (ko) 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법
US20080140710A1 (en) Systems and methods for providing enhanced job searching
JP6917138B2 (ja) テーマ型Webコーパス
US20110208715A1 (en) Automatically mining intents of a group of queries
US10691746B2 (en) Images for query answers
JP4962980B2 (ja) クリックログを用いた検索結果分類装置及び方法
US7788284B2 (en) System and method for knowledge based search system
JP6162134B2 (ja) ソーシャルページのトリガー
US11176312B2 (en) Managing content of an online information system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210719

R150 Certificate of patent or registration of utility model

Ref document number: 6917138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150