JP4824070B2 - Search processing apparatus, search processing method and program for selecting seed of crawler for specialized search using click log - Google Patents

Search processing apparatus, search processing method and program for selecting seed of crawler for specialized search using click log Download PDF

Info

Publication number
JP4824070B2
JP4824070B2 JP2008281481A JP2008281481A JP4824070B2 JP 4824070 B2 JP4824070 B2 JP 4824070B2 JP 2008281481 A JP2008281481 A JP 2008281481A JP 2008281481 A JP2008281481 A JP 2008281481A JP 4824070 B2 JP4824070 B2 JP 4824070B2
Authority
JP
Japan
Prior art keywords
page
score
search
authority
click
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008281481A
Other languages
Japanese (ja)
Other versions
JP2010108363A (en
Inventor
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008281481A priority Critical patent/JP4824070B2/en
Publication of JP2010108363A publication Critical patent/JP2010108363A/en
Application granted granted Critical
Publication of JP4824070B2 publication Critical patent/JP4824070B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラムに関する。 The present invention, the search processing apparatus for performing a seed selection of specialty search crawler using the click log, about the search process how Ho及 beauty program.

従来、一般的なウェブページの検索において、ウェブページの情報を収集するためのクローラは、全てのウェブページを収集の対象としている。そして、クローラは、一定の周期でWWW(World Wide Web)上のウェブページを収集するように制御されている。   Conventionally, in a general web page search, a crawler for collecting web page information targets all web pages. The crawler is controlled to collect web pages on the WWW (World Wide Web) at regular intervals.

しかし、クローラが全てのウェブページを同一の条件で収集することは非効率的であるため、クローラには、ウェブページを効率的に収集するための様々な技術が用いられている。   However, since it is inefficient for the crawler to collect all web pages under the same conditions, the crawler uses various techniques for efficiently collecting web pages.

このようなクローラの情報収集に関する技術としては、例えば特許文献1のような技術が提案されている。
特開2001−60198号公報
As a technique related to such crawler information collection, for example , a technique as disclosed in Patent Document 1 has been proposed.
JP 2001-60198 A

ここで、特定の専門分野についてのウェブページの検索において、クローラは、一般的なウェブページの検索と同様に全てのウェブページを収集の対象とすると更新頻度が少ないウェブページ等の収集が遅れ、このようなウェブページが検索結果に反映されなくなるおそれがある。   Here, in the search of web pages for a specific specialized field, the crawler delays the collection of web pages that are less frequently updated if all web pages are collected as in the case of general web page searches. Such a web page may not be reflected in search results.

一方、クローラに特定の専門分野向けのシードドキュメントを適用すれば、収集の対象となるウェブページが制限されるため更新頻度の少ないウェブページを検索結果に含むことが可能になる。しかしながら、この場合、本来ならば収集すべきである特定の専門分野のウェブページが収集されないおそれがある。   On the other hand, if a seed document for a specific specialized field is applied to the crawler, web pages to be collected are limited, so that web pages with a low update frequency can be included in the search results. However, in this case, there is a possibility that web pages in a specific specialized field that should be collected are not collected.

そこで、本発明は、特定の専門分野についてのウェブページを効率的に収集し、かつ、ウェブページの収集漏れを抑制することのできる検索処理装置、検索処理方法及びプログラムを提供することを目的とする。 Accordingly, the present invention provides a web page for a particular area of expertise efficiently collected, and the search processing device capable of suppressing the collecting leakage web page, to provide a search process side Ho及 beauty program Objective.

本発明では、以下のような解決手段を提供する。   The present invention provides the following solutions.

(1)ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段と、前記記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出手段と、前記専門分野クリックログ抽出手段により抽出された前記専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出手段と、前記オーソリティページ抽出手段により抽出された前記オーソリティページへのバックリンク及び/又はフォワードリンクを探索する探索手段と、前記オーソリティページ抽出手段により抽出された前記オーソリティページをノードとし、前記探索手段により探索された前記バックリンク及び/又は前記フォワードリンクを有向辺とする有向グラフを生成するグラフ生成手段と、前記グラフ生成手段により生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出手段と、前記スコア算出手段により算出された前記スコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定手段とを備える検索処理装置。 (1) a storage unit that stores a query from a terminal device operated by a user and a click URL selected according to the operation of the terminal device among search results for the query, and the storage unit see, clicking included in the specialized field click logs extracted by specialty click log extracting means and the expertise click log extracting means for extracting a specialization click logs based on keywords characterizing the predetermined areas of expertise be searched and authority pages extracting means for extracting the authority page suitable for searching for the specialty based on click frequency, the back link and / or the forward link to the extracted the authority page by the authority page extraction means for URL and search means exploration that, the authority page Leaving the authority pages extracted by means a node, before and graph generation means for generating a directed graph to directed side of the back link and / or the forward link which is searched by Kisagu search means, said graph generating means If the score calculation means for calculating a score of the authority page is each node of the generated said directed graph, the score calculated by the score calculating means is equal to or greater than a predetermined value, the authority the score is calculated page And a hub page determining unit that determines a hub page for crawling a search target in the predetermined specialized field.

(1)の構成によれば、検索処理装置は、ユーザの操作する端末装置からのクエリと、このクエリに対する検索結果のうち、端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段と、記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出し、抽出した専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて専門分野の検索に適したオーソリティページを抽出する。そして、抽出したオーソリティページへのバックリンクを及び/又はフォワードリンク探索し、抽出したオーソリティページをノードとし、探索したバックリンク及び/又はフォワードリンクを有向辺とする有向グラフを生成する。そして、生成した有向グラフの各ノードであるオーソリティページのスコアを算出し、算出したスコアが所定値以上である場合、このスコアが算出されたオーソリティページを所定の専門分野の検索対象のクロールを行うためのハブページとして決定する。 According to the configuration of (1), the search processing device associates the query from the terminal device operated by the user with the click URL selected according to the operation of the terminal device among the search results for the query. The storage means to be stored and the storage means are referred to, and the specialized field click log is extracted based on the keyword that characterizes the predetermined specialized field, and the specialized field is selected based on the click frequency for the click URL included in the extracted specialized field click log. Extract authority pages suitable for field search. Then, a back link to the extracted authority page and / or a forward link is searched, and a directed graph having the extracted authority page as a node and the searched back link and / or forward link as a directed edge is generated. Then, the score of the authority page that is each node of the generated directed graph is calculated, and when the calculated score is equal to or greater than a predetermined value, the authority page for which the score is calculated is used to crawl the search target in the predetermined specialized field. Determine as the hub page.

これにより、ハブページは、スコアが所定値以上のウェブページであるため、所定の専門分野の検索対象に適した良質なウェブページに接続可能である。したがって、クローラは、ハブページを特定するURLをシードURLとして用いて所定の専門分野の検索対象におけるクロールを行うことにより、少ない時間で多数の良質なウェブページを収集することができる。 Thus, since the hub page is a web page having a score equal to or higher than a predetermined value, the hub page can be connected to a high-quality web page suitable for a search target in a predetermined specialized field. Therefore, the crawler, by performing a crawl in the search target of a given area of expertise by using a URL that identifies the hub page as a seed URL, it is possible to collect a large number of high-quality web pages in less time.

(2)前記スコア算出手段は、前記スコアとして、PageRankのスコア及びHITSによるHubスコアのいずれか一つを算出する(1)に記載の検索処理装置。 (2) The search processing device according to (1), wherein the score calculation means calculates any one of a PageRank score and a HITS Hub score as the score.

(2)の構成によれば、検索処理装置は、スコアとして、PageRankのスコア及びHITSによるHubスコアのいずれか一つを算出する。これにより、シードURLとして好適なURLを抽出することができる。 According to the configuration of (2), the search processing device calculates any one of the PageRank score and the HITS Hub score as the score. Thereby, a URL suitable as a seed URL can be extracted.

(3)ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、前記専門分野クリックログ抽出ステップにより抽出された前記専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、前記オーソリティページ抽出ステップにより抽出された前記オーソリティページのバックリンク及び/又はフォワードリンクを探索する探索ステップと、前記オーソリティページ抽出ステップにより抽出された前記オーソリティページをノードとし、前記探索ステップにより探索された前記バックリンク及び/又は前記フォワードリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、前記スコア算出ステップにより算出された前記スコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとをコンピュータに実行させる検索処理方法。 (3) Refer to a storage unit that associates and stores a query from a terminal device operated by a user and a click URL selected according to the operation of the terminal device among search results for the query, A specialized field click log extraction step for extracting a specialized field click log based on a keyword that characterizes a predetermined specialized field, and a click frequency for a click URL included in the specialized field click log extracted by the specialized field click log extraction step and authority page extraction step of extracting authority page suitable for searching for the specialty based, a back link and / or exploration search steps you search forward link of the authority pages extracted by the authority page extraction step, The authority page Extracted with the authority page node extracted in step, a graph generation step of generating a directed graph to directed side of the back link and / or the forward link that is pre-searched by Kisagu search step, generating step the graph If the score calculation step of calculating a score of the authority page is each node of the generated said directed graph, said score calculated by the score calculating step is a predetermined value or more, the authority the score is calculated page A search processing method for causing a computer to execute a hub page determination step for determining a hub page for crawling a search target in the predetermined specialized field.

(3)の構成によれば、(1)の検索処理装置と同様な作用効果を奏する発明を方法として提供可能である。   According to the configuration of (3), it is possible to provide, as a method, an invention that exhibits the same effects as the search processing device of (1).

(4)ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、前記専門分野クリックログ抽出ステップにより抽出された前記専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、前記オーソリティページ抽出ステップにより抽出された前記オーソリティページのバックリンク及び/又はフォワードリンクを探索する探索ステップと、前記オーソリティページ抽出ステップにより抽出された前記オーソリティページをノードとし、前記探索ステップにより探索された前記バックリンク及び/又は前記フォワードリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、前記スコア算出ステップにより算出された前記スコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとをコンピュータに実行させるコンピュータプログラム。 (4) Referring to a storage unit that associates and stores a query from a terminal device operated by the user and a click URL selected according to the operation of the terminal device among search results for the query, A specialized field click log extraction step for extracting a specialized field click log based on a keyword that characterizes a predetermined specialized field, and a click frequency for a click URL included in the specialized field click log extracted by the specialized field click log extraction step and authority page extraction step of extracting authority page suitable for searching for the specialty based, a back link and / or exploration search steps you search forward link of the authority pages extracted by the authority page extraction step, The authority page Extracted with the authority page node extracted in step, a graph generation step of generating a directed graph to directed side of the back link and / or the forward link that is pre-searched by Kisagu search step, generating step the graph If the score calculation step of calculating a score of the authority page is each node of the generated said directed graph, said score calculated by the score calculating step is a predetermined value or more, the authority the score is calculated page A computer program for causing a computer to execute a hub page determining step for determining a hub page for crawling a search target in the predetermined specialized field.

(4)の構成によれば、(1)の検索処理装置と同様な作用効果を奏する発明をコンピュータプログラムとして提供可能である。   According to the configuration of (4), it is possible to provide an invention that exhibits the same effect as the search processing device of (1) as a computer program.

本発明によれば、特定の専門分野についてのウェブページを効率的に収集し、かつ、ウェブページの収集漏れを抑制することのできる検索処理装置、検索処理方法及びプログラムを提供することができる。 According to the present invention, the web pages for a particular area of expertise efficiently collected, and the search processing device capable of suppressing the collecting leakage web page, to provide a search process side Ho及 beauty program it can.

以下、本発明の実施形態について図を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[全体構成]
図1は、本発明の一実施形態に係る検索システム1を含む構成の概略を示す図である。検索システム1、端末装置3及び外部サーバ4は、ネットワーク2を介して通信可能に接続されている。
[overall structure]
FIG. 1 is a diagram showing an outline of a configuration including a search system 1 according to an embodiment of the present invention. Retrieval system 1, the terminal device 3及 beauty external server 4 is communicably connected via a network 2.

端末装置3は、パソコン、携帯電話機、PHS(Personal Handy−phone System:登録商標)、モバイル、ノートPC、PDA(Personal Digital Assistant)等の端末装置を代表とするものであり、有線又は無線通信を行うネットワーク2を介して、検索システム1から送信される情報を参照できるものであればどのようなものでもよい。また、検索システム1は、必要に応じてウェブサーバ、データベース(以下、データベースをDBという)サーバ及びアプリケーションサーバを含んで構成してよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。また、検索システム1は、検索処理装置20を含んで構成される。 The terminal device 3 is represented by a terminal device such as a personal computer, a mobile phone, a PHS (Personal Handy-phone System: registered trademark), a mobile, a notebook PC, or a PDA (Personal Digital Assistant), and performs wired or wireless communication. Any information can be used as long as the information transmitted from the search system 1 can be referred to via the network 2 to be performed. Further, the search system 1 may be configured to include a web server, a database (hereinafter referred to as DB) server, and an application server as necessary. It may be configured. The search system 1 includes a search processing device 20.

[検索処理装置20のハードウェア構成]
図2は、本実施形態の検索処理装置20のハードウェア構成を示す図である。図2に示すように、制御部200を構成するCPU(Central Processing Unit)210(マルチプロセッサ構成ではCPU220等複数のCPUが追加されてもよい)、バスライン100、通信I/F(I/F:インタフェース)230、メインメモリ240、BIOS(Basic Input Output System)250、I/Oコントローラ260、ハードディスク270、光ディスクドライブ280及び半導体メモリ290を備える。なお、ハードディスク270、光ディスクドライブ280及び半導体メモリ290はまとめて記憶装置310と呼ばれる。
[Hardware Configuration of Search Processing Device 20]
FIG. 2 is a diagram illustrating a hardware configuration of the search processing device 20 according to the present embodiment. As shown in FIG. 2, a central processing unit (CPU) 210 (a plurality of CPUs such as CPU 220 may be added in a multiprocessor configuration), a bus line 100, a communication I / F (I / F) Interface) 230, main memory 240, BIOS (Basic Input Output System) 250, I / O controller 260, hard disk 270, optical disk drive 280, and semiconductor memory 290. Incidentally, a hard disk 270, optical disk drive 280 and semiconductor memory 290 are collectively referred to as storage device 310.

制御部200は、検索処理装置20を統括的に制御する部分であり、ハードディスク270に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本実施形態に係る各種機能を実現している。 The control unit 200 is a part that controls the search processing device 20 in an integrated manner, and by appropriately reading and executing various programs stored in the hard disk 270, the control unit 200 cooperates with the hardware described above, and relates to the present embodiment. Various functions are realized.

通信I/F230は、検索処理装置20がネットワーク2を介して端末装置3等の他の装置と情報を送受信する場合のネットワーク・アダプタである。   The communication I / F 230 is a network adapter when the search processing device 20 transmits / receives information to / from other devices such as the terminal device 3 via the network 2.

BIOS250は、検索処理装置20の起動時にCPU210が実行するブートプログラムや、検索処理装置20のハードウェアに依存するプログラム等を記録する。   The BIOS 250 records a boot program executed by the CPU 210 when the search processing device 20 is started, a program depending on the hardware of the search processing device 20, and the like.

I/Oコントローラ260には、ハードディスク270、光ディスクドライブ280及び半導体メモリ290等の記憶装置310を接続することができる。 The I / O controller 260 can be connected hard disk 270, the optical disk drive 28 0及 beauty semiconductor memory 290 or the like of the storage device 310.

ハードディスク270は、本ハードウェアを検索処理装置20として機能させるための各種プログラム、本実施形態の機能を実行するプログラム及び後述するデータベース等を記憶する。なお、検索処理装置20は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。 The hard disk 270 stores various programs for causing the hardware to function as the search processing device 20, a program for executing the functions of the present embodiment , a database to be described later, and the like. Note that the search processing device 20 can also use a hard disk (not shown) separately provided as an external storage device.

光ディスクドライブ280としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ及びCD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク300を使用する。光ディスク300から光ディスクドライブ280によりプログラム又はデータを読み取り、I/Oコントローラ260を介してメインメモリ240又はハードディスク270に提供することもできる。 As the optical disk drive 280, for example, a DVD-ROM drive, a CD-ROM drive, a DVD-RAM drive, and a CD-RAM drive can be used. In this case, the optical disc 300 corresponding to each drive is used. A program or data can be read from the optical disk 300 by the optical disk drive 280 and provided to the main memory 240 or the hard disk 270 via the I / O controller 260.

なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、検索処理装置20は、記憶装置310、制御部200等を備えた情報処理装置により構成される。   The computer referred to in the present invention refers to an information processing device including a storage device, a control unit, and the like, and the search processing device 20 includes an information processing device including a storage device 310, a control unit 200, and the like.

以上の例は、検索処理装置20について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した検索処理装置20により実現される機能は、上述の方法を当該コンピュータにより実行することにより、又は上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。 In the above example, the search processing device 20 has been mainly described. However, the functions described above can also be realized by installing a program in a computer and operating the computer as a server device. Therefore, the functions realized by the search processing device 20 described as an embodiment in the present invention can be executed by executing the above-described method by the computer, or by introducing the above-described program into the computer and executing it. It is feasible.

[検索システム1の機能構成]
図3は、本実施形態の検索システム1の機能構成を示す機能ブロック図である。検索システム1は、検索エンジン11と、検索処理装置20と、シードDB31と、クローラ32とを備える。
[Functional configuration of search system 1]
FIG. 3 is a functional block diagram showing a functional configuration of the search system 1 of the present embodiment. The search system 1 includes a search engine 11, a search processing device 20, a seed DB 31, and a crawler 32.

検索エンジン11は、端末装置3からクエリを受け付け、受け付けたクエリに応じたURLを含む情報を検索結果として端末装置3へ提示する。端末装置3を操作するユーザは、検索結果の中から任意のURLを選択し、外部サーバ4にて管理されるウェブページを閲覧する。   The search engine 11 receives a query from the terminal device 3 and presents information including a URL corresponding to the received query to the terminal device 3 as a search result. A user who operates the terminal device 3 selects an arbitrary URL from the search results and browses a web page managed by the external server 4.

検索処理装置20は、クリックログDB12(記憶手段)と、抽出部21(専門分野クリックログ抽出手段)と、オーソリティページ抽出部22(オーソリティページ抽出手段)と、探索部23(探索手段)と、グラフ生成部24(グラフ生成手段)と、スコア算出部25(スコア算出手段)と、スコア判定部26と、ハブページ決定部27(ハブページ決定手段)と、オーソリティページDB28と、を備える。 Search processor 20, click logs DB12 (storage means), an extraction unit 21 (specialization click log extracting means), and authority page extraction unit 22 (authority page extraction means), a search unit 23 (probe search means) A graph generation unit 24 (graph generation unit), a score calculation unit 25 (score calculation unit), a score determination unit 26, a hub page determination unit 27 (hub page determination unit), and an authority page DB 28.

クリックログDB12は、ユーザの操作する端末装置3からのクエリに対する検索エンジン11による検索結果のうち、端末装置3の操作に応じて選択されたURL(以下、クリックURLという)を記憶する。図4は、クリックログDB12に記憶されるクリックURLの一例を示すクリックデータテーブルである。図4に示すように、クリックログDB12には、クリックURLを選択した端末装置3のIPアドレスと、クリックURLを選択した時間と、セッションと、クリックURLの検索ランクと、クエリと、クリックURLとを対応付けさせて記憶させている。   The click log DB 12 stores a URL (hereinafter referred to as a click URL) selected according to the operation of the terminal device 3 among the search results by the search engine 11 for the query from the terminal device 3 operated by the user. FIG. 4 is a click data table showing an example of the click URL stored in the click log DB 12. As shown in FIG. 4, the click log DB 12 includes an IP address of the terminal device 3 that has selected the click URL, a time at which the click URL is selected, a session, a search rank of the click URL, a query, and a click URL. Are stored in association with each other.

また、クリックログDB12は、任意のURLからのリンク先、又はリンク元を示すURL接続テーブルが記憶される。図5は、URL接続テーブルの一例を示す図である。図5に示すように、クリックログDB12には、URL接続テーブルとして、URLと、URLのリンク先と、URLのリンク元とを記憶させている。   The click log DB 12 stores a URL connection table indicating a link destination or link source from an arbitrary URL. FIG. 5 is a diagram illustrating an example of the URL connection table. As shown in FIG. 5, the click log DB 12 stores a URL, a URL link destination, and a URL link source as a URL connection table.

制御部200は、機能部として、抽出部21と、オーソリティページ抽出部22と、探索部23と、グラフ生成部24と、スコア算出部25と、スコア判定部26と、ハブページ決定部27とを有する。また、クリックログDB12及びオーソリティページDB28は、記憶装置310内に格納される。   The control unit 200 includes, as function units, an extraction unit 21, an authority page extraction unit 22, a search unit 23, a graph generation unit 24, a score calculation unit 25, a score determination unit 26, and a hub page determination unit 27. Have The click log DB 12 and the authority page DB 28 are stored in the storage device 310.

抽出部21は、検索対象としての所定の専門分野を特徴付けるキーワードに基づいて、専門分野のクリックログであるクエリ及びクリックURLをクリックログDB12から抽出する。所定の専門分野の検索対象としては、例えば、学術的な分野や、画像、WWW(World Wide Web)上で商取引が行われる商品、音声、音楽等が挙げられる。   The extraction unit 21 extracts a query that is a click log of a specialized field and a click URL from the click log DB 12 based on a keyword that characterizes a predetermined specialized field as a search target. Examples of search subjects in a predetermined specialized field include academic fields, images, products that are traded on the World Wide Web (WWW), voice, music, and the like.

具体的には、図4に示すクリックログDB12から、専門分野として「火山」が検索対象である場合、抽出部21は、専門分野を特徴付けるキーワードとして、「火山」に関連する文字列を含むクエリに対応するクリックURLをクリックログDB12から全て抽出する。   Specifically, from the click log DB 12 illustrated in FIG. 4, when “volcano” is a search target as a specialized field, the extraction unit 21 includes a query including a character string related to “volcano” as a keyword that characterizes the specialized field. All click URLs corresponding to are extracted from the click log DB 12.

また、専門分野として「画像」が検索対象である場合、抽出部21は、専門分野を特徴付けるキーワードとして、「画像」に関連する文字列である「画像」、「jpeg」及び「jpg」を含むクエリに対応するクリックURLをクリックログDB12から全て抽出する。 When “image” is a search target as a specialized field, the extraction unit 21 includes “image”, “jpeg”, and “jpg” that are character strings related to “image” as keywords that characterize the specialized field. All click URLs corresponding to the queries are extracted from the click log DB 12.

なお、専門分野と、その専門分野を特徴付けるキーワードとは、一致してもよく、専門分野と、その専門分野を特徴付けるキーワードとが一致しない場合は、予め記憶装置310に専門分野及びその専門分野を特徴付けるキーワードを記憶させてもよい。   Note that the specialized field and the keyword that characterizes the specialized field may match, and if the specialized field and the keyword that characterizes the specialized field do not match, the specialized field and the specialized field are stored in the storage device 310 in advance. You may memorize | store the keyword to characterize.

オーソリティページ抽出部22は、抽出部21により抽出されたクリックURLに基づいて、オーソリティページを抽出する。具体的には、オーソリティページ抽出部22は、抽出部21によりクリックログDB12から抽出したクリックURLが端末装置3により選択された頻度であるクリック頻度を算出する。   The authority page extraction unit 22 extracts the authority page based on the click URL extracted by the extraction unit 21. Specifically, the authority page extraction unit 22 calculates a click frequency that is the frequency at which the click URL extracted from the click log DB 12 by the extraction unit 21 is selected by the terminal device 3.

そして、オーソリティページ抽出部22は、算出したクリック頻度が一定値以上であるか否かを判定する。クリック頻度が一定値以上である場合、オーソリティページ抽出部22は、そのクリック頻度に対応するクリックURLにより特定されるウェブページをオーソリティページとして、オーソリティページDB28に記憶する。図6は、オーソリティページDB28に記憶されるクリックURLの一例を示すテーブルである。   And the authority page extraction part 22 determines whether the calculated click frequency is more than a fixed value. When the click frequency is equal to or higher than a certain value, the authority page extraction unit 22 stores the web page specified by the click URL corresponding to the click frequency as the authority page in the authority page DB 28. FIG. 6 is a table showing an example of the click URL stored in the authority page DB 28.

なお、オーソリティページ抽出部22は、クリック頻度に基づいてオーソリティページを抽出したがこれに限らず、クリックURLに関連するデータを用いてオーソリティページを抽出することができる。例えば、クリックURLに対するドメイン名からオーソリティページを抽出してもよい。   Although the authority page extraction unit 22 extracts the authority page based on the click frequency, the authority page can be extracted using data related to the click URL. For example, the authority page may be extracted from the domain name for the click URL.

探索部23は、少なくとも、オーソリティページ抽出部22により抽出されたオーソリティページへのバックリンクを探索する。具体的には、探索部23は、URL接続テーブルを参照して、オーソリティページDB28に記憶された各々のオーソリティページについてのリンク先(バックリンク)及び/又はリンク元(フォワードリンク)のURLを探索する。 The search unit 23 searches for a back link to at least the authority page extracted by the authority page extraction unit 22. Specifically, the search unit 23 refers to the URL connection table and searches for the link destination (back link) and / or link source (forward link) URL for each authority page stored in the authority page DB 28. To do.

グラフ生成部24は、オーソリティページ抽出部22により抽出されたオーソリティページをノードとして用い、探索部23により探索されたバックリンク及び/又はフォワードリンクのURLを有向辺として用い、これらのノードと有向辺とから構成される有向グラフを生成する。 The graph generation unit 24 uses the authority page extracted by the authority page extraction unit 22 as a node, and uses the URL of the back link and / or the forward link searched by the search unit 23 as a directed side. Generates a directed graph composed of directional edges.

図7は、図5に示したURL接続テーブルに基づいて、グラフ生成部24により作成されたグラフGを示す模式図である。図7に示すように、有向グラフであるグラフGは、各々のオーソリティページを特定するURLからなるノードと、URLのバックリンク及び/又はフォワードリンクからなる有向辺とから構成される。 FIG. 7 is a schematic diagram showing a graph G created by the graph generation unit 24 based on the URL connection table shown in FIG. As shown in FIG. 7, the graph G, which is a directed graph, includes nodes that are URLs that specify each authority page, and directed edges that are URL backlinks and / or forward links.

スコア算出部25は、グラフ生成部24により生成された有向グラフの各ノードであるオーソリティページのスコアを算出する。   The score calculation unit 25 calculates the score of the authority page that is each node of the directed graph generated by the graph generation unit 24.

オーソリティページのスコアを算出する手法としては、例えばPageRank(登録商標)のスコアや、HITS(Hyperlink Induced Topic Search)によるHubスコア等の公知の手法を用いることができる。 As a technique for calculating the score of the authority page, for example , a known technique such as a PageRank (registered trademark) score or a Hub score by HITS (Hyperlink Induced Topic Search) can be used.

PageRankをウェブページのスコアとして用いる場合、主として式(1)を用いて処理を行うことによりPageRankを算出することができる。   When using PageRank as the score of a web page, it is possible to calculate PageRank by performing processing mainly using Expression (1).

ページT1,T2,・・・,TNからリンクされているページAのPageRankのスコアであるPR(A)は、式(1)により定義される。   PR (A) that is the score of PageRank of page A linked from pages T1, T2,..., TN is defined by equation (1).

PR(A)=(1−d)+d(PR(T1)/C(T1)+PR(T2)/C(T2)+・・・+PR(TN)/C(TN))・・・(1)
ただし、0≦d≦1
PR (A) = (1−d) + d (PR (T1) / C (T1) + PR (T2) / C (T2) +... + PR (TN) / C (TN)) (1)
However, 0 ≦ d ≦ 1

HITSは、ページnのオーソリティスコアauth(n)と、ハブスコアhub(n)からなり、以下のように定義される。   HITS is composed of an authority score auth (n) of page n and a hub score hub (n), and is defined as follows.

全てのページのauth(n)=hub(n)=1・・・(2)   Auth (n) = hub (n) = 1 of all pages (2)

オーソリティスコア及びハブスコアが収束するまで以下の式(3)及び(4)の処理を繰り返す。   The processing of the following formulas (3) and (4) is repeated until the authority score and the hub score converge.

auth(n)=Σhub(m) for all m(m→n)・・・(3)   auth (n) = Σhub (m) for all m (m → n) (3)

hub(n)=Σauth(m) for all m(m→n)・・・(4)   hub (n) = Σauth (m) for all m (m → n) (4)

スコア判定部26は、スコア算出部25により算出されたスコア、すなわちPageRankのスコア又はHubスコアが所定値以上であるか判定する。 Scoring unit 26 determines whether the score calculated by the score calculation unit 25, i.e. score or Hub scores PageRank is a predetermined value or more.

ハブページ決定部27は、スコア判定部26によりスコアが所定値以上であると判定された場合、そのスコアが算出されたオーソリティページを、所定の専門分野の検索対象のクロールを行うためのハブページとして決定する。そして、ハブページ決定部27は、決定したハブページを特定するためURLをシードURLとして、シードDB31に記憶させる。   When the score determination unit 26 determines that the score is equal to or greater than a predetermined value, the hub page determination unit 27 uses the authority page for which the score is calculated to crawl the search target in a predetermined specialized field. Determine as. Then, the hub page determination unit 27 stores the URL as a seed URL in the seed DB 31 in order to specify the determined hub page.

シードDB31は、図8に示すように、クローラ32が所定の専門分野の検索対象のクロールを行うためのシードURLを記憶する。   As illustrated in FIG. 8, the seed DB 31 stores a seed URL for the crawler 32 to crawl a search target in a predetermined specialized field.

クローラ32は、ネットワーク2を介して、WWW33上のウェブページ等の文書情報を収集する。なお、クローラとは一般的に検索ロボットともいわれ、ネットワーク2を通じて、ウェブページ等を収集するプログラムである。そして、クローラが、ウェブサイトを探し出す手段や、対象とするウェブページの種類は様々であり、クローラの管理者の設定により、収集されるウェブページの種類や分野も異なる。ここで、本実施形態のクローラ32は、少なくともシードDB31に記憶されたシードURLに基づいて、ウェブサイトを探し出し、ウェブページを収集する。   The crawler 32 collects document information such as a web page on the WWW 33 via the network 2. The crawler is generally called a search robot, and is a program that collects web pages and the like through the network 2. There are various means for the crawler to search for a website and the types of target web pages, and the types and fields of collected web pages vary depending on the settings of the crawler administrator. Here, the crawler 32 of the present embodiment searches for a website based on at least the seed URL stored in the seed DB 31, and collects web pages.

このように、本実施形態の検索処理装置20によれば、クリックログDB12を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野のクエリ及びクリックURLを抽出し、抽出したクリックURLに対するクリック頻度に基づいて、専門分野の検索に適したオーソリティページを抽出する。そして、抽出したオーソリティページへのバックリンク及び/又はフォワードリンクを探索し、抽出したオーソリティページをノードとし、探索したバックリンク及び/又はフォワードリンクを有向辺とする有向グラフを生成する。そして、生成した有向グラフの各ノードであるオーソリティページのスコアを算出し、算出したスコアが所定値以上である場合、このスコアが算出されたオーソリティページを所定の専門分野の検索対象のクロールを行うためのハブページとして決定する。 As described above, according to the search processing device 20 of the present embodiment, referring to the click log DB 12, the query and click URL of the specialized field are extracted based on the keyword characterizing the predetermined specialized field, and the extracted click URL is extracted. Based on the click frequency, an authority page suitable for a specialized field search is extracted. Then, a back link and / or forward link to the extracted authority page is searched, and a directed graph is generated with the extracted authority page as a node and the searched back link and / or forward link as a directed edge. Then, the score of the authority page that is each node of the generated directed graph is calculated, and when the calculated score is equal to or greater than a predetermined value, the authority page for which the score is calculated is used to crawl the search target in the predetermined specialized field. Determine as the hub page.

ハブページは、スコアが所定値以上のウェブページであり、所定の専門分野の検索対象に適した良質なウェブページに接続可能である。したがって、クローラは、ハブページを特定するURLをシードURLとして用いて所定の専門分野の検索対象におけるクロールを行うことにより、少ない時間で多数の良質なウェブページを収集することができる。   The hub page is a web page having a score equal to or higher than a predetermined value, and can be connected to a high-quality web page suitable for a search target in a predetermined specialized field. Therefore, the crawler can collect a large number of high-quality web pages in a short time by performing crawling on a search target in a predetermined specialized field using a URL specifying a hub page as a seed URL.

また、良質なウェブページに接続可能なシードURLへのクロールを優先的に行うことにより、より良質なウェブページを頻繁に収集し、収集されたウェブページをクエリに対する検索結果に反映することができる。   In addition, by preferentially crawling to a seed URL that can be connected to a high-quality web page, it is possible to frequently collect higher-quality web pages and reflect the collected web pages in search results for queries. .

また、本実施形態の検索処理装置20によれば、スコアとして、PageRankのスコア及びHITSによるHubスコアのいずれか一つを算出する。これにより、シードURLとして好適なURLを抽出することができる。 Further, according to the search processing device 20 of the present embodiment, any one of a PageRank score and a HITS Hub score is calculated as the score. Thereby, a URL suitable as a seed URL can be extracted.

また、本実施形態の検索処理装置20によれば、学術分野、画像、音声、音楽及び商品情報を検索対象とした専門分野についてのクロールを好適に実行することができる。 Further, according to the search processing apparatus 20 of the present embodiment, it is possible to suitably perform a crawl of disciplines, image, audio, disciplines and a sound Raku及 beauty product information search.

[処理の流れ]
次に、本実施形態の検索処理装置20の処理の流れについて図9のフローチャートを参照しながら説明する。
[Process flow]
Next, the processing flow of the search processing device 20 of this embodiment will be described with reference to the flowchart of FIG.

ステップS1において、抽出部21は、検索対象である専門分野を特徴付けるキーワードに基づいて、その専門分野に関する文字列を含むクエリに対応したクリックURLを、クリックログDB12から全て抽出する。   In step S <b> 1, the extraction unit 21 extracts all click URLs corresponding to the query including the character string related to the specialized field from the click log DB 12 based on the keyword characterizing the specialized field to be searched.

ステップS2において、オーソリティページ抽出部22は、抽出部21によりクリックログDB12から抽出したクリックURLを集計して、クリックURLが端末装置3により選択された頻度であるクリック頻度を算出する。   In step S <b> 2, the authority page extraction unit 22 aggregates the click URLs extracted from the click log DB 12 by the extraction unit 21, and calculates a click frequency that is the frequency with which the click URL is selected by the terminal device 3.

ステップS3において、オーソリティページ抽出部22は、ステップS2において算出したクリック頻度が一定値以上であるか否かを判定する。クリック頻度が一定値以上である場合(Yes)には、ステップS4へ移る。一方、クリック頻度が一定値未満である場合(No)には、一連の処理を終了する。   In step S3, the authority page extraction unit 22 determines whether or not the click frequency calculated in step S2 is a certain value or more. If the click frequency is greater than or equal to a certain value (Yes), the process proceeds to step S4. On the other hand, if the click frequency is less than a certain value (No), the series of processes is terminated.

ステップS4において、オーソリティページ抽出部22は、ステップS3において判定されたクリック頻度に対応するクリックURLにより特定されるウェブページをオーソリティページとしてオーソリティページDB28に記憶する。   In step S4, the authority page extraction unit 22 stores the web page specified by the click URL corresponding to the click frequency determined in step S3 in the authority page DB 28 as the authority page.

ステップS5において、探索部23は、URL接続テーブルを参照して、オーソリティページDB28に記憶された各々のオーソリティページについてのバックリンク及び/又はフォワードリンクのURLを探索する。 In step S5, the search unit 23 searches the URL of the back link and / or forward link for each authority page stored in the authority page DB 28 with reference to the URL connection table.

ステップS6において、グラフ生成部24は、ステップS5におけるオーソリティページのバックリンク及び/又はフォワードリンクのウェブページのURLの探索が所定回数以上であるか否か判定する。URLの探索が所定回数以上である場合(Yes)には、ステップS7へ移る。一方、URLの探索が所定回数未満である場合(No)には、一連の処理を終了する。 In step S <b > 6, the graph generation unit 24 determines whether or not the search for the URL of the authority page back link and / or forward link web page in step S <b > 5 is a predetermined number of times or more. If the URL search is more than the predetermined number of times (Yes), the process proceeds to step S7. On the other hand, if the URL search is less than the predetermined number of times (No), the series of processing is terminated.

ステップS7において、グラフ生成部24は、オーソリティページを特定するURLをノードとして用い、各々のオーソリティページについてのバックリンク及び/又はフォワードリンクを有向辺として用いて、これらのノードと有向辺とから構成される有向グラフを生成する。 In step S7, the graph generation unit 24 uses the URL that specifies the authority page as a node, and uses the back link and / or the forward link for each authority page as the directed side, and uses these nodes and the directed side. Generate a directed graph consisting of

ステップS8において、スコア算出部25は、グラフ生成部24により生成されたグラフの各ノードであるオーソリティページのスコアを算出する。   In step S <b> 8, the score calculation unit 25 calculates the score of the authority page that is each node of the graph generated by the graph generation unit 24.

ステップS9において、スコア判定部26は、スコア算出部25により算出されたスコアが所定値以上であるか判定する。スコアが所定値以上である場合(Yes)には、ステップS10へ移る。一方、スコアが所定値未満である場合(No)には、一連の処理を終了する。   In step S9, the score determination unit 26 determines whether the score calculated by the score calculation unit 25 is greater than or equal to a predetermined value. If the score is greater than or equal to the predetermined value (Yes), the process moves to step S10. On the other hand, when the score is less than the predetermined value (No), the series of processes is terminated.

ステップS10において、ハブページ決定部27は、ステップS8において算出されたスコアに基づくオーソリティページを、専門分野の検索対象のクロールを行うためのハブページとして決定し、決定したハブページを特定するURLをシードURLとしてシードDB31に記憶させる。 In step S10, the hub page determination section 27, the authority page based on the score calculated in step S8, and determines as a Habupe di for searching crawled disciplines, identifying the determined hub pages The URL is stored in the seed DB 31 as a seed URL.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

本発明の一実施形態に係る検索システム1を含む構成の概略を示す図である。It is a figure showing an outline of composition containing search system 1 concerning one embodiment of the present invention. 本実施形態の検索処理装置20のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the search processing apparatus 20 of this embodiment. 本実施形態の検索システム1の機能構成を示す機能ブロック図である。It is a functional block diagram which shows the function structure of the search system 1 of this embodiment. クリックログDB12に記憶されるクリックURLの一例を示すテーブルである。It is a table which shows an example of click URL memorize | stored in click log DB12. URL接続テーブルの一例を示す図である。It is a figure which shows an example of a URL connection table. オーソリティページDB28に記憶されるオーソリティページの一例を示すテーブルである。It is a table which shows an example of the authority page memorize | stored in authority page DB28. グラフ生成部24により作成されたグラフGを示す模式図である。FIG. 4 is a schematic diagram showing a graph G created by a graph generation unit 24. シードURLの一例を示すテーブルである。It is a table which shows an example of seed URL. 本実施形態の検索処理装置20の処理の流れについて示すフローチャートである。It is a flowchart shown about the flow of a process of the search processing apparatus 20 of this embodiment.

1 検索システム
2 ネットワーク
3 端末装置
4 外部サーバ
11 検索エンジン
12 クリックログDB(記憶手段)
20 検索処理装置
21 抽出部(専門分野クリックログ抽出手段)
22 オーソリティページ抽出部(オーソリティページ抽出手段)
23 探索部(探索手段)
24 グラフ生成部(グラフ生成手段)
25 スコア算出部(スコア算出手段)
26 スコア判定部
27 ハブページ決定部(ハブページ決定手段)
28 オーソリティページDB
31 シードDB
32 クローラ
DESCRIPTION OF SYMBOLS 1 Search system 2 Network 3 Terminal device 4 External server 11 Search engine 12 Click log DB (storage means)
20 Search processing device 21 Extraction unit (Special field click log extraction means)
22 Authority Page Extraction Unit (Authority Page Extraction Means)
23 search unit (probe search means)
24 Graph generation unit (graph generation means)
25 Score calculation unit (score calculation means)
26 Score determination unit 27 Hub page determination unit (hub page determination means)
28 Authority Page DB
31 Seed DB
32 crawler

Claims (4)

ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段と、
前記記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出手段と、
前記専門分野クリックログ抽出手段により抽出された前記専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出手段と、
前記オーソリティページ抽出手段により抽出された前記オーソリティページへのバックリンク及び/又はフォワードリンクを探索する探索手段と、
前記オーソリティページ抽出手段により抽出された前記オーソリティページをノードとし、前記探索手段により探索された前記バックリンク及び/又は前記フォワードリンクを有向辺とする有向グラフを生成するグラフ生成手段と、
前記グラフ生成手段により生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出手段と、
前記スコア算出手段により算出された前記スコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定手段とを備える検索処理装置。
A storage unit that associates and stores a query from a terminal device operated by a user and a click URL selected according to an operation of the terminal device among search results for the query;
A specialized field click log extracting means for extracting a specialized field click log based on a keyword characterizing a predetermined specialized field with reference to the storage means;
Authority page extraction means for extracting an authority page suitable for searching in the specialized field based on a click frequency for a click URL included in the specialized field click log extracted by the specialized field click log extracting means;
And search means exploration you search back link and / or the forward link to the extracted the authority page by the authority page extraction means,
A graph generating means and extracted the authority pages node, generating a directed graph to directed side of the back link and / or the forward link which is searched by the pre Kisagu search unit by the authority page extraction means,
Score calculating means for calculating a score of the authority page that is each node of the directed graph generated by the graph generating means;
If the score calculated by the score calculating means is equal to or greater than a predetermined value, the hub page determining means for determining the authority pages in which the score is calculated as a hub page for searching crawled the predetermined areas of expertise A search processing apparatus comprising:
前記スコア算出手段は、前記スコアとして、PageRankのスコア及びHITSによるHubスコアのいずれか一つを算出する請求項1に記載の検索処理装置。 The search processing device according to claim 1, wherein the score calculation unit calculates one of a PageRank score and a HITS Hub score as the score. ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、
前記専門分野クリックログ抽出ステップにより抽出された前記専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、
前記オーソリティページ抽出ステップにより抽出された前記オーソリティページのバックリンク及び/又はフォワードリンクを探索する探索ステップと、
前記オーソリティページ抽出ステップにより抽出された前記オーソリティページをノードとし、前記探索ステップにより探索された前記バックリンク及び/又は前記フォワードリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、
前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、
前記スコア算出ステップにより算出された前記スコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとをコンピュータに実行させる検索処理方法。
Referring to a storage unit that associates and stores a query from a terminal device operated by a user and a click URL selected according to the operation of the terminal device among search results for the query, and stores a predetermined specialization A specialized field click log extraction step for extracting a specialized field click log based on a keyword characterizing the field;
An authority page extracting step for extracting an authority page suitable for searching the specialized field based on a click frequency for a click URL included in the specialized field click log extracted by the specialized field click log extracting step;
A search step exploration you search back link and / or the forward link of the authority pages extracted by the authority page extraction step,
And graph generation step of the authority page extracting the authority page and node extracted in step, to generate a directed graph with a directed edge of the back link and / or the forward link that is pre-searched by Kisagu search step,
A score calculating step of calculating a score of the authority page that is each node of the directed graph generated by the graph generating step;
If the said score calculated by the score calculating step is a predetermined value or more, the hub page determining step of determining a authority page to which the score is calculated as a hub page for searching crawled the predetermined areas of expertise A search processing method for causing a computer to execute .
ユーザの操作する端末装置からのクエリと、当該クエリに対する検索結果のうち、前記端末装置の操作に応じて選択されたクリックURLとを対応付けさせて記憶させる記憶手段を参照して、所定の専門分野を特徴付けるキーワードに基づいて専門分野クリックログを抽出する専門分野クリックログ抽出ステップと、
前記専門分野クリックログ抽出ステップにより抽出された前記専門分野クリックログに含まれるクリックURLに対するクリック頻度に基づいて前記専門分野の検索に適したオーソリティページを抽出するオーソリティページ抽出ステップと、
前記オーソリティページ抽出ステップにより抽出された前記オーソリティページのバックリンク及び/又はフォワードリンクを探索する探索ステップと、
前記オーソリティページ抽出ステップにより抽出された前記オーソリティページをノードとし、前記探索ステップにより探索された前記バックリンク及び/又は前記フォワードリンクを有向辺とする有向グラフを生成するグラフ生成ステップと、
前記グラフ生成ステップにより生成された前記有向グラフの各ノードである前記オーソリティページのスコアを算出するスコア算出ステップと、
前記スコア算出ステップにより算出された前記スコアが所定値以上である場合、当該スコアが算出されたオーソリティページを前記所定の専門分野の検索対象のクロールを行うためのハブページとして決定するハブページ決定ステップとをコンピュータに実行させるコンピュータプログラム。
Referring to a storage unit that associates and stores a query from a terminal device operated by a user and a click URL selected according to the operation of the terminal device among search results for the query, and stores a predetermined specialization A specialized field click log extraction step for extracting a specialized field click log based on a keyword characterizing the field;
An authority page extracting step for extracting an authority page suitable for searching the specialized field based on a click frequency for a click URL included in the specialized field click log extracted by the specialized field click log extracting step;
A search step exploration you search back link and / or the forward link of the authority pages extracted by the authority page extraction step,
And graph generation step of the authority page extracting the authority page and node extracted in step, to generate a directed graph with a directed edge of the back link and / or the forward link that is pre-searched by Kisagu search step,
A score calculating step of calculating a score of the authority page that is each node of the directed graph generated by the graph generating step;
If the said score calculated by the score calculating step is a predetermined value or more, the hub page determining step of determining a authority page to which the score is calculated as a hub page for searching crawled the predetermined areas of expertise A computer program that causes a computer to execute.
JP2008281481A 2008-10-31 2008-10-31 Search processing apparatus, search processing method and program for selecting seed of crawler for specialized search using click log Expired - Fee Related JP4824070B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008281481A JP4824070B2 (en) 2008-10-31 2008-10-31 Search processing apparatus, search processing method and program for selecting seed of crawler for specialized search using click log

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008281481A JP4824070B2 (en) 2008-10-31 2008-10-31 Search processing apparatus, search processing method and program for selecting seed of crawler for specialized search using click log

Publications (2)

Publication Number Publication Date
JP2010108363A JP2010108363A (en) 2010-05-13
JP4824070B2 true JP4824070B2 (en) 2011-11-24

Family

ID=42297735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008281481A Expired - Fee Related JP4824070B2 (en) 2008-10-31 2008-10-31 Search processing apparatus, search processing method and program for selecting seed of crawler for specialized search using click log

Country Status (1)

Country Link
JP (1) JP4824070B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2518024B1 (en) 2009-12-22 2018-11-21 Nippon Shokubai Co., Ltd. Catalyst for treatment of waste water, and method for treatment of waste water using the catalyst
CN103793421B (en) * 2012-10-31 2017-07-07 北京拓尔思信息技术股份有限公司 Information dynamic collection based on structure of web page updates dispatching method
CN103116660A (en) * 2013-03-15 2013-05-22 人民搜索网络股份公司 Method and device for acquiring website authority values
JP6510452B2 (en) * 2016-03-18 2019-05-08 Jcc株式会社 Search server, search system, search information distribution system, search program, search information distribution program
JP6976183B2 (en) * 2018-01-29 2021-12-08 ヤフー株式会社 Extractor, extraction method, and extraction program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263448A (en) * 2002-03-11 2003-09-19 Toshiba Corp Web COLLECTION PROGRAM, SYSTEM AND METHOD

Also Published As

Publication number Publication date
JP2010108363A (en) 2010-05-13

Similar Documents

Publication Publication Date Title
US10929487B1 (en) Customization of search results for search queries received from third party sites
KR101934449B1 (en) Method and system for dynamically rankings images to be matched with content in response to a search query
JP4908422B2 (en) Link-based spam detection
JP5638031B2 (en) Rating method, search result classification method, rating system, and search result classification system
JP5084858B2 (en) Summary creation device, summary creation method and program
JP5494454B2 (en) Search result generation method, search result generation program, and search system
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US20080222138A1 (en) Method and Apparatus for Constructing a Link Structure Between Documents
JP2009282957A (en) Document processing system and document processing method
JP4824070B2 (en) Search processing apparatus, search processing method and program for selecting seed of crawler for specialized search using click log
JP2009122807A (en) Associative retrieval system
Gurrin et al. Replicating web structure in small-scale test collections
JP2001188802A (en) Device and method for retrieving information
JP4759600B2 (en) Text search device, text search method, text search program and recording medium thereof
JP5286007B2 (en) Document search device, document search method, and document search program
JP2010286888A (en) Information collection system, information collection method, and program therefor
JP5384884B2 (en) Information retrieval apparatus and information retrieval program
JP4962973B2 (en) Search server, method and program
JP5358481B2 (en) Document search apparatus, document search method, and document search program
JP5389683B2 (en) Important keyword extraction apparatus, method and program
JP4208402B2 (en) Document search apparatus, document search method, and recording medium
JP2004264928A (en) In-web site retrieval method and device, in-web site retrieval program, and storage medium recording the program
JP2003186912A (en) ADAPTATION CALCULATION METHOD AND DEVICE FOR Web PAGE RETRIEVAL, RETRIEVAL RESULT DISPLAY METHOD AND DEVICE FOR Web PAGE RETRIEVAL, AND PERFORMANCE PROGRAM FOR THE SAME METHOD AND RECORDING MEDIUM WITH ITS PROGRAM RECORDED
JP6042162B2 (en) Web search device, web search method and program
JP2011128669A (en) Device and program for retrieving information

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110907

R150 Certificate of patent or registration of utility model

Ref document number: 4824070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350