JP5084857B2 - Analysis processing adjustment apparatus and method - Google Patents
Analysis processing adjustment apparatus and method Download PDFInfo
- Publication number
- JP5084857B2 JP5084857B2 JP2010058609A JP2010058609A JP5084857B2 JP 5084857 B2 JP5084857 B2 JP 5084857B2 JP 2010058609 A JP2010058609 A JP 2010058609A JP 2010058609 A JP2010058609 A JP 2010058609A JP 5084857 B2 JP5084857 B2 JP 5084857B2
- Authority
- JP
- Japan
- Prior art keywords
- archive data
- analysis
- data
- archive
- analysis processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 138
- 238000012545 processing Methods 0.000 title claims description 75
- 238000000034 method Methods 0.000 title claims description 32
- 238000012937 correction Methods 0.000 claims description 40
- 238000003860 storage Methods 0.000 claims description 32
- 238000007726 management method Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 25
- 238000013500 data storage Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 19
- 230000004048 modification Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、分析処理調整装置及び方法に関する。 The present invention relates to an analysis processing adjustment apparatus and method.
従来、検索用のキーワード等を入力可能な検索用のWebページから欲しい情報がヒットするようなキーワードを入力することで、ユーザは、自身が欲しい情報が掲載されたWebページを得ている。検索用のWebページにキーワードを入れて処理の開始を起動すると、キーワードがユーザ端末からインデックスサーバに送信される。そして、インデックスサーバは、そのサーバに記憶されたインデックスDB(DB:データベース)を検索して、そのキーワードに対するスコアが高いWebページから順番に、Webページの見出し及びそのキーワードを含むテキストであるスニペットを出力する。 Conventionally, a user obtains a Web page on which information he wants is posted by inputting a keyword that hits the desired information from a search Web page where a search keyword or the like can be input. When a keyword is entered in a search Web page and the start of processing is started, the keyword is transmitted from the user terminal to the index server. Then, the index server searches the index DB (DB: database) stored in the server, and in order from the Web page having the highest score for the keyword, the heading of the Web page and the snippet that is the text including the keyword are searched. Output.
このようなインデックスサーバは、例えば、特許文献1に記載されているように、クローラと呼ばれる巡回ロボットによりWebページを取得し、そのWebページのURLやキーワードを抽出することで、インデックスDBを構築する。 For example, as described in Patent Document 1, such an index server acquires a Web page by a crawling robot called a crawler, and extracts an URL or a keyword of the Web page to construct an index DB. .
また、スコアは、所定のプログラムロジックに基づいて機械的に決定される。一般に、インデックスサーバは、スコアが高いものほど上位に出力する仕組みであり、スコアの高低は、例えば、企業戦略の中では重要な要素である。よって、SEO(Search Engine Optimizationサーチエンジン最適化)対策等により、スコアを高くする手法等が用いられている。 The score is mechanically determined based on predetermined program logic. In general, an index server is a mechanism that outputs a higher score as a score is higher. The level of a score is an important factor in a corporate strategy, for example. Therefore, a technique for increasing the score by using a SEO (Search Engine Optimization search engine optimization) countermeasure or the like is used.
インデックスDBの構築は、通常、所定のプログラムによって一律に行われており、例外処理を許容していない。しかし、不自然なスコアが付けられているものについては、例えば、手動での管理及び更新を行いたいというニーズがある。 The construction of the index DB is normally performed uniformly by a predetermined program and does not allow exception processing. However, what is given an unnatural score has a need to be managed and updated manually, for example.
本発明は、通常の分析処理のプログラムを変更することなく、管理者に手動でインデックスの構築の管理及び更新を行わせることを可能にする分析処理調整装置及び方法を提供することを目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide an analysis processing adjustment apparatus and method that allow an administrator to manually manage and update index construction without changing a normal analysis processing program. .
本発明者は、一部のデータを改変する仕組みを設けることで、管理者のニーズを満たすことを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。 The present inventor has found that the needs of the administrator are satisfied by providing a mechanism for modifying some data, and has completed the present invention. Specifically, the present invention provides the following.
(1) クローラ又はフィーダによって得られたWebページのコンテンツであるアーカイブデータを受信するアーカイブデータ受信手段と、前記アーカイブデータに基づいて前記WebページのURLを抽出して入力対象リストを記憶する入力対象リスト記憶手段と、前記アーカイブデータに対して分析処理を実行した結果として得られた、Webページの検索で用いるインデックスDBに反映するための分析データを、前記入力対象リスト記憶手段が記憶した前記入力対象リストに対して付加する分析手段と、前記アーカイブデータ受信手段により受信した前記アーカイブデータを記憶するアーカイブデータ記憶手段と、前記アーカイブデータ記憶手段に記憶され、前記Webページの所定のURLに係るアーカイブデータを修正するアーカイブデータ修正手段と、前記アーカイブデータ修正手段により修正されたアーカイブデータを前記アーカイブデータ受信手段に受け渡すアーカイブデータ受渡手段と、を備える分析処理調整装置。 (1) Archive data receiving means for receiving archive data that is the contents of a Web page obtained by a crawler or a feeder, and an input target for extracting a URL of the Web page based on the archive data and storing an input target list The input storage stored by the input target list storage means, the list storage means, and the analysis data to be reflected in the index DB used in the search of the Web page, obtained as a result of executing the analysis processing on the archive data Analysis means added to the target list, archive data storage means for storing the archive data received by the archive data reception means, and archive data stored in the archive data storage means and related to a predetermined URL of the Web page A data correction And archive data correction means, the analyzing process adjusting device and a archive data transfer means for transferring the archive data receiving means corrected archived data by said archive data correction means.
本発明のこのような構成によれば、分析処理調整装置は、アーカイブデータに対して分析処理を実行して得られた分析データを、アーカイブデータに基づいて抽出したWebページのURLに対応付けて、インデックスDBに反映させるために用いる入力対象リストを作成する。そして、分析処理調整装置は、アーカイブデータを修正した修正後のアーカイブデータをアーカイブデータ受信手段に受け渡す。よって、分析処理調整装置は、アーカイブデータを修正してアーカイブデータ受信手段に受け渡すので、アーカイブデータの修正によって、入力対象リストを半ば強制的に変更できる。その結果として、入力対象リストを用いて作成する検索時に用いるインデックスが、ユーザの意図を反映したものになる。しかも、分析処理のプログラムロジックを変更しないので、当該修正したアーカイブデータに対応するWebページ以外の入力対象リストが変更になる等の混乱を避けることができる。 According to such a configuration of the present invention, the analysis processing adjustment apparatus associates the analysis data obtained by executing the analysis processing on the archive data with the URL of the Web page extracted based on the archive data. Then, an input target list used for reflecting in the index DB is created. Then, the analysis processing adjustment device delivers the modified archive data obtained by modifying the archive data to the archive data receiving unit. Therefore, the analysis processing adjustment device corrects the archive data and delivers it to the archive data receiving means, so that the input target list can be forcibly changed halfway by correcting the archive data. As a result, the index used during the search created using the input target list reflects the user's intention. In addition, since the program logic of the analysis process is not changed, confusion such as a change in the input target list other than the Web page corresponding to the modified archive data can be avoided.
(2) 前記アーカイブデータ記憶手段に記憶された前記アーカイブデータに基づいて、前記分析手段が付加した前記入力対象リストに係る前記分析データを修正する分析データ修正手段を備える、(1)に記載の分析処理調整装置。 (2) The method according to (1), further comprising analysis data correction means for correcting the analysis data related to the input target list added by the analysis means based on the archive data stored in the archive data storage means. Analysis processing adjustment device.
本発明のこのような構成によれば、分析処理調整装置は、アーカイブデータに基づいて入力対象リストに係る分析データを修正するので、分析データの修正によって入力対象リストをより直接的に変更できる。その結果として、分析処理調整装置は、入力対象リストをよりダイレクトに調整できる。 According to such a configuration of the present invention, the analysis processing adjustment device corrects the analysis data related to the input target list based on the archive data, so that the input target list can be changed more directly by correcting the analysis data. As a result, the analysis processing adjustment apparatus can adjust the input target list more directly.
(3) 前記分析データ修正手段は、前記分析処理調整装置に対して通信ネットワークを介して接続された管理端末からの入力によって、前記分析手段が付加した前記入力対象リストに係る前記分析データを修正する、(2)に記載の分析処理調整装置。 (3) The analysis data correction means corrects the analysis data related to the input target list added by the analysis means by an input from a management terminal connected to the analysis processing adjustment apparatus via a communication network. The analytical processing adjustment device according to (2).
本発明のこのような構成によれば、ユーザは、通信ネットワークを介して接続された管理端末から、分析処理調整装置の入力対象リストに係る分析データを修正できるので、ユーザによる分析データの修正を受け付けて、ユーザがより直接的に入力対象リストを変更できる。 According to such a configuration of the present invention, the user can correct the analysis data related to the input target list of the analysis processing adjustment device from the management terminal connected via the communication network. The user can change the input target list more directly.
(4) 前記アーカイブデータ修正手段は、前記分析処理調整装置に対して通信ネットワークを介して接続された管理端末からの入力によって、前記アーカイブデータ記憶手段に記憶された前記アーカイブデータに対して修正する、(1)から(3)までのいずれかに記載の分析処理調整装置。 (4) The archive data correction means corrects the archive data stored in the archive data storage means by an input from a management terminal connected to the analysis processing adjustment apparatus via a communication network. (1) The analytical processing adjustment apparatus according to any one of (3).
本発明のこのような構成によれば、ユーザは、通信ネットワークを介して接続された管理端末から、分析処理調整装置の入力対象リストを参照してアーカイブデータを修正できるので、分析処理調整装置は、ユーザによる入力対象リストに反映されるアーカイブデータの修正を受け付けて、ユーザが半ば強制的に入力対象リストを変更できる。 According to such a configuration of the present invention, the user can correct the archive data by referring to the input target list of the analysis processing adjustment device from the management terminal connected via the communication network. The correction of the archive data reflected in the input target list by the user is accepted, and the user can forcibly change the input target list halfway.
(5) 前記分析手段は、前記アーカイブデータを複数の異なる工程を経由して順番に前記分析処理を実行し、得られた複数の前記分析データを前記入力対象リストに対して付加する、(1)から(4)までのいずれかに記載の分析処理調整装置。 (5) The analysis unit sequentially executes the analysis process on the archive data through a plurality of different processes, and adds the obtained plurality of analysis data to the input target list. The analytical processing adjustment device according to any one of (4) to (4).
本発明のこのような構成によれば、分析処理調整装置は、分析手段がアーカイブデータを複数の異なる工程を経由して順番に分析処理を実行し、得られた複数の分析データを入力対象リストに対して付加するので、複数の観点からの分析処理を実行することで、複数の分析結果を用いることができる。 According to such a configuration of the present invention, in the analysis processing adjustment device, the analysis unit sequentially executes the analysis processing on the archive data through a plurality of different processes, and the obtained plurality of analysis data is input to the input target list. Therefore, a plurality of analysis results can be used by executing analysis processing from a plurality of viewpoints.
(6) クローラ又はフィーダによって得られたWebページのコンテンツであるアーカイブデータを受信する受信ステップと、前記アーカイブデータに基づいて前記WebページのURLを抽出して入力対象リストを記憶させる入力対象リスト記憶ステップと、前記アーカイブデータに対して分析処理を実行した結果として得られた、Webページの検索で用いるインデックスDBに反映するための分析データを、記憶された前記入力対象リストに対して付加する付加ステップと、前記アーカイブデータを記憶させるアーカイブデータ記憶ステップと、通信ネットワークを介して接続された管理端末からの入力によって、前記アーカイブデータ記憶ステップにより記憶され、前記Webページの所定のURLに係るアーカイブデータを修正する修正ステップと、前記管理端末からの入力がなくなるまで、前記修正ステップにより修正された修正後の前記アーカイブデータを前記アーカイブデータとして、前記入力対象リスト記憶ステップ、前記付加ステップ、前記アーカイブデータ記憶ステップ、及び前記修正ステップを繰返す繰返しステップと、を含む分析処理調整方法。 (6) A reception step of receiving archive data that is content of a Web page obtained by a crawler or a feeder, and an input target list storage that extracts the URL of the Web page based on the archive data and stores an input target list And an addition for adding analysis data, which is obtained as a result of executing analysis processing on the archive data, to be reflected in the index DB used for Web page search to the stored input target list Archive data related to a predetermined URL of the Web page, stored in the archive data storage step by an input from a management terminal connected via a communication network, and an archive data storage step for storing the archive data Fix And the input target list storage step, the addition step, and the archive data storage step, using the archive data after the correction corrected by the correction step as the archive data until there is no input from the management terminal. And an iterative step for repeating the correction step.
本発明によれば、通常の分析処理のプログラムを変更することなく、管理者に手動でインデックスの構築の管理及び更新を行わせることを可能にする分析処理調整装置及び方法を提供することができる。 According to the present invention, it is possible to provide an analysis processing adjustment apparatus and method that allow an administrator to manually manage and update index construction without changing a normal analysis processing program. .
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。 DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.
(実施形態)
[検索システム100の全体構成及び分析処理調整装置1の機能構成]
図1は、本実施形態に係る検索システム100の全体構成及び分析処理調整装置1の機能構成を示す図である。
(Embodiment)
[Overall Configuration of
FIG. 1 is a diagram showing the overall configuration of the
検索システム100は、分析処理調整装置1と、複数のWebサーバ3と、インデックスサーバ4と、管理端末5と、通信ネットワーク9とにより構成される。
The
分析処理調整装置1は、インデックスサーバ4に対して反映させて、インデックスDB(DB:データベース)のインデックスを構築するデータ(分析データ)を作成するサーバである。分析処理調整装置1は、制御部10と、記憶部20とを備える。
The analysis processing adjustment apparatus 1 is a server that creates data (analysis data) that builds an index of an index DB (DB: database) by reflecting on the
制御部10は、アーカイブデータ受信部11と、メタデータ作成部12と、URLリスト記憶制御部13と、アーカイブデータ分析部14と、アーカイブデータ修正部15と、アーカイブデータ受渡部16と、分析データ修正部17とを備える。
The
アーカイブデータ受信部11は、アーカイブデータ受信手段としての機能を有し、クローラやフィーダと呼ばれるプログラムが実行されることで送信される、Webページのコンテンツであるアーカイブデータを受信する制御部である。クローラとは、インデックスDBを作成するために世界中のあらゆるWebサーバ3に記憶されたWebページを回収するプログラムをいう。また、フィーダとは、自ら運営するWebサーバ3や提携先の運営するWebサーバ3等クローラによる回収の必要がないWebページを入力するプログラムをいう。クローラ、フィーダ及びフィーダが入力するWebページは、分析処理調整装置1の記憶部20に有してもよいが、分析処理調整装置1に対して通信ネットワーク9を介して接続された図示しない、例えば、回収サーバ等の他のサーバが有しているのが望ましい。
The archive
メタデータ作成部12は、アーカイブデータを、例えば、形態素解析により複数の形態素に分割して、さらに各形態素に対して語句の出現頻度に基づく指標である、例えば、TF(Term Frequency)・IDF(Inverse Document Frequency)を用いて単語の重み付けを行う。そのようにすることで、メタデータ作成部12は、アーカイブデータから、アーカイブデータの特徴を示すメタデータ(属性データ)を作成する制御部である。なお、メタデータ作成部12は、アーカイブデータから、メタタグの内容を抽出してメタデータを作成してもよい。
The
URLリスト記憶制御部13は、アーカイブデータの元になるWebページを示すURL(Uniform Resource Locator)と、メタデータ作成部12によって作成されたメタデータとを対応付けたURLリスト(入力対象リスト)を作成して、URLリスト記憶部21に記憶する制御部である。Webページを示すURLは、アーカイブデータに基づいて抽出することができる。
The URL list
アーカイブデータ分析部14は、アーカイブデータ分析手段としての機能を有し、アーカイブデータに対して分析処理を実行し、その結果として得られた分析データをURLリストに付加する制御部である。分析処理とは、具体的には、所定の検索キーワードに対して検索ランクを上昇させるためのタグ付けをしたり、スパム判定によりインデックスDBに登録を行わないようにするためのフラグを設定したりする処理をいい、その処理の内容(工程)により複数の分析処理を有していてもよい。
The archive
アーカイブデータ修正部15は、アーカイブデータ修正手段としての機能を有し、管理端末5からの操作によって、アーカイブデータ記憶部22に記憶されたアーカイブデータを修正して、修正後のアーカイブデータに更新する制御部である。
The archive
アーカイブデータ受渡部16は、アーカイブデータ受渡手段としての機能を有し、アーカイブデータ修正部15によって修正された修正後のアーカイブデータを、アーカイブデータ受信部11に受け渡す制御部である。
The archive
分析データ修正部17は、管理端末5からの操作によって、アーカイブデータ分析部14により分析され、URLリストに付加された分析データを修正して、修正後の分析データに更新する制御部である。
The analysis
記憶部20は、URLリスト記憶部21と、アーカイブデータ記憶部22とを備える。
The
URLリスト記憶部21は、入力対象リスト記憶手段としての機能を有し、URLと、メタデータとを対応付けたURLリストを記憶する記憶領域である。URLリストは、URLと、メタデータとの他に、さらに分析データが関連付けられる。URLリストは、インデックスサーバ4に送信され、インデックスDBを構築するためのデータとして使用される。
The URL
アーカイブデータ記憶部22は、アーカイブデータ記憶手段としての機能を有し、アーカイブデータそのものを記憶する記憶領域である。アーカイブデータ記憶部22に記憶されたアーカイブデータは、アーカイブデータ修正部15の処理によって修正された場合には、その内容は、元のWebページのコンテンツとは異なるものになる。
The archive
本実施形態の分析処理調整装置1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、分析処理調整装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
The hardware of the analysis processing adjustment apparatus 1 of this embodiment may be configured by a general computer. For example, a general computer includes a central processing unit (CPU) as the
Webサーバ3は、複数のWebページを記憶する記憶部と、Webサーバ3の全体を制御する制御部とを備えたサーバである。Webサーバ3のハードウェアは、一般的なコンピュータによって構成してよい。Webサーバ3が記憶する複数のWebページであるページ群であって特定のドメインやホストの配下にあるページ群を総称して、Webサイトという。Webサーバ3に記憶されたWebサイトのWebページは、アーカイブデータの元になるデータである。 The Web server 3 is a server that includes a storage unit that stores a plurality of Web pages and a control unit that controls the entire Web server 3. The hardware of the Web server 3 may be configured by a general computer. A group of pages that are a plurality of web pages stored in the web server 3 and are under a specific domain or host are collectively referred to as a web site. The Web page of the Web site stored in the Web server 3 is data that is the source of archive data.
インデックスサーバ4は、インデックスDBを記憶する記憶部と、インデックスサーバ4の全体を制御する制御部とを備えたサーバである。分析処理調整装置1がURLリストをインデックスサーバ4に送信する条件は、例えば、分析処理調整装置1がアーカイブデータを受信して、一連の処理を実行した後であってもよいし、週次等の定期的なタイミングが分析処理調整装置1に設定されていてもよい。また、分析処理調整装置1がURLリストをインデックスサーバ4に送信する条件は、インデックスサーバ4から送信要求を受信した場合であってもよい。インデックスサーバ4のハードウェアは、一般的なコンピュータによって構成してよい。
The
管理端末5は、管理者が使用する、例えば、パーソナルコンピュータ(PC)である。管理端末5は、通信ネットワーク9を介して分析処理調整装置1に接続可能な通信機能を有し、分析処理調整装置1の記憶部20に記憶されたデータの修正にユーザが用いる操作部及び表示部を有する端末であれば、どのような装置でもよい。
The
通信ネットワーク9は、分析処理調整装置1と、Webサーバ3と、インデックスサーバ4と、管理端末5との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク9は、有線であってもよいし、その一部又は全部が無線であってもよい。
The
[分析処理調整装置1の処理]
次に、分析処理調整装置1での処理について説明する。図2は、本実施形態に係る分析処理調整装置1のフローチャートである。図3は、本実施形態に係るデータの概要を説明する図である。
[Processing of analysis processing adjustment apparatus 1]
Next, processing in the analysis processing adjustment apparatus 1 will be described. FIG. 2 is a flowchart of the analysis processing adjustment apparatus 1 according to the present embodiment. FIG. 3 is a diagram illustrating an outline of data according to the present embodiment.
図2のS1:制御部10(アーカイブデータ受信部11)は、クローラ及びフィーダによって得られたアーカイブデータを受信する。クローラ及びフィーダのプログラムを記憶したサーバであって、通信ネットワーク9を介して接続されたサーバは、例えば、日次や、Webページの更新の都度等、所定のタイミングでアーカイブデータを取得し、取得したアーカイブデータを分析処理調整装置1に対して送信する。
S1: Control unit 10 (archive data receiving unit 11) receives archive data obtained by a crawler and a feeder. A server that stores programs of crawlers and feeders and that is connected via the
S2:制御部10(メタデータ作成部12)は、アーカイブデータ解析処理を行う。アーカイブデータ解析処理は、例えば、形態素解析によって、アーカイブデータからメタデータを作成する。 S2: The control unit 10 (metadata creation unit 12) performs archive data analysis processing. In the archive data analysis process, metadata is created from archive data by, for example, morphological analysis.
S3:制御部10(URLリスト記憶制御部13)は、アーカイブデータの作成元のWebページのURLと、そのWebページのコンテンツであるアーカイブデータから作成されたメタデータとを対応付けたURLリストを、URLリスト記憶部21に記憶させる。
S3: The control unit 10 (URL list storage control unit 13) creates a URL list in which the URL of the Web page from which archive data is created is associated with the metadata created from the archive data that is the content of the Web page. And stored in the URL
図3に示すように、アーカイブデータ30と、アーカイブデータ30の元データであるWebページを示すURL31とが対応付けられる。そして、メタデータ作成部12による解析によって、アーカイブデータ30からメタデータ33が作成される(図3(1))。作成されたメタデータ33と、URL31とは、制御部10により対応付けられて、URLリスト34が作成される。
As shown in FIG. 3, the
図2に戻り、S4:制御部10(アーカイブデータ分析部14)は、アーカイブデータ分析処理を行う。アーカイブデータ分析処理は、アーカイブデータに対して各種の分析処理を順番に実行し、その結果として複数の分析データを得る。 Returning to FIG. 2, S4: The control unit 10 (archive data analysis unit 14) performs an archive data analysis process. In the archive data analysis process, various analysis processes are sequentially performed on the archive data, and as a result, a plurality of analysis data is obtained.
S5:制御部10(アーカイブデータ分析部14)は、URLリストに対してS4で得た分析データを付加する。 S5: The control unit 10 (archive data analysis unit 14) adds the analysis data obtained in S4 to the URL list.
図3に示すように、アーカイブデータ30を分析することで、アーカイブデータ30から複数の分析データ35が作成される(図3(2))。作成された複数の分析データ35は、メタデータ33と、URL31とが対応付けられたURLリスト34に付加される。
As shown in FIG. 3, by analyzing the
このように、分析処理調整装置1は、アーカイブデータ分析部14がアーカイブデータを複数の異なる工程を経由して順番に分析処理を実行し、得られた複数の分析データをURLリストに対して付加するので、複数の観点からの分析処理を実行することで、複数の分析結果を用いることができる。
As described above, in the analysis processing adjustment apparatus 1, the archive
図2に戻り、S6:制御部10は、S1で受信したアーカイブデータをアーカイブデータ記憶部22に記憶させる。
Returning to FIG. 2, S6: The
S7:制御部10は、管理端末5からアーカイブデータの修正要求を受け付けたか否かを判断する。アーカイブデータの修正要求を受け付けた場合(S7:YES)には、制御部10は、処理をS8に移す。他方、アーカイブデータの修正要求を受け付けていない場合(S7:NO)には、制御部10は、処理をS10に移す。
S7: The
S8:制御部10(アーカイブデータ修正部15)は、アーカイブデータ修正処理を行う。具体的には、制御部10は、管理端末5から受け付けたアーカイブデータの修正要求に基づき、アーカイブデータ記憶部22を参照して、アーカイブデータを修正する。管理端末5からのアーカイブデータの修正は、分析処理調整装置1が有する図示しないアーカイブデータ修正画面から、アーカイブデータを直接に修正してもよいし、管理端末5からの要求によって、制御部10が指定したアーカイブデータを管理端末5に送信し、管理端末5から受信した修正後のアーカイブデータを制御部10が受信することで、アーカイブデータ記憶部22に記憶されたアーカイブデータを、修正後のアーカイブデータに更新してもよい。
S8: The control unit 10 (archive data correction unit 15) performs archive data correction processing. Specifically, the
S9:制御部10(アーカイブデータ受渡部16)は、修正後のアーカイブデータをアーカイブデータ受信部11に受け渡す。その後、制御部10は、処理をS1に移す。
S9: The control unit 10 (archive data delivery unit 16) delivers the modified archive data to the archive
図3に示すように、アーカイブデータ30を修正することで、制御部10は、アーカイブデータ30から修正後アーカイブデータ38を作成する(図3(3))。作成された修正後アーカイブデータ38は、アーカイブデータ30に対して上書きされる(図3(4))。
As shown in FIG. 3, by correcting the
図2に戻り、S10:制御部10は、管理端末5から分析データの修正要求を受け付けたか否かを判断する。分析データの修正要求を受け付けた場合(S10:YES)には、制御部10は、処理をS11に移す。他方、分析データの修正要求を受け付けていない場合(S10:NO)には、制御部10は、本処理を終了する。
Returning to FIG. 2, S <b> 10: The
S11:制御部10(分析データ修正部17)は、分析データ修正処理を行う。具体的には、制御部10は、管理端末5からURLリスト記憶部21を参照して、URLリストの分析データを修正する。管理端末5からの分析データの修正は、分析処理調整装置1が有する図示しない分析データ修正画面から、分析データを直接に修正してもよいし、管理端末5からの要求によって、制御部10が指定したURLリストのレコードを管理端末5に送信し、管理端末5から受信した修正後の分析データを含むURLリストのデータを受信して、修正前のURLリストに対して該当のレコードを更新してもよい。その後、制御部10は、本処理を終了する。
S11: The control unit 10 (analysis data correction unit 17) performs analysis data correction processing. Specifically, the
図3に示すように、分析データ35を修正することで、制御部10は、分析データ35から修正後分析データ36を作成する(図3(5))。作成された修正後分析データ36は、分析データ35に対して上書きされる。
As shown in FIG. 3, by correcting the
このように、分析処理調整装置1は、通常のアーカイブデータの分析処理だけではうまく情報が付加されないものに対して、分析結果を参照しながらアーカイブデータを直接修正して、アーカイブデータ受信部11に修正後のアーカイブデータを受け渡すことで、分析処理のプログラム自体を変更することなく、適切な情報を分析データとして付加することができる。よって、検索システム100は、その分析データを用いてインデックスを生成して、インデックスを検索に用いることができる。
As described above, the analysis processing adjustment apparatus 1 directly corrects the archive data while referring to the analysis result to the archive
また、分析処理調整装置1は、分析データを直接修正することで、再度ロジックを実行する等の処理を行わずにデータを反映できるので、システムに対する負荷を軽減できる。また、分析処理調整装置1は、インデックスを生成する分析データとして適切な情報を、直接的に付加させることができる。 Further, the analysis processing adjustment apparatus 1 can directly reflect the data without performing a process such as executing the logic again by directly correcting the analysis data, so that the load on the system can be reduced. Further, the analysis processing adjustment apparatus 1 can directly add appropriate information as analysis data for generating an index.
(変形形態)
本実施形態は、URLリスト記憶部にURLリストを記憶するものであったが、これに限定されるものではない。例えば、分析処理調整装置に対して通信ネットワークを介して接続された別の記憶領域にURLリストを記憶してもよいし、分析処理調整装置として実行するプログラム上でデータを保有しつづけていてもよい。
(Deformation)
In the present embodiment, the URL list is stored in the URL list storage unit, but the present invention is not limited to this. For example, the URL list may be stored in another storage area connected to the analysis processing adjustment device via a communication network, or data may be retained on a program executed as the analysis processing adjustment device. Good.
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
1 分析処理調整装置
3 Webサーバ
4 インデックスサーバ
5 管理端末
10 制御部
11 アーカイブデータ受信部
12 メタデータ作成部
13 URLリスト記憶制御部
14 アーカイブデータ分析部
15 アーカイブデータ修正部
16 アーカイブデータ受渡部
17 分析データ修正部
20 記憶部
21 URLリスト記憶部
22 アーカイブデータ記憶部
30 アーカイブデータ
34 URLリスト
35 分析データ
36 修正後分析データ
38 修正後アーカイブデータ
100 検索システム
DESCRIPTION OF SYMBOLS 1 Analysis processing adjustment apparatus 3
Claims (6)
前記アーカイブデータに基づいて前記WebページのURLを抽出して入力対象リストを記憶する入力対象リスト記憶手段と、
前記アーカイブデータに対して分析処理を実行した結果として得られた、Webページの検索で用いるインデックスDBに反映するための分析データを、前記入力対象リスト記憶手段が記憶した前記入力対象リストに対して付加する分析手段と、
前記アーカイブデータ受信手段により受信した前記アーカイブデータを記憶するアーカイブデータ記憶手段と、
前記アーカイブデータ記憶手段に記憶され、前記Webページの所定のURLに係るアーカイブデータを修正するアーカイブデータ修正手段と、
前記アーカイブデータ修正手段により修正されたアーカイブデータを前記アーカイブデータ受信手段に受け渡すアーカイブデータ受渡手段と、
を備える分析処理調整装置。 Archive data receiving means for receiving archive data that is the contents of a web page obtained by a crawler or a feeder;
Input target list storage means for extracting the URL of the Web page based on the archive data and storing the input target list;
Analysis data to be reflected in the index DB used in the search of the Web page obtained as a result of executing the analysis processing on the archive data is stored in the input target list stored in the input target list storage unit. Additional analytical means;
Archive data storage means for storing the archive data received by the archive data receiving means;
Archive data correction means stored in the archive data storage means for correcting archive data relating to a predetermined URL of the Web page;
Archive data delivery means for delivering archive data modified by the archive data modification means to the archive data reception means;
An analysis processing adjustment apparatus comprising:
請求項1に記載の分析処理調整装置。 Analysis data correction means for correcting the analysis data related to the input target list added by the analysis means based on the archive data stored in the archive data storage means;
The analysis processing adjustment apparatus according to claim 1.
請求項2に記載の分析処理調整装置。 The analysis data correction means corrects the analysis data related to the input target list added by the analysis means by input from a management terminal connected to the analysis processing adjustment device via a communication network.
The analysis processing adjustment apparatus according to claim 2.
請求項1から請求項3までのいずれかに記載の分析処理調整装置。 The archive data correction means corrects the archive data stored in the archive data storage means by an input from a management terminal connected to the analysis processing adjustment apparatus via a communication network.
The analysis processing adjustment apparatus according to any one of claims 1 to 3.
請求項1から請求項4までのいずれかに記載の分析処理調整装置。 The analysis means executes the analysis processing in order through the archive data through a plurality of different processes, and adds the obtained plurality of analysis data to the input target list.
The analysis processing adjustment apparatus according to any one of claims 1 to 4.
前記アーカイブデータに基づいて前記WebページのURLを抽出して入力対象リストを記憶させる入力対象リスト記憶ステップと、
前記アーカイブデータに対して分析処理を実行した結果として得られた、Webページの検索で用いるインデックスDBに反映するための分析データを、記憶された前記入力対象リストに対して付加する付加ステップと、
前記アーカイブデータを記憶させるアーカイブデータ記憶ステップと、
通信ネットワークを介して接続された管理端末からの入力によって、前記アーカイブデータ記憶ステップにより記憶され、前記Webページの所定のURLに係るアーカイブデータを修正する修正ステップと、
前記管理端末からの入力がなくなるまで、前記修正ステップにより修正された修正後の前記アーカイブデータを前記アーカイブデータとして、前記入力対象リスト記憶ステップ、前記付加ステップ、前記アーカイブデータ記憶ステップ、及び前記修正ステップを繰返す繰返しステップと、
を含む分析処理調整方法。 A receiving step of receiving archive data that is a content of a web page obtained by a crawler or a feeder;
An input target list storage step for extracting the URL of the web page based on the archive data and storing the input target list;
An addition step of adding analysis data, which is obtained as a result of executing the analysis processing on the archive data, to be reflected in the index DB used for Web page search to the stored input target list;
An archive data storage step for storing the archive data;
A correction step of correcting archive data related to a predetermined URL of the Web page stored by the archive data storage step by an input from a management terminal connected via a communication network;
Until the input from the management terminal ceases, the archive data after the correction in the correction step is used as the archive data, the input target list storage step, the addition step, the archive data storage step, and the correction step. A repeating step that repeats
Analytical processing adjustment method including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010058609A JP5084857B2 (en) | 2010-03-16 | 2010-03-16 | Analysis processing adjustment apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010058609A JP5084857B2 (en) | 2010-03-16 | 2010-03-16 | Analysis processing adjustment apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011192096A JP2011192096A (en) | 2011-09-29 |
JP5084857B2 true JP5084857B2 (en) | 2012-11-28 |
Family
ID=44796915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010058609A Active JP5084857B2 (en) | 2010-03-16 | 2010-03-16 | Analysis processing adjustment apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5084857B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5049424B2 (en) * | 2000-06-09 | 2012-10-17 | キヤノン株式会社 | Document management system, information processing apparatus, and storage medium |
JP4755834B2 (en) * | 2005-01-21 | 2011-08-24 | ヤフー株式会社 | Attribute evaluation apparatus, attribute evaluation method, and attribute evaluation program |
JP2007052552A (en) * | 2005-08-16 | 2007-03-01 | Oki Electric Ind Co Ltd | Content management method and content management system |
JP4162035B2 (en) * | 2007-10-26 | 2008-10-08 | 日本電気株式会社 | Hypertext inspection apparatus and method, and program |
JP2009146013A (en) * | 2007-12-12 | 2009-07-02 | Fujifilm Corp | Content retrieval method, its device, and program |
-
2010
- 2010-03-16 JP JP2010058609A patent/JP5084857B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011192096A (en) | 2011-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cambazoglu et al. | Scalability challenges in web search engines | |
TWI410812B (en) | Customized, personalized, integrated client-side search indexing of the web | |
US8799262B2 (en) | Configurable web crawler | |
US9471565B2 (en) | System and method for locating bilingual web sites | |
US20110016104A1 (en) | Centralized web-based system for automatically executing search engine optimization principles for one, or more website(s) | |
JP2017157192A (en) | Method of matching between image and content item based on key word | |
US20120016857A1 (en) | System and method for providing search engine optimization analysis | |
US10296535B2 (en) | Method and system to randomize image matching to find best images to be matched with content items | |
US20130219255A1 (en) | Authorized Syndicated Descriptions of Linked Web Content Displayed With Links in User-Generated Content | |
JP6165955B1 (en) | Method and system for matching images and content using whitelist and blacklist in response to search query | |
JP6363682B2 (en) | Method for selecting an image that matches content based on the metadata of the image and content | |
US10007731B2 (en) | Deduplication in search results | |
JP2007219722A (en) | Document retrieval server and document retrieval method | |
RU2733482C2 (en) | Method and system for updating search index database | |
JP5480058B2 (en) | Advertisement matching apparatus, method and program | |
JP5964847B2 (en) | Connecting dynamic image results | |
US8712992B2 (en) | Method and apparatus for web crawling | |
US20110119250A1 (en) | Forward Progress Search Platform | |
JP2018160264A (en) | Batch-optimized render and fetch architecture | |
US9881101B2 (en) | Dynamic file retrieving for web page loading | |
JP5084857B2 (en) | Analysis processing adjustment apparatus and method | |
JP5928248B2 (en) | Evaluation method, information processing apparatus, and program | |
US20190384802A1 (en) | Dynamic Configurability of Web Pages Including Anchor Text | |
JP5072792B2 (en) | Retrieval method, program and server for preferentially displaying pages according to amount of information | |
JP4477931B2 (en) | Search request device, search request method, search request program, and computer-readable recording medium storing search request program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120814 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5084857 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |