JP2011192096A - 分析処理調整装置及び方法 - Google Patents

分析処理調整装置及び方法 Download PDF

Info

Publication number
JP2011192096A
JP2011192096A JP2010058609A JP2010058609A JP2011192096A JP 2011192096 A JP2011192096 A JP 2011192096A JP 2010058609 A JP2010058609 A JP 2010058609A JP 2010058609 A JP2010058609 A JP 2010058609A JP 2011192096 A JP2011192096 A JP 2011192096A
Authority
JP
Japan
Prior art keywords
archive data
analysis
data
archive
analysis processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010058609A
Other languages
English (en)
Other versions
JP5084857B2 (ja
Inventor
Masaki Kitano
正樹 北野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010058609A priority Critical patent/JP5084857B2/ja
Publication of JP2011192096A publication Critical patent/JP2011192096A/ja
Application granted granted Critical
Publication of JP5084857B2 publication Critical patent/JP5084857B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】通常の分析処理のプログラムを変更することなく、管理者に手動でインデックスの構築の管理及び更新を行わせることを可能にする分析処理調整装置及び方法を提供する。
【解決手段】分析処理調整装置1は、クローラ等から得られたアーカイブデータを受信するアーカイブデータ受信部11と、アーカイブデータに基づいてWebページのURLを抽出してURLリストを記憶するURLリスト記憶部21と、アーカイブデータに対して分析処理を実行した結果として得られた、インデックスDBに反映するための分析データをURLリストに付加するアーカイブデータ分析部14と、アーカイブデータ受信部11が受信しアーカイブデータ記憶部22に記憶されたWebページの所定のURLに係るアーカイブデータを修正するアーカイブデータ修正部15と、修正されたアーカイブデータをアーカイブデータ受信部11に受け渡すアーカイブデータ受渡部16とを備える。
【選択図】図1

Description

本発明は、分析処理調整装置及び方法に関する。
従来、検索用のキーワード等を入力可能な検索用のWebページから欲しい情報がヒットするようなキーワードを入力することで、ユーザは、自身が欲しい情報が掲載されたWebページを得ている。検索用のWebページにキーワードを入れて処理の開始を起動すると、キーワードがユーザ端末からインデックスサーバに送信される。そして、インデックスサーバは、そのサーバに記憶されたインデックスDB(DB:データベース)を検索して、そのキーワードに対するスコアが高いWebページから順番に、Webページの見出し及びそのキーワードを含むテキストであるスニペットを出力する。
このようなインデックスサーバは、例えば、特許文献1に記載されているように、クローラと呼ばれる巡回ロボットによりWebページを取得し、そのWebページのURLやキーワードを抽出することで、インデックスDBを構築する。
また、スコアは、所定のプログラムロジックに基づいて機械的に決定される。一般に、インデックスサーバは、スコアが高いものほど上位に出力する仕組みであり、スコアの高低は、例えば、企業戦略の中では重要な要素である。よって、SEO(Search Engine Optimizationサーチエンジン最適化)対策等により、スコアを高くする手法等が用いられている。
国際公開第2002/044946号
インデックスDBの構築は、通常、所定のプログラムによって一律に行われており、例外処理を許容していない。しかし、不自然なスコアが付けられているものについては、例えば、手動での管理及び更新を行いたいというニーズがある。
本発明は、通常の分析処理のプログラムを変更することなく、管理者に手動でインデックスの構築の管理及び更新を行わせることを可能にする分析処理調整装置及び方法を提供することを目的とする。
本発明者は、一部のデータを改変する仕組みを設けることで、管理者のニーズを満たすことを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
(1) クローラ又はフィーダによって得られたWebページのコンテンツであるアーカイブデータを受信するアーカイブデータ受信手段と、前記アーカイブデータに基づいて前記WebページのURLを抽出して入力対象リストを記憶する入力対象リスト記憶手段と、前記アーカイブデータに対して分析処理を実行した結果として得られた、Webページの検索で用いるインデックスDBに反映するための分析データを、前記入力対象リスト記憶手段が記憶した前記入力対象リストに対して付加する分析手段と、前記アーカイブデータ受信手段により受信した前記アーカイブデータを記憶するアーカイブデータ記憶手段と、前記アーカイブデータ記憶手段に記憶され、前記Webページの所定のURLに係るアーカイブデータを修正するアーカイブデータ修正手段と、前記アーカイブデータ修正手段により修正されたアーカイブデータを前記アーカイブデータ受信手段に受け渡すアーカイブデータ受渡手段と、を備える分析処理調整装置。
本発明のこのような構成によれば、分析処理調整装置は、アーカイブデータに対して分析処理を実行して得られた分析データを、アーカイブデータに基づいて抽出したWebページのURLに対応付けて、インデックスDBに反映させるために用いる入力対象リストを作成する。そして、分析処理調整装置は、アーカイブデータを修正した修正後のアーカイブデータをアーカイブデータ受信手段に受け渡す。よって、分析処理調整装置は、アーカイブデータを修正してアーカイブデータ受信手段に受け渡すので、アーカイブデータの修正によって、入力対象リストを半ば強制的に変更できる。その結果として、入力対象リストを用いて作成する検索時に用いるインデックスが、ユーザの意図を反映したものになる。しかも、分析処理のプログラムロジックを変更しないので、当該修正したアーカイブデータに対応するWebページ以外の入力対象リストが変更になる等の混乱を避けることができる。
(2) 前記アーカイブデータ記憶手段に記憶された前記アーカイブデータに基づいて、前記分析手段が付加した前記入力対象リストに係る前記分析データを修正する分析データ修正手段を備える、(1)に記載の分析処理調整装置。
本発明のこのような構成によれば、分析処理調整装置は、アーカイブデータに基づいて入力対象リストに係る分析データを修正するので、分析データの修正によって入力対象リストをより直接的に変更できる。その結果として、分析処理調整装置は、入力対象リストをよりダイレクトに調整できる。
(3) 前記分析データ修正手段は、前記分析処理調整装置に対して通信ネットワークを介して接続された管理端末からの入力によって、前記分析手段が付加した前記入力対象リストに係る前記分析データを修正する、(2)に記載の分析処理調整装置。
本発明のこのような構成によれば、ユーザは、通信ネットワークを介して接続された管理端末から、分析処理調整装置の入力対象リストに係る分析データを修正できるので、ユーザによる分析データの修正を受け付けて、ユーザがより直接的に入力対象リストを変更できる。
(4) 前記アーカイブデータ修正手段は、前記分析処理調整装置に対して通信ネットワークを介して接続された管理端末からの入力によって、前記アーカイブデータ記憶手段に記憶された前記アーカイブデータに対して修正する、(1)から(3)までのいずれかに記載の分析処理調整装置。
本発明のこのような構成によれば、ユーザは、通信ネットワークを介して接続された管理端末から、分析処理調整装置の入力対象リストを参照してアーカイブデータを修正できるので、分析処理調整装置は、ユーザによる入力対象リストに反映されるアーカイブデータの修正を受け付けて、ユーザが半ば強制的に入力対象リストを変更できる。
(5) 前記分析手段は、前記アーカイブデータを複数の異なる工程を経由して順番に前記分析処理を実行し、得られた複数の前記分析データを前記入力対象リストに対して付加する、(1)から(4)までのいずれかに記載の分析処理調整装置。
本発明のこのような構成によれば、分析処理調整装置は、分析手段がアーカイブデータを複数の異なる工程を経由して順番に分析処理を実行し、得られた複数の分析データを入力対象リストに対して付加するので、複数の観点からの分析処理を実行することで、複数の分析結果を用いることができる。
(6) クローラ又はフィーダによって得られたWebページのコンテンツであるアーカイブデータを受信する受信ステップと、前記アーカイブデータに基づいて前記WebページのURLを抽出して入力対象リストを記憶させる入力対象リスト記憶ステップと、前記アーカイブデータに対して分析処理を実行した結果として得られた、Webページの検索で用いるインデックスDBに反映するための分析データを、記憶された前記入力対象リストに対して付加する付加ステップと、前記アーカイブデータを記憶させるアーカイブデータ記憶ステップと、通信ネットワークを介して接続された管理端末からの入力によって、前記アーカイブデータ記憶ステップにより記憶され、前記Webページの所定のURLに係るアーカイブデータを修正する修正ステップと、前記管理端末からの入力がなくなるまで、前記修正ステップにより修正された修正後の前記アーカイブデータを前記アーカイブデータとして、前記入力対象リスト記憶ステップ、前記付加ステップ、前記アーカイブデータ記憶ステップ、及び前記修正ステップを繰返す繰返しステップと、を含む分析処理調整方法。
本発明によれば、通常の分析処理のプログラムを変更することなく、管理者に手動でインデックスの構築の管理及び更新を行わせることを可能にする分析処理調整装置及び方法を提供することができる。
本実施形態に係る検索システムの全体構成及び分析処理調整装置の機能構成を示す図である。 本実施形態に係る分析処理調整装置のフローチャートである。 本実施形態に係るデータの概要を説明する図である。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(実施形態)
[検索システム100の全体構成及び分析処理調整装置1の機能構成]
図1は、本実施形態に係る検索システム100の全体構成及び分析処理調整装置1の機能構成を示す図である。
検索システム100は、分析処理調整装置1と、複数のWebサーバ3と、インデックスサーバ4と、管理端末5と、通信ネットワーク9とにより構成される。
分析処理調整装置1は、インデックスサーバ4に対して反映させて、インデックスDB(DB:データベース)のインデックスを構築するデータ(分析データ)を作成するサーバである。分析処理調整装置1は、制御部10と、記憶部20とを備える。
制御部10は、アーカイブデータ受信部11と、メタデータ作成部12と、URLリスト記憶制御部13と、アーカイブデータ分析部14と、アーカイブデータ修正部15と、アーカイブデータ受渡部16と、分析データ修正部17とを備える。
アーカイブデータ受信部11は、アーカイブデータ受信手段としての機能を有し、クローラやフィーダと呼ばれるプログラムが実行されることで送信される、Webページのコンテンツであるアーカイブデータを受信する制御部である。クローラとは、インデックスDBを作成するために世界中のあらゆるWebサーバ3に記憶されたWebページを回収するプログラムをいう。また、フィーダとは、自ら運営するWebサーバ3や提携先の運営するWebサーバ3等クローラによる回収の必要がないWebページを入力するプログラムをいう。クローラ、フィーダ及びフィーダが入力するWebページは、分析処理調整装置1の記憶部20に有してもよいが、分析処理調整装置1に対して通信ネットワーク9を介して接続された図示しない、例えば、回収サーバ等の他のサーバが有しているのが望ましい。
メタデータ作成部12は、アーカイブデータを、例えば、形態素解析により複数の形態素に分割して、さらに各形態素に対して語句の出現頻度に基づく指標である、例えば、TF(Term Frequency)・IDF(Inverse Document Frequency)を用いて単語の重み付けを行う。そのようにすることで、メタデータ作成部12は、アーカイブデータから、アーカイブデータの特徴を示すメタデータ(属性データ)を作成する制御部である。なお、メタデータ作成部12は、アーカイブデータから、メタタグの内容を抽出してメタデータを作成してもよい。
URLリスト記憶制御部13は、アーカイブデータの元になるWebページを示すURL(Uniform Resource Locator)と、メタデータ作成部12によって作成されたメタデータとを対応付けたURLリスト(入力対象リスト)を作成して、URLリスト記憶部21に記憶する制御部である。Webページを示すURLは、アーカイブデータに基づいて抽出することができる。
アーカイブデータ分析部14は、アーカイブデータ分析手段としての機能を有し、アーカイブデータに対して分析処理を実行し、その結果として得られた分析データをURLリストに付加する制御部である。分析処理とは、具体的には、所定の検索キーワードに対して検索ランクを上昇させるためのタグ付けをしたり、スパム判定によりインデックスDBに登録を行わないようにするためのフラグを設定したりする処理をいい、その処理の内容(工程)により複数の分析処理を有していてもよい。
アーカイブデータ修正部15は、アーカイブデータ修正手段としての機能を有し、管理端末5からの操作によって、アーカイブデータ記憶部22に記憶されたアーカイブデータを修正して、修正後のアーカイブデータに更新する制御部である。
アーカイブデータ受渡部16は、アーカイブデータ受渡手段としての機能を有し、アーカイブデータ修正部15によって修正された修正後のアーカイブデータを、アーカイブデータ受信部11に受け渡す制御部である。
分析データ修正部17は、管理端末5からの操作によって、アーカイブデータ分析部14により分析され、URLリストに付加された分析データを修正して、修正後の分析データに更新する制御部である。
記憶部20は、URLリスト記憶部21と、アーカイブデータ記憶部22とを備える。
URLリスト記憶部21は、入力対象リスト記憶手段としての機能を有し、URLと、メタデータとを対応付けたURLリストを記憶する記憶領域である。URLリストは、URLと、メタデータとの他に、さらに分析データが関連付けられる。URLリストは、インデックスサーバ4に送信され、インデックスDBを構築するためのデータとして使用される。
アーカイブデータ記憶部22は、アーカイブデータ記憶手段としての機能を有し、アーカイブデータそのものを記憶する記憶領域である。アーカイブデータ記憶部22に記憶されたアーカイブデータは、アーカイブデータ修正部15の処理によって修正された場合には、その内容は、元のWebページのコンテンツとは異なるものになる。
本実施形態の分析処理調整装置1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、分析処理調整装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
Webサーバ3は、複数のWebページを記憶する記憶部と、Webサーバ3の全体を制御する制御部とを備えたサーバである。Webサーバ3のハードウェアは、一般的なコンピュータによって構成してよい。Webサーバ3が記憶する複数のWebページであるページ群であって特定のドメインやホストの配下にあるページ群を総称して、Webサイトという。Webサーバ3に記憶されたWebサイトのWebページは、アーカイブデータの元になるデータである。
インデックスサーバ4は、インデックスDBを記憶する記憶部と、インデックスサーバ4の全体を制御する制御部とを備えたサーバである。分析処理調整装置1がURLリストをインデックスサーバ4に送信する条件は、例えば、分析処理調整装置1がアーカイブデータを受信して、一連の処理を実行した後であってもよいし、週次等の定期的なタイミングが分析処理調整装置1に設定されていてもよい。また、分析処理調整装置1がURLリストをインデックスサーバ4に送信する条件は、インデックスサーバ4から送信要求を受信した場合であってもよい。インデックスサーバ4のハードウェアは、一般的なコンピュータによって構成してよい。
管理端末5は、管理者が使用する、例えば、パーソナルコンピュータ(PC)である。管理端末5は、通信ネットワーク9を介して分析処理調整装置1に接続可能な通信機能を有し、分析処理調整装置1の記憶部20に記憶されたデータの修正にユーザが用いる操作部及び表示部を有する端末であれば、どのような装置でもよい。
通信ネットワーク9は、分析処理調整装置1と、Webサーバ3と、インデックスサーバ4と、管理端末5との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク9は、有線であってもよいし、その一部又は全部が無線であってもよい。
[分析処理調整装置1の処理]
次に、分析処理調整装置1での処理について説明する。図2は、本実施形態に係る分析処理調整装置1のフローチャートである。図3は、本実施形態に係るデータの概要を説明する図である。
図2のS1:制御部10(アーカイブデータ受信部11)は、クローラ及びフィーダによって得られたアーカイブデータを受信する。クローラ及びフィーダのプログラムを記憶したサーバであって、通信ネットワーク9を介して接続されたサーバは、例えば、日次や、Webページの更新の都度等、所定のタイミングでアーカイブデータを取得し、取得したアーカイブデータを分析処理調整装置1に対して送信する。
S2:制御部10(メタデータ作成部12)は、アーカイブデータ解析処理を行う。アーカイブデータ解析処理は、例えば、形態素解析によって、アーカイブデータからメタデータを作成する。
S3:制御部10(URLリスト記憶制御部13)は、アーカイブデータの作成元のWebページのURLと、そのWebページのコンテンツであるアーカイブデータから作成されたメタデータとを対応付けたURLリストを、URLリスト記憶部21に記憶させる。
図3に示すように、アーカイブデータ30と、アーカイブデータ30の元データであるWebページを示すURL31とが対応付けられる。そして、メタデータ作成部12による解析によって、アーカイブデータ30からメタデータ33が作成される(図3(1))。作成されたメタデータ33と、URL31とは、制御部10により対応付けられて、URLリスト34が作成される。
図2に戻り、S4:制御部10(アーカイブデータ分析部14)は、アーカイブデータ分析処理を行う。アーカイブデータ分析処理は、アーカイブデータに対して各種の分析処理を順番に実行し、その結果として複数の分析データを得る。
S5:制御部10(アーカイブデータ分析部14)は、URLリストに対してS4で得た分析データを付加する。
図3に示すように、アーカイブデータ30を分析することで、アーカイブデータ30から複数の分析データ35が作成される(図3(2))。作成された複数の分析データ35は、メタデータ33と、URL31とが対応付けられたURLリスト34に付加される。
このように、分析処理調整装置1は、アーカイブデータ分析部14がアーカイブデータを複数の異なる工程を経由して順番に分析処理を実行し、得られた複数の分析データをURLリストに対して付加するので、複数の観点からの分析処理を実行することで、複数の分析結果を用いることができる。
図2に戻り、S6:制御部10は、S1で受信したアーカイブデータをアーカイブデータ記憶部22に記憶させる。
S7:制御部10は、管理端末5からアーカイブデータの修正要求を受け付けたか否かを判断する。アーカイブデータの修正要求を受け付けた場合(S7:YES)には、制御部10は、処理をS8に移す。他方、アーカイブデータの修正要求を受け付けていない場合(S7:NO)には、制御部10は、処理をS10に移す。
S8:制御部10(アーカイブデータ修正部15)は、アーカイブデータ修正処理を行う。具体的には、制御部10は、管理端末5から受け付けたアーカイブデータの修正要求に基づき、アーカイブデータ記憶部22を参照して、アーカイブデータを修正する。管理端末5からのアーカイブデータの修正は、分析処理調整装置1が有する図示しないアーカイブデータ修正画面から、アーカイブデータを直接に修正してもよいし、管理端末5からの要求によって、制御部10が指定したアーカイブデータを管理端末5に送信し、管理端末5から受信した修正後のアーカイブデータを制御部10が受信することで、アーカイブデータ記憶部22に記憶されたアーカイブデータを、修正後のアーカイブデータに更新してもよい。
S9:制御部10(アーカイブデータ受渡部16)は、修正後のアーカイブデータをアーカイブデータ受信部11に受け渡す。その後、制御部10は、処理をS1に移す。
図3に示すように、アーカイブデータ30を修正することで、制御部10は、アーカイブデータ30から修正後アーカイブデータ38を作成する(図3(3))。作成された修正後アーカイブデータ38は、アーカイブデータ30に対して上書きされる(図3(4))。
図2に戻り、S10:制御部10は、管理端末5から分析データの修正要求を受け付けたか否かを判断する。分析データの修正要求を受け付けた場合(S10:YES)には、制御部10は、処理をS11に移す。他方、分析データの修正要求を受け付けていない場合(S10:NO)には、制御部10は、本処理を終了する。
S11:制御部10(分析データ修正部17)は、分析データ修正処理を行う。具体的には、制御部10は、管理端末5からURLリスト記憶部21を参照して、URLリストの分析データを修正する。管理端末5からの分析データの修正は、分析処理調整装置1が有する図示しない分析データ修正画面から、分析データを直接に修正してもよいし、管理端末5からの要求によって、制御部10が指定したURLリストのレコードを管理端末5に送信し、管理端末5から受信した修正後の分析データを含むURLリストのデータを受信して、修正前のURLリストに対して該当のレコードを更新してもよい。その後、制御部10は、本処理を終了する。
図3に示すように、分析データ35を修正することで、制御部10は、分析データ35から修正後分析データ36を作成する(図3(5))。作成された修正後分析データ36は、分析データ35に対して上書きされる。
このように、分析処理調整装置1は、通常のアーカイブデータの分析処理だけではうまく情報が付加されないものに対して、分析結果を参照しながらアーカイブデータを直接修正して、アーカイブデータ受信部11に修正後のアーカイブデータを受け渡すことで、分析処理のプログラム自体を変更することなく、適切な情報を分析データとして付加することができる。よって、検索システム100は、その分析データを用いてインデックスを生成して、インデックスを検索に用いることができる。
また、分析処理調整装置1は、分析データを直接修正することで、再度ロジックを実行する等の処理を行わずにデータを反映できるので、システムに対する負荷を軽減できる。また、分析処理調整装置1は、インデックスを生成する分析データとして適切な情報を、直接的に付加させることができる。
(変形形態)
本実施形態は、URLリスト記憶部にURLリストを記憶するものであったが、これに限定されるものではない。例えば、分析処理調整装置に対して通信ネットワークを介して接続された別の記憶領域にURLリストを記憶してもよいし、分析処理調整装置として実行するプログラム上でデータを保有しつづけていてもよい。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1 分析処理調整装置
3 Webサーバ
4 インデックスサーバ
5 管理端末
10 制御部
11 アーカイブデータ受信部
12 メタデータ作成部
13 URLリスト記憶制御部
14 アーカイブデータ分析部
15 アーカイブデータ修正部
16 アーカイブデータ受渡部
17 分析データ修正部
20 記憶部
21 URLリスト記憶部
22 アーカイブデータ記憶部
30 アーカイブデータ
34 URLリスト
35 分析データ
36 修正後分析データ
38 修正後アーカイブデータ
100 検索システム

Claims (6)

  1. クローラ又はフィーダによって得られたWebページのコンテンツであるアーカイブデータを受信するアーカイブデータ受信手段と、
    前記アーカイブデータに基づいて前記WebページのURLを抽出して入力対象リストを記憶する入力対象リスト記憶手段と、
    前記アーカイブデータに対して分析処理を実行した結果として得られた、Webページの検索で用いるインデックスDBに反映するための分析データを、前記入力対象リスト記憶手段が記憶した前記入力対象リストに対して付加する分析手段と、
    前記アーカイブデータ受信手段により受信した前記アーカイブデータを記憶するアーカイブデータ記憶手段と、
    前記アーカイブデータ記憶手段に記憶され、前記Webページの所定のURLに係るアーカイブデータを修正するアーカイブデータ修正手段と、
    前記アーカイブデータ修正手段により修正されたアーカイブデータを前記アーカイブデータ受信手段に受け渡すアーカイブデータ受渡手段と、
    を備える分析処理調整装置。
  2. 前記アーカイブデータ記憶手段に記憶された前記アーカイブデータに基づいて、前記分析手段が付加した前記入力対象リストに係る前記分析データを修正する分析データ修正手段を備える、
    請求項1に記載の分析処理調整装置。
  3. 前記分析データ修正手段は、前記分析処理調整装置に対して通信ネットワークを介して接続された管理端末からの入力によって、前記分析手段が付加した前記入力対象リストに係る前記分析データを修正する、
    請求項2に記載の分析処理調整装置。
  4. 前記アーカイブデータ修正手段は、前記分析処理調整装置に対して通信ネットワークを介して接続された管理端末からの入力によって、前記アーカイブデータ記憶手段に記憶された前記アーカイブデータに対して修正する、
    請求項1から請求項3までのいずれかに記載の分析処理調整装置。
  5. 前記分析手段は、前記アーカイブデータを複数の異なる工程を経由して順番に前記分析処理を実行し、得られた複数の前記分析データを前記入力対象リストに対して付加する、
    請求項1から請求項4までのいずれかに記載の分析処理調整装置。
  6. クローラ又はフィーダによって得られたWebページのコンテンツであるアーカイブデータを受信する受信ステップと、
    前記アーカイブデータに基づいて前記WebページのURLを抽出して入力対象リストを記憶させる入力対象リスト記憶ステップと、
    前記アーカイブデータに対して分析処理を実行した結果として得られた、Webページの検索で用いるインデックスDBに反映するための分析データを、記憶された前記入力対象リストに対して付加する付加ステップと、
    前記アーカイブデータを記憶させるアーカイブデータ記憶ステップと、
    通信ネットワークを介して接続された管理端末からの入力によって、前記アーカイブデータ記憶ステップにより記憶され、前記Webページの所定のURLに係るアーカイブデータを修正する修正ステップと、
    前記管理端末からの入力がなくなるまで、前記修正ステップにより修正された修正後の前記アーカイブデータを前記アーカイブデータとして、前記入力対象リスト記憶ステップ、前記付加ステップ、前記アーカイブデータ記憶ステップ、及び前記修正ステップを繰返す繰返しステップと、
    を含む分析処理調整方法。
JP2010058609A 2010-03-16 2010-03-16 分析処理調整装置及び方法 Active JP5084857B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010058609A JP5084857B2 (ja) 2010-03-16 2010-03-16 分析処理調整装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010058609A JP5084857B2 (ja) 2010-03-16 2010-03-16 分析処理調整装置及び方法

Publications (2)

Publication Number Publication Date
JP2011192096A true JP2011192096A (ja) 2011-09-29
JP5084857B2 JP5084857B2 (ja) 2012-11-28

Family

ID=44796915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010058609A Active JP5084857B2 (ja) 2010-03-16 2010-03-16 分析処理調整装置及び方法

Country Status (1)

Country Link
JP (1) JP5084857B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001350778A (ja) * 2000-06-09 2001-12-21 Canon Inc 文書管理システム、情報処理装置、文書管理方法および記憶媒体
JP2006202118A (ja) * 2005-01-21 2006-08-03 Yafoo Japan Corp 属性評価装置、属性評価方法および属性評価プログラム
JP2007052552A (ja) * 2005-08-16 2007-03-01 Oki Electric Ind Co Ltd コンテンツ管理方法及びコンテンツ管理システム
JP2008097617A (ja) * 2007-10-26 2008-04-24 Nec Corp ハイパーテキスト検査装置および方法ならびにプログラム
JP2009146013A (ja) * 2007-12-12 2009-07-02 Fujifilm Corp コンテンツ検索方法及び装置並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001350778A (ja) * 2000-06-09 2001-12-21 Canon Inc 文書管理システム、情報処理装置、文書管理方法および記憶媒体
JP2006202118A (ja) * 2005-01-21 2006-08-03 Yafoo Japan Corp 属性評価装置、属性評価方法および属性評価プログラム
JP2007052552A (ja) * 2005-08-16 2007-03-01 Oki Electric Ind Co Ltd コンテンツ管理方法及びコンテンツ管理システム
JP2008097617A (ja) * 2007-10-26 2008-04-24 Nec Corp ハイパーテキスト検査装置および方法ならびにプログラム
JP2009146013A (ja) * 2007-12-12 2009-07-02 Fujifilm Corp コンテンツ検索方法及び装置並びにプログラム

Also Published As

Publication number Publication date
JP5084857B2 (ja) 2012-11-28

Similar Documents

Publication Publication Date Title
US10114818B2 (en) System and method for locating bilingual web sites
US7660787B2 (en) Customized, personalized, integrated client-side search indexing of the web
JP6356273B2 (ja) バッチ最適化レンダリング及びフェッチアーキテクチャ
US8799262B2 (en) Configurable web crawler
US8892543B1 (en) Iterative off-line rendering process
US20110016104A1 (en) Centralized web-based system for automatically executing search engine optimization principles for one, or more website(s)
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
US20130019189A1 (en) Augmented editing of an online document
US20130219255A1 (en) Authorized Syndicated Descriptions of Linked Web Content Displayed With Links in User-Generated Content
US20120016857A1 (en) System and method for providing search engine optimization analysis
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
RU2733482C2 (ru) Способ и система для обновления базы данных поискового индекса
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
US7698329B2 (en) Method for improving quality of search results by avoiding indexing sections of pages
US10007731B2 (en) Deduplication in search results
JP5480058B2 (ja) 広告マッチング装置、方法及びプログラム
US8712992B2 (en) Method and apparatus for web crawling
US20160188717A1 (en) Network crawling prioritization
US20110119250A1 (en) Forward Progress Search Platform
US9881101B2 (en) Dynamic file retrieving for web page loading
JP5084857B2 (ja) 分析処理調整装置及び方法
US20190384802A1 (en) Dynamic Configurability of Web Pages Including Anchor Text
JP5928248B2 (ja) 評価方法、情報処理装置およびプログラム
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120814

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120904

R150 Certificate of patent or registration of utility model

Ref document number: 5084857

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350