JP6915322B2 - ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置 - Google Patents

ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置 Download PDF

Info

Publication number
JP6915322B2
JP6915322B2 JP2017050518A JP2017050518A JP6915322B2 JP 6915322 B2 JP6915322 B2 JP 6915322B2 JP 2017050518 A JP2017050518 A JP 2017050518A JP 2017050518 A JP2017050518 A JP 2017050518A JP 6915322 B2 JP6915322 B2 JP 6915322B2
Authority
JP
Japan
Prior art keywords
data
websites
website
storage unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017050518A
Other languages
English (en)
Other versions
JP2018156198A (ja
Inventor
田中 哲
哲 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017050518A priority Critical patent/JP6915322B2/ja
Publication of JP2018156198A publication Critical patent/JP2018156198A/ja
Application granted granted Critical
Publication of JP6915322B2 publication Critical patent/JP6915322B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明の実施形態は、ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置に関する。
従来、観光スポットなどの情報は、インターネット上の様々なウェブサイトより配信されている。これら様々なウェブサイトのウェブページ(コンテンツ)を収集して観光スポットなどを調査する場合、ユーザは、幾つかのウェブサイトのコンテンツを並べて比較する。
このコンテンツの比較については、遷移元画面に設定されたデータを遷移先画面に転記する技術や、様々な種別のデータを一つの比較装置で比較する技術が提案されている。
特開2003−233501号公報 特開平7−262061号公報
しかしながら、比較対象のウェブサイトを並べて比較する場合には、比較対象のウェブサイト間のデザインの相違などにより、互いに対応する項目同士の比較が判りづらいという問題がある。
1つの側面では、ウェブサイト同士を分かり易く比較できるウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置を提供することを目的とする。
第1の案では、ウェブサイト比較処理プログラムは、受け付ける処理と、取得する処理と、表示する処理とをコンピュータに実行させる。受け付ける処理は、比較対象の複数のウェブサイトの指定を受け付ける。取得する処理は、ウェブサイトに含まれる所定の複数の項目のそれぞれに対応付いたデータの定義情報を記憶する記憶部を参照し、指定された比較対象の複数のウェブサイトのそれぞれについて、所定の複数の項目のそれぞれに対応付いたデータを取得する。表示する処理は、取得したデータを、所定の複数の項目毎に、指定された複数のウェブサイトについて対比可能に表示する。
本発明の1実施態様によれば、ウェブサイト同士を分かり易く比較できる。
図1は、実施形態にかかる情報処理装置の構成の一例を示すブロック図である。 図2は、対象記憶部の一例を示す図である。 図3は、項目記憶部の一例を示す図である。 図4は、ページ記憶部の一例を示す図である。 図5は、抽出データ記憶部の一例を示す図である。 図6は、実施形態にかかる情報処理装置の動作例を示すフローチャートである。 図7は、ウェブページの比較表示を説明する説明図である。 図8は、ウェブページの比較表示を説明する説明図である。 図9は、ウェブサイト比較処理プログラムを実行するコンピュータの一例を示す図である。
以下、図面を参照して、実施形態にかかるウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明するウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
図1は、実施形態にかかる情報処理装置の構成の一例を示すブロック図である。図1に示す情報処理装置100は、例えば、ネットワークNを介してインターネットに接続され、管理者に指定されたインターネット上のWebサイト300を巡回する。次いで、情報処理装置100は、Webサイト300で公開されているWeb(ウェブ)ページを取得してデータベースに蓄積する。このように、情報処理装置100は、ウェブサイトで公開されているウェブページをデータクロールにより予め取得しておく。この情報処理装置100は、ウェブサイトを比較する装置の一例である。
情報処理装置100は、例えば、ある地域の観光情報を取得するために、観光スポットのサイトや都道府県が設けた観光情報サイトを巡回して、各観光スポットの住所、電話番号、説明文等のデータを取得する。
このとき、各観光スポットのサイトや観光情報サイトでは、各種データのフォーマットが統一されていない場合が多い。このため、情報処理装置100は、取得するデータ項目の定義を予め生成し、定義に基づいて各サイトからデータを取得する。
すなわち、情報処理装置100は、特定のURLに対応付けられ、タグの構造情報を含む文書における抽出対象部分の文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容する。また、情報処理装置100は、定期的または不定期に、特定のURLに対応付けられた文書にアクセスして、登録されたタグの階層構造上の位置に対応するデータを抜き出して、出力する。これにより、情報処理装置100は、各種データのフォーマットが異なるサイトの文書について、固有のタグ情報がなくても対象部分のデータを抜き出して出力できる。
ここで、タグの構造情報を含む文書としては、例えば、マークアップ言語で記述された文書が挙げられ、例えばHTML(HyperText Markup Language)文書、XML(Extensible Markup Language)文書等が挙げられる。なお、以下の説明では、一例として、HTML文書を用いたホームページを巡回する場合について説明する。
次に、情報処理装置100の構成について説明する。図1に示すように、情報処理装置100は、入力部101と、出力部102と、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、図1に示す機能部以外にも既知のコンピュータが有する各種の機能部を有することとしてもかまわない。
入力部101は、例えば、キーボードやマウス等の入力デバイスであり、情報処理装置100の管理者から各種情報の入力を受け付ける。例えば、入力部101は、情報処理装置100の管理者により、巡回するサイトのURL、取得するデータ項目、比較対象とするWebサイト300等が入力され、入力結果を制御部130に出力する。また、入力部101は、例えば、SD(Secure Digital)メモリカード等のリーダライタであってもよい。入力部101は、例えば、SDメモリカードから読み込んだ、巡回するサイトのURL、取得するデータ項目、比較対象とするWebサイト300等を制御部130に出力する。なお、入力部101は、入力デバイスとSDメモリカード等のリーダライタとの双方を有してもよい。
出力部102は、例えば、各種情報を表示するための表示デバイスである。出力部102は、例えば、表示デバイスとして液晶ディスプレイ等によって実現される。また、出力部102は、SDメモリカード等のリーダライタであってもよい。出力部102は、制御部130から出力データが入力されると、出力データについて表示又はメモリカードへの書き込みを行う。なお、入力部101および出力部102は、一体化されてもよく、例えば、SDメモリカード等のリーダライタのように、双方の機能を有するデバイスであってもよい。また、出力部102は、例えば、表示デバイスとSDカードリーダライタの双方を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークNを介して、例えばインターネットと有線又は無線で接続され、インターネット上のWebサイト300のサーバとの間で情報の通信を司る通信インタフェースである。通信部110は、インターネット上のWebサイト300からウェブページの内容、例えば、HTML文書、画像ファイル等を受信する。通信部110は、受信したウェブページ内容を制御部130に出力する。また、通信部110は、制御部130から入力されたページ要求等をインターネット上のWebサイト300に送信する。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部120は、対象記憶部121と、項目記憶部122と、ページ記憶部123と、抽出データ記憶部124とを有する。また、記憶部120は、制御部130での処理に用いる情報を記憶する。
対象記憶部121は、データを取得するクロール処理の対象となるサイトのURL(以下、対象URLという)と、HTML文書における抽出対象部分の位置特定情報とを対応付けて記憶する。すなわち、対象記憶部121は、対象URLの定義を記憶する。この対象記憶部121における対象URLと、その定義については、入力部101を介した管理者からの入力により、予め設定されている。
図2は、対象記憶部121の一例を示す図である。図2に示すように、対象記憶部121は、「URLID」、「対象URL」、「抽出対象部分の位置特定情報」といった項目を有する。また、「抽出対象部分の位置特定情報」は、「タイトル」、「住所」といった項目を有する。なお、抽出対象部分の位置特定情報は、図示はしないが、他にも、電話番号、更新日、位置情報、説明文といった項目を有する。対象記憶部121は、例えば、1つの対象URLごとに1レコードとして記憶する。
「URLID」は、対象URLを識別する。「対象URL」は、クロール処理でアクセスする対象となるHTML文書のURLを示す。対象URLは、例えば、管理者によって入力部101の入力デバイスにより入力される。「抽出対象部分の位置特定情報」は、対象URLのHTML文書内における抽出対象部分の位置を特定するための情報を示す。「タイトル」は、対象となるHTML文書内のタイトルについて、タグの名称、タグの文書内における順番およびタグの階層構造のうち1つ以上を組み合わせて、タグの階層構造上の位置を示す。「住所」は、対象となるHTML文書内の住所について、タグの名称、タグの文書内における順番およびタグの階層構造のうち1つ以上を組み合わせて、タグの階層構造上の位置を示す。
図2の1行目の例では、URLIDが「1」の対象URL「http://aaaa.bbb.ccc/ddd/eee/001.html」のHTML文書内における、タイトルおよび住所の位置特定情報を示す。タイトルの位置特定情報は、例えば、「<DIV class="title"> </DIV>,順番:1,/title/」と表現される。「<DIV class="title"> </DIV>」は、例えば、CSS(Cascading Style Sheets)セレクタを用いて抽出したタイトルを示すタグの名称を示す。「順番:1」は、当該HTML文書内のタイトルを示すタグのうち、1番目のタグを示す。「/title/」は、当該HTML文書のタイトルを示すタグの階層構造を示す。なお、当該HTML文書からタイトルとして抜き出されるデータは、DIVタグに囲まれた部分となる。
同様に、住所の位置特定情報は、例えば、「<DIV class="address"> </DIV>,順番:1,/info/address/」と表現される。「<DIV class="address"> </DIV>」は、例えば、CSSセレクタを用いて抽出した住所を示すタグの名称を示す。「順番:1」は、当該HTML文書内の住所を示すタグのうち、1番目のタグを示す。「/info/address/」は、当該HTML文書の住所を示すタグの階層構造を示す。なお、当該HTML文書から住所として抜き出されるデータは、DIVタグに囲まれた部分となる。また、抽出対象部分の位置特定情報は、タグの名称、タグの順番、及び、タグの階層構造のうち1つ以上を用いて特定してもよい。
また、タグの名称は、正規表現を用いて表してもよい。図2の2行目の例では、住所を示すタグの名称を「/<DIV.*>(.+)</DIV>/ /住所:(.+)$/」と表現している。正規表現では、DIVタグに囲まれた箇所、又は、「住所:」の後ろに続く箇所が、住所として抜き出されるデータとなる。さらに、抽出対象部分の位置特定情報は、CSSセレクタと正規表現を組み合わせてもよい。
また、図2の3行目の例のように、抽出対象部分の位置特定情報は、切り出し手法を用いて表現してもよい。この場合には、タイトルの位置特定情報は、例えば、CSSセレクタを用いて「div#left h2,順番:3,/tps/table/」と表現される。また、住所の位置特定情報は、例えば、CSSセレクタと正規表現とを用いて「#infoContent @<h3>所在地</h3>\s+?<p>(.+?)</p>@is,順番:5,/info/address/」と表現される。
図1の説明に戻り、項目記憶部122は、対象URLのページ内容から抽出するデータ項目の定義を記憶する。すなわち、項目記憶部122は、ウェブサイトに含まれる項目のそれぞれに対応づいたデータの定義情報を記憶する記憶部の一例である。この項目記憶部122における定義情報は、入力部101を介した管理者からの入力により、予め設定されている。
図3は、項目記憶部122の一例を示す図である。図3に示すように、項目記憶部122は、「項目ID」、「データ名」、「データ型」、「切り出し手法」といった項目を有する。項目記憶部122は、例えば、1つのデータ名ごとに、1レコードとして記憶する。
「項目ID」は、データ項目、すなわちデータ名を識別する。「データ名」は、抽出するデータの名前を示す。データ名は、例えば、タイトル、住所、電話番号、更新日、位置情報、説明文といったデータが挙げられる。「データ型」は、抽出したデータを抽出データ記憶部124に記憶する際の当該データの型を示す。データ型は、例えば、文字、数字、日付、緯度経度といった型が挙げられる。「切り出し手法」は、対象URLのページ内容からデータを切り出す、つまり抜き出す手法を示す。切り出し手法は、例えば、CSSセレクタ、正規表現といった手法が挙げられる。
図1の説明に戻り、ページ記憶部123は、対象URLについて、クロール処理でアクセスして取得したページ内容、すなわち、HTML文書、画像ファイル等を記憶する。
図4は、ページ記憶部123の一例を示す図である。図4に示すように、ページ記憶部123は、「URLID」、「対象URL」、「記憶領域」といった項目を有する。ページ記憶部123は、例えば、1つの対象URLごとに1レコードとして記憶する。
「URLID」は、対象URLを識別する。「対象URL」は、クロール処理でアクセスしたHTML文書のURLを示す。「記憶領域」は、取得したHTML文書や画像ファイル等を記憶した記憶領域を示す。記憶領域は、例えば、記憶部120のファイルシステムのディレクトリを記憶し、対応するディレクトリにHTML文書や画像ファイル等を記憶する。なお、ページ記憶部123は、記憶領域に、取得したHTML文書や画像ファイルを直接記憶するようにしてもよい。
図1の説明に戻り、抽出データ記憶部124は、HTML文書から抽出された、抽出対象部分のデータを記憶する。すなわち、抽出データ記憶部124は、クロール処理によって収集されたデータを格納するデータベースである。
図5は、抽出データ記憶部124の一例を示す図である。図5に示すように、抽出データ記憶部124は、「URLID」、「タイトル」、「住所」、「電話番号」、「更新日」、「位置情報」、「説明文」といった項目を有する。抽出データ記憶部124は、例えば、1つのURLIDごとに1レコードとして記憶する。
「URLID」は、対象URLを識別する。「タイトル」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、対象URLのHTML文書のタイトルを示す。「住所」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、対象URLのHTML文書内に記載された住所を示す。「電話番号」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、対象URLのHTML文書内に記載された電話番号を示す。「更新日」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、対象URLのHTML文書内に記載された更新日を示す。「位置情報」は、緯度経度を示す。緯度経度は、対象URLのHTML文書から抽出された住所に基づいて、例えば、外部のAPI(Application Programming Interface)サービスを利用することで取得される。なお、位置情報は、HTML文書内に緯度経度の記載があれば、当該緯度経度であってもよい。「説明文」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、例えば、対象URLのHTML文書が観光スポットに関する文書であれば、文書内の観光スポットに関する説明文を示す。なお、住所は、HTML文書内に記載がない場合には、例えば、タイトルに記載された観光スポット名を用いて、外部のAPIサービスを利用することで取得された住所であってもよい。
図1の説明に戻り、制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。制御部130は、クロール部131と、抽出部132と、受付部133と、取得部134と、出力制御部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図1に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
クロール部131は、対象記憶部121を参照して、対象URLを含むホームページ、例えば、ある観光情報を公開するWebサイト300のトップページにアクセスする。すなわち、クロール部131は、あるWebサイト300のサーバに対して通信部110を介してページ要求を送信し、当該サーバから通信部110を介してページ内容を受信する。
クロール部131は、例えば、定期的または不定期に、つまり予め管理者によって指定された間隔又は任意のタイミングで、対象URLを含むホームページにアクセスする。指定された間隔は、例えば、1日、1週間、1ヶ月等のように任意の間隔とすることができる。
クロール部131は、対象記憶部121を参照して、ホームページ内の全リンクのうち、ページ内容を取得する対象URLを選定する。クロール部131は、例えば、観光スポットごとのページの対象URLを選定する。クロール部131は、選定した対象URLからページ内容を取得する。クロール部131は、取得したページ内容をページ記憶部123に記憶する。また、クロール部131は、ページ内容の取得が完了したことを示す取得完了情報を抽出部132に出力する。
抽出部132は、クロール部131から取得完了情報が入力されると、対象記憶部121の抽出対象部分の位置特定情報を参照して、ページ記憶部123に記憶された対象URLのページ内容から、抽出対象部分のデータ項目のデータを抽出する。抽出部132は、抽出したデータをURLIDと対応付けて、項目記憶部122のデータ項目の定義に従って、抽出データ記憶部124に記憶する。
抽出部132は、抽出対象部分のデータ項目のデータを抽出する場合に、項目記憶部122の切り出し手法で指定された手法を用いて抽出する。抽出部132は、例えば、住所を示すタグの階層が「/info/address/」で定義され、例えば「.address」と記述されたCSSセレクタを用いることで住所を抽出する。この場合には、抽出部132は、例えば、タグ内に「address」を含む項目を、住所として切り出すことができる。
また、抽出部132は、例えば、1行目に「.info」と記述され、2行目に「/<DIV.*>(.+)</DIV>/」と記述され、3行目に「/住所:(.+)$/」と記述された正規表現を用いることで住所を抽出する。この場合には、抽出部132は、例えば、DIVタグのクラスが「info」であるタグに含まれる階層から、「住所:」の文字列の後に続く文字列を住所として切り出すことができる。
このように、抽出部132は、項目記憶部122を参照し、クロール部131が取得したウェブサイトそれぞれについて、項目のそれぞれに対応付いたデータを取得する取得部の一例である。
受付部133は、管理者などのユーザより入力部101を介して比較対象の複数のWebサイト300の指定を受け付ける。具体的には、取得部134は、比較対象とするWebサイト300のウェブページのURLなどを、ユーザによる入力部101の入力操作より受け付ける。受付部133は、ユーザより受け付けた、比較対象の複数のWebサイト300のURLを取得部134へ出力する。
取得部134は、データクロールによるデータが格納された記憶部120を参照し、受付部133で指定された比較対象の複数のWebサイト300それぞれのコンテンツを取得する。具体的には、取得部134は、比較対象の複数のWebサイト300のURLをもとに対象記憶部121を参照し、比較対象の複数のWebサイト300それぞれのURLIDを取得する。次いで、取得部134は、取得したURLIDをもとに抽出データ記憶部124を参照し、比較対象の複数のWebサイト300それぞれより取得したコンテンツ(ウェブベージ)を検索する。
また、取得部134は、比較対象の複数のWebサイト300それぞれより取得したコンテンツについて、比較対象の複数のWebサイト300の間でコンテンツ名(タイトル名)または位置情報が同じコンテンツを抽出する。
具体的には、取得部134は、抽出データ記憶部124の「タイトル」をもとに、比較対象の複数のWebサイト300それぞれより取得したコンテンツの中から互いにコンテンツ名(タイトル名)が同じ(同一)コンテンツを抽出する。タイトル名が異なっている場合、取得部134は、抽出データ記憶部124の「位置情報」をもとに、比較対象の複数のWebサイト300それぞれより取得したコンテンツの中から互いに位置情報が同じ(同一)コンテンツを抽出する。
なお、「コンテンツ名が同じ(同一)」については、一部の名称が同じ場合や、言い換えなどの、互いに類似するコンテンツ名称を許容するものとする。例えば、タイトルが「○×国道」と「○×国道○○号」とでは、一部の名称が同じコンテンツであり、コンテンツ名が同じものとして許容される。また、タイトルが「○×国道」と「ルート○×」とでは、互いに言い換えた名称であり、コンテンツ名が同じものとして許容される。同様に、「位置情報が同じ(同一)」については、100m程度の誤差を許容するものとする。
次いで、取得部134は、比較対象の複数のWebサイト300それぞれより取得したコンテンツについて抽出データ記憶部124を参照し、「タイトル」、「住所」、「電話番号」、「更新日」、「位置情報」、「説明文」などのデータ項目ごとのデータ抽出を行う。取得部134は、比較対象の複数のWebサイト300それぞれより取得したコンテンツについて抽出したデータを出力制御部135へ出力する。
なお、本実施形態では、データクロール時に、抽出部132が項目記憶部122を参照し、クロール部131が取得したウェブサイトそれぞれについて、項目のそれぞれに対応付いたデータを取得して抽出データ記憶部124に格納している。しかしながら、項目記憶部122を参照して項目のそれぞれに対応付いたデータを取得する処理は、データクロール時に行うものではなく、取得部134がデータを取得する際に実行してもよい。すなわち、抽出部132と、取得部134とを統合した機能構成であってもよい。
出力制御部135は、比較対象の複数のWebサイト300それぞれより取得したコンテンツについて、データ項目ごとに抽出されたデータを取得部134より受け付けると、抽出されたデータを出力データとして出力部102に出力して表示させる。具体的には、出力制御部135は、データ項目ごとに抽出されたデータを、項目ごとに、比較対象の複数のWebサイト300について対比可能に出力部102に表示させる。一例として、出力制御部135は、比較対象の複数のWebサイト300より抽出したデータを、項目ごとに横に並べた対比表として出力部102に表示させる。
このように、項目ごとに、比較対象の複数のWebサイト300について対比可能な対比表を表示出力することで、ユーザは、比較対象のWebサイト300のコンテンツ同士で互いに対応する項目の比較が容易となり、Webサイト300同士を分かり易く比較できる。
図6は、実施形態にかかる情報処理装置100の動作例を示すフローチャートである。図6に示すように、処理が開始されると、受付部133は、比較対象の複数のWebサイト300についてのウェブページの指定を入力部101を介して受け付ける(S1)。
次いで、取得部134は、抽出データ記憶部124を参照し、比較対象の複数のWebサイト300それぞれについて、指定されたウェブベージ(コンテンツ)を検索する(S2)。次いで、取得部134は、比較対象の複数のWebサイト300の間でコンテンツ名(タイトル名)または位置情報が同じコンテンツを抽出する(S3)。
具体的には、取得部134は、抽出データ記憶部124の「タイトル」をもとに、比較対象の複数のWebサイト300の間でタイトル名が同じコンテンツを抽出する。タイトル名が異なっている場合、取得部134は、抽出データ記憶部124の「位置情報」をもとに、比較対象の複数のWebサイト300の間で位置情報が同じコンテンツを抽出する。
次いで、取得部134は、抽出したコンテンツ、すなわち比較対象の複数のWebサイト300の間でタイトル名または位置情報が同じコンテンツについて、抽出データ記憶部124を参照し、データ項目ごとのデータ抽出を行う(S4〜S7)。具体的には、「タイトル」、「住所」、「電話番号」、「更新日」、「位置情報」、「説明文」などのデータ項目ごとのデータ抽出を順次行う。
より具体的には、取得部134は、抽出データ記憶部124を参照して処理対象のデータ項目が一致する情報の有無を判定する(S4)。「タイトル」、「住所」、「電話番号」、「更新日」、「位置情報」、「説明文」などのデータ項目に対応した情報がある場合(S4:YES)、取得部134は、抽出データ記憶部124よりデータ項目ごとのデータ抽出を行う(S5)。データ項目に対応した情報がない場合(S4:NO)、取得部134はS5の処理をスキップする。
次いで、取得部134は、全てのデータ項目の処理が完了したか否かを判定する(S6)。完了していない場合(S6:NO)、取得部134は、「タイトル」、「住所」、「電話番号」、「更新日」、「位置情報」、「説明文」などのデータ項目の中で次のデータ項目を処理対象とし(S7)、S4へ処理を戻す。
S4〜S7に次いで、完了した場合(S6:YES)、取得部134は、比較対象の複数のWebサイト300それぞれより取得したコンテンツについて抽出したデータを出力制御部135へ出力する。出力制御部135は、比較対象の複数のWebサイト300のコンテンツについて抽出したデータを、項目ごとに並べた対比表を出力部102より表示出力する(S8)。
以上のように、情報処理装置100は、比較対象の複数のWebサイト300の指定を受け付ける。また、情報処理装置100は、Webサイト300に含まれる所定の複数の項目のそれぞれに対応付いたデータの定義情報を記憶する記憶部120を参照し、指定された比較対象の複数のウェブサイトのそれぞれについて、所定の項目のそれぞれに対応付いたデータを取得する。また、情報処理装置100は、取得したデータを、所定の複数の項目毎に、指定された複数のウェブサイトについて対比可能に出力部102より表示する。したがって、情報処理装置100では、Webサイト300同士を分かり易く比較できる。
図7、図8は、ウェブページの比較表示を説明する説明図である。図7に示すように、タイトルが「○×国道」、「○×国道○○号」などの、比較対象のWebサイト300のサイト画面G1A、G1Bを並べて比較する場合は、デザインの相違などにより、互いに対応する項目同士の比較が判りづらくなる。
これに対し、本実施形態では、図8に示すように、比較対象のWebサイト300のコンテンツについて、項目ごとにデータを並べた対比表の画面G2が出力部102より表示される。これにより、情報処理装置100では、互いに対応する項目の比較が容易となり、比較対象の複数のWebサイト300同士を分かり易く比較できる。
また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、抽出部132と、取得部134とを統合して、取得部としてもよい。
さらに、各装置で行われる各種処理機能は、CPU(又はMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部又は任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(又はMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、又はワイヤードロジックによるハードウェア上で、その全部又は任意の一部を実行するようにしてもよいことは言うまでもない。
ところで、上記の実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図9は、ウェブサイト比較処理プログラムを実行するコンピュータの一例を示す図である。
図9が示すように、コンピュータ200は、各種演算処理を実行するCPU201と、データ入力を受け付ける入力装置202と、モニタ203とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る媒体読取装置204と、各種装置と接続するためのインタフェース装置205と、他の情報処理装置等と有線又は無線により接続するための通信装置206とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM207と、ハードディスク装置208とを有する。また、各装置201〜208は、バス209に接続される。
ハードディスク装置208には、図1に示したクロール部131、抽出部132、受付部133、取得部134および出力制御部135の各処理部と同様の機能を有するウェブサイト比較処理プログラムが記憶される。また、ハードディスク装置208には、対象記憶部121、項目記憶部122、ページ記憶部123、抽出データ記憶部124およびウェブサイト比較処理プログラムを実現するための各種データが記憶される。入力装置202は、入力部101と同等の機能を有し、例えば、コンピュータ200の管理者から、対象URL、定義、管理情報等の各種情報の入力を受け付ける。モニタ203は、出力部102と同等の機能を有し、例えば、コンピュータ200の管理者に対して管理情報の画面、受付画面、データ表示画面等の各種画面を表示する。インタフェース装置205は、例えば、印刷装置等が接続される。通信装置206は、例えば、図1に示した通信部110と同様の機能を有し、ネットワークNと接続され、インターネット上のWebサイト300と各種情報をやりとりする。
CPU201は、ハードディスク装置208に記憶された各プログラムを読み出して、RAM207に展開して実行することで、各種の処理を行う。また、これらのプログラムは、コンピュータ200を図1に示したクロール部131、抽出部132、受付部133、取得部134および出力制御部135として機能させることができる。
なお、上記のウェブサイト比較処理プログラムは、必ずしもハードディスク装置208に記憶されている必要はない。例えば、コンピュータ200が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ200が読み出して実行するようにしてもよい。コンピュータ200が読み取り可能な記憶媒体は、例えば、CD−ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこのウェブサイト比較処理を記憶させておき、コンピュータ200がこれらからウェブサイト比較処理を読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)比較対象の複数のウェブサイトの指定を受け付け、
ウェブサイトに含まれる所定の複数の項目のそれぞれに対応付いたデータの定義情報を記憶する記憶部を参照し、指定された前記比較対象の複数のウェブサイトのそれぞれについて、前記所定の複数の項目のそれぞれに対応付いたデータを取得し、
取得した前記データを、前記所定の複数の項目毎に、指定された前記複数のウェブサイトについて対比可能に表示する、
処理をコンピュータに実行させることを特徴とするウェブサイト比較処理プログラム。
(付記2)前記データは、指定された前記比較対象の複数のウェブサイトのそれぞれにおいて、位置情報が同一であるコンテンツのそれぞれに対応づいたデータを含む、
ことを特徴とする付記1に記載のウェブサイト比較処理プログラム。
(付記3)前記データは、指定された前記比較対象の複数のウェブサイトのそれぞれにおいて、コンテンツ名が同一であるコンテンツのそれぞれに対応づいたデータを含む、
ことを特徴とする付記1に記載のウェブサイト比較処理プログラム。
(付記4)前記受け付ける処理は、クロールによって前記記憶部に定義情報が記憶されたウェブサイトの中から前記指定を受け付ける、
ことを特徴とする付記1乃至3のいずれか一に記載のウェブサイト比較処理プログラム。
(付記5)前記表示する処理は、前記所定の複数の項目毎に、指定された前記複数のウェブサイトより取得した前記データを並べた対比表を表示する、
ことを特徴とする付記1乃至4のいずれか一に記載のウェブサイト比較処理プログラム。
(付記6)比較対象の複数のウェブサイトの指定を受け付け、
ウェブサイトに含まれる所定の複数の項目のそれぞれに対応付いたデータの定義情報を記憶する記憶部を参照し、指定された前記比較対象の複数のウェブサイトのそれぞれについて、前記所定の複数の項目のそれぞれに対応付いたデータを取得し、
取得した前記データを、前記所定の複数の項目毎に、指定された前記複数のウェブサイトについて対比可能に表示する、
処理をコンピュータが実行することを特徴とするウェブサイト比較方法。
(付記7)前記データは、指定された前記比較対象の複数のウェブサイトのそれぞれにおいて、位置情報が同一であるコンテンツのそれぞれに対応づいたデータを含む、
ことを特徴とする付記6に記載のウェブサイト比較方法。
(付記8)前記データは、指定された前記比較対象の複数のウェブサイトのそれぞれにおいて、コンテンツ名が同一であるコンテンツのそれぞれに対応づいたデータを含む、
ことを特徴とする付記6に記載のウェブサイト比較方法。
(付記9)前記受け付ける処理は、クロールによって前記記憶部に定義情報が記憶されたウェブサイトの中から前記指定を受け付ける、
ことを特徴とする付記6乃至8のいずれか一に記載のウェブサイト比較方法。
(付記10)前記表示する処理は、前記所定の複数の項目毎に、指定された前記複数のウェブサイトより取得した前記データを並べた対比表を表示する、
ことを特徴とする付記6乃至9のいずれか一に記載のウェブサイト比較方法。
(付記11)比較対象の複数のウェブサイトの指定を受け付ける受付部と、
ウェブサイトに含まれる所定の複数の項目のそれぞれに対応付いたデータの定義情報を記憶する記憶部を参照し、指定された前記比較対象の複数のウェブサイトのそれぞれについて、前記所定の複数の項目のそれぞれに対応付いたデータを取得する取得部と、
取得した前記データを、前記所定の複数の項目毎に、指定された前記複数のウェブサイトについて対比可能に表示させる出力制御部と、
を有することを特徴とするウェブサイトを比較する装置。
(付記12)前記データは、指定された前記比較対象の複数のウェブサイトのそれぞれにおいて、位置情報が同一であるコンテンツのそれぞれに対応づいたデータを含む、
ことを特徴とする付記11に記載のウェブサイトを比較する装置。
(付記13)前記データは、指定された前記比較対象の複数のウェブサイトのそれぞれにおいて、コンテンツ名が同一であるコンテンツのそれぞれに対応づいたデータを含む、
ことを特徴とする付記11に記載のウェブサイトを比較する装置。
(付記14)前記受付部は、クロールによって前記記憶部に定義情報が記憶されたウェブサイトの中から前記指定を受け付ける、
ことを特徴とする付記11乃至13のいずれか一に記載のウェブサイトを比較する装置。
(付記15)前記出力制御部は、前記所定の複数の項目毎に、指定された前記複数のウェブサイトより取得した前記データを並べた対比表を表示させる、
ことを特徴とする付記11乃至14のいずれか一に記載のウェブサイトを比較する装置。
100…情報処理装置
101…入力部
102…出力部
110…通信部
120…記憶部
121…対象記憶部
122…項目記憶部
123…ページ記憶部
124…抽出データ記憶部
130…制御部
131…クロール部
132…抽出部
133…受付部
134…取得部
135…出力制御部
200…コンピュータ
201…CPU
202…入力装置
203…モニタ
204…媒体読取装置
205…インタフェース装置
206…通信装置
207…RAM
208…ハードディスク装置
209…バス
300…Webサイト
G1A、G1B…サイト画面
G2…画面
N…ネットワーク

Claims (6)

  1. クロールの対象となるウェブサイトごとに、当該ウェブサイトにおける抽出対象部分が示された対象情報に基づき、前記クロールの対象となるウェブサイトそれぞれから抽出したデータをページ記憶部に記憶し、
    比較対象の複数のウェブサイトの指定を受け付け、
    ウェブサイトに含まれる所定の複数の項目のそれぞれに対応付いたデータ名、データ型および切り出し手法の定義情報を記憶する記憶部を参照し、指定された前記比較対象の複数のウェブサイトのそれぞれについて、前記ページ記憶部に記憶されたデータの中から前記所定の複数の項目のそれぞれに対応付いたデータ名、データ型および切り出し手法に基づくデータを取得し、
    取得した前記データを、前記所定の複数の項目毎に、指定された前記複数のウェブサイトについて対比可能に表示する、
    処理をコンピュータに実行させることを特徴とするウェブサイト比較処理プログラム。
  2. 前記データは、指定された前記比較対象の複数のウェブサイトのそれぞれにおいて、位置情報が同一であるコンテンツのそれぞれに対応づいたデータを含む、
    ことを特徴とする請求項1に記載のウェブサイト比較処理プログラム。
  3. 前記データは、指定された前記比較対象の複数のウェブサイトのそれぞれにおいて、コンテンツ名が同一であるコンテンツのそれぞれに対応づいたデータを含む、
    ことを特徴とする請求項1に記載のウェブサイト比較処理プログラム。
  4. 前記表示する処理は、前記所定の複数の項目毎に、指定された前記複数のウェブサイトより取得した前記データを並べた対比表を表示する、
    ことを特徴とする請求項1乃至3のいずれか一項に記載のウェブサイト比較処理プログラム。
  5. クロールの対象となるウェブサイトごとに、当該ウェブサイトにおける抽出対象部分が示された対象情報に基づき、前記クロールの対象となるウェブサイトそれぞれから抽出したデータをページ記憶部に記憶し、
    比較対象の複数のウェブサイトの指定を受け付け、
    ウェブサイトに含まれる所定の複数の項目のそれぞれに対応付いたデータ名、データ型および切り出し手法の定義情報を記憶する記憶部を参照し、指定された前記比較対象の複数のウェブサイトのそれぞれについて、前記ページ記憶部に記憶されたデータの中から前記所定の複数の項目のそれぞれに対応付いたデータ名、データ型および切り出し手法に基づくデータを取得し、
    取得した前記データを、前記所定の複数の項目毎に、指定された前記複数のウェブサイトについて対比可能に表示する、
    処理をコンピュータが実行することを特徴とするウェブサイト比較方法。
  6. クロールの対象となるウェブサイトごとに、当該ウェブサイトにおける抽出対象部分が示された対象情報に基づき、前記クロールの対象となるウェブサイトそれぞれから抽出したデータをページ記憶部に記憶するクロール部と、
    比較対象の複数のウェブサイトの指定を受け付ける受付部と、
    ウェブサイトに含まれる所定の複数の項目のそれぞれに対応付いたデータ名、データ型および切り出し手法の定義情報を記憶する記憶部を参照し、指定された前記比較対象の複数のウェブサイトのそれぞれについて、前記ページ記憶部に記憶されたデータの中から前記所定の複数の項目のそれぞれに対応付いたデータ名、データ型および切り出し手法に基づくデータを取得する取得部と、
    取得した前記データを、前記所定の複数の項目毎に、指定された前記複数のウェブサイトについて対比可能に表示する表示部と、
    を有することを特徴とするウェブサイトを比較する装置。
JP2017050518A 2017-03-15 2017-03-15 ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置 Active JP6915322B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017050518A JP6915322B2 (ja) 2017-03-15 2017-03-15 ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017050518A JP6915322B2 (ja) 2017-03-15 2017-03-15 ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置

Publications (2)

Publication Number Publication Date
JP2018156198A JP2018156198A (ja) 2018-10-04
JP6915322B2 true JP6915322B2 (ja) 2021-08-04

Family

ID=63716592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017050518A Active JP6915322B2 (ja) 2017-03-15 2017-03-15 ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置

Country Status (1)

Country Link
JP (1) JP6915322B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141765A (ja) * 2004-12-09 2005-06-02 Pacific Consultants Co Ltd 情報発信方法、情報発信装置
JP2009223456A (ja) * 2008-03-14 2009-10-01 Dainippon Printing Co Ltd 価格調査システムおよび価格調査方法
JP5077300B2 (ja) * 2009-06-24 2012-11-21 富士通株式会社 ショッピングサイトの価格調査方法及び情報処理装置
WO2014064757A1 (ja) * 2012-10-22 2014-05-01 株式会社インビオ 法人情報提供装置及びサーバプログラム
JP5646026B2 (ja) * 2013-10-03 2014-12-24 株式会社パラダイムシフト 口コミ情報管理システム、口コミ情報管理方法、および口コミ情報管理プログラム

Also Published As

Publication number Publication date
JP2018156198A (ja) 2018-10-04

Similar Documents

Publication Publication Date Title
CN101192231B (zh) 基于上下文的书签
US10769216B2 (en) Data acquisition method, data acquisition apparatus, and recording medium
KR101556743B1 (ko) 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법
JP4722697B2 (ja) 情報表示システム
JPH1125020A (ja) Www掲載番組の内容に変更があったことを依頼者に通知する調査代行サービス装置
US20060116992A1 (en) Internet search environment number system
JP4959501B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6915322B2 (ja) ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置
JP6828277B2 (ja) クライアント装置、情報処理システム及びプログラム
JP6520955B2 (ja) データ検証プログラム、データ検証方法及びデータ検証装置
US10726076B2 (en) Information acquisition method, and information acquisition device
JP2018152015A (ja) 記憶制御装置、記憶制御プログラムおよび記憶制御方法
KR100573091B1 (ko) 퍼스널 배너 작성 프로그램
US20170242839A1 (en) Data acquisition method, data acquisition device, and recording medium
JP2009098829A (ja) 漫画のコマ検索装置
JP2007025753A (ja) ウェブログサーバ及びウェブログサービス提供システム
JP6485462B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US8639732B2 (en) Method for storing and reading-out data handled by application operating on HTTP client, data storage program, and data read-out program
JP7266977B2 (ja) 応募者の情報を収集するための装置、方法及びそのためのプログラム
KR20000050159A (ko) 지리정보를 이용한 정보 검색 시스템 및 방법
TWI258675B (en) System, method and machine-readable storage medium for dynamic generation of personalized table
KR100965343B1 (ko) 사용자의 검색 결과 활용 패턴의 공유를 이용한 검색 엔진운영 방법 및 시스템
JP2007149023A (ja) ウェブページ生成システムおよび方法ならびにプログラム
JP2006072494A (ja) Url情報管理システム
JP2008165313A (ja) ホームページ作成システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210628

R150 Certificate of patent or registration of utility model

Ref document number: 6915322

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150