JP5026068B2 - Information collection system - Google Patents

Information collection system Download PDF

Info

Publication number
JP5026068B2
JP5026068B2 JP2006352092A JP2006352092A JP5026068B2 JP 5026068 B2 JP5026068 B2 JP 5026068B2 JP 2006352092 A JP2006352092 A JP 2006352092A JP 2006352092 A JP2006352092 A JP 2006352092A JP 5026068 B2 JP5026068 B2 JP 5026068B2
Authority
JP
Japan
Prior art keywords
information
network information
location
network
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006352092A
Other languages
Japanese (ja)
Other versions
JP2008165356A (en
Inventor
雄司 野村
靖夫 三部
光平 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2006352092A priority Critical patent/JP5026068B2/en
Publication of JP2008165356A publication Critical patent/JP2008165356A/en
Application granted granted Critical
Publication of JP5026068B2 publication Critical patent/JP5026068B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ネットワークを介してWEBページを網羅的に収集して保存する技術に関する。   The present invention relates to a technique for comprehensively collecting and storing WEB pages via a network.

インターネット上に公開された情報(以下、WEBページ)を網羅的に収集・保存し、後世に残すための取り組み(WEBアーカイブ)においては、いかにWEBページを漏れなく収集するかが重要となる。
従来、リンクを辿ってWEBページを収集するロボットであるクローラによってWEBページの収集が行われている。しかしながら、WEBページ上でのマウスカーソルの移動やマウスクリックなどのマウスイベントを契機としてプログラムやスクリプトが動作することで表示されるWEBページなどには、クローラが行き着くことができず、収集できない。また、人手によって無数にあるWEBページの収集を行っていては効率的でなく、漏れがでる可能性も高い。
In an effort to comprehensively collect and store information (hereinafter referred to as WEB pages) published on the Internet and leave it for future generations (WEB archive), it is important to collect WEB pages without omission.
Conventionally, WEB pages are collected by a crawler, which is a robot that collects WEB pages by following links. However, the crawler cannot reach the web page displayed by the operation of the program or script triggered by a mouse event such as a mouse cursor movement or a mouse click on the web page, and cannot be collected. In addition, it is not efficient to collect countless WEB pages manually, and there is a high possibility of leakage.

そこで、クローラや人手でWEBページを収集した後、収集したWEBページを閲覧ソフト(WEBブラウザ)に表示し、自動的にマウスカーソルとマウスクリックの制御をしてWEBページを網羅的にクリックし、ページ遷移が行われた場合、遷移後のWEBページを再収集することで網羅性を高めようとする試みがなされている(例えば、特許文献1)。
特開2005−149136号公報
Therefore, after collecting the WEB page by crawler or manually, the collected WEB page is displayed on the browsing software (WEB browser), the mouse cursor and mouse click are automatically controlled, and the WEB page is comprehensively clicked. When page transition is performed, an attempt has been made to improve completeness by recollecting the WEB page after the transition (for example, Patent Document 1).
JP 2005-149136 A

しかしながら、上述した特許文献においては、WEBページ上に基点を設定し、この基点から一定の間隔ごとにマウスカーソルを上下左右に動作させてマウスクリック制御を行っている。このため、スクリプトの動作やリンクと関係のないページ箇所にもマウスカーソルの移動とマウスクリック制御を行っており、効率的な収集方法が行えているとは言えなかった。   However, in the above-described patent document, a base point is set on the WEB page, and mouse click control is performed by moving the mouse cursor up and down and left and right at regular intervals from this base point. For this reason, the mouse cursor movement and mouse click control are also performed on page portions that are not related to script operations and links, so it cannot be said that an efficient collection method can be performed.

また、上記した特許文献における収集方法では、HTML(HyperText Markup Language)等によるWEBページのみを対象としており、インターネット上に公開された文書ファイル、画像ファイルなどのアプリケーションドキュメントについて考慮されているものではなかった。すなわち、取得したWEBページを閲覧ソフトに表示させ、網羅的にマウスカーソルを移動させマウスクリックの制御を行うだけでは、アプリケーション上に表示される印刷ボタンや、ドキュメントを編集するためのボタン等を押下してしまう。その結果、印刷用画面が立ち上がったり不要な動画再生を開始したりすることで収集が中断してしまうことや、ドキュメントの内容が変わってしまう可能性があり、確実に収集を行えないという問題がある。
本発明は、このような事情に鑑みてなされたもので、マウスカーソルをWEBページ上に網羅的に移動させるのではなく、WEBページ収集に関連したイベントを発生するポイントだけを精度良く検出し、効率的にWEBページの収集を行うことを目的とする。
In addition, the collection method in the above-mentioned patent document targets only WEB pages using HTML (HyperText Markup Language), and does not consider application documents such as document files and image files published on the Internet. It was. In other words, simply press the print button displayed on the application or the button to edit the document, etc. just by displaying the acquired WEB page on the browsing software, moving the mouse cursor exhaustively and controlling the mouse click Resulting in. As a result, there is a problem that collection may be interrupted by starting up the print screen or starting unnecessary video playback, and the contents of the document may change, making it impossible to collect reliably. is there.
The present invention has been made in view of such circumstances, and does not move the mouse cursor over the WEB page exhaustively, but accurately detects only points that generate events related to WEB page collection, The purpose is to collect WEB pages efficiently.

請求項1に記載の発明は、ネットワークを介して提供されるネットワーク情報を受信して記憶する情報収集システムであって、ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶手段と、収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、ネットワーク情報を受信するネットワーク情報受信手段と、ネットワーク情報を読み込んで、画面に表示されるネットワーク情報を画像解析し、画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出手段と、構成要素の位置データ基づいて、位置データが示す座標位置にマウスカーソルを移動させ、座標位置においてマウスクリックを行ったと同様の信号を入力して構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出手段とを備えることを特徴とする情報収集システム。 The invention according to claim 1 is an information collection system for receiving and storing network information provided via a network, and a collection network for storing collection network information location information, which is location information of network information Information location storage means, network information reception means for sending network information request signal and receiving network information with collected network information location position information as destination, network information displayed on screen by reading network information Event configuration that detects the position data indicating the coordinate position on the screen of the component having the feature that may generate the event by analyzing the image of the image, extracting the feature of the pixel included in the image and the feature of the neighboring region an element detecting means, based on the position data of the components, position data Move the mouse cursor to the coordinates position indicated by activates an event with corresponding components by entering the same signal as subjected to mouse clicks at coordinates, the new network information is another network information as a result of events An information collection system comprising: new location information extraction means for extracting location information of the network information when an information request is made to the network.

請求項2に記載の発明は、請求項1に記載の情報収集システムであって、新規所在位置情報抽出手段が抽出した所在位置情報を、収集ネットワーク情報所在位置記憶手段に追加して記憶させる収集ネットワーク情報所在位置追加手段をさらに備えることを特徴とする情報収集システム。   The invention according to claim 2 is the information collection system according to claim 1, wherein the location information extracted by the new location information extraction means is additionally stored in the collection network information location storage means An information collection system further comprising a network information location adding means.

請求項3に記載の発明は、請求項1に記載の情報収集システムであって、ネットワーク情報受信手段が受信したネットワーク情報の所在位置情報を記憶する既読ネットワーク情報所在位置記憶手段を備え、ネットワーク情報受信手段は、収集ネットワーク情報所在位置情報に基づいてネットワーク情報を要求する際に、収集ネットワーク情報所在位置情報と同一の情報が既読ネットワーク情報所在位置記憶手段に存在する場合には、情報要求を行わないことをさらに特徴とする情報収集システム。   The invention according to claim 3 is the information collection system according to claim 1, further comprising a read network information location storage unit that stores location information of the network information received by the network information reception unit. When the information receiving means requests network information based on the collected network information location information, if the same information as the collected network information location information is present in the already-read network information location storage means, an information request is made. An information collecting system further characterized by not performing.

請求項4に記載の発明は、ネットワークを介して提供されるネットワーク情報を受信して記憶する情報収集方法であって、ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶ステップと、収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、ネットワーク情報を受信するネットワーク情報受信ステップと、記ネットワーク情報を読み込んで、画面に表示されるネットワーク情報を画像解析し、画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出ステップと、構成要素の位置データ基づいて、位置データが示す座標位置にマウスカーソルを移動させ、座標位置においてマウスクリックを行ったと同様の信号を入力して構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出ステップとを備えることを特徴とする情報収集方法。 The invention according to claim 4 is an information collection method for receiving and storing network information provided via a network, and a collection network for storing collection network information location information which is location information of network information An information location storing step, a network information receiving step for transmitting a network information request signal using the collected network information location information as a transmission destination, and receiving the network information, and a network displayed on the screen after reading the network information An event that detects the position data indicating the coordinate position on the screen of the component that has the characteristic that the event may occur by analyzing the image of the information, extracting the feature of the pixel included in the image and the feature of the neighboring area a component detection step, based on the position data of the components Move the mouse cursor to the coordinate position indicated by the position data, to activate the event marked with corresponding components by entering the same signal as subjected to mouse clicks at coordinates, is another network information as a result of the new event An information collection method comprising: a new location information extraction step for extracting location information of network information when an information request for the network information is made.

請求項5に記載の発明は、ネットワークを介して提供されるネットワーク情報を受信して記憶する情報収集プログラムであって、ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶ステップと、収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、ネットワーク情報を受信するネットワーク情報受信ステップと、ネットワーク情報を読み込んで、画面に表示されるネットワーク情報を画像解析し、画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出ステップと、構成要素の位置データ基づいて、位置データが示す座標位置にマウスカーソルを移動させ、座標位置においてマウスクリックを行ったと同様の信号を入力して構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出ステップとを備えることを特徴とする情報収集プログラム。 The invention according to claim 5 is an information collection program for receiving and storing network information provided via a network, and a collection network for storing collection network information location information that is location information of network information An information location storing step, a network information receiving step for transmitting a network information request signal using the collected network information location location information as a transmission destination and receiving the network information, and a network information displayed on the screen by reading the network information Event configuration that detects the position data indicating the coordinate position on the screen of the component having the feature that may generate the event by analyzing the image of the image, extracting the feature of the pixel included in the image and the feature of the neighboring region and element detection step, based on the position data of the components Dzu Te, move the mouse cursor to the coordinate position indicated by the position data, to activate the event marked with corresponding components by entering the same signal as subjected to mouse clicks at coordinates, a different network information as a result of events An information collection program comprising: a new location information extraction step for extracting location information of network information when an information request is made for certain new network information.

以上説明したように、本発明によれば、WEBページを解析し、WEBページ収集に関連したイベントを発生する可能性のあるポイントだけを検出して動作させるようにしたので、効率的なWEBページの収集を行うことができる。   As described above, according to the present invention, the WEB page is analyzed, and only the points that may cause the event related to the collection of the WEB page are detected and operated. Can be collected.

以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態によるシステムの構成を示すブロック図である。
本発明による情報収集システムは、情報送信装置10と、制御部20と、データベース部30とを備えている。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of the system according to the present embodiment.
The information collection system according to the present invention includes an information transmission device 10, a control unit 20, and a database unit 30.

情報送信装置10は、制御部20とネットワークを介して接続されており、WEBページ11を有する。情報送信装置10は、制御部20からのWEBページ要求に応じてWEBページ11を送信する。WEBページ11は、HTML形式、XHTML(eXtensible HyperText Markup Language)形式、XML(eXtensible Markup Language)形式によるデータである他、画像、テキスト、その他のアプリケーションデータであっても良い。また、情報送信装置10とWEBページ11とは、図1において1つずつしか図示されていないが、複数であって良く、本実施形態においても、インターネット(ネットワーク)を介してWEBページと通信可能であることを想定する。   The information transmitting apparatus 10 is connected to the control unit 20 via a network and has a WEB page 11. The information transmitting apparatus 10 transmits the WEB page 11 in response to the WEB page request from the control unit 20. The WEB page 11 is data in HTML format, XHTML (eXtensible HyperText Markup Language) format, XML (eXtensible Markup Language) format, and may be image, text, and other application data. Further, only one information transmitting apparatus 10 and one WEB page 11 are shown in FIG. 1, but a plurality of information transmitting apparatuses 10 and one WEB page 11 may be provided. Assuming that

制御部20は、ページ収集制御部21と、WEBブラウザ22と、ページ解析部23と、マウスカーソル制御部24とを有する。
ページ収集制御部21は、ページ収集処理を行うために各機能部の動作連携を制御する。
WEBブラウザ22は、IP(Internet Protocol)プロトコルに基づいてインターネット通信を行い、利用者に閲覧可能なようにWEBページをレンダリングして画面に表示するアプリケーションソフトである。本実施形態例では、WEBブラウザを利用することとしたが、上記のようなWEBブラウザが行う各機能を備えたアプリケーションであれば、別途データ収集プログラムを利用することとしても良い。
The control unit 20 includes a page collection control unit 21, a WEB browser 22, a page analysis unit 23, and a mouse cursor control unit 24.
The page collection control unit 21 controls operation cooperation of each functional unit in order to perform page collection processing.
The WEB browser 22 is application software that performs Internet communication based on the IP (Internet Protocol) protocol, renders a WEB page so that the user can view it, and displays it on the screen. In the present embodiment, the WEB browser is used. However, if the application has each function performed by the WEB browser as described above, a separate data collection program may be used.

ページ解析部23は、取得したWEBページのデータ構造を解析し、イベント発生箇所の位置データ(以下、要素位置データ)を検出する。詳細な動作は後に説明する。
マウスカーソル制御部24は、ページ解析部23が検出した要素位置データに対応してマウスカーソルを動作させるなどのマウスカーソル制御を行う。
The page analysis unit 23 analyzes the data structure of the acquired WEB page, and detects position data (hereinafter referred to as element position data) of the event occurrence location. Detailed operation will be described later.
The mouse cursor control unit 24 performs mouse cursor control such as operating the mouse cursor in accordance with the element position data detected by the page analysis unit 23.

データベース部30は、情報記憶部であり、収集URLテーブル31と、既読URLテーブル32と、構成要素位置テーブル33とを備える。
収集URLテーブル31は、WEBページ収集の対象となるURLデータを記憶する。収集URLテーブル31のデータ例を図7に示す。
既読URLテーブル32は、WEBページ収集を既に行ったURLデータを記憶する。既読URLテーブル32のデータ例を図8に示す。
The database unit 30 is an information storage unit and includes a collection URL table 31, a read URL table 32, and a component position table 33.
The collection URL table 31 stores URL data that is a target of WEB page collection. A data example of the collection URL table 31 is shown in FIG.
The already-read URL table 32 stores URL data for which WEB page collection has already been performed. An example of data in the read URL table 32 is shown in FIG.

構成要素位置テーブル33は、収集URLテーブル31に記憶されたURLに対応するWEBページデータを解析して検出した構成要素の要素位置データを記憶する。構成要素位置テーブル33のデータ例を図6に示す。構成要素位置テーブル33は、構成要素番号と要素位置データとを有している。例えば、構成要素番号は構成要素を一意に特定するデータであり、要素位置データは画面上の左上端を(0、0)として、右にXピクセル、下にYピクセル移動した位置を(X、Y)として表す座標値である。例えば、(10、48)といったときは、画面の左上端から右に10ピクセル、下に48ピクセル移動した地点であることを示す。   The component position table 33 stores element position data of components detected by analyzing the WEB page data corresponding to the URL stored in the collection URL table 31. An example of data in the component position table 33 is shown in FIG. The component position table 33 has component number and element position data. For example, the component number is data that uniquely identifies the component, and the element position data is the position where the upper left end on the screen is (0, 0), the X pixel moved right, and the Y pixel moved downward (X, Y) is a coordinate value. For example, (10, 48) indicates a point moved 10 pixels right and 48 pixels down from the upper left corner of the screen.

次に、図2と、図3と、図4と、図5のフローチャートを参照して、WEBページ収集動作について説明する。
利用者は、予め収集URLテーブル31に1件以上のURLデータを記憶させておくこととする。
ページ収集制御部21は、収集URLテーブル31を参照し、収集URLテーブル31にURLデータが存在するか否かを判定する(ステップS100)。ページ収集制御部21は、収集URLテーブル31にデータが存在しないと判定するまでステップS400までの処理を実行する。
Next, the WEB page collection operation will be described with reference to the flowcharts of FIGS. 2, 3, 4, and 5.
The user stores one or more pieces of URL data in the collection URL table 31 in advance.
The page collection control unit 21 refers to the collection URL table 31 and determines whether URL data exists in the collection URL table 31 (step S100). The page collection control unit 21 executes the processing up to step S400 until it is determined that no data exists in the collection URL table 31.

収集URLテーブル31にURLデータが存在すれば、ページ収集制御部21は、WEBページの取得処理を行う(ステップS200)。まず、ページ収集制御部21は、収集URLテーブル31に記憶されたURLデータを1件取得する(ステップS201)。この際、ページ収集制御部21は、取得したURLデータと同一のデータが既読URLテーブル32に存在するか否かを検出し、存在した場合には収集済みのデータであるので、以下の処理を行わず、ステップS100の処理を行う。   If URL data exists in the collection URL table 31, the page collection control unit 21 performs a WEB page acquisition process (step S200). First, the page collection control unit 21 acquires one URL data stored in the collection URL table 31 (step S201). At this time, the page collection control unit 21 detects whether or not the same data as the acquired URL data exists in the already-read URL table 32, and if there is, it is collected data. Without performing step S100.

そして、ページ収集制御部21は、WEBブラウザ22にURLデータを送信する。WEBブラウザ22は、URLデータを受信し、対応するURLにWEBページ要求を送信する。情報送信装置10は、WEBページ要求を受信し、WEBページ11をWEBブラウザ22に送信する。WEBブラウザ22は、WEBページ11を受信する(ステップS202)。ページ収集制御部21は、受信したWEBページ11を、収集ページとして保存する。また、上記で取得した1件のURLをデータを収集URLテーブル31から削除し、既読URLテーブル32に記憶させる。   Then, the page collection control unit 21 transmits URL data to the WEB browser 22. The WEB browser 22 receives the URL data and transmits a WEB page request to the corresponding URL. The information transmitting apparatus 10 receives the WEB page request and transmits the WEB page 11 to the WEB browser 22. The WEB browser 22 receives the WEB page 11 (step S202). The page collection control unit 21 stores the received WEB page 11 as a collection page. In addition, the URL obtained in the above is deleted from the collection URL table 31 and stored in the read URL table 32.

次に、ページ解析部23は、受信したWEBページデータの解析処理を行う(ステップS300)。例えば、ページ解析部23はまず、受信したWEBページデータファイルの拡張子を読み込み、WEBページデータのファイル形式を判定する。そして、ページ解析部23は、解析対象のWEBページデータがHTML形式、XHTML形式およびXML形式のいずれかである場合には、WEBページデータをDOM(Document Object Model)にパースする(ステップS301)。   Next, the page analysis unit 23 performs an analysis process on the received WEB page data (step S300). For example, the page analysis unit 23 first reads the extension of the received WEB page data file and determines the file format of the WEB page data. Then, the page analysis unit 23 parses the WEB page data into a DOM (Document Object Model) when the WEB page data to be analyzed is in one of the HTML format, the XHTML format, and the XML format (step S301).

DOMとは、タグ構造で記述されたデータを階層構造化し、プログラムやスクリプトから制御できるようにするためのインターフェイス機能である。DOMにパースするとは、HTML形式やXHTML形式やXML形式などのデータを階層構造化して、プログラムからツリー構造として扱うためのデータアクセス構造(DOMオブジェクト)を生成することをいう。例えば、HTMLデータをDOMにパースすると、HTML構成要素(タグ)をノードとしたツリー構造のデータとしてHTMLデータを扱うことができる。そして、ページ解析部23は、レンダリングを行ってDOMオブジェクトの構成要素を表示する位置を算出し、WEBページデータをWEBブラウザ22に表示させる(ステップS302)。   DOM is an interface function for making data described in a tag structure hierarchically structured so that it can be controlled from a program or script. Parsing to DOM means that data in HTML format, XHTML format, or XML format is hierarchically structured, and a data access structure (DOM object) for handling as a tree structure is generated from a program. For example, when the HTML data is parsed into DOM, the HTML data can be handled as tree-structured data having HTML components (tags) as nodes. Then, the page analysis unit 23 performs rendering to calculate a position for displaying the components of the DOM object, and displays the WEB page data on the WEB browser 22 (step S302).

次に、ページ解析部23は、利用者が予め設定した規則に基づいて、DOMオブジェクトからイベントを発生する可能性のある構成要素を検出し(ステップS303)、その要素が表示される位置を構成要素位置テーブル33に記憶させる(ステップS304)。例えば、ページ解析部23は、DOMオブジェクトを参照して、<A>タグやボタンタグ、画像タグなどを検出し、その要素が表示される位置を構成要素位置テーブルに記憶させる。すなわち、ページ解析部23は、DOMオブジェクトを参照して、<A>タグであるノードを検出し、そして、ページ解析部23は、ステップS302で算出した構成要素を表示する位置を要素位置データとして構成要素位置テーブル33に記憶させる。ページ解析部23は、WEBページが文書ファイル、画像ファイルなどのアプリケーションデータである場合にも同様にイベントを発生する構成要素の要素位置データを検出する。   Next, the page analysis unit 23 detects a constituent element that may generate an event from the DOM object based on a rule set in advance by the user (step S303), and configures the position where the element is displayed. The element position table 33 is stored (step S304). For example, the page analysis unit 23 refers to the DOM object, detects an <A> tag, a button tag, an image tag, and the like, and stores the position where the element is displayed in the component position table. That is, the page analysis unit 23 refers to the DOM object, detects the node that is the <A> tag, and the page analysis unit 23 uses the position where the component calculated in step S302 is displayed as the element position data. It is stored in the component position table 33. The page analysis unit 23 similarly detects element position data of a component that generates an event even when the WEB page is application data such as a document file or an image file.

ここで、ページ解析部23は、WEBページが文書ファイル、画像ファイルなどのアプリケーションデータである場合も、同様にイベントを発生する可能性のある構成要素を検出し、その表示位置を構成要素位置テーブルに記憶させる。例えば、PDF(Portable Document Format)ファイルの場合はDocumentオブジェクトが含むAnchorオブジェクトを、イベントを発生する可能性のある構成要素として検出する。また、WORDファイルの場合はActiveXObject.Documentsが含むHyperlinksオブジェクトを、イベントを発生する可能性のある構成要素として検出する。また、Flashファイルの場合はButtonsオブジェクトなどを、イベントを発生する可能性のある構成要素として検出する。検出した各要素の位置情報を検出し、構成要素位置テーブルに記憶させる。   Here, even when the WEB page is application data such as a document file or an image file, the page analysis unit 23 similarly detects a component that may generate an event, and displays its display position in the component position table. Remember me. For example, in the case of a PDF (Portable Document Format) file, an Anchor object included in a Document object is detected as a component that may generate an event. In the case of a WORD file, ActiveXObject. The Hyperlinks object included in the Documents is detected as a component that may generate an event. In the case of a Flash file, a Buttons object or the like is detected as a component that may generate an event. The position information of each detected element is detected and stored in the component position table.

ページ解析部23は、イベントを発生させる可能性のある構成要素の検出にあたっては、例えば画像解析などを実行し、要素位置データを検出しても良い。この場合、ページ解析部23はWEBページデータをレンダリングした後、ページ全体の画像解析を行い、各画素の特徴、及び近傍領域の特徴を抽出することによってイベントを発生する可能性である構成要素を検出する。すなわち、画面の中で一定の範囲のみ連続して塗りつぶされている領域、テキストが表示されている領域、色が異なっている領域、下線のある領域などをイベントが発生する可能性のある要素として抽出する。   When detecting a component that may cause an event, the page analysis unit 23 may detect the element position data by performing image analysis, for example. In this case, after rendering the WEB page data, the page analysis unit 23 performs image analysis of the entire page, and extracts the features of each pixel and the features of the neighboring region to extract components that may generate an event. To detect. In other words, areas that are continuously filled only within a certain range on the screen, areas where text is displayed, areas with different colors, underlined areas, etc., can be events. Extract.

次に、マウスカーソル制御部24は、マウス制御によるURL抽出処理を行う(ステップS400)。まず、マウスカーソル制御部24は、構成要素位置テーブル33を参照し、構成要素位置テーブル33に要素位置データが存在するか否かを判定する(ステップS401)。マウスカーソル制御部24は、構成要素位置テーブル33に要素位置データが存在しないと判定するまでS404までの処理を続ける。
構成要素位置テーブル33に要素位置データが存在すれば、マウスカーソル制御部24は、構成要素位置テーブル33から要素位置データを1件読み込む(ステップS402)。
マウスカーソル制御部24は、読み込んだ要素位置データが示す座標位置に、マウスカーソルを移動させ、当該位置でマウスクリックを行ったと同様の信号を入力する(ステップS403)。
Next, the mouse cursor control unit 24 performs URL extraction processing by mouse control (step S400). First, the mouse cursor control unit 24 refers to the component position table 33 and determines whether or not element position data exists in the component position table 33 (step S401). The mouse cursor control unit 24 continues the processing up to S404 until it determines that the element position data does not exist in the component position table 33.
If element position data exists in the component position table 33, the mouse cursor controller 24 reads one piece of element position data from the component position table 33 (step S402).
The mouse cursor control unit 24 moves the mouse cursor to the coordinate position indicated by the read element position data, and inputs the same signal as when the mouse click is performed at the position (step S403).

マウスクリック信号を検知すると、WEBブラウザ22は、当該位置でマウスクリックされたときの動作処理を行う。当該位置のマウスクリックによりイベントが発生し、画面遷移を行うときは、WEBブラウザ22は、WEBページ要求データを生成する。WEBブラウザ22がWEBページ要求データを生成すると、ページ収集制御部21は、WEBページ要求データを取得し、WEBページ要求データから要求先URLデータを取得し、要求先URLデータを収集URLテーブル31に記憶させる(ステップS404)。ページ収集制御部21が要求先URLデータを取得すると、WEBブラウザ22は、WEBページ要求を中止する。また、マウスカーソル制御部24は、読み込んだ要素位置データを構成要素位置テーブル33から削除する。   When the mouse click signal is detected, the WEB browser 22 performs an operation process when the mouse is clicked at the position. When an event is generated by a mouse click at the position and a screen transition is performed, the WEB browser 22 generates WEB page request data. When the WEB browser 22 generates the WEB page request data, the page collection control unit 21 acquires the WEB page request data, acquires the request destination URL data from the WEB page request data, and stores the request destination URL data in the collection URL table 31. Store (step S404). When the page collection control unit 21 acquires the request destination URL data, the WEB browser 22 cancels the WEB page request. In addition, the mouse cursor control unit 24 deletes the read element position data from the component position table 33.

この構成によれば、図9に図示するように、画面上に複数の構成要素が存在する場合、テキスト部分などを避け、マウスカーソルをイベント発生の可能性のある部分にだけ移動させることができる。
また、WEBページ解析の際、イベントが発生すると判定した構成要素の特徴を記憶する記憶部を設けて、マウスクリック時に実際にイベントが発生したか否かを記憶することによって、イベントの発生する構成要素の特徴傾向を分析する学習機能を設ける構成としても良い。
According to this configuration, as shown in FIG. 9, when there are a plurality of components on the screen, it is possible to avoid the text portion and move the mouse cursor only to a portion where an event may occur. .
Further, a configuration for generating an event is provided by storing a feature of a component that is determined to generate an event when analyzing a WEB page, and storing whether or not the event has actually occurred when the mouse is clicked. A learning function for analyzing element characteristic trends may be provided.

本発明によれば、WEBページ収集において網羅的にマウスカーソルの移動およびマウスボタンの制御を行うことなく、最低限のマウスカーソル制御のみでWEBページを収集することが可能となる。すなわち、WEBページ収集にかかる時間を大幅に短縮することができる。   According to the present invention, it is possible to collect a WEB page with a minimum mouse cursor control without comprehensively moving the mouse cursor and controlling a mouse button in collecting the WEB page. That is, the time required for collecting WEB pages can be greatly reduced.

例えば、収集対象のWEBページが横800ピクセル、縦600ピクセルのHTMLページだとした場合、従来のページ上を網羅的に移動する方法では、マウスを上下左右に10ピクセルずつ移動させると、4800回の移動が必要となる。一方、本発明により予めマウスクリックの必要な箇所を検出する方法では、1ページの平均リンク数が10前後と言われていることから、平均して10回程度の移動で済む。よって、マウスカーソルの制御時間を1/480程度に短縮することができる。
また、本発明では、マウスカーソル制御による収集を、HTML形式以外のアプリケーションドキュメントに対しても行うことが可能である。
For example, if the WEB page to be collected is an HTML page of 800 pixels in width and 600 pixels in length, in the conventional method of comprehensively moving on the page, if the mouse is moved 10 pixels vertically and horizontally, 4800 times Need to move. On the other hand, according to the method of detecting a portion requiring mouse click in advance according to the present invention, since the average number of links per page is said to be around 10, it can be moved about 10 times on average. Therefore, the control time of the mouse cursor can be shortened to about 1/480.
In the present invention, collection by mouse cursor control can also be performed on application documents other than the HTML format.

なお、本発明における図1に示す機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりWEBページ収集を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。   Note that the WEB page collection is performed by recording a program for realizing the function shown in FIG. 1 in the present invention on a computer-readable recording medium, causing the computer system to read and execute the program recorded on the recording medium. May be performed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer system” includes a WWW system having a homepage providing environment (or display environment). The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

本発明の一実施形態を示すブロック図である。It is a block diagram which shows one Embodiment of this invention. 本発明の一実施形態を示すフローチャートである。It is a flowchart which shows one Embodiment of this invention. 本発明によるWEBページ取得処理を示すフローチャートである。It is a flowchart which shows the WEB page acquisition process by this invention. 本発明によるWEBページ解析処理を示すフローチャートである。It is a flowchart which shows the WEB page analysis process by this invention. 本発明によるURL抽出処理を示すフローチャートである。It is a flowchart which shows URL extraction processing by this invention. 本発明による構成要素位置テーブルのデータ構造を示す図である。It is a figure which shows the data structure of the component position table by this invention. 本発明による収集URLテーブルのデータ構造を示す図である。It is a figure which shows the data structure of the collection URL table by this invention. 本発明による既読URLテーブルのデータ構造を示す図である。It is a figure which shows the data structure of the read URL table by this invention. 本発明によるマウス制御画面を示す図である。It is a figure which shows the mouse | mouth control screen by this invention.

符号の説明Explanation of symbols

10 情報送信装置
11 WEBページ
20 制御部
21 ページ収集制御部(新規所在位置情報抽出手段、収集ネットワーク情報所在位置追加手段)
22 WEBブラウザ(ネットワーク情報受信手段)
23 ページ解析部(イベント構成要素検出手段)
24 マウスカーソル制御部
30 データベース部
31 収集URLテーブル(収集ネットワーク情報所在位置記憶手段)
32 既読URLテーブル(既読ネットワーク情報所在位置記憶手段)
33 構成要素位置テーブル
DESCRIPTION OF SYMBOLS 10 Information transmitter 11 Web page 20 Control part 21 Page collection control part (New location information extraction means, Collection network information location addition means)
22 WEB browser (network information receiving means)
23 Page analysis part (event component detection means)
24 mouse cursor control unit 30 database unit 31 collection URL table (collection network information location storage means)
32 Read URL table (read network information location storage means)
33 Component position table

Claims (5)

ネットワークを介して提供されるネットワーク情報を受信して記憶する情報収集システムであって、
ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶手段と、
前記収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、前記ネットワーク情報を受信するネットワーク情報受信手段と、
前記ネットワーク情報を読み込んで、画面に表示される当該ネットワーク情報を画像解析し、当該画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出手段と、
前記構成要素の位置データ基づいて、当該位置データが示す座標位置にマウスカーソルを移動させ、当該座標位置においてマウスクリックを行ったと同様の信号を入力して当該構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出手段と
を備えることを特徴とする情報収集システム。
An information collection system for receiving and storing network information provided via a network,
Collection network information location storage means for storing collection network information location information that is location information of network information;
Network information receiving means for transmitting a request signal of network information using the collected network information location information as a transmission destination and receiving the network information;
A configuration having a feature in which an event may occur by reading the network information, analyzing the network information displayed on the screen, extracting a feature of a pixel and a feature of a neighboring region included in the image Event component detection means for detecting position data indicating the coordinate position of the element on the screen;
Based on the position data of the component , the mouse cursor is moved to the coordinate position indicated by the position data, and an event corresponding to the component is activated by inputting the same signal as when the mouse click is performed at the coordinate position And a new location information extracting means for extracting the location information of the network information when an information request is made to the new network information that is another network information as a result of the event. Collection system.
請求項1に記載の情報収集システムであって、
前記新規所在位置情報抽出手段が抽出した所在位置情報を、前記収集ネットワーク情報所在位置記憶手段に追加して記憶させる収集ネットワーク情報所在位置追加手段
をさらに備えることを特徴とする情報収集システム。
The information collection system according to claim 1,
An information collection system further comprising collection network information location addition means for adding the location information extracted by the new location information extraction means to the collection network information location storage means for storage.
請求項1に記載の情報収集システムであって、
前記ネットワーク情報受信手段が受信したネットワーク情報の所在位置情報を記憶する既読ネットワーク情報所在位置記憶手段を備え、
前記ネットワーク情報受信手段は、前記収集ネットワーク情報所在位置情報に基づいて前記ネットワーク情報を要求する際に、前記収集ネットワーク情報所在位置情報と同一の情報が前記既読ネットワーク情報所在位置記憶手段に存在する場合には、情報要求を行わないこと
をさらに特徴とする情報収集システム。
The information collection system according to claim 1,
Read network information location storage means for storing location information of network information received by the network information receiving means,
When the network information receiving means requests the network information based on the collected network information location information, the same information as the collected network information location information is present in the read network information location storage means. In some cases, the information collection system is further characterized by not requesting information.
ネットワークを介して提供されるネットワーク情報を受信して記憶する情報収集方法であって、
ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶ステップと、
前記収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、前記ネットワーク情報を受信するネットワーク情報受信ステップと、
前記ネットワーク情報を読み込んで、画面に表示される当該ネットワーク情報を画像解析し、当該画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出ステップと、
前記構成要素の位置データ基づいて、当該位置データが示す座標位置にマウスカーソルを移動させ、当該座標位置においてマウスクリックを行ったと同様の信号を入力して当該構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出ステップと
を備えることを特徴とする情報収集方法。
An information collection method for receiving and storing network information provided via a network,
A collection network information location location storage step for storing collection network information location location information which is location location information of the network information;
A network information receiving step of transmitting a network information request signal using the collected network information location information as a transmission destination and receiving the network information;
A configuration having a feature in which an event may occur by reading the network information, analyzing the network information displayed on the screen, extracting a feature of a pixel and a feature of a neighboring region included in the image An event component detection step for detecting position data indicating the coordinate position of the element on the screen;
Based on the position data of the component , the mouse cursor is moved to the coordinate position indicated by the position data, and an event corresponding to the component is activated by inputting the same signal as when the mouse click is performed at the coordinate position And a new location information extraction step for extracting the location information of the network information when an information request is made to the new network information that is another network information as a result of the event. Collection method.
ネットワークを介して提供されるネットワーク情報を受信して記憶する情報収集プログラムであって、
ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶ステップと、
前記収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、前記ネットワーク情報を受信するネットワーク情報受信ステップと、
前記ネットワーク情報を読み込んで、画面に表示される当該ネットワーク情報を画像解析し、当該画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出ステップと、
前記構成要素の位置データ基づいて、当該位置データが示す座標位置にマウスカーソルを移動させ、当該座標位置においてマウスクリックを行ったと同様の信号を入力して当該構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出ステップと
を備えることを特徴とする情報収集プログラム。
An information collection program for receiving and storing network information provided via a network,
A collection network information location location storage step for storing collection network information location location information which is location location information of the network information;
A network information receiving step of transmitting a network information request signal using the collected network information location information as a transmission destination and receiving the network information;
A configuration having a feature in which an event may occur by reading the network information, analyzing the network information displayed on the screen, extracting a feature of a pixel and a feature of a neighboring region included in the image An event component detection step for detecting position data indicating the coordinate position of the element on the screen;
Based on the position data of the component , the mouse cursor is moved to the coordinate position indicated by the position data, and an event corresponding to the component is activated by inputting the same signal as when the mouse click is performed at the coordinate position And a new location information extraction step for extracting the location information of the network information when an information request is made to the new network information that is another network information as a result of the event. Collection program.
JP2006352092A 2006-12-27 2006-12-27 Information collection system Expired - Fee Related JP5026068B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006352092A JP5026068B2 (en) 2006-12-27 2006-12-27 Information collection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006352092A JP5026068B2 (en) 2006-12-27 2006-12-27 Information collection system

Publications (2)

Publication Number Publication Date
JP2008165356A JP2008165356A (en) 2008-07-17
JP5026068B2 true JP5026068B2 (en) 2012-09-12

Family

ID=39694813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006352092A Expired - Fee Related JP5026068B2 (en) 2006-12-27 2006-12-27 Information collection system

Country Status (1)

Country Link
JP (1) JP5026068B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100851548B1 (en) 2007-01-23 2008-08-11 삼성전자주식회사 Phase change memory device and method of forming the same

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296548A (en) * 2002-03-29 2003-10-17 Oki Electric Ind Co Ltd Information center system, information managing method, and control program
JP3776866B2 (en) * 2002-10-18 2006-05-17 富士通株式会社 Electronic document printing program and electronic document printing system
JP4507206B2 (en) * 2004-10-28 2010-07-21 富士通株式会社 Internet information collecting apparatus, program and method

Also Published As

Publication number Publication date
JP2008165356A (en) 2008-07-17

Similar Documents

Publication Publication Date Title
AU2012370492B2 (en) Graphical overlay related to data mining and analytics
US9330179B2 (en) Configuring web crawler to extract web page information
KR101580999B1 (en) Apparatus and method for moving contents between applications
US6785740B1 (en) Text-messaging server with automatic conversion of keywords into hyperlinks to external files on a network
US20050091607A1 (en) Remote operation system, communication apparatus remote control system and document inspection apparatus
JP6064392B2 (en) SEARCH DEVICE, SEARCH METHOD, SEARCH PROGRAM, AND SEARCH SYSTEM
JP5369769B2 (en) Information processing apparatus, information processing method, program, and information processing system
JP2001188792A (en) System for extracting information and device for processing information and device for collecting information and method for extracting character string and storage medium
JP2005032041A (en) Continuous browsing support device and method of linked content, and display control method, and erasing control method of pop-up window
US7529771B2 (en) Method of and apparatus for gathering information, system for gathering information, and computer program
CN102375878A (en) Web page browsing system and relay server
CN106874271A (en) A kind of method and system that PC webpages are converted to mobile terminal webpage
US9075517B2 (en) Web input through drag and drop
KR20080057907A (en) Method for providing hyperlink information in mobile communication terminal which can connect with wireless-internet
JP2007094457A (en) Information processor, information processing method and program
JP4691071B2 (en) Page action activation device, page action activation control method, and page action activation control program
JP5026068B2 (en) Information collection system
CN105512123A (en) Methods and devices for establishing webpage feature image and generating webpage bookmark
JP2009169883A (en) Simple operation method for web browser
JP2013134657A (en) Device, method and program for information processing
US11586335B2 (en) Graphical user interface marking feedback
JP2004334705A (en) Multi-functionalization apparatus and method for mouse cursor, processing method for operation indication for information equipment, storage method for content, and method of opening content by prescribed application
JP5276903B2 (en) Browsing system, plug-in program, and introduction program
JP6729490B2 (en) Web page display control device and web page display control program
JP2006190314A (en) Hypertext display device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120620

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150629

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5026068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees