JP5026068B2 - Information collection system - Google Patents
Information collection system Download PDFInfo
- Publication number
- JP5026068B2 JP5026068B2 JP2006352092A JP2006352092A JP5026068B2 JP 5026068 B2 JP5026068 B2 JP 5026068B2 JP 2006352092 A JP2006352092 A JP 2006352092A JP 2006352092 A JP2006352092 A JP 2006352092A JP 5026068 B2 JP5026068 B2 JP 5026068B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- network information
- location
- network
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ネットワークを介してWEBページを網羅的に収集して保存する技術に関する。 The present invention relates to a technique for comprehensively collecting and storing WEB pages via a network.
インターネット上に公開された情報(以下、WEBページ)を網羅的に収集・保存し、後世に残すための取り組み(WEBアーカイブ)においては、いかにWEBページを漏れなく収集するかが重要となる。
従来、リンクを辿ってWEBページを収集するロボットであるクローラによってWEBページの収集が行われている。しかしながら、WEBページ上でのマウスカーソルの移動やマウスクリックなどのマウスイベントを契機としてプログラムやスクリプトが動作することで表示されるWEBページなどには、クローラが行き着くことができず、収集できない。また、人手によって無数にあるWEBページの収集を行っていては効率的でなく、漏れがでる可能性も高い。
In an effort to comprehensively collect and store information (hereinafter referred to as WEB pages) published on the Internet and leave it for future generations (WEB archive), it is important to collect WEB pages without omission.
Conventionally, WEB pages are collected by a crawler, which is a robot that collects WEB pages by following links. However, the crawler cannot reach the web page displayed by the operation of the program or script triggered by a mouse event such as a mouse cursor movement or a mouse click on the web page, and cannot be collected. In addition, it is not efficient to collect countless WEB pages manually, and there is a high possibility of leakage.
そこで、クローラや人手でWEBページを収集した後、収集したWEBページを閲覧ソフト(WEBブラウザ)に表示し、自動的にマウスカーソルとマウスクリックの制御をしてWEBページを網羅的にクリックし、ページ遷移が行われた場合、遷移後のWEBページを再収集することで網羅性を高めようとする試みがなされている(例えば、特許文献1)。
しかしながら、上述した特許文献においては、WEBページ上に基点を設定し、この基点から一定の間隔ごとにマウスカーソルを上下左右に動作させてマウスクリック制御を行っている。このため、スクリプトの動作やリンクと関係のないページ箇所にもマウスカーソルの移動とマウスクリック制御を行っており、効率的な収集方法が行えているとは言えなかった。 However, in the above-described patent document, a base point is set on the WEB page, and mouse click control is performed by moving the mouse cursor up and down and left and right at regular intervals from this base point. For this reason, the mouse cursor movement and mouse click control are also performed on page portions that are not related to script operations and links, so it cannot be said that an efficient collection method can be performed.
また、上記した特許文献における収集方法では、HTML(HyperText Markup Language)等によるWEBページのみを対象としており、インターネット上に公開された文書ファイル、画像ファイルなどのアプリケーションドキュメントについて考慮されているものではなかった。すなわち、取得したWEBページを閲覧ソフトに表示させ、網羅的にマウスカーソルを移動させマウスクリックの制御を行うだけでは、アプリケーション上に表示される印刷ボタンや、ドキュメントを編集するためのボタン等を押下してしまう。その結果、印刷用画面が立ち上がったり不要な動画再生を開始したりすることで収集が中断してしまうことや、ドキュメントの内容が変わってしまう可能性があり、確実に収集を行えないという問題がある。
本発明は、このような事情に鑑みてなされたもので、マウスカーソルをWEBページ上に網羅的に移動させるのではなく、WEBページ収集に関連したイベントを発生するポイントだけを精度良く検出し、効率的にWEBページの収集を行うことを目的とする。
In addition, the collection method in the above-mentioned patent document targets only WEB pages using HTML (HyperText Markup Language), and does not consider application documents such as document files and image files published on the Internet. It was. In other words, simply press the print button displayed on the application or the button to edit the document, etc. just by displaying the acquired WEB page on the browsing software, moving the mouse cursor exhaustively and controlling the mouse click Resulting in. As a result, there is a problem that collection may be interrupted by starting up the print screen or starting unnecessary video playback, and the contents of the document may change, making it impossible to collect reliably. is there.
The present invention has been made in view of such circumstances, and does not move the mouse cursor over the WEB page exhaustively, but accurately detects only points that generate events related to WEB page collection, The purpose is to collect WEB pages efficiently.
請求項1に記載の発明は、ネットワークを介して提供されるネットワーク情報を受信して記憶する情報収集システムであって、ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶手段と、収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、ネットワーク情報を受信するネットワーク情報受信手段と、ネットワーク情報を読み込んで、画面に表示されるネットワーク情報を画像解析し、画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出手段と、構成要素の位置データに基づいて、位置データが示す座標位置にマウスカーソルを移動させ、座標位置においてマウスクリックを行ったと同様の信号を入力して構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出手段とを備えることを特徴とする情報収集システム。 The invention according to claim 1 is an information collection system for receiving and storing network information provided via a network, and a collection network for storing collection network information location information, which is location information of network information Information location storage means, network information reception means for sending network information request signal and receiving network information with collected network information location position information as destination, network information displayed on screen by reading network information Event configuration that detects the position data indicating the coordinate position on the screen of the component having the feature that may generate the event by analyzing the image of the image, extracting the feature of the pixel included in the image and the feature of the neighboring region an element detecting means, based on the position data of the components, position data Move the mouse cursor to the coordinates position indicated by activates an event with corresponding components by entering the same signal as subjected to mouse clicks at coordinates, the new network information is another network information as a result of events An information collection system comprising: new location information extraction means for extracting location information of the network information when an information request is made to the network.
請求項2に記載の発明は、請求項1に記載の情報収集システムであって、新規所在位置情報抽出手段が抽出した所在位置情報を、収集ネットワーク情報所在位置記憶手段に追加して記憶させる収集ネットワーク情報所在位置追加手段をさらに備えることを特徴とする情報収集システム。
The invention according to
請求項3に記載の発明は、請求項1に記載の情報収集システムであって、ネットワーク情報受信手段が受信したネットワーク情報の所在位置情報を記憶する既読ネットワーク情報所在位置記憶手段を備え、ネットワーク情報受信手段は、収集ネットワーク情報所在位置情報に基づいてネットワーク情報を要求する際に、収集ネットワーク情報所在位置情報と同一の情報が既読ネットワーク情報所在位置記憶手段に存在する場合には、情報要求を行わないことをさらに特徴とする情報収集システム。
The invention according to
請求項4に記載の発明は、ネットワークを介して提供されるネットワーク情報を受信して記憶する情報収集方法であって、ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶ステップと、収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、ネットワーク情報を受信するネットワーク情報受信ステップと、記ネットワーク情報を読み込んで、画面に表示されるネットワーク情報を画像解析し、画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出ステップと、構成要素の位置データに基づいて、位置データが示す座標位置にマウスカーソルを移動させ、座標位置においてマウスクリックを行ったと同様の信号を入力して構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出ステップとを備えることを特徴とする情報収集方法。 The invention according to claim 4 is an information collection method for receiving and storing network information provided via a network, and a collection network for storing collection network information location information which is location information of network information An information location storing step, a network information receiving step for transmitting a network information request signal using the collected network information location information as a transmission destination, and receiving the network information, and a network displayed on the screen after reading the network information An event that detects the position data indicating the coordinate position on the screen of the component that has the characteristic that the event may occur by analyzing the image of the information, extracting the feature of the pixel included in the image and the feature of the neighboring area a component detection step, based on the position data of the components Move the mouse cursor to the coordinate position indicated by the position data, to activate the event marked with corresponding components by entering the same signal as subjected to mouse clicks at coordinates, is another network information as a result of the new event An information collection method comprising: a new location information extraction step for extracting location information of network information when an information request for the network information is made.
請求項5に記載の発明は、ネットワークを介して提供されるネットワーク情報を受信して記憶する情報収集プログラムであって、ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶ステップと、収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、ネットワーク情報を受信するネットワーク情報受信ステップと、ネットワーク情報を読み込んで、画面に表示されるネットワーク情報を画像解析し、画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出ステップと、構成要素の位置データに基づいて、位置データが示す座標位置にマウスカーソルを移動させ、座標位置においてマウスクリックを行ったと同様の信号を入力して構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出ステップとを備えることを特徴とする情報収集プログラム。 The invention according to claim 5 is an information collection program for receiving and storing network information provided via a network, and a collection network for storing collection network information location information that is location information of network information An information location storing step, a network information receiving step for transmitting a network information request signal using the collected network information location location information as a transmission destination and receiving the network information, and a network information displayed on the screen by reading the network information Event configuration that detects the position data indicating the coordinate position on the screen of the component having the feature that may generate the event by analyzing the image of the image, extracting the feature of the pixel included in the image and the feature of the neighboring region and element detection step, based on the position data of the components Dzu Te, move the mouse cursor to the coordinate position indicated by the position data, to activate the event marked with corresponding components by entering the same signal as subjected to mouse clicks at coordinates, a different network information as a result of events An information collection program comprising: a new location information extraction step for extracting location information of network information when an information request is made for certain new network information.
以上説明したように、本発明によれば、WEBページを解析し、WEBページ収集に関連したイベントを発生する可能性のあるポイントだけを検出して動作させるようにしたので、効率的なWEBページの収集を行うことができる。 As described above, according to the present invention, the WEB page is analyzed, and only the points that may cause the event related to the collection of the WEB page are detected and operated. Can be collected.
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態によるシステムの構成を示すブロック図である。
本発明による情報収集システムは、情報送信装置10と、制御部20と、データベース部30とを備えている。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of the system according to the present embodiment.
The information collection system according to the present invention includes an
情報送信装置10は、制御部20とネットワークを介して接続されており、WEBページ11を有する。情報送信装置10は、制御部20からのWEBページ要求に応じてWEBページ11を送信する。WEBページ11は、HTML形式、XHTML(eXtensible HyperText Markup Language)形式、XML(eXtensible Markup Language)形式によるデータである他、画像、テキスト、その他のアプリケーションデータであっても良い。また、情報送信装置10とWEBページ11とは、図1において1つずつしか図示されていないが、複数であって良く、本実施形態においても、インターネット(ネットワーク)を介してWEBページと通信可能であることを想定する。
The
制御部20は、ページ収集制御部21と、WEBブラウザ22と、ページ解析部23と、マウスカーソル制御部24とを有する。
ページ収集制御部21は、ページ収集処理を行うために各機能部の動作連携を制御する。
WEBブラウザ22は、IP(Internet Protocol)プロトコルに基づいてインターネット通信を行い、利用者に閲覧可能なようにWEBページをレンダリングして画面に表示するアプリケーションソフトである。本実施形態例では、WEBブラウザを利用することとしたが、上記のようなWEBブラウザが行う各機能を備えたアプリケーションであれば、別途データ収集プログラムを利用することとしても良い。
The
The page
The
ページ解析部23は、取得したWEBページのデータ構造を解析し、イベント発生箇所の位置データ(以下、要素位置データ)を検出する。詳細な動作は後に説明する。
マウスカーソル制御部24は、ページ解析部23が検出した要素位置データに対応してマウスカーソルを動作させるなどのマウスカーソル制御を行う。
The
The mouse
データベース部30は、情報記憶部であり、収集URLテーブル31と、既読URLテーブル32と、構成要素位置テーブル33とを備える。
収集URLテーブル31は、WEBページ収集の対象となるURLデータを記憶する。収集URLテーブル31のデータ例を図7に示す。
既読URLテーブル32は、WEBページ収集を既に行ったURLデータを記憶する。既読URLテーブル32のデータ例を図8に示す。
The
The collection URL table 31 stores URL data that is a target of WEB page collection. A data example of the collection URL table 31 is shown in FIG.
The already-read URL table 32 stores URL data for which WEB page collection has already been performed. An example of data in the read URL table 32 is shown in FIG.
構成要素位置テーブル33は、収集URLテーブル31に記憶されたURLに対応するWEBページデータを解析して検出した構成要素の要素位置データを記憶する。構成要素位置テーブル33のデータ例を図6に示す。構成要素位置テーブル33は、構成要素番号と要素位置データとを有している。例えば、構成要素番号は構成要素を一意に特定するデータであり、要素位置データは画面上の左上端を(0、0)として、右にXピクセル、下にYピクセル移動した位置を(X、Y)として表す座標値である。例えば、(10、48)といったときは、画面の左上端から右に10ピクセル、下に48ピクセル移動した地点であることを示す。 The component position table 33 stores element position data of components detected by analyzing the WEB page data corresponding to the URL stored in the collection URL table 31. An example of data in the component position table 33 is shown in FIG. The component position table 33 has component number and element position data. For example, the component number is data that uniquely identifies the component, and the element position data is the position where the upper left end on the screen is (0, 0), the X pixel moved right, and the Y pixel moved downward (X, Y) is a coordinate value. For example, (10, 48) indicates a point moved 10 pixels right and 48 pixels down from the upper left corner of the screen.
次に、図2と、図3と、図4と、図5のフローチャートを参照して、WEBページ収集動作について説明する。
利用者は、予め収集URLテーブル31に1件以上のURLデータを記憶させておくこととする。
ページ収集制御部21は、収集URLテーブル31を参照し、収集URLテーブル31にURLデータが存在するか否かを判定する(ステップS100)。ページ収集制御部21は、収集URLテーブル31にデータが存在しないと判定するまでステップS400までの処理を実行する。
Next, the WEB page collection operation will be described with reference to the flowcharts of FIGS. 2, 3, 4, and 5.
The user stores one or more pieces of URL data in the collection URL table 31 in advance.
The page
収集URLテーブル31にURLデータが存在すれば、ページ収集制御部21は、WEBページの取得処理を行う(ステップS200)。まず、ページ収集制御部21は、収集URLテーブル31に記憶されたURLデータを1件取得する(ステップS201)。この際、ページ収集制御部21は、取得したURLデータと同一のデータが既読URLテーブル32に存在するか否かを検出し、存在した場合には収集済みのデータであるので、以下の処理を行わず、ステップS100の処理を行う。
If URL data exists in the collection URL table 31, the page
そして、ページ収集制御部21は、WEBブラウザ22にURLデータを送信する。WEBブラウザ22は、URLデータを受信し、対応するURLにWEBページ要求を送信する。情報送信装置10は、WEBページ要求を受信し、WEBページ11をWEBブラウザ22に送信する。WEBブラウザ22は、WEBページ11を受信する(ステップS202)。ページ収集制御部21は、受信したWEBページ11を、収集ページとして保存する。また、上記で取得した1件のURLをデータを収集URLテーブル31から削除し、既読URLテーブル32に記憶させる。
Then, the page
次に、ページ解析部23は、受信したWEBページデータの解析処理を行う(ステップS300)。例えば、ページ解析部23はまず、受信したWEBページデータファイルの拡張子を読み込み、WEBページデータのファイル形式を判定する。そして、ページ解析部23は、解析対象のWEBページデータがHTML形式、XHTML形式およびXML形式のいずれかである場合には、WEBページデータをDOM(Document Object Model)にパースする(ステップS301)。
Next, the
DOMとは、タグ構造で記述されたデータを階層構造化し、プログラムやスクリプトから制御できるようにするためのインターフェイス機能である。DOMにパースするとは、HTML形式やXHTML形式やXML形式などのデータを階層構造化して、プログラムからツリー構造として扱うためのデータアクセス構造(DOMオブジェクト)を生成することをいう。例えば、HTMLデータをDOMにパースすると、HTML構成要素(タグ)をノードとしたツリー構造のデータとしてHTMLデータを扱うことができる。そして、ページ解析部23は、レンダリングを行ってDOMオブジェクトの構成要素を表示する位置を算出し、WEBページデータをWEBブラウザ22に表示させる(ステップS302)。
DOM is an interface function for making data described in a tag structure hierarchically structured so that it can be controlled from a program or script. Parsing to DOM means that data in HTML format, XHTML format, or XML format is hierarchically structured, and a data access structure (DOM object) for handling as a tree structure is generated from a program. For example, when the HTML data is parsed into DOM, the HTML data can be handled as tree-structured data having HTML components (tags) as nodes. Then, the
次に、ページ解析部23は、利用者が予め設定した規則に基づいて、DOMオブジェクトからイベントを発生する可能性のある構成要素を検出し(ステップS303)、その要素が表示される位置を構成要素位置テーブル33に記憶させる(ステップS304)。例えば、ページ解析部23は、DOMオブジェクトを参照して、<A>タグやボタンタグ、画像タグなどを検出し、その要素が表示される位置を構成要素位置テーブルに記憶させる。すなわち、ページ解析部23は、DOMオブジェクトを参照して、<A>タグであるノードを検出し、そして、ページ解析部23は、ステップS302で算出した構成要素を表示する位置を要素位置データとして構成要素位置テーブル33に記憶させる。ページ解析部23は、WEBページが文書ファイル、画像ファイルなどのアプリケーションデータである場合にも同様にイベントを発生する構成要素の要素位置データを検出する。
Next, the
ここで、ページ解析部23は、WEBページが文書ファイル、画像ファイルなどのアプリケーションデータである場合も、同様にイベントを発生する可能性のある構成要素を検出し、その表示位置を構成要素位置テーブルに記憶させる。例えば、PDF(Portable Document Format)ファイルの場合はDocumentオブジェクトが含むAnchorオブジェクトを、イベントを発生する可能性のある構成要素として検出する。また、WORDファイルの場合はActiveXObject.Documentsが含むHyperlinksオブジェクトを、イベントを発生する可能性のある構成要素として検出する。また、Flashファイルの場合はButtonsオブジェクトなどを、イベントを発生する可能性のある構成要素として検出する。検出した各要素の位置情報を検出し、構成要素位置テーブルに記憶させる。
Here, even when the WEB page is application data such as a document file or an image file, the
ページ解析部23は、イベントを発生させる可能性のある構成要素の検出にあたっては、例えば画像解析などを実行し、要素位置データを検出しても良い。この場合、ページ解析部23はWEBページデータをレンダリングした後、ページ全体の画像解析を行い、各画素の特徴、及び近傍領域の特徴を抽出することによってイベントを発生する可能性である構成要素を検出する。すなわち、画面の中で一定の範囲のみ連続して塗りつぶされている領域、テキストが表示されている領域、色が異なっている領域、下線のある領域などをイベントが発生する可能性のある要素として抽出する。
When detecting a component that may cause an event, the
次に、マウスカーソル制御部24は、マウス制御によるURL抽出処理を行う(ステップS400)。まず、マウスカーソル制御部24は、構成要素位置テーブル33を参照し、構成要素位置テーブル33に要素位置データが存在するか否かを判定する(ステップS401)。マウスカーソル制御部24は、構成要素位置テーブル33に要素位置データが存在しないと判定するまでS404までの処理を続ける。
構成要素位置テーブル33に要素位置データが存在すれば、マウスカーソル制御部24は、構成要素位置テーブル33から要素位置データを1件読み込む(ステップS402)。
マウスカーソル制御部24は、読み込んだ要素位置データが示す座標位置に、マウスカーソルを移動させ、当該位置でマウスクリックを行ったと同様の信号を入力する(ステップS403)。
Next, the mouse
If element position data exists in the component position table 33, the
The mouse
マウスクリック信号を検知すると、WEBブラウザ22は、当該位置でマウスクリックされたときの動作処理を行う。当該位置のマウスクリックによりイベントが発生し、画面遷移を行うときは、WEBブラウザ22は、WEBページ要求データを生成する。WEBブラウザ22がWEBページ要求データを生成すると、ページ収集制御部21は、WEBページ要求データを取得し、WEBページ要求データから要求先URLデータを取得し、要求先URLデータを収集URLテーブル31に記憶させる(ステップS404)。ページ収集制御部21が要求先URLデータを取得すると、WEBブラウザ22は、WEBページ要求を中止する。また、マウスカーソル制御部24は、読み込んだ要素位置データを構成要素位置テーブル33から削除する。
When the mouse click signal is detected, the
この構成によれば、図9に図示するように、画面上に複数の構成要素が存在する場合、テキスト部分などを避け、マウスカーソルをイベント発生の可能性のある部分にだけ移動させることができる。
また、WEBページ解析の際、イベントが発生すると判定した構成要素の特徴を記憶する記憶部を設けて、マウスクリック時に実際にイベントが発生したか否かを記憶することによって、イベントの発生する構成要素の特徴傾向を分析する学習機能を設ける構成としても良い。
According to this configuration, as shown in FIG. 9, when there are a plurality of components on the screen, it is possible to avoid the text portion and move the mouse cursor only to a portion where an event may occur. .
Further, a configuration for generating an event is provided by storing a feature of a component that is determined to generate an event when analyzing a WEB page, and storing whether or not the event has actually occurred when the mouse is clicked. A learning function for analyzing element characteristic trends may be provided.
本発明によれば、WEBページ収集において網羅的にマウスカーソルの移動およびマウスボタンの制御を行うことなく、最低限のマウスカーソル制御のみでWEBページを収集することが可能となる。すなわち、WEBページ収集にかかる時間を大幅に短縮することができる。 According to the present invention, it is possible to collect a WEB page with a minimum mouse cursor control without comprehensively moving the mouse cursor and controlling a mouse button in collecting the WEB page. That is, the time required for collecting WEB pages can be greatly reduced.
例えば、収集対象のWEBページが横800ピクセル、縦600ピクセルのHTMLページだとした場合、従来のページ上を網羅的に移動する方法では、マウスを上下左右に10ピクセルずつ移動させると、4800回の移動が必要となる。一方、本発明により予めマウスクリックの必要な箇所を検出する方法では、1ページの平均リンク数が10前後と言われていることから、平均して10回程度の移動で済む。よって、マウスカーソルの制御時間を1/480程度に短縮することができる。
また、本発明では、マウスカーソル制御による収集を、HTML形式以外のアプリケーションドキュメントに対しても行うことが可能である。
For example, if the WEB page to be collected is an HTML page of 800 pixels in width and 600 pixels in length, in the conventional method of comprehensively moving on the page, if the mouse is moved 10 pixels vertically and horizontally, 4800 times Need to move. On the other hand, according to the method of detecting a portion requiring mouse click in advance according to the present invention, since the average number of links per page is said to be around 10, it can be moved about 10 times on average. Therefore, the control time of the mouse cursor can be shortened to about 1/480.
In the present invention, collection by mouse cursor control can also be performed on application documents other than the HTML format.
なお、本発明における図1に示す機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりWEBページ収集を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 Note that the WEB page collection is performed by recording a program for realizing the function shown in FIG. 1 in the present invention on a computer-readable recording medium, causing the computer system to read and execute the program recorded on the recording medium. May be performed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer system” includes a WWW system having a homepage providing environment (or display environment). The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
10 情報送信装置
11 WEBページ
20 制御部
21 ページ収集制御部(新規所在位置情報抽出手段、収集ネットワーク情報所在位置追加手段)
22 WEBブラウザ(ネットワーク情報受信手段)
23 ページ解析部(イベント構成要素検出手段)
24 マウスカーソル制御部
30 データベース部
31 収集URLテーブル(収集ネットワーク情報所在位置記憶手段)
32 既読URLテーブル(既読ネットワーク情報所在位置記憶手段)
33 構成要素位置テーブル
DESCRIPTION OF
22 WEB browser (network information receiving means)
23 Page analysis part (event component detection means)
24 mouse
32 Read URL table (read network information location storage means)
33 Component position table
Claims (5)
ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶手段と、
前記収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、前記ネットワーク情報を受信するネットワーク情報受信手段と、
前記ネットワーク情報を読み込んで、画面に表示される当該ネットワーク情報を画像解析し、当該画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出手段と、
前記構成要素の位置データに基づいて、当該位置データが示す座標位置にマウスカーソルを移動させ、当該座標位置においてマウスクリックを行ったと同様の信号を入力して当該構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出手段と
を備えることを特徴とする情報収集システム。 An information collection system for receiving and storing network information provided via a network,
Collection network information location storage means for storing collection network information location information that is location information of network information;
Network information receiving means for transmitting a request signal of network information using the collected network information location information as a transmission destination and receiving the network information;
A configuration having a feature in which an event may occur by reading the network information, analyzing the network information displayed on the screen, extracting a feature of a pixel and a feature of a neighboring region included in the image Event component detection means for detecting position data indicating the coordinate position of the element on the screen;
Based on the position data of the component , the mouse cursor is moved to the coordinate position indicated by the position data, and an event corresponding to the component is activated by inputting the same signal as when the mouse click is performed at the coordinate position And a new location information extracting means for extracting the location information of the network information when an information request is made to the new network information that is another network information as a result of the event. Collection system.
前記新規所在位置情報抽出手段が抽出した所在位置情報を、前記収集ネットワーク情報所在位置記憶手段に追加して記憶させる収集ネットワーク情報所在位置追加手段
をさらに備えることを特徴とする情報収集システム。 The information collection system according to claim 1,
An information collection system further comprising collection network information location addition means for adding the location information extracted by the new location information extraction means to the collection network information location storage means for storage.
前記ネットワーク情報受信手段が受信したネットワーク情報の所在位置情報を記憶する既読ネットワーク情報所在位置記憶手段を備え、
前記ネットワーク情報受信手段は、前記収集ネットワーク情報所在位置情報に基づいて前記ネットワーク情報を要求する際に、前記収集ネットワーク情報所在位置情報と同一の情報が前記既読ネットワーク情報所在位置記憶手段に存在する場合には、情報要求を行わないこと
をさらに特徴とする情報収集システム。 The information collection system according to claim 1,
Read network information location storage means for storing location information of network information received by the network information receiving means,
When the network information receiving means requests the network information based on the collected network information location information, the same information as the collected network information location information is present in the read network information location storage means. In some cases, the information collection system is further characterized by not requesting information.
ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶ステップと、
前記収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、前記ネットワーク情報を受信するネットワーク情報受信ステップと、
前記ネットワーク情報を読み込んで、画面に表示される当該ネットワーク情報を画像解析し、当該画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出ステップと、
前記構成要素の位置データに基づいて、当該位置データが示す座標位置にマウスカーソルを移動させ、当該座標位置においてマウスクリックを行ったと同様の信号を入力して当該構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出ステップと
を備えることを特徴とする情報収集方法。 An information collection method for receiving and storing network information provided via a network,
A collection network information location location storage step for storing collection network information location location information which is location location information of the network information;
A network information receiving step of transmitting a network information request signal using the collected network information location information as a transmission destination and receiving the network information;
A configuration having a feature in which an event may occur by reading the network information, analyzing the network information displayed on the screen, extracting a feature of a pixel and a feature of a neighboring region included in the image An event component detection step for detecting position data indicating the coordinate position of the element on the screen;
Based on the position data of the component , the mouse cursor is moved to the coordinate position indicated by the position data, and an event corresponding to the component is activated by inputting the same signal as when the mouse click is performed at the coordinate position And a new location information extraction step for extracting the location information of the network information when an information request is made to the new network information that is another network information as a result of the event. Collection method.
ネットワーク情報の所在位置情報である収集ネットワーク情報所在位置情報を記憶する収集ネットワーク情報所在位置記憶ステップと、
前記収集ネットワーク情報所在位置情報を送信先としてネットワーク情報の要求信号を送信し、前記ネットワーク情報を受信するネットワーク情報受信ステップと、
前記ネットワーク情報を読み込んで、画面に表示される当該ネットワーク情報を画像解析し、当該画像に含まれる画素の特徴、及び近傍領域の特徴を抽出し、イベントが発生する可能性がある特徴を有する構成要素の画面上における座標位置を示す位置データを検出するイベント構成要素検出ステップと、
前記構成要素の位置データに基づいて、当該位置データが示す座標位置にマウスカーソルを移動させ、当該座標位置においてマウスクリックを行ったと同様の信号を入力して当該構成要素に対応付いたイベントを起動させ、イベントの結果として別のネットワーク情報である新規ネットワーク情報への情報要求が行われる場合に、このネットワーク情報の所在位置情報を抽出する新規所在位置情報抽出ステップと
を備えることを特徴とする情報収集プログラム。 An information collection program for receiving and storing network information provided via a network,
A collection network information location location storage step for storing collection network information location location information which is location location information of the network information;
A network information receiving step of transmitting a network information request signal using the collected network information location information as a transmission destination and receiving the network information;
A configuration having a feature in which an event may occur by reading the network information, analyzing the network information displayed on the screen, extracting a feature of a pixel and a feature of a neighboring region included in the image An event component detection step for detecting position data indicating the coordinate position of the element on the screen;
Based on the position data of the component , the mouse cursor is moved to the coordinate position indicated by the position data, and an event corresponding to the component is activated by inputting the same signal as when the mouse click is performed at the coordinate position And a new location information extraction step for extracting the location information of the network information when an information request is made to the new network information that is another network information as a result of the event. Collection program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006352092A JP5026068B2 (en) | 2006-12-27 | 2006-12-27 | Information collection system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006352092A JP5026068B2 (en) | 2006-12-27 | 2006-12-27 | Information collection system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008165356A JP2008165356A (en) | 2008-07-17 |
JP5026068B2 true JP5026068B2 (en) | 2012-09-12 |
Family
ID=39694813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006352092A Expired - Fee Related JP5026068B2 (en) | 2006-12-27 | 2006-12-27 | Information collection system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5026068B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100851548B1 (en) | 2007-01-23 | 2008-08-11 | 삼성전자주식회사 | Phase change memory device and method of forming the same |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003296548A (en) * | 2002-03-29 | 2003-10-17 | Oki Electric Ind Co Ltd | Information center system, information managing method, and control program |
JP3776866B2 (en) * | 2002-10-18 | 2006-05-17 | 富士通株式会社 | Electronic document printing program and electronic document printing system |
JP4507206B2 (en) * | 2004-10-28 | 2010-07-21 | 富士通株式会社 | Internet information collecting apparatus, program and method |
-
2006
- 2006-12-27 JP JP2006352092A patent/JP5026068B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008165356A (en) | 2008-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2012370492B2 (en) | Graphical overlay related to data mining and analytics | |
US9330179B2 (en) | Configuring web crawler to extract web page information | |
KR101580999B1 (en) | Apparatus and method for moving contents between applications | |
US6785740B1 (en) | Text-messaging server with automatic conversion of keywords into hyperlinks to external files on a network | |
US20050091607A1 (en) | Remote operation system, communication apparatus remote control system and document inspection apparatus | |
JP6064392B2 (en) | SEARCH DEVICE, SEARCH METHOD, SEARCH PROGRAM, AND SEARCH SYSTEM | |
JP5369769B2 (en) | Information processing apparatus, information processing method, program, and information processing system | |
JP2001188792A (en) | System for extracting information and device for processing information and device for collecting information and method for extracting character string and storage medium | |
JP2005032041A (en) | Continuous browsing support device and method of linked content, and display control method, and erasing control method of pop-up window | |
US7529771B2 (en) | Method of and apparatus for gathering information, system for gathering information, and computer program | |
CN102375878A (en) | Web page browsing system and relay server | |
CN106874271A (en) | A kind of method and system that PC webpages are converted to mobile terminal webpage | |
US9075517B2 (en) | Web input through drag and drop | |
KR20080057907A (en) | Method for providing hyperlink information in mobile communication terminal which can connect with wireless-internet | |
JP2007094457A (en) | Information processor, information processing method and program | |
JP4691071B2 (en) | Page action activation device, page action activation control method, and page action activation control program | |
JP5026068B2 (en) | Information collection system | |
CN105512123A (en) | Methods and devices for establishing webpage feature image and generating webpage bookmark | |
JP2009169883A (en) | Simple operation method for web browser | |
JP2013134657A (en) | Device, method and program for information processing | |
US11586335B2 (en) | Graphical user interface marking feedback | |
JP2004334705A (en) | Multi-functionalization apparatus and method for mouse cursor, processing method for operation indication for information equipment, storage method for content, and method of opening content by prescribed application | |
JP5276903B2 (en) | Browsing system, plug-in program, and introduction program | |
JP6729490B2 (en) | Web page display control device and web page display control program | |
JP2006190314A (en) | Hypertext display device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120620 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150629 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5026068 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |