JP4507206B2 - Internet information collecting apparatus, program and method - Google Patents
Internet information collecting apparatus, program and method Download PDFInfo
- Publication number
- JP4507206B2 JP4507206B2 JP2006542237A JP2006542237A JP4507206B2 JP 4507206 B2 JP4507206 B2 JP 4507206B2 JP 2006542237 A JP2006542237 A JP 2006542237A JP 2006542237 A JP2006542237 A JP 2006542237A JP 4507206 B2 JP4507206 B2 JP 4507206B2
- Authority
- JP
- Japan
- Prior art keywords
- event
- page
- information
- link
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Description
本発明は、画面展開したウェブページからリンク先のウェブ情報を収集するインターネット情報収集装置、プログラム及び方法に関し、特に、ウェブページのタグ文を解析してリンク先のウェブ情報を収集するインターネット情報収集装置、プログラム及び方法に関する。
The present invention relates to an Internet information collection apparatus, program, and method for collecting link destination web information from a web page that has been developed on a screen, and more particularly to collecting Internet information collection by analyzing a tag sentence of a web page and collecting link destination web information. The present invention relates to an apparatus, a program, and a method.
近年、インターネット上のみで公開されて短時間で更新、削除されてしまうウェブページを保存して一般に公開するウェブ図書館システムの構築が計画されており、このようなシステムにあっては、インターネット上の情報資源の収集・蓄積を行うウェブアーカイビングという技術が必要となる。 In recent years, it has been planned to construct a web library system that saves web pages that have been published only on the Internet and that are updated and deleted in a short time, and that is open to the public. A technology called web archiving that collects and stores information resources is required.
従来のウェブアーカイビングでは、インターネットのウェブサイトがハイパーリンクとしてのウェブページの中に他のコンテンツへのリンク情報をもっていることから、このリンク情報を元に、あるページから次のページへの遷移を判断して、関連するページの情報を収集するという方法が取られている。 In conventional web archiving, Internet websites have link information to other contents in web pages as hyperlinks, so transition from one page to the next is based on this link information. Judgment is made and information on related pages is collected.
従来、インターネット上のコンテンツを自動収集するものとしてウェブロボットが知られており、ウェブロボットは、ウェブページのHTML文書を解析することでリンク情報を収集し、階層的にウェブページの遷移を行ってコンテンツを収集し、過去にインターネット上で公開されたウェブページ情報をユーザが検索閲覧することを可能にしている。
ところで、近年のインターネットコンテンツは、ダイナミックHTMLとして知られたウェブページに利用者との対話性をもたせるHTMLの拡張仕様として、HTML文書の中にスクリプトを埋め込むことにより、動的に外部リンクを生成しているものが増えてきている。 By the way, recent Internet contents are dynamically extended externally by embedding a script in an HTML document as an extended HTML specification that allows a user to interact with a web page known as dynamic HTML. The things that are increasing are increasing.
例えばウェブページに表示された選択メニューによって利用者に選択肢「1」から「3」を示し、利用者の選択した選択肢に応じて異なるリンク先情報としてのURLを生成し、生成したURLのウェブページに遷移させている。 For example, the selection menu displayed on the web page indicates options “1” to “3” to the user, generates URLs as different link destination information according to the options selected by the user, and generates the web page of the generated URL Transition to.
しかしながら、従来のウェブページのHTML文書を解析してリンク情報を収集する方法にあっては、対話性を持つコンテンツにおける利用者の操作によって生成されるリンク情報を検出することが困難であり、リンク情報の収集漏れが大きいという問題がある。 However, in the conventional method of analyzing the HTML document of the web page and collecting the link information, it is difficult to detect the link information generated by the user's operation in the interactive content. There is a problem that the collection of information is large.
例えばユーザが選択メニューから選択した選択肢に応じてリンク先のURLを発生させるコードが記載されたウェブページでは、遷移先のURLがウェブページに記載されたコードからだけでは判断できないため、遷移先のウェブ情報を収集できないという問題がある。 For example, in a web page in which a code for generating a link destination URL according to an option selected by the user from the selection menu is described, the transition destination URL cannot be determined only from the code described in the web page. There is a problem that web information cannot be collected.
勿論、ウェブページを開いた状態でオペレータが操作ボタンやメニュー選択などの操作を行うことでリンク情報を検出することは可能であるが、人為的な操作を必要とするために手間と時間がかかりすぎる問題がある。 Of course, it is possible for the operator to detect the link information by operating the operation button or menu selection while the web page is open, but it takes time and effort because it requires an artificial operation. There is too much problem.
本発明は、利用者の操作により生成されるリンク情報を漏れなく自動収集するインターネット情報収集装置,プログラム及び方法を提供することを目的とする。
An object of the present invention is to provide an Internet information collection apparatus, program, and method for automatically collecting link information generated by user operations without omission.
本発明はインターネット情報収集装置を提供する。本発明のインターネット情報収集装置は、
インターネット上のウェブページを取得して画面展開するページ閲覧部(ブラウザ)と、
ページ閲覧部で画面展開されたウェブページを解析し、利用者の操作により発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出するページ解析部と、
ページ解析部で抽出されたイベント操作タグ文に対しイベントを発生させるイベント発生部と、
イベント発生部による発生イベントで生成されたリンク情報によるページ遷移からリンク先のウェブ情報を検出して保存するリンク情報検出部と、
を備えたことを特徴とする。The present invention provides an Internet information collecting apparatus. The Internet information collection device of the present invention is
A page browsing part (browser) that acquires web pages on the Internet and expands the screen,
A page analysis unit that analyzes a web page expanded in the page browsing unit and extracts an event operation tag sentence that dynamically generates link information according to an event generated by a user operation;
An event generation unit that generates an event for the event operation tag sentence extracted by the page analysis unit;
A link information detection unit that detects and stores link destination web information from page transitions by link information generated by an event generated by the event generation unit;
It is provided with.
ここで、リンク情報検出部は、更に、ページ閲覧部がアクセスしたプロキシサーバからリンク先のウェブ情報を検出して保存する。 Here, the link information detection unit further detects and stores link destination web information from the proxy server accessed by the page browsing unit.
ページ解析部は、ウェブページを構築するタグ文の中のフォーム文で規定された範囲からインプット文を抽出し、イベント発生部は、インプット文につき定義されている全てのイベントを順次発生し、その中の有効イベントによりリンク情報を生成させる。 The page analysis part extracts the input sentence from the range specified by the form sentence in the tag sentence that constructs the web page, and the event generation part sequentially generates all the events defined for the input sentence. The link information is generated by the valid event.
またページ解析部は、ウェブページを構築するタグ文の中のフォーム文で規定された範囲から利用者に選択肢を示すセレクト文と利用者操作を必要とするインプット文を抽出し、イベント発生部は、セレクト文の選択肢を変更しながらインプット文に対しイベントを発生する。 In addition, the page analysis unit extracts select statements that indicate options to the user and input statements that require user operation from the range specified in the form statement in the tag statement that constructs the web page, and the event generation unit An event is generated for the input sentence while changing the choice of the select sentence.
詳細には、ページ解析部は、ウェブページを構築するタグ文の中のフォームタグで規定された範囲からフォームタグの子供タグとなるインプットタグ、インプットタグの兄弟タグとなる選択リストを作成するセレクトタグ、セレクトタグの子供タグとなる選択リストの内容を示す複数のオプションタグを抽出し、イベント発生部は、セレクトタグ内の複数のオプションタグを変更しながらインプットタグのイベントを発生する。 Specifically, the page analysis unit selects an input tag that is a child tag of the form tag and a selection list that is a sibling tag of the input tag from the range specified by the form tag in the tag sentence that constructs the web page. A plurality of option tags indicating the contents of a selection list that is a child tag of the tag and the select tag are extracted, and the event generation unit generates an event of the input tag while changing the plurality of option tags in the select tag.
この場合もイベント発生部は、インプットタグにつき定義されている全てのイベントを順次発生し、その中の有効イベントによりリンク情報を生成させる。 Also in this case, the event generation unit sequentially generates all the events defined for the input tag, and generates link information based on the valid events therein.
リンク情報検出部は、現在展開中のウェブページのイベント操作タグ文に対するイベント発生でページ遷移するウェブページのリンク情報を全て検出して保存した後に、他のウェブページを画面展開してイベント操作タグ文に対するイベント発生でページ遷移するウェブページのリンク情報を取得して保存する処理を繰り返す。 The link information detection unit detects and saves all link information of the web page that transitions when an event occurs for the event operation tag statement of the currently deployed web page, and then expands the other web page to the event operation tag. Repeat the process of acquiring and saving the link information of the web page that transitions when an event occurs for the sentence.
リンク情報検出部は、リンク先への通信前に通知される通信イベント情報からページ遷移せずに遷移するウェブページのリンク情報を検出する。 The link information detection unit detects link information of a web page that transitions without page transition from communication event information notified before communication to a link destination.
本発明はインターネット情報収集プログラムを提供する。本発明のインターネット情報収集プログラムは、コンピュータに、
インターネット上のウェブページを取得して画面展開するページ閲覧ステップと、
ページ閲覧ステップで画面展開されたウェブページを解析し、利用者の操作により発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出するページ解析ステップと、
ページ解析ステップで抽出されたイベント操作タグ文に対しイベントを発生させるイベント発生ステップと、
イベント発生ステップによる発生イベントで生成されたリンク情報によるページ遷移からリンク先のウェブ情報を検出して保存するリンク情報検出ステップと、
を実行させることを特徴とする。The present invention provides an Internet information collection program. The Internet information collection program of the present invention is stored in a computer.
A page browsing step to acquire web pages on the Internet and expand the screen,
A page analysis step that analyzes the web page expanded in the page browsing step and extracts an event operation tag sentence that dynamically generates link information according to an event generated by a user operation,
An event generation step for generating an event for the event operation tag sentence extracted in the page analysis step;
A link information detection step for detecting and storing linked web information from page transitions by link information generated by an event generated by the event generation step;
Is executed.
本発明はインターネット情報収集方法を提供する。本発明のインターネット情報収集方法は、
インターネット上のウェブページを取得して画面展開するページ閲覧ステップと、
ページ閲覧ステップで画面展開されたウェブページを解析し、利用者の操作により発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出するページ解析ステップと、
ページ解析ステップで抽出されたイベント操作タグ文に対しイベントを発生させるイベント発生ステップと、
イベント発生ステップによる発生イベントで生成されたリンク情報によるページ遷移からリンク先のウェブ情報を検出して保存するリンク情報検出ステップと、
を備えたことを特徴とする。The present invention provides an Internet information collection method. The Internet information collection method of the present invention includes:
A page browsing step to acquire web pages on the Internet and expand the screen,
A page analysis step that analyzes the web page expanded in the page browsing step and extracts an event operation tag sentence that dynamically generates link information according to an event generated by a user operation,
An event generation step for generating an event for the event operation tag sentence extracted in the page analysis step;
A link information detection step for detecting and storing linked web information from page transitions by link information generated by an event generated by the event generation step;
It is provided with.
なお、本発明のインターネット情報収集プログラム及び方法の詳細は、本発明のインターネット情報収集装置と基本的に同じになる。
The details of the Internet information collection program and method of the present invention are basically the same as those of the Internet information collection apparatus of the present invention.
本発明によれば、ページ閲覧部で画面展開されたウェブページのボタンや選択リストに対するマウス操作、キーボード操作を必要とする利用者の操作によって発生するイベントに応じてスクリプト文等の実行で動的に生成されるURLによるページ遷移を、アプリケーションでイベントを発生させることによる擬似的な操作で実現し、HTML文書の解析では検出できなかった利用者の操作によって遷移するリンク情報を検出することができ、欠落のないインターネット上のウェブ情報の収集が可能となる。 According to the present invention, a script sentence or the like can be dynamically executed according to an event generated by a user operation requiring a mouse operation or a keyboard operation on a web page button or selection list displayed on the page browsing unit. The page transition by the URL generated in the above is realized by a pseudo operation by generating an event in the application, and the link information that is transitioned by the user's operation that could not be detected by the analysis of the HTML document can be detected. It is possible to collect web information on the Internet without any omissions.
またリンク先のコンテンツについても、同様にアプリケーションによるイベントの発生による擬似的な操作でリンク情報を検出し、これを繰り返すことで、インターネットで公開されている全ての情報を収集することが可能となる。 Similarly, for linked content, it is possible to collect all information published on the Internet by detecting link information by a pseudo operation caused by the occurrence of an event by an application and repeating this. .
更に、擬似的な操作で発生できない例えばマウス通過などで発生するイベントについては、ブラウザがアクセスするプロキシサーバにリンク先のURL情報が保存されていることから、プロキシサーバからリンク情報としてURLを取得することで、展開されたウェブページから漏れなくインターネット上のウェブ情報を収集できる。
Furthermore, for events that cannot be generated by a pseudo operation, such as when the mouse passes, the URL information of the link destination is stored in the proxy server accessed by the browser, so the URL is acquired as link information from the proxy server. Thus, web information on the Internet can be collected without omission from the deployed web page.
図1は本発明によるインターネット情報収集装置の機能構成の実施形態を示したブロック図である。図1において、本発明のインターネット情報収集装置10は、例えばコンピュータで構成されており、インターネット12を介して、情報収集先となるウェブサイト14−1,14−2,14−3と接続することができる。
FIG. 1 is a block diagram showing an embodiment of a functional configuration of an Internet information collecting apparatus according to the present invention. In FIG. 1, an Internet
インターネット情報収集装置10には通信制御部16とアプリケーション実行環境18が設けられる。通信制御部16はインターネット12を介して、ウェブサイト14−1〜14−3との間でウェブページ検索閲覧のための通信制御を行う。
The Internet
アプリケーション実行環境18はコンピュータによるプログラムの実行で実現されており、ブラウザ20、ページ解析部22、イベント発生部24、リンク情報検出部26、イベント管理テーブル28、リンク一覧テーブル30及びコンテンツ取得部32を備えている。
The
インターネット情報収集装置10のアプリケーション実行環境18に設けているブラウザ20はページ閲覧部として機能し、インターネット12を介してウェブサイト例えばウェブサイト14−1のウェブページを取得して画面展開する。
The
ページ解析部22はページ閲覧部として機能するブラウザ22で画面展開されたウェブページを解析し、利用者の操作により発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出する。
The
このイベント操作タグ文とは、ウェブページを構築するHTMLソース文の中に配置したマウス操作やキーボード操作を必要とするラジオボタンや選択リスト等を構築するタグ文であり、具体的には<FORM>タグで示されるフォーム文を抽出する。 The event operation tag sentence is a tag sentence that constructs a radio button or a selection list that requires mouse operation or keyboard operation arranged in an HTML source sentence for constructing a web page. Specifically, <FORM > The form sentence indicated by the tag is extracted.
イベント発生部24は、ページ解析部22で抽出されたイベント操作タグ文に対し、利用者の操作に伴ってリンク先のLRUを動的に発生するスクリプト文を実行させるイベントを発生する。イベント管理テーブル28には、イベント発生部24で発生するイベントの一覧が、イベント発生対象となるタグに対応して格納されている。
The event generation unit 24 generates an event for executing a script statement that dynamically generates a link destination LRU in accordance with a user operation, on the event operation tag sentence extracted by the
このイベント発生部24によるイベント操作タグ文に対するイベントの発生が、ウェブページ上に配置されているボタンや選択リストなどの操作部品であるフォーム部品を利用者がマウスやキーボードで操作した場合と同様に操作する擬似的操作を行わせることになる。 The occurrence of an event for the event operation tag sentence by the event generation unit 24 is the same as when a user operates a form part such as a button or selection list arranged on a web page with a mouse or a keyboard. A pseudo operation is performed.
リンク情報検出部26は、イベント発生部24による発生イベントによるスクリプト文の実行で生成されたページ遷移からリンク先のウェブページ情報、即ちリンク先のURLを検出してリンク一覧テーブル30に保存する。
The link
コンテンツ取得部32は、リンク先URLの収集が完了した時点でリンク一覧テーブル30からURLを順次取り出して、リンク先のウェブサイトに接続し、ウェブサイトのウェブページを取得して、データベースに保存する。
When the collection of link destination URLs is completed, the
図1における本発明のインターネット情報収集装置10は、例えば図2のようなコンピュータのハードウェア資源により実現される。図2のコンピュータにおいて、CPU100のバス101にはRAM102、ハードディスクドコントローラ(ソフト)104、フロッピィディスクドライバ(ソフト)110、CD−ROMドライバ(ソフト)114、マウスコントローラ118、キーボードコントローラ122、ディスプレイコントローラ126、通信用ボード130が接続される。
The Internet
ハードディスクコントローラ104はハードディスクドライブ106を接続し、本発明のインターネット情報収集プログラムをローディングしており、コンピュータの起動時にハードディスクドライブ106から必要なプログラムを呼び出して、RAM102上に展開し、CPU100により実行する。
The
フロッピィディスクドライバ110にはフロッピィディスクドライブ(ハード)112が接続され、フロッピィディスク(R)に対する読み書きができる。CD−ROMドライバ114に対しては、CDドライブ(ハード)116が接続され、CDに記憶されたデータやプログラムを読み込むことができる。
A floppy disk drive (hardware) 112 is connected to the
マウスコントローラ118はマウス120の入力操作をCPU100に伝える。キーボードコントローラ122はキーボード124の入力操作をCPU100に伝える。ディスプレイコントローラ126は表示部128に対して表示を行う。通信用ボード130は無線を含む通信回線132を使用し、インターネット等のネットワークを介してウェブサイトのサーバとの間で通信を行う。
The
図3は本発明でイベント発生対象とするフォーム部品を配置したウェブページの説明図である。図3のウェブページ34にあっては、リンクURL36が配置され、その下に操作ボタン38と操作ボタン40が配置されている。
FIG. 3 is an explanatory diagram of a web page on which form parts to be event generation targets are arranged according to the present invention. In the
ウェブページ34におけるリンクURL36を利用者が例えばマウスクリックすると、「a.html」のウェブページに遷移する。また利用者が操作ボタン38を押し下げ操作すると「b.html」のウェブページに遷移し、更に操作ボタン40を利用者が押し下げ操作すると「c.html」のウェブページに遷移する。
For example, when the user clicks the
図4は図3のウェブページ34を構築するHTMLソース文の説明図である。図4のHTMLソース文42において、図3のウェブページ34におけるリンクURL36は、11行目のAタグの機能により「a.html」へジャンプを行う。このHTMLソース文42の11行目のAタグによるリンク先「a.html」については、従来のようにHTMLソース文42を解析することで直接、検出することができる。
FIG. 4 is an explanatory diagram of an HTML source sentence for constructing the
図3のウェブページ34の操作ボタン38,40は、図4のHTMLソース文42における12〜15行目の<FORM>タグで囲まれた範囲のフォーム文により構築される。このフォーム文にあっては、例えば図3のウェブページ34で利用者が操作ボタン38のボタン押し下げの操作を行うと、HTMLソース文42の13行目における「onclick」イベントが発生し、ここに定義されている「”jump()”」関数が呼び出される。
The
このjump関数では、3〜8行目のスクリプト文を対象に、INPUTタグのid属性値を利用してリンク先のURLを作成し、locationオブジェクトを変更することで、ページ遷移を行っている。 In this jump function, a page transition is performed by creating a link destination URL using the id attribute value of the INPUT tag and changing the location object for the script statements on the 3rd to 8th lines.
このようにフォーム文における利用者の操作に伴うイベント発生で動的にスクリプト文によってリンク先のURLを発生するタグ文については、HTMLソース文42そのものを解析しても、リンク先のURLである「b.html」及び「c.html」を検出することはできない。 As described above, a tag sentence that dynamically generates a link destination URL by a script sentence when an event occurs in response to a user operation in the form sentence is a link destination URL even if the HTML source sentence 42 itself is analyzed. “B.html” and “c.html” cannot be detected.
そこで本発明にあっては、図1のインターネット情報収集装置10のアプリケーション実行環境18に設けているページ解析部22により、図4に示すHTMLソース文42を解析して、アプリケーションとして機能するイベント発生部24により操作可能な図5に示すDOMツリー44を構築し、イベント発生部24によりINPUTタグに対しイベント発生部24から直接、イベントonclickを発生させ、スクリプト文の実行により、リンク先のURL「b.html」及び「c.html」のページ遷移を行わせ、このページ遷移に伴うリンク先の情報としてリンク先のURLを検出する。
Therefore, in the present invention, the
ここで図1に示したページ解析部22は、ブラウザ20を対象としたSDK(Software Development Kit)を備えており、SDKはアプリケーション・プログラミング・インターフェース(以下「API」という)を利用してソフトウエアを構築するツールである。
Here, the
具体的にはブラウザ20により展開されたウェブページのHTMLソース文42を解析するDOMパーサを備え、このDOMパーサによりHTMLソース文を解析し、図5に示すDOMツリー44を持ったドキュメント・オブジェクト・モデルDOMを生成する。DOMツリー44で示されるドキュメント・オブジェクト・モデルDOMは、HTMLタグ文をツリー構造のノードオブジェクトの集合としてアクセスするためのAPIである。
More specifically, a DOM parser that analyzes an HTML source sentence 42 of a web page developed by the
この図5に示すDOMツリー44としてのドキュメントオブジェクトモデルの生成により、フォームタグの中にあるINPUTタグに対し、プログラムとしてのイベント発生部24から直接、onclickイベントを発生して、スクリプト文の実行によりリンク先のURLを生成してページ遷移させることができる。 By generating the document object model as the DOM tree 44 shown in FIG. 5, an onclick event is directly generated from the event generating unit 24 as a program for the INPUT tag in the form tag, and the script statement is executed. It is possible to change the page by generating the URL of the link destination.
即ち、図4のHTMLソース文42におけるフォーム文における13行目と14行目のINPUTタグのonclickイベントは、本来は図3のウェブページ34に示す押しボタン38,40の操作によってボタン押し下げ操作を行うことでイベントが発生し、3〜8行目のスクリプト文におけるJavaScriptの関数が呼び出されるという仕組みである。
In other words, the onclick event of the 13th and 14th line INPUT tags in the form sentence in the HTML source sentence 42 of FIG. 4 is basically a button down operation by operating the
これに対し本発明にあっては、ページ解析部22に設けているソフトウェア・ディベロップメント・キットSDKにおけるDOMパーサ(DOM解析手段)を利用して、図5のDOMツリー44に示すようなツリー構造を持つノードオブジェクトの集合に対しアクセスするためのAPIであるドキュメントオブジェクトモデルDOMを構築することで、プログラムとしてのイベント発生部24から直接、イベントonclickを発生してスクリプト文を実行して「b.html」及び「c.html」を生成し、ページ遷移させることができる。これは利用者によるボタン押し下げ操作をプログラムが擬似的に行うことを意味する。
On the other hand, in the present invention, a DOM parser (DOM analysis means) in the software development kit SDK provided in the
ところで、図4の13行目及び14行目のINPUTタグに対し発生するイベントとして、この実施形態にあっては「onclick」を有効なイベントとして発生させているが、タグ文で使用されるイベントには、利用者の操作に対応して様々な種類のものがある。 By the way, in this embodiment, “onclick” is generated as a valid event as an event generated for the INPUT tag on the 13th and 14th lines in FIG. There are various types according to user operations.
図6は図4の11行目のリンク設定に使用されるAタグに対応して定義されているイベントの種類を示したAタグ発生イベントリスト46の説明図である。 FIG. 6 is an explanatory diagram of the A tag occurrence event list 46 showing the types of events defined corresponding to the A tag used for the link setting on the 11th line in FIG.
このAタグイベント発生リスト46に示すように、Aタグだけでも17種類のイベントを発生させている。この発生イベントの種類は、図4の13,14行目のそれぞれに示したINPUTタグについてもほぼ同様に定義されている。 As shown in the A tag event occurrence list 46, 17 types of events are generated only by the A tag. The types of occurrence events are defined in substantially the same manner for the INPUT tags shown in the 13th and 14th lines of FIG.
このAタグ発生イベントリスト46について、図7のスクリプト起動HTMLソース文48に示すように記述された場合、イベントonclickを発生することによりスクリプト文を起動させることができるが、それ以外のイベントについては、イベントを発生しても、すぐに破棄されることになる。 When the A tag occurrence event list 46 is described as shown in the script activation HTML source statement 48 of FIG. 7, the script statement can be activated by generating an event onclick. For other events, When an event occurs, it will be immediately discarded.
このようなHTMLタグ文における不必要なイベントは自動的に破棄するという仕組みを利用し、本発明にあっては、フォーム文から抽出されたイベント発生対象となるタグに対し、そのタグについて定義されている一覧の中の全てのイベントを発生させ、図7のように定義されているイベントのみを実行させるという方法をとっている。 Such an unnecessary event in an HTML tag sentence is automatically discarded, and in the present invention, the tag is defined for an event occurrence target tag extracted from a form sentence. All events in the list are generated, and only the events defined as shown in FIG. 7 are executed.
このようにイベント発生対象となるタグに対応して定義されているイベントリストにおける全てのイベントを発生させ、実際にスクリプト文を実行させたイベントを知ることで、特定の有効イベントを意識することなく、スクリプト文をイベント発生で実行できる。 In this way, by generating all events in the event list defined corresponding to the event generation target tag and knowing the event that actually executed the script statement, without being aware of the specific valid event Script statements can be executed when an event occurs.
また、全てのイベントを発生してスクリプト文を実行させることにより認識された有効イベントについては、図8のように、イベント管理テーブル28にタグ名に対応して有効イベントを登録する。図8のように、イベント管理テーブル28に登録されたタグ名に対応した有効イベントについては、統計的な情報として、以降のタグに対するイベント発生に利用することが可能であるが、基本的にはタグに対し対応する全てのイベントを発生させる処理を行うことになる。 For valid events recognized by generating all events and executing script statements, the valid events are registered in the event management table 28 corresponding to the tag names as shown in FIG. As shown in FIG. 8, the valid event corresponding to the tag name registered in the event management table 28 can be used as statistical information for event generation for subsequent tags. Processing to generate all corresponding events for the tag is performed.
ここで図1のブラウザ20としてインターネット・エクスプローラ(R)を使用した場合、プログラムにより直接イベントを発生するメソッドとして、図9に示すように「ファイヤイベント(fireEvent)」というメソッドが準備されている。
Here, when Internet Explorer® is used as the
このファイヤイベントのメソッドは、図9のファイヤイベントHTMLソース文50に示すように、例えば全てのタグに対し3行目と4行目に示すようにフォーカスの設定である「onfocus」と解除である「ondlur」を行うことで、全てのタグに対し直接イベントを発行することができ、これによって利用者が擬似的に操作したと同様なスクリプト文の実行によるリンク先URLの生成が行われ、ページ遷移を行うことができる。 As shown in the fire event HTML source statement 50 of FIG. 9, for example, the fire event method is “on focus” which is the focus setting as shown in the third and fourth lines for all tags, and is canceled. By performing “onduller”, an event can be directly issued to all the tags. As a result, a link destination URL is generated by executing a script sentence similar to that operated by the user in a pseudo manner, and the page Transitions can be made.
図10は本発明でイベント発生対象とする選択リストと操作ボタンを配置したウェブページの説明図である。図10において、ウェブページ52には地図表示ボタン54が配置される。地図表示ボタン54に対応して選択リスト56が設けられ、選択リスト56は「東京都」「神奈川県」「静岡県」の3つの選択肢を持っている。
FIG. 10 is an explanatory diagram of a web page in which a selection list to be an event generation target and operation buttons are arranged in the present invention. In FIG. 10, a
図11は図10のウェブページ52を構築するHTMLソース文58の説明図である。図10のウェブページ52にあっては、選択リスト56の選択場所によって、地図表示ボタン54を押したときのジャンプ先が変更となる。
FIG. 11 is an explanatory diagram of an
即ち、選択リスト56の「東京都」を選択した状態で地図表示ボタン54を押した場合、リンク先として「東京都.html」へジャンプする。また選択リスト56で「神奈川県」を選んだ状態で地図表示ボタン54を押した場合は、リンク先として「神奈川県.html」へジャンプする。更に、選択リスト56で「静岡県」を選んだ状態で地図表示ボタン54を押すと、リンク先として「静岡県.html」へジャンプする。
That is, when the
このようなリンクページ52を構築する図11のHTMLソース文58にあっては、地図表示ボタン54と選択リスト56といったフォーム部品は、基本的に13〜20行目の<FORM>タグで括られたフォーム文により作られている。このフォーム文の中には14行目の<SELECT>タグや19行目の<INPUT>タグが含まれており、これらのタグは<FORM>タグの子供タグという位置付けになる。
In the
この例では、19行目の<INPUT>タグで配置される地図表示ボタン54を押す時点で、兄弟タグとなる14〜18行目の<SELECT>タグのセレクト文の中に選択状態が3パターン存在している。
In this example, when the
このため、地図表示ボタン54を示す<INPUT>タグを検出した際に、兄弟タグである<SELECT>タグの3つのパターンを示す15〜17行目の<OPTION>タグを求めることで、3つの選択パターンがあることが解析できる。
For this reason, when the <INPUT> tag indicating the
したがって、地図表示ボタン54である<INPUT>タグに擬似的にイベントを発生するためには3回の反復処理を行い、その都度<SELECT>タグの<OPTION>タグによる選択状態を変更させて、<INPUT>タグにイベントを発生させればよい。
Therefore, in order to generate an event artificially in the <INPUT> tag that is the
図12は図11のHTMLソース文の図1に示したページ解析部22におけるDOMパースによる解析で得られたDOMツリー60の説明図であり、<FORM>タグの中に兄弟関係にある<INPUT>タグと<SELECT>タグが存在し、選択リスト56を構築する<SELECT>タグの下には3つの選択肢に対応して<OPTION>タグが、選択内容である「東京都」「神奈川県」「静岡県」に対応して配置されている。
FIG. 12 is an explanatory diagram of the DOM tree 60 obtained by the analysis by the DOM parsing in the
即ち、その処理としては基本的に次の手順となる。
・ 図11のHTMLソース文58におけるすべてのタグを操作する。
・ <FORM>タグを判定する。
・ <FORM>タグの範囲内の全ての子タグである<INPUT><SELECT>などを調べ、兄弟タグの選択パターンの状態を調べる。
・ <SELECT>について求めたパターンの数分、パターンに則って兄弟タグの状態を変更した後、現在の子供タグである<INPUT>に対しイベントを発行し、3〜10行目のスクリプト文の実行によりリンク先のURLを発生する。That is, the process is basically the following procedure.
Manipulate all tags in the
-Determine the <FORM> tag.
Check all child tags within the range of the <FORM> tag, such as <INPUT><SELECT>, etc., and check the status of the sibling tag selection pattern.
・ After changing the status of sibling tags according to the number of patterns obtained for <SELECT>, issue an event to <INPUT>, the current child tag, in the script statement on lines 3-10 The link destination URL is generated by execution.
図13は、図1のリンク情報検出部26で利用するインターネット・エクスプローラ(R)において、任意のウェブページに通信アクセスを開始した際に、その通信前に通知されるリンク先URLを含むイベント情報であるビフォワナビゲート62の説明図である。
FIG. 13 shows event information including a link destination URL notified before communication when an Internet explorer (R) used in the link
即ち、インターネットエクスプローラ(R)の場合、あるURLを指定してウェブページを閲覧する場合、ウェブサイトに通信を開始する前に通知されるイベントとしてビフォワナビゲート(BeforeNavigate)が知られている。 That is, in the case of Internet Explorer (R), when browsing a web page by designating a certain URL, before navigate (Before Navigate) is known as an event notified to the website before starting communication.
このビフォワナビゲート62にあっては、図13に示すように3行目の引き数「url」にリンク先のURLが設定されている。本発明のリンク情報検出部26にあっては、このビフォワナビゲート62のイベント情報の中の引き数「url」からリンク先のURLを検出する。
In this before navigate 62, as shown in FIG. 13, the URL of the link destination is set in the argument “url” on the third line. In the link
またビフォワナビゲート62が通知された後そのままにしておくとリンクページへの遷移が行われることから、既にリンク先のURLの検出が済んでいることから、図13のビフォワナビゲート62の8行目に示す最終パラメータである「Cancel」に「True」を設定することで通信をキャンセルする。これにより、ページ遷移をすることなくリンク先のURLだけを検出して取得することができる。 Further, if the before navigation 62 is notified, if it is left as it is, the transition to the link page is performed, and since the URL of the link destination has already been detected, the eight lines of the before navigation 62 in FIG. Communication is canceled by setting “True” to “Cancel” which is the final parameter shown in the eye. Thereby, it is possible to detect and acquire only the link destination URL without page transition.
図14は図1のリンク一覧テーブル30の説明図であり、リンク情報検出部26で検出されたリンク先のURLが格納されている。
FIG. 14 is an explanatory diagram of the link list table 30 of FIG. 1, in which the URL of the link destination detected by the link
ここで本発明におけるリンク情報の収集は、あるURLを使用してウェブページをブラウザ20により展開し、ページ解析部22、イベント発生部24、リンク情報検出部26により、ウェブページに配置されている利用者の操作を必要とする全てのフォーム部品について、イベント発生により擬似的な操作を行ってウェブページへの遷移を発生させてリンク先のURLを取得したならば、その後にリンク一覧テーブルを参照して、新たに取得したリンク先のウェブページを展開し、ウェブページに配置されている利用者の操作を必要とするフォーム部品に対するイベント発生によるリンク先のURLの取得を繰り返す。
Here, the collection of the link information in the present invention is performed by developing a web page by the
即ち本発明にあっては、現在展開中のウェブページに存在するフォーム部品に対するイベント発生によるページ遷移からリンク先URLを検出した場合、新たに検出したリンク先URLのウェブページを開いて、そのページのフォーム部品のイベント発生による次のリンク先のURLの取得といった階層方向へのリンク情報の収集は行わず、ウェブページ単位で1つ先のリンク先のURLの収集を繰り返す。もし階層方向へのリンク情報の収集を行ったとすると、最後のウェブページに達した後、元の階層へ戻らなければならず、処理が煩雑になる。 That is, in the present invention, when a link destination URL is detected from a page transition caused by an event occurrence for a form part existing in a currently developed web page, the newly detected link destination URL web page is opened and the page is opened. The collection of link information in the hierarchical direction such as acquisition of the URL of the next link destination due to the occurrence of the event of the form part is not performed, and the collection of the URL of the next link destination is repeated for each web page. If the link information in the hierarchical direction is collected, after reaching the last web page, it is necessary to return to the original hierarchy, and the processing becomes complicated.
図15は本発明によるインターネット情報収集処理のフローチャートである。図15において、ステップS1で従来のウェブロボットなどで収集されたURLの一覧を取得した後、ステップS2でその中から1つのURLを選択し、ステップS3でブラウザ20を起動してウェブページをオープンする。
FIG. 15 is a flowchart of Internet information collection processing according to the present invention. In FIG. 15, after obtaining a list of URLs collected by a conventional web robot or the like in step S1, one URL is selected from them in step S2, and the
このウェブページのブラウザによるオープンは、実際の画面展開は行う必要がなく、インターネット情報収集装置10としてのコンピュータの作業におけるバックグラウンド処理として行われている。
The opening of the web page by the browser does not require actual screen development, and is performed as a background process in the operation of the computer as the Internet
次に、ステップS4でページをDOMパーサなどにより解析して、イベント発生部24でイベント発生ができるAPIを構築したDOMツリーを持つドキュメント・オブジェクト・モデルDOMを構築した後、ステップS5でイベント発生による擬似操作でリンク情報検出処理を実行する。 Next, in step S4, the page is analyzed by a DOM parser or the like, and a document object model DOM having a DOM tree in which an API capable of generating an event is constructed by the event generating unit 24 is constructed. A link information detection process is executed by a pseudo operation.
続いてステップS6で、ステップS1で読み込んだURL一覧につき、未処理のURLがあるか否かチェックし、未処理のURLがあればステップS2に戻って同様な処理を繰り返す。ステップS6で全てのURLについての処理が終了すると、ステップS7に進み、新たに検出したリンク先のURLの一覧を取得し、ステップS8で未処理のURLがなくなるまで、ステップS2からのリンク情報検出のための処理を繰り返す。 In step S6, the URL list read in step S1 is checked to see if there is an unprocessed URL. If there is an unprocessed URL, the process returns to step S2 and the same processing is repeated. When processing for all URLs is completed in step S6, the process proceeds to step S7, where a list of newly detected link destination URLs is acquired, and link information detection from step S2 is performed until there are no unprocessed URLs in step S8. Repeat the process for.
図16,図17は、図15のステップS5に対応した本発明によるリンク情報検出処理のフローチャートである。 16 and 17 are flowcharts of the link information detection process according to the present invention corresponding to step S5 of FIG.
図16において、リンク情報検出処理は、ステップS1でHTMLタグ文におけるタグを操作し、ステップS2で非イベント発生タグか否かチェックする。非イベント発生タグとしては、図4の11行目に示した<A>タグ、<IMG>タグ、<LINK>タグなどがある。非イベント発生タグであった場合にはステップS3に進み、リンク先URLを直接検出して保存する。 In FIG. 16, in the link information detection process, the tag in the HTML tag sentence is operated in step S1, and it is checked whether or not it is a non-event occurrence tag in step S2. Non-event occurrence tags include the <A> tag, <IMG> tag, <LINK> tag, etc., shown in the eleventh line of FIG. If it is a non-event occurrence tag, the process proceeds to step S3, where the link destination URL is directly detected and stored.
一方、ステップS2で非イベント発生タグでなかった場合には、ステップS4に進み、<FORM>タグか否か判別する。<FORM>タグであった場合にはステップS5に進み、フォーム部品は操作ボタンか否かチェックする。 On the other hand, if the tag is not a non-event occurrence tag in step S2, the process proceeds to step S4 to determine whether it is a <FORM> tag. If it is a <FORM> tag, the process proceeds to step S5 to check whether the form part is an operation button.
操作ボタンであった場合にはステップS6に進み、<INPUT>タグか否かチェックし、<INPUT>タグであった場合には、ステップS7で予め準備されている発生イベント一覧の中から順番にイベントを1つ選択して発行することで、対応するスクリプト文の実行により、リンク先のURLを生成してページ遷移させる。 If it is an operation button, the process proceeds to step S6, where it is checked whether it is an <INPUT> tag, and if it is an <INPUT> tag, the occurrence event list prepared in advance in step S7 is sequentially selected. By selecting and issuing one event, the URL of the link destination is generated and the page is changed by executing the corresponding script sentence.
続いてステップS8でページ遷移の有無をチェックしており、ページ遷移があれば、ステップS9でリンク先URLを取得して保存する。なおステップS8のページ遷移は、図13に示したように、インターネットエクスプローラ(R)の場合、通信前に取得されるイベント情報であるビフォワナビゲート62の取得の有無であり、これが取得された場合には、その中からリンク先URLを検出して保存することになる。 Subsequently, whether or not there is a page transition is checked in step S8. If there is a page transition, the link destination URL is acquired and stored in step S9. Note that the page transition in step S8 is, as shown in FIG. 13, in the case of Internet Explorer (R), whether or not the before navigate 62, which is event information acquired before communication, is acquired. In this case, the link destination URL is detected and stored therein.
ステップS10で全てのイベント発生が終了するまで、ステップS7からの処理を繰り返す。この全てのイベント発生については、実際にHTML文の<INPUT>タグに定義されているイベントのみが有効イベントとして機能し、スクリプト文の実行によりリンク先URLを発生させることになる。 The processing from step S7 is repeated until all event generations are completed in step S10. With respect to all the event occurrences, only events that are actually defined in the <INPUT> tag of the HTML statement function as valid events, and link destination URLs are generated by executing the script statement.
次に図17のステップ11に進み、フォーム部品は選択リストか否かチェックする。選択リストであった場合にはステップS12に進み、<FORM>タグの範囲内にある全ての子供タグ<INPUT><SELECT>などを操作する。 Next, proceeding to step 11 in FIG. 17, it is checked whether or not the form part is a selection list. If it is a selection list, the process proceeds to step S12, and all child tags <INPUT> <SELECT> etc. within the range of the <FORM> tag are operated.
続いてステップS13で<INPUT>タグの兄弟となる<SELECT>タグの選択パターンを解析する。図10〜図12の場合、この選択パターンは3種類となっている。次に、ステップS14で兄弟タグ<SELECT>の状態を選択パターンにより変更する。 In step S13, the selection pattern of the <SELECT> tag that is a sibling of the <INPUT> tag is analyzed. In the case of FIGS. 10 to 12, there are three types of selection patterns. In step S14, the state of the sibling tag <SELECT> is changed according to the selection pattern.
続いて、ステップS15で現在の子供タグ<INPUT>に対しイベントを1つ選択して発行し、ステップS16でページ遷移発生の有無をチェックする。ページ遷移があれば、ステップS17でリンク先URLを検出して保存する。続いて、ステップS18で全てのイベント発生終了か否かチェックし、全てのイベント発生が終了するまで、ステップS15からの処理を繰り返す。 Subsequently, in step S15, one event is selected and issued for the current child tag <INPUT>, and in step S16, whether or not a page transition has occurred is checked. If there is a page transition, the link destination URL is detected and stored in step S17. Subsequently, in step S18, it is checked whether or not all events have occurred, and the processing from step S15 is repeated until all events have ended.
次にステップS19で全ての選択パターンの終了の有無をチェックし、選択パターンが終了していなければ、ステップS14に戻り、兄弟タグ<SELECT>の状態を次の選択パターンに変更し、ステップS14〜S18の処理を繰り返す。 Next, in step S19, it is checked whether or not all selection patterns have ended. If the selection pattern has not ended, the process returns to step S14 to change the state of the sibling tag <SELECT> to the next selection pattern. The process of S18 is repeated.
ステップS19で全ての選択パターンについて処理が終了すると、ステップS20に進み、全タグについて処理終了の有無をチェックし、終了していなければ図16のステップS1に戻って、タグを操作して次のタグについて処理を行い、以下、全てのタグについて処理が終了するまで、ステップS1〜S20の処理を繰り返す。 When the process is completed for all the selection patterns in step S19, the process proceeds to step S20, where it is checked whether or not the process is complete for all tags. If not completed, the process returns to step S1 in FIG. Processing is performed for the tags, and thereafter, the processing of steps S1 to S20 is repeated until the processing is completed for all the tags.
また本発明は、コンピュータで構成されるインターネット情報収集装置10で実行されるインターネット情報収集プログラムを提供するものであり、このプログラムは図15〜図16及び図17のフローチャートに従った処理手順を備えたプログラムとして構築される。
The present invention also provides an Internet information collecting program executed by the Internet
図18は本発明によるインターネット情報収集装置の他の実施形態のブロック図である。この実施形態にあっては、アプリケーション実行環境18に設けたリンク情報検出部26の機能として、図1の実施形態におけるイベント発生部24による発生イベントで生成されたリンク情報によるページ遷移からウェブ情報を検出して保存する機能に加え、更にページ閲覧部として機能するブラウザ20がアクセスしたプロキシサーバ64からリンク先のウェブ情報を検出して保存するようにしたことを特徴とする。
FIG. 18 is a block diagram of another embodiment of the Internet information collecting apparatus according to the present invention. In this embodiment, as a function of the link
これは図1のインターネット情報収集装置10の機能では抽出不可能なURLが存在してしまう問題を解消するものである。
This solves the problem that there is a URL that cannot be extracted by the function of the Internet
ここで図1の実施形態で抽出不可能なURLとしては次のものが存在する。
(1)利用者の操作で静的なリンクを更新するような場合。
(2)ジャバアプレット(Java Applet)などでジャバプログラムによって独自にHTTP通信をする場合。
(3)アクティブ・エックス・コンポーネント(Active X Component)など独自のプログラムが独自にHTTP通信をする場合。
(4)ユニックス(Unix(R))環境などでソフトウェア・ディプロップメント・キット(SDK)に図13に示したようなビフォワナビゲート機能が存在しないようなプラットホームなどで動作させる場合。Here, the following URLs cannot be extracted in the embodiment of FIG.
(1) When a static link is updated by a user operation.
(2) When performing HTTP communication independently by a Java program using a Java applet or the like.
(3) When an original program such as Active X Component performs HTTP communication independently.
(4) In a case where the software development kit (SDK) is operated on a platform where the before-navigation function as shown in FIG. 13 does not exist in a Unix (R) environment or the like.
図19は前記(1)で利用者が静的なリンクを更新する図1の実施形態では抽出できないURLの説明図である。図19において、HTMLソース文65は3〜5行目にスクリプト分66と6〜8行目にスプリクト文67を記述している。
FIG. 19 is an explanatory diagram of URLs that cannot be extracted in the embodiment of FIG. 1 in which the user updates a static link in (1). In FIG. 19, an HTML source sentence 65 describes a
スプリクト文66はマウス操作などによりカーソルがイメージ上を通過したときに画像ファイルを「over.gif」に変更する動作を行う。このスプリクト文68の「over.gif」は利用者のマウス操作によって始めてウェブサイトから取得されることになるが、ページ遷移動作ではないためビフォワナビゲードイベントによっては発生することはない。このため図1の実施形態ではファイル名「over.gif」をフルパスにもつウェブサイトのURLを検出することはできない。
The
次のスプリクト文67はカーソルがイメージ上か離れたときに画像ファイルを「out.gif」に戻す動作を行う。この「out.gif」についても利用者のマウス操作によってはじめてウェブサイトから取得され、ページ遷移動作でないため図1の実施形態におけるビフォワナビゲートイベントは発生しないこととなり、URLを取得することができない。
The
そこで本発明にあっては、図18のように、インターネット情報収集装置10がブラウザ20を利用する場合、必ずプロキシサーバ64を介してウェブサイト14−1〜14−3側にアクセスしており、この場合、プロキシサーバ64内ではウェブサイトにおけるHTTP要求とウェブサイトからのHTTP応答に伴ってファイル上にアクセス情報が保存されるに着目して問題の解決を図る。
Therefore, in the present invention, as shown in FIG. 18, when the Internet
即ち、本発明にあってはリンク情報検出部26においてビフォワナビゲート機能によるページ遷移の発生からリンク先のURLを検出して保存する処理をすべて終了した後、プロキシサーバ64にアクセスして、そこに保存しているファイル情報から遷移先のURLをフルパスで取得してリンク一覧テーブル30に保存する。
That is, in the present invention, after the link
図20はプロキシサーバのファイルからURLを検出して収集する図18の実施形態の処理動作の説明図である。図20において、インターネット情報収集装置10で例えば図19で示したスプリクト文68に基づく画像上のカーソル移動でファイヤイベント68が発生すると、ブラウザ20からプロキシサーバ64を介してウェブサイト14にHTTP要求72が送信される。
FIG. 20 is an explanatory diagram of the processing operation of the embodiment of FIG. 18 for detecting and collecting URLs from the proxy server file. In FIG. 20, when a
このHTTP要求72を受けたウェブサイト14にあっては、ファイル名「over.gif」のウェブページ74をHTTP応答78としてプロキシサーバ64を介してブラウザ20に応答する。
In the
ここでプロキシサーバ64にあってはHTTP要求72をウェブサイト14に送る際にファイル85にアクセス情報76を保存しており、またウェブサイト14からHTTP応答78をブラウザ20に送る際にアクセス情報80をファイル85に保存している。
Here, the
HTTP要求72に伴って保存されたアクセス情報76の1行目にはファイル名として「over.gif」が格納され、また3行目にはウェブサイト14のドメイン名「domain」が格納されている。
The first line of the
従って図18に示したインターネット情報収集装置10に設けているリンク情報検出部20は、プロキシサーバ64のファイル85を参照し、「HTTP://」から始まってファイル名「over.gif」までを示すフルパスのリンク先のURL84として「http://domain/over.gif」を検出し、リンク一覧テーブル30のレコード82に示すように保存する。
Accordingly, the link
図21は図18の実施形態におけるインターネット情報収集装置のフローチャートである。図21においてステップS1〜S8の処理は図15に示した図1の実施形態による処理と同じである。図18の実施形態にあってはステップS1〜S8の処理が終了した後、ステップS9でプロキシサーバ64からフルパスのURLを取得してリンク一覧テーブルに登録する処理を実行するようにしている。
FIG. 21 is a flowchart of the Internet information collecting apparatus in the embodiment of FIG. In FIG. 21, the processing of steps S1 to S8 is the same as the processing according to the embodiment of FIG. 1 shown in FIG. In the embodiment of FIG. 18, after the processing of steps S1 to S8 is completed, processing for acquiring a full path URL from the
このように一時的な操作では発生できない例えばマウスなどで発生するイベントにつき、ブラウザがアクセスするプロキシサーバからリンク情報としてURLを取得することでインターネット情報を収集するために展開されたウェブページ上からもれなくインターネット上のウェブ情報を収集することができる。 For events that occur with, for example, a mouse that cannot be generated by a temporary operation in this way, the URL is acquired as link information from a proxy server accessed by the browser, so that it can be used on the web page developed to collect Internet information. Web information on the Internet can be collected.
なお、本発明は、その目的と利点を損なうことのない適宜の変形を含み、更に上記の実施形態に示した数値による限定は受けない。 The present invention includes appropriate modifications that do not impair the object and advantages thereof, and is not limited by the numerical values shown in the above embodiments.
Claims (5)
前記ページ閲覧部で画面展開されたウェブページを解析し、利用者の操作により発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出するページ解析部と、
前記ページ解析部で抽出されたイベント操作タグ文に対し前記イベントを発生させるイベント発生部と、
前記イベント発生部による発生イベントで生成されたリンク情報によるページ遷移からリンク先のウェブ情報を検出して保存するリンク情報検出部と、
を備えたことを特徴とするインターネット情報収集装置。A page browsing part that acquires web pages on the Internet and expands the screen,
A page analysis unit that analyzes the web page expanded on the page browsing unit and extracts an event operation tag sentence that dynamically generates link information according to an event generated by a user operation;
An event generation unit that generates the event for the event operation tag sentence extracted by the page analysis unit;
A link information detection unit that detects and stores link destination web information from page transitions by link information generated by an event generated by the event generation unit;
An Internet information collecting apparatus comprising:
前記ページ解析部は、前記ウェブページを構築するタグ文の中のフォーム文で規定された範囲からインプット文を抽出し、
前記イベント発生部は、前記インプット文につき定義されている全てのイベントを順次発生し、その中の有効イベントによりリンク情報を生成させることを特徴とするインターネット情報収集装置。In the internet information collection device according to claim 1,
The page analysis unit extracts an input sentence from a range defined by a form sentence in a tag sentence that constructs the web page,
The Internet information collection device, wherein the event generation unit sequentially generates all events defined for the input sentence, and generates link information based on valid events therein.
インターネット上のウェブページを取得して画面展開するページ閲覧ステップと、
前記ページ閲覧ステップで画面展開されたウェブページを解析し、利用者の操作により発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出するページ解析ステップと、
前記ページ解析ステップで抽出されたイベント操作タグ文に対し前記イベントを発生させるイベント発生ステップと、
前記イベント発生ステップによる発生イベントで生成されたリンク情報によるページ遷移からリンク先のウェブ情報を検出して保存するリンク情報検出ステップと、
を実行させることを特徴とするインターネット情報収集プログラム。On the computer,
A page browsing step to acquire web pages on the Internet and expand the screen,
Analyzing the web page expanded in the page browsing step, a page analysis step for extracting an event operation tag sentence that dynamically generates link information according to an event generated by a user operation;
An event generation step for generating the event with respect to the event operation tag sentence extracted in the page analysis step;
A link information detection step of detecting and storing link destination web information from page transitions by link information generated in the event generated by the event generation step;
Internet information collection program characterized by causing
前記ページ閲覧ステップで画面展開されたウェブページを解析し、利用者の操作により発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出するページ解析ステップと、
前記ページ解析ステップで抽出されたイベント操作タグ文に対し前記イベントを発生させるイベント発生ステップと、
前記イベント発生ステップによる発生イベントで生成されたリンク情報によるページ遷移からリンク先のウェブ情報を検出して保存するリンク情報検出ステップと、
を備えたことを特徴とするインターネット情報収集方法。A page browsing step to acquire web pages on the Internet and expand the screen,
Analyzing the web page expanded in the page browsing step, a page analysis step for extracting an event operation tag sentence that dynamically generates link information according to an event generated by a user operation;
An event generation step for generating the event with respect to the event operation tag sentence extracted in the page analysis step;
A link information detection step of detecting and storing link destination web information from page transitions by link information generated in the event generated by the event generation step;
A method for collecting Internet information, comprising:
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004313520 | 2004-10-28 | ||
JP2004313520 | 2004-10-28 | ||
PCT/JP2005/006919 WO2006046323A1 (en) | 2004-10-28 | 2005-04-08 | Internet information collection device, program, and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006046323A1 JPWO2006046323A1 (en) | 2008-05-22 |
JP4507206B2 true JP4507206B2 (en) | 2010-07-21 |
Family
ID=36227574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006542237A Expired - Fee Related JP4507206B2 (en) | 2004-10-28 | 2005-04-08 | Internet information collecting apparatus, program and method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4507206B2 (en) |
WO (1) | WO2006046323A1 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060150111A1 (en) * | 2004-12-30 | 2006-07-06 | Microsoft Corporation | Methods and apparatus for evaluating aspects of a web page |
JP5026068B2 (en) * | 2006-12-27 | 2012-09-12 | 株式会社エヌ・ティ・ティ・データ | Information collection system |
US8717305B2 (en) * | 2008-03-04 | 2014-05-06 | Apple Inc. | Touch event model for web pages |
US8416196B2 (en) * | 2008-03-04 | 2013-04-09 | Apple Inc. | Touch event model programming interface |
JP5066499B2 (en) * | 2008-09-24 | 2012-11-07 | 株式会社日立ソリューションズ | Web application operation procedure manual generation system |
JP6386089B2 (en) | 2014-06-26 | 2018-09-05 | グーグル エルエルシー | Optimized browser rendering process |
EP3161668B1 (en) * | 2014-06-26 | 2020-08-05 | Google LLC | Batch-optimized render and fetch architecture |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207759A (en) * | 1997-01-24 | 1998-08-07 | Sharp Corp | Device for automatically obtaining hyper text |
JP2002055869A (en) * | 2000-05-30 | 2002-02-20 | Lucent Technol Inc | Internet archive service to provide persistent access to web resource |
JP2003296341A (en) * | 2002-04-03 | 2003-10-17 | Nissan Motor Co Ltd | Database generation method, database generation program, data structure, database generation system, retrieval system and retrieval method |
JP2005149136A (en) * | 2003-11-14 | 2005-06-09 | Fujitsu Ltd | Information collection program, information collection method, information collection system and information collection device |
-
2005
- 2005-04-08 WO PCT/JP2005/006919 patent/WO2006046323A1/en active Application Filing
- 2005-04-08 JP JP2006542237A patent/JP4507206B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207759A (en) * | 1997-01-24 | 1998-08-07 | Sharp Corp | Device for automatically obtaining hyper text |
JP2002055869A (en) * | 2000-05-30 | 2002-02-20 | Lucent Technol Inc | Internet archive service to provide persistent access to web resource |
JP2003296341A (en) * | 2002-04-03 | 2003-10-17 | Nissan Motor Co Ltd | Database generation method, database generation program, data structure, database generation system, retrieval system and retrieval method |
JP2005149136A (en) * | 2003-11-14 | 2005-06-09 | Fujitsu Ltd | Information collection program, information collection method, information collection system and information collection device |
Also Published As
Publication number | Publication date |
---|---|
JPWO2006046323A1 (en) | 2008-05-22 |
WO2006046323A1 (en) | 2006-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11915018B2 (en) | Method and apparatus for user interface modification | |
JP5636521B2 (en) | Configuration of web crawler to extract web page information | |
JP4140916B2 (en) | Method for analyzing state transition in web page | |
US7917755B1 (en) | Identification of localized web page element | |
JP4507206B2 (en) | Internet information collecting apparatus, program and method | |
JP4846832B2 (en) | Web page display method, computer system, and program | |
CN111679976A (en) | Method and device for searching page object | |
CN111797340B (en) | Service packaging system for user-defined extraction flow | |
JP6910494B1 (en) | Information processing program, information processing device and information processing method | |
JPH10187512A (en) | Method for generating program for database structuring and database operation | |
CN109062784B (en) | Interface parameter constraint code entry positioning method and system | |
JP4496919B2 (en) | Web browsing operation recording / playback apparatus, program, and computer-readable storage medium | |
JP5263635B2 (en) | Search expression generation system | |
JP7260150B2 (en) | WEBSITE DESIGN SUPPORT DEVICE, WEBSITE DESIGN SUPPORT METHOD, AND PROGRAM | |
CN109062785B (en) | Interface parameter constraint code positioning method and system | |
EP1255207A2 (en) | Method and apparatus for automatically searching hypertext structure | |
JP5476867B2 (en) | Mashup program, mashup device, and mashup method | |
AU2021106041A4 (en) | Methods and systems for obtaining and storing web pages | |
JP2008052435A (en) | Information collection device and method, program, and information collection system | |
JP2002163296A (en) | Hierarchical structure display system of home page |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100330 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100422 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |