JP2005149156A - Object cutter program - Google Patents

Object cutter program Download PDF

Info

Publication number
JP2005149156A
JP2005149156A JP2003386027A JP2003386027A JP2005149156A JP 2005149156 A JP2005149156 A JP 2005149156A JP 2003386027 A JP2003386027 A JP 2003386027A JP 2003386027 A JP2003386027 A JP 2003386027A JP 2005149156 A JP2005149156 A JP 2005149156A
Authority
JP
Japan
Prior art keywords
identifier
web page
display control
extracted
control information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003386027A
Other languages
Japanese (ja)
Inventor
Tomokatsu Ueda
倫功 上田
Takeshi Fujita
岳史 藤田
Tsutomu Kawachi
勉 河内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Global Solutions Inc
Original Assignee
Vision Arts Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vision Arts Inc filed Critical Vision Arts Inc
Priority to JP2003386027A priority Critical patent/JP2005149156A/en
Publication of JP2005149156A publication Critical patent/JP2005149156A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To extract an object without requiring to input each Web page identifier corresponding to a link destination Web page, when extracting the object from a prescribed Web page and the link destination Web page derived by the hyperlink of the corresponding Web page. <P>SOLUTION: A processing means specifies a part sandwicted by an object beginning end identifier and an object terminating end identifier from received display control information and extracts the Web page identifier of the link destination Web page from the specified part on the basis of an extracting part identifier (S25). Next, the processing means receives the display control information of the Web page corresponding to the extracted Web page identifier (S30). Further, the processing means extracts the part which is sandwicted by the beginning end identifier and the terminating end identifier and satisfies retrieval conditions from the corresponding display control information to store them in a storage means (S35). <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、既存のWebページからオブジェクトを抽出して再利用する技術に関する。   The present invention relates to a technique for extracting and reusing an object from an existing Web page.

従来、既存のWebページから図、表等のオブジェクトを抽出し、新たなWebページを作成するWeb生成装置等の発明が開示されている(例えば、特許文献1参照。)。   2. Description of the Related Art Conventionally, an invention such as a Web generation apparatus that extracts an object such as a figure or a table from an existing Web page and creates a new Web page has been disclosed (for example, see Patent Document 1).

当該Web生成装置は、複数のWebページからオブジェクトを抽出し、自由なレイアウトで新たなWebページを作成するWebページ作成部と、作成されたWebページの構成情報を格納すると共に、貼り付けられたオブジェクトを更新するリポジトリ管理部と、前記リポジトリ管理部に格納された構成情報とオブジェクトとから実際にWebページを作成するWebページ実行部と、を備えることを特徴とする。   The web generation device extracts an object from a plurality of web pages, creates a new web page with a free layout, stores configuration information of the created web page, and is pasted A repository management unit that updates an object, and a Web page execution unit that actually creates a Web page from configuration information and an object stored in the repository management unit.

これによると、指定した既存のWebページからオブジェクトを抽出し、当該抽出したオブジェクトを自由なレイアウトで配置した新たなWebページを作成することができる。   According to this, it is possible to extract an object from a specified existing Web page and create a new Web page in which the extracted object is arranged in a free layout.

しかしながら、上記従来例において、所定のWebページ及び当該Webページのハイパーリンクによって導かれるリンク先Webページから、オブジェクトを抽出する場合には、リンク先Webページに対応するWebページ識別子をそれぞれ入力する必要があった。
特開平11−250054号公報
However, in the above conventional example, when an object is extracted from a predetermined Web page and a link destination Web page guided by a hyperlink of the Web page, it is necessary to input a Web page identifier corresponding to the link destination Web page. was there.
Japanese Patent Laid-Open No. 11-250054

本発明は、かかる従来例の有する不都合を改善し、所定のWebページ及び当該Webページのハイパーリンクによって導かれるリンク先Webページから、オブジェクトを抽出する場合に、リンク先Webページに対応するWebページ識別子をそれぞれ入力しなくても、オブジェクトを抽出することができることを課題とする。   The present invention improves the disadvantages of the conventional example, and when extracting an object from a predetermined Web page and a linked Web page guided by a hyperlink of the Web page, the Web page corresponding to the linked Web page It is an object to be able to extract an object without inputting each identifier.

上記課題を解決するため、本発明では次のような構成を採っている。   In order to solve the above problems, the present invention employs the following configuration.

請求項1記載の発明は、情報の記憶手段、情報の入力手段、情報提供システムとの通信手段、及びこれら各手段の動作を制御する処理手段を備えた端末装置に用いられるオブジェクトカッタープログラムである。記憶手段は、情報提供システムが提供するWebページの表示制御情報において、オブジェクトの始端を識別するオブジェクト始端識別子と、オブジェクトの終端を識別するオブジェクト終端識別子とを関連付けて予め格納した標準オブジェクトデータベースを備えている。また、記憶手段は、オブジェクト始端識別子と、オブジェクト終端識別子と、これらの組合せに関連付けられ、かつ、Webページ識別子を抽出する部分を識別する抽出部識別子とを予め格納したWebページ識別子抽出条件データベースを備えている。そして、処理手段は、入力手段から、情報提供システムが提供するWebページを識別するWebページ識別子を受付ける。続いて、処理手段は、受付けたWebページ識別子に対応するWebページの表示制御情報を、通信手段を介して情報提供システムから受信すると共に、記憶手段に格納する。次に、処理手段は、記憶手段からWebページの表示制御情報を取り出すと共に、Webページ識別子抽出条件データベースを参照して、オブジェクト始端識別子と、オブジェクト終端識別子と、これらの組合せに関連付けられた抽出部識別子とを取り出す。続いて、処理手段は、取り出した表示制御情報から、取り出したオブジェクト始端識別子及びオブジェクト終端識別子によって挟まれる部分を特定すると共に、取り出した抽出部識別子に基づいて、特定した部分からリンク先WebページのWebページ識別子を抽出する。そして、処理手段は、抽出したWebページ識別子に対応するWebページの表示制御情報を、通信手段を介して情報提供システムから受信すると共に、記憶手段に格納する。次に、処理手段は、標準オブジェクトデータベースを参照して、オブジェクト始端識別子と、当該オブジェクト始端識別子に関連付けられたオブジェクト終端識別子とを取り出す。続いて、処理手段は、上記記憶手段に格納した表示制御情報から、当該取り出したオブジェクト始端識別子及びオブジェクト終端識別子によって挟まれる部分をオブジェクトとして抽出し前記記憶手段に格納する。   The invention described in claim 1 is an object cutter program used in a terminal device comprising information storage means, information input means, communication means with an information providing system, and processing means for controlling the operation of each means. . The storage means includes a standard object database pre-stored in association with an object start identifier for identifying the start of an object and an object end identifier for identifying the end of the object in the display control information of the Web page provided by the information providing system. ing. In addition, the storage means stores a Web page identifier extraction condition database that stores in advance an object start identifier, an object end identifier, and an extraction unit identifier that is associated with a combination thereof and that identifies a portion from which the Web page identifier is extracted. I have. Then, the processing means receives a Web page identifier for identifying the Web page provided by the information providing system from the input means. Subsequently, the processing means receives Web page display control information corresponding to the accepted Web page identifier from the information providing system via the communication means, and stores the information in the storage means. Next, the processing unit extracts the display control information of the Web page from the storage unit, and refers to the Web page identifier extraction condition database, and extracts an object start identifier, an object end identifier, and an extraction unit associated with the combination thereof Retrieves an identifier. Subsequently, the processing unit specifies a portion sandwiched between the extracted object start identifier and object end identifier from the extracted display control information, and based on the extracted extraction unit identifier, the processing unit specifies the link destination Web page. Extract Web page identifier. Then, the processing unit receives the display control information of the Web page corresponding to the extracted Web page identifier from the information providing system via the communication unit and stores it in the storage unit. Next, the processing means refers to the standard object database and takes out the object start end identifier and the object end identifier associated with the object start end identifier. Subsequently, the processing unit extracts, as an object, a portion sandwiched between the extracted object start identifier and object end identifier from the display control information stored in the storage unit, and stores the extracted object in the storage unit.

ここで、オブジェクトとは、Webページの表示制御情報の一部であって、Webページに表示される実体の最小構成単位をいう。オブジェクトとしては、例えば、<img>タグで表される図のオブジェクト、<table>タグで表される表のオブジェクト、<a>タグで表されるハイパーリンクを有する文字のオブジェクト等が該当する。   Here, the object is a part of the display control information of the Web page and refers to the minimum constituent unit of the entity displayed on the Web page. Examples of the object include a diagram object represented by an <img> tag, a table object represented by a <table> tag, a character object having a hyperlink represented by an <a> tag, and the like.

請求項2記載の発明は、情報の記憶手段、情報の入力手段、情報提供システムとの通信手段、及びこれら各手段の動作を制御する処理手段を備えた端末装置に用いられるオブジェクトカッタープログラムである。記憶手段は、情報提供システムが提供するWebページの表示制御情報において、オブジェクトの始端を識別するオブジェクト始端識別子と、オブジェクトの終端を識別するオブジェクト終端識別子とを関連付けて予め格納した標準オブジェクトデータベースを備えている。また、記憶手段は、オブジェクト始端識別子と、オブジェクト終端識別子と、これらの組合せに関連付けられ、かつ、Webページ識別子を抽出する部分を識別する抽出部識別子とを予め格納したWebページ識別子抽出条件データベースを備えている。そして、処理手段は、入力手段から、情報提供システムが提供するWebページを識別するWebページ識別子と、検索条件とを受付ける。続いて、処理手段は、受付けたWebページ識別子に対応するWebページの表示制御情報を、通信手段を介して情報提供システムから受信すると共に、記憶手段に格納する。次に、処理手段は、記憶手段からWebページの表示制御情報を取り出すと共に、Webページ識別子抽出条件データベースを参照して、オブジェクト始端識別子と、オブジェクト終端識別子と、これらの組合せに関連付けられた抽出部識別子とを取り出す。続いて、処理手段は、取り出した表示制御情報から、取り出したオブジェクト始端識別子及びオブジェクト終端識別子によって挟まれる部分を特定すると共に、取り出した抽出部識別子に基づいて、特定した部分からリンク先WebページのWebページ識別子を抽出する。そして、処理手段は、抽出したWebページ識別子に対応するWebページの表示制御情報を、通信手段を介して情報提供システムから受信すると共に、記憶手段に格納する。次に、処理手段は、標準オブジェクトデータベースを参照して、オブジェクト始端識別子と、当該オブジェクト始端識別子に関連付けられたオブジェクト終端識別子とを取り出す。続いて、処理手段は、上記記憶手段に格納した表示制御情報から、当該取り出したオブジェクト始端識別子及びオブジェクト終端識別子によって挟まれる部分であって、受付けた検索条件を満たすものをオブジェクトとして抽出し記憶手段に格納する。   The invention described in claim 2 is an object cutter program used for a terminal device comprising information storage means, information input means, communication means with an information providing system, and processing means for controlling the operation of each means. . The storage means includes a standard object database pre-stored in association with an object start identifier for identifying the start of an object and an object end identifier for identifying the end of the object in the display control information of the Web page provided by the information providing system. ing. In addition, the storage means stores a Web page identifier extraction condition database that stores in advance an object start identifier, an object end identifier, and an extraction unit identifier that is associated with a combination thereof and that identifies a portion from which the Web page identifier is extracted. I have. Then, the processing unit receives a Web page identifier for identifying the Web page provided by the information providing system and a search condition from the input unit. Subsequently, the processing means receives Web page display control information corresponding to the accepted Web page identifier from the information providing system via the communication means, and stores the information in the storage means. Next, the processing unit extracts the display control information of the Web page from the storage unit, and refers to the Web page identifier extraction condition database, and extracts an object start identifier, an object end identifier, and an extraction unit associated with the combination thereof Retrieves an identifier. Subsequently, the processing unit specifies a portion sandwiched between the extracted object start identifier and object end identifier from the extracted display control information, and based on the extracted extraction unit identifier, the processing unit specifies the link destination Web page. Extract Web page identifier. Then, the processing unit receives the display control information of the Web page corresponding to the extracted Web page identifier from the information providing system via the communication unit and stores it in the storage unit. Next, the processing means refers to the standard object database and takes out the object start end identifier and the object end identifier associated with the object start end identifier. Subsequently, the processing means extracts, from the display control information stored in the storage means, a portion sandwiched between the extracted object start end identifier and object end identifier and satisfying the accepted search condition as an object, and the storage means To store.

これによると、処理手段が、入力手段から受付けたWebページ識別子に対応するWebページの表示制御情報から、リンク先WebページのWebページ識別子を抽出して、当該抽出したWebページ識別子に対応するWebページの表示制御情報を情報提供システムから受信するので、所定のWebページ及び当該Webページのハイパーリンクによって導かれるリンク先Webページから、オブジェクトを抽出する場合に、リンク先Webページに対応するWebページ識別子をそれぞれ入力しなくても、オブジェクトを抽出することができるという従来にない優れたオブジェクトカッタープログラムを提供することができる。   According to this, the processing means extracts the web page identifier of the link destination web page from the display control information of the web page corresponding to the web page identifier received from the input means, and the web corresponding to the extracted web page identifier. Since the page display control information is received from the information providing system, when an object is extracted from a predetermined web page and a linked web page guided by a hyperlink of the web page, the web page corresponding to the linked web page It is possible to provide an unprecedented excellent object cutter program that can extract an object without inputting each identifier.

以下、図面を参照しながら、本発明の実施形態について説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本実施形態のシステムの全体構成を示すブロック図である。インターネット300に端末装置100と、情報提供システムとしてのWebサーバ200が接続されている。Webサーバ200は、端末装置100からの要求に基づいて、HTML(Hyper Text Markup Language)ファイル等の表示制御情報を、要求のあった端末装置100に送信するようになっている。また、端末装置100は、Webサーバ200から受信した表示制御情報から、図、表等のオブジェクトを抽出するようになっている。ここで、Webサーバ200は、端末装置100の利用者とは別の第三者がコンテンツ等を提供するために、インターネット300に接続したものであってもよい。また、本実施形態では、複数のWebサーバ200がインターネット300に接続されているが、これらのWebサーバ200は、処理手段、記憶手段、及び通信手段を備えた一般的な構成を採っている。   FIG. 1 is a block diagram showing the overall configuration of the system of this embodiment. A terminal device 100 and a Web server 200 as an information providing system are connected to the Internet 300. The Web server 200 is configured to transmit display control information such as an HTML (Hyper Text Markup Language) file to the requested terminal device 100 based on a request from the terminal device 100. The terminal device 100 is configured to extract objects such as diagrams and tables from the display control information received from the Web server 200. Here, the Web server 200 may be connected to the Internet 300 in order for a third party different from the user of the terminal device 100 to provide content and the like. In the present embodiment, a plurality of Web servers 200 are connected to the Internet 300. These Web servers 200 have a general configuration including processing means, storage means, and communication means.

図2は、本願のオブジェクトカッタープログラム110を適用する端末装置100として一般的なPC(Personal Computer)の構成を示している。バス101に対し、入力手段としてのキーボード106及びマウス107、表示手段としてのディスプレイ108、処理手段としてのCPU102、記憶手段としてのRAM103、ROM104、及びHDD109(Hard Disk Drive)、並びに通信手段としてのNIC105(Network Interface Card)が接続されている。I/Fはバス101と各種デバイスとのインターフェースを示している。HDD109には、オブジェクトカッタープログラム110、標準オブジェクトデータベース111、Webページ識別子抽出条件データベース112等が記憶されている。端末装置100のCPU102は、HDD109に記憶されているオブジェクトカッタープログラム110をRAM103に読み出して実行することにより、標準オブジェクトデータベース111を参照して、Webサーバ200から受信した表示制御情報からオブジェクトを抽出する機能等を提供するようになっている。また、端末装置100のCPU102は、Webページ識別子抽出条件データベース112を参照して、Webサーバ200から受信した表示制御情報からリンク先WebページのWebページ識別子を抽出するようになっている。   FIG. 2 shows a configuration of a general PC (Personal Computer) as the terminal device 100 to which the object cutter program 110 of the present application is applied. For the bus 101, a keyboard 106 and a mouse 107 as input means, a display 108 as display means, a CPU 102 as processing means, a RAM 103 as a storage means, a ROM 104, an HDD 109 (Hard Disk Drive), and a NIC 105 as communication means. (Network Interface Card) is connected. I / F indicates an interface between the bus 101 and various devices. The HDD 109 stores an object cutter program 110, a standard object database 111, a Web page identifier extraction condition database 112, and the like. The CPU 102 of the terminal device 100 reads out the object cutter program 110 stored in the HDD 109 to the RAM 103 and executes it, thereby extracting an object from the display control information received from the Web server 200 with reference to the standard object database 111. Functions are provided. In addition, the CPU 102 of the terminal device 100 refers to the Web page identifier extraction condition database 112 and extracts the Web page identifier of the link destination Web page from the display control information received from the Web server 200.

図3は、端末装置100のHDD109に格納されている標準オブジェクトデータベース111の構造を示している。本実施形態では、標準オブジェクトデータベース111に、オブジェクト始端識別子と、オブジェクト終端識別子とを関連付けて予め格納している。ここで、オブジェクト始端識別子とは、表示制御情報において、オブジェクトの始端を識別するものをいう。また、オブジェクト終端識別子とは、表示制御情報において、オブジェクトの終端を識別するものをいう。例えば、表のオブジェクトは「<table」をオブジェクト始端識別子とし、「</table>」をオブジェクト終端識別子としている。   FIG. 3 shows the structure of the standard object database 111 stored in the HDD 109 of the terminal device 100. In this embodiment, the standard object database 111 stores an object start identifier and an object end identifier in advance in association with each other. Here, the object start end identifier is an identifier for identifying the start end of the object in the display control information. The object end identifier is an identifier for identifying the end of the object in the display control information. For example, an object in the table has “<table” as an object start identifier and “</ table>” as an object end identifier.

図4は、端末装置100のHDD109に格納されているWebページ識別子抽出条件データベース112の構造を示している。本実施形態では、Webページ識別子抽出条件データベース112に、オブジェクト始端識別子、オブジェクト終端識別子、及びこれらの組合せと関連付けられた抽出部識別子を予め格納している。ここで、オブジェクト始端識別子及びオブジェクト終端識別子については、標準オブジェクトデータベース111に格納しているものと同じである。抽出部識別子とは、オブジェクト始端識別子及びオブジェクト終端識別子によって特定されるオブジェクトから、リンク先WebページのWebページ識別子を抽出する際に、抽出する部分を特定するものである。例えば、オブジェクト始端識別子、オブジェクト終端識別子、抽出部識別子が、それぞれ「<a」、「</a>」、「src=」の場合には、表示制御情報のうち、「<a」と、「</a>」とで挟まれる部分であって、かつ、「src=」の直後に記述されている部分が、リンク先WebページのWebページ識別子であることを意味する。   FIG. 4 shows the structure of the Web page identifier extraction condition database 112 stored in the HDD 109 of the terminal device 100. In the present embodiment, the Web page identifier extraction condition database 112 stores in advance an object start identifier, an object end identifier, and an extractor identifier associated with a combination thereof. Here, the object start end identifier and the object end identifier are the same as those stored in the standard object database 111. The extraction unit identifier specifies a part to be extracted when extracting the Web page identifier of the link destination Web page from the object specified by the object start end identifier and the object end identifier. For example, when the object start identifier, the object identifier, and the extraction unit identifier are “<a”, “</ a>”, and “src =”, respectively, “<a” and “<a” are included in the display control information. It means that the portion between “</a>” and the portion described immediately after “src =” is the web page identifier of the link destination web page.

次に、本実施形態の端末装置100の動作について説明する。   Next, the operation of the terminal device 100 of this embodiment will be described.

図5は、端末装置100のCPU102が、オブジェクトカッタープログラム110をRAM103に読み出して実行することにより行う処理を表すフローチャートである。   FIG. 5 is a flowchart showing processing performed by the CPU 102 of the terminal device 100 by reading the object cutter program 110 into the RAM 103 and executing it.

まず、端末装置100のCPU102は、Webページ識別子としてのURL(Uniform Resource Locator)と、検索条件としてのキーワードとを入力する画面をディスプレイ108に表示する(S10)。図6は、入力画面600の一例である。当該入力画面600は、オブジェクトを抽出するWebページのURLを入力するURL入力欄601と、抽出するオブジェクトのキーワードを入力するキーワード入力欄602と、OKボタン603とを備えている。ここで、ユーザは、キーボード106から、URL入力欄601及びキーワード入力欄602に、それぞれURLと、キーワードとを入力するようになっている。   First, the CPU 102 of the terminal device 100 displays a screen for inputting a URL (Uniform Resource Locator) as a Web page identifier and a keyword as a search condition on the display 108 (S10). FIG. 6 is an example of the input screen 600. The input screen 600 includes a URL input field 601 for inputting the URL of a Web page for extracting an object, a keyword input field 602 for inputting a keyword of the object to be extracted, and an OK button 603. Here, the user inputs the URL and the keyword into the URL input field 601 and the keyword input field 602 from the keyboard 106, respectively.

そして、端末装置100のCPU102は、マウス107によりOKボタン603が押下されたことを契機として、URL入力欄601に入力されたWebページのURLと、キーワード入力欄602に入力されたキーワードとを受付ける(S15)。   Then, the CPU 102 of the terminal device 100 accepts the URL of the Web page input in the URL input field 601 and the keyword input in the keyword input field 602 when the OK button 603 is pressed by the mouse 107. (S15).

次に、端末装置100のCPU102は、受付けたWebページのURLに基づいて、Webページの取得要求をWebサーバ200に送信する。Webサーバ200の処理手段は、受信したWebページの取得要求に基づいて、取得要求のあったWebページの表示制御情報を端末装置100に送信する。図7は、端末装置100が受信した表示制御情報としてのHTMLファイルの一例である。当該HTMLファイル700は、ハイパーリンクを有する文字のオブジェクトである「<a href="http://xxx/sub−page1.htm">SUB−PAGE1</a>」701と、図のオブジェクトである「<img src="picture1.gif">」702とを備えている。そして、端末装置100のCPU102は、受信した表示制御情報としてのHTMLファイル700をHDD109に格納する(S20)。   Next, the CPU 102 of the terminal device 100 transmits a Web page acquisition request to the Web server 200 based on the received URL of the Web page. The processing means of the Web server 200 transmits the display control information of the Web page for which the acquisition request has been made to the terminal device 100 based on the received Web page acquisition request. FIG. 7 is an example of an HTML file as display control information received by the terminal device 100. The HTML file 700 is an object of a character having a hyperlink “<a href =” http: // xxx / sub-page1. htm "> SUB-PAGE1 </a>" 701 and "<img src =" picture1. gif ”>” 702. Then, the CPU 102 of the terminal device 100 stores the received HTML file 700 as display control information in the HDD 109 (S20).

続いて、端末装置100のCPU102は、HDD109に格納したHTMLファイル700から、リンク先WebページのURLを次のように抽出する。   Subsequently, the CPU 102 of the terminal device 100 extracts the URL of the link destination Web page from the HTML file 700 stored in the HDD 109 as follows.

端末装置100のCPU102は、Webページ識別子抽出条件データベース112を参照して、オブジェクト始端識別子、オブジェクト終端識別子、及びこれらの組合せに関連付けられた抽出部識別子を取り出す。続いて、端末装置100のCPU102は、HDD109に格納したHTMLファイル700から、当該取り出したオブジェクト始端識別子と、オブジェクト終端識別子とで挟まれる部分であって、かつ、抽出部識別子の直後に記述されている部分を、リンク先WebページのURLとして抽出する(S25)。   The CPU 102 of the terminal device 100 refers to the Web page identifier extraction condition database 112 and extracts an object start identifier, an object end identifier, and an extractor identifier associated with a combination thereof. Subsequently, the CPU 102 of the terminal device 100 is a part sandwiched between the object start identifier and the object end identifier extracted from the HTML file 700 stored in the HDD 109 and is described immediately after the extraction unit identifier. Is extracted as the URL of the linked web page (S25).

例えば、図7のHTMLファイル700の場合には、端末装置100のCPU102は、次のようにしてリンク先WebページのURLを抽出する。端末装置100のCPU102は、Webページ識別子抽出条件データベース112を参照して、オブジェクト始端識別子として「<a」、オブジェクト終端識別子として「</a>」、これらの組合せに関連付けられた抽出部識別子として「src=」を取り出す。続いて、端末装置100のCPU102は、図7のHTMLファイル700から、「<a」と、「</a>」とで挟まれる部分であって、かつ、「src=」の直後に記述されている部分である「"http://xxx/sub−page1.htm"」を、リンク先WebページのURLとして抽出する。   For example, in the case of the HTML file 700 in FIG. 7, the CPU 102 of the terminal device 100 extracts the URL of the linked web page as follows. The CPU 102 of the terminal device 100 refers to the Web page identifier extraction condition database 112 and uses “<a” as the object start identifier, “</ a>” as the object end identifier, and the extractor identifier associated with these combinations. Take out “src =”. Subsequently, the CPU 102 of the terminal device 100 is described from the HTML file 700 of FIG. 7 between “<a” and “</ a>” and immediately after “src =”. "" Http: // xxx / sub-page1. html "" is extracted as the URL of the linked web page.

そして、端末装置100のCPU102は、当該抽出したURLに基づいて、リンク先Webページの取得要求をWebサーバ200に送信する。続いて、Webサーバ200の処理手段は、受信したリンク先Webページの取得要求に基づいて、取得要求のあったWebページのHTMLファイルを端末装置100に送信する。図8は、端末装置100が受信したリンク先WebページのHTMLファイル800の一例である。当該HTMLファイル800は、図のオブジェクトである「<img src="picture2.gif">」を備えている。そして、端末装置100のCPU102は、受信した表示制御情報としてのHTMLファイル800をHDD109に格納する(S30)。   Then, based on the extracted URL, the CPU 102 of the terminal device 100 transmits a link destination Web page acquisition request to the Web server 200. Subsequently, the processing unit of the Web server 200 transmits the HTML file of the Web page for which the acquisition request is made to the terminal device 100 based on the received acquisition request for the linked Web page. FIG. 8 is an example of the HTML file 800 of the linked web page received by the terminal device 100. The HTML file 800 includes an object “<img src =” picture2. gif ">". Then, the CPU 102 of the terminal device 100 stores the received HTML file 800 as display control information in the HDD 109 (S30).

以上により、端末装置100のCPU102は、入力画面600において、キーボード106から入力されたURLに対応するWebページのHTMLファイル700と、当該Webページのハイパーリンクから導かれるリンク先WebページのHTMLファイル800とをHDD109に格納する。ここで、本実施形態では、端末装置100のCPU102は、キーボード106から入力されたURLに対応するWebページの表示制御情報と、当該Webページのハイパーリンクから導かれるリンク先Webページの表示制御情報のみをWebサーバ200から受信してHDD109に格納しているが、上記の手法により、当該リンク先Webページのハイパーリンクから更に導かれるWebページのWebページ識別子を抽出して、当該Webページ識別子に対応するWebページの表示制御情報をWebサーバ200から受信してHDD109に格納するようにしてもよい。   As described above, the CPU 102 of the terminal device 100 displays the HTML file 700 of the Web page corresponding to the URL input from the keyboard 106 on the input screen 600 and the HTML file 800 of the linked Web page derived from the hyperlink of the Web page. Are stored in the HDD 109. Here, in the present embodiment, the CPU 102 of the terminal device 100 displays the Web page display control information corresponding to the URL input from the keyboard 106 and the link destination Web page display control information derived from the hyperlink of the Web page. Only from the web server 200 and stored in the HDD 109, the web page identifier of the web page further derived from the hyperlink of the link destination web page is extracted by the above-described method, and the web page identifier is extracted. The corresponding Web page display control information may be received from the Web server 200 and stored in the HDD 109.

次に、端末装置100のCPU102は、標準オブジェクトデータベース111を参照して、オブジェクト始端識別子と、当該オブジェクト始端識別子に関連付けられたオブジェクト終端識別子とを取り出す。そして、端末装置100のCPU102は、HDD109に格納したHTMLファイルから、取り出したオブジェクト始端識別子と、オブジェクト終端識別子とで挟まれた部分であって、かつ、入力画面600において、キーボード106から入力されたキーワードを含むものを、検索条件を満たすオブジェクトとして抽出する(S35)。続いて、端末装置100のCPU102は、抽出したオブジェクトを記憶手段に格納する。   Next, the CPU 102 of the terminal device 100 refers to the standard object database 111 and extracts the object start end identifier and the object end identifier associated with the object start end identifier. Then, the CPU 102 of the terminal device 100 is a portion sandwiched between the object start identifier and the object end identifier extracted from the HTML file stored in the HDD 109, and input from the keyboard 106 on the input screen 600. The object including the keyword is extracted as an object that satisfies the search condition (S35). Subsequently, the CPU 102 of the terminal device 100 stores the extracted object in the storage unit.

例えば、入力画面600において、キーワード入力欄602に入力されたキーワードが「gif」の場合には、端末装置100のCPU102は、HDD109に格納した図7、図8のHTMLファイルから、<img src="picture1.gif">と、<img src="picture2.gif">とを、検索条件を満たすオブジェクトとして抽出し、HDD109に格納する。図9は、端末装置100のCPU102が、検索条件を満たすオブジェクトをHDD109に格納している状態を示す一例である。   For example, when the keyword input to the keyword input field 602 on the input screen 600 is “gif”, the CPU 102 of the terminal device 100 reads <img src = from the HTML files of FIGS. 7 and 8 stored in the HDD 109. “picture1.gif”> and <img src = “picture2.gif”> are extracted as objects satisfying the search condition and stored in the HDD 109. FIG. 9 is an example illustrating a state in which the CPU 102 of the terminal device 100 stores an object that satisfies the search condition in the HDD 109.

以上により、所定のWebページ及び当該Webページのハイパーリンクによって導かれるリンク先Webページの表示制御情報から、オブジェクトを抽出する場合に、リンク先Webページに対応するWebページ識別子をそれぞれ入力しなくても、オブジェクトを抽出することができる。   As described above, when an object is extracted from display control information of a predetermined Web page and a linked Web page guided by a hyperlink of the Web page, the Web page identifier corresponding to the linked Web page must not be input. Can also extract objects.

そして、HDD109に格納したオブジェクトは次のように利用することができる。   The objects stored in the HDD 109 can be used as follows.

端末装置100のCPU102は、格納したオブジェクトに対応する、図、表などの表示上の実体と、当該オブジェクトに関連付けられたボタンとをディスプレイ108に表示する。続いて、端末装置100のCPU102は、マウス107により上記ボタンが押下されたことを契機として、押下されたボタンに関連付けられたオブジェクトを新規Webページの表示制御情報に追加して、新たなWebページを作成することができる。   The CPU 102 of the terminal device 100 displays a display entity corresponding to the stored object, such as a figure or a table, and a button associated with the object on the display 108. Subsequently, when the button is pressed by the mouse 107, the CPU 102 of the terminal device 100 adds the object associated with the pressed button to the display control information of the new Web page, and creates a new Web page. Can be created.

システムの全体構成を示すブロック図である。It is a block diagram which shows the whole structure of a system. 端末装置の構成を示すブロック図である。It is a block diagram which shows the structure of a terminal device. 標準オブジェクトデータベースの構造図である。It is a structure figure of a standard object database. Webページ識別子抽出条件データベースの構造図である。It is a structural diagram of a Web page identifier extraction condition database. 端末装置の処理を示すフローチャートである。It is a flowchart which shows the process of a terminal device. 入力画面の一例を示す図である。It is a figure which shows an example of an input screen. HTMLファイル(表示制御情報)の一例を示す図である。It is a figure which shows an example of an HTML file (display control information). リンク先WebページのHTMLファイル(表示制御情報)の一例を示す図である。It is a figure which shows an example of the HTML file (display control information) of a link destination web page. 検索条件を満たすオブジェクトの一例を示す図である。It is a figure which shows an example of the object which satisfy | fills search conditions.

符号の説明Explanation of symbols

100 端末装置
101 バス
102 CPU(処理手段)
103 RAM(記憶手段)
104 ROM(記憶手段)
105 NIC(通信手段)
106 キーボード(入力手段)
107 マウス(入力手段)
108 ディスプレイ(表示手段)
109 HDD(記憶手段)
110 オブジェクトカッタープログラム
111 標準オブジェクトデータベース
112 Webページ識別子抽出条件データベース
200 Webサーバ(情報提供システム)
300 インターネット
600 入力画面
700 HTMLファイル(表示制御情報)
800 リンク先WebページのHTMLファイル
100 terminal device 101 bus 102 CPU (processing means)
103 RAM (storage means)
104 ROM (storage means)
105 NIC (communication means)
106 Keyboard (input means)
107 mouse (input means)
108 Display (display means)
109 HDD (storage means)
110 Object Cutter Program 111 Standard Object Database 112 Web Page Identifier Extraction Condition Database 200 Web Server (Information Providing System)
300 Internet 600 Input screen 700 HTML file (display control information)
800 HTML file of linked web page

Claims (2)

情報の記憶手段、情報の入力手段、情報提供システムとの通信手段、及びこれら各手段の動作を制御する処理手段を備えた端末装置に用いられるオブジェクトカッタープログラムであって、
前記記憶手段に、
前記情報提供システムが提供するWebページの表示制御情報において、オブジェクトの始端を識別するオブジェクト始端識別子と、オブジェクトの終端を識別するオブジェクト終端識別子とを関連付けて予め格納した標準オブジェクトデータベースと、
オブジェクト始端識別子と、オブジェクト終端識別子と、これらの組合せに関連付けられ、かつ、Webページ識別子を抽出する部分を識別する抽出部識別子とを予め格納したWebページ識別子抽出条件データベースと、
を備えると共に、
前記処理手段に、
a)前記入力手段から、前記情報提供システムが提供するWebページを識別するWebページ識別子を受付けるステップと、
b)受付けたWebページ識別子に対応するWebページの表示制御情報を、前記通信手段を介して前記情報提供システムから受信すると共に、前記記憶手段に格納するステップと、
c)前記記憶手段から前記Webページの表示制御情報を取り出すと共に、Webページ識別子抽出条件データベースを参照して、オブジェクト始端識別子と、オブジェクト終端識別子と、これらの組合せに関連付けられた抽出部識別子とを取り出すステップと、
d)取り出した表示制御情報から、取り出したオブジェクト始端識別子及び前記オブジェクト終端識別子によって挟まれる部分を特定すると共に、取り出した抽出部識別子に基づいて、特定した部分からリンク先WebページのWebページ識別子を抽出するステップと、
e)抽出したWebページ識別子に対応するWebページの表示制御情報を、前記通信手段を介して前記情報提供システムから受信すると共に、前記記憶手段に格納するステップと、
f)前記標準オブジェクトデータベースを参照して、オブジェクト始端識別子と、当該オブジェクト始端識別子に関連付けられたオブジェクト終端識別子とを取り出すステップと、
g)前記bステップ及び前記eステップで格納した表示制御情報から、当該取り出したオブジェクト始端識別子及びオブジェクト終端識別子によって挟まれる部分をオブジェクトとして抽出し前記記憶手段に格納するステップと、
を実行させることを特徴としたオブジェクトカッタープログラム。
An object cutter program used in a terminal device comprising information storage means, information input means, communication means with an information providing system, and processing means for controlling the operation of each means,
In the storage means,
In the display control information of the Web page provided by the information providing system, a standard object database that stores in advance an object start identifier that identifies the start of the object and an object end identifier that identifies the end of the object;
A Web page identifier extraction condition database that stores in advance an object start identifier, an object end identifier, and an extraction unit identifier that is associated with a combination thereof and that identifies a portion from which a Web page identifier is extracted;
With
In the processing means,
a) receiving from the input means a web page identifier for identifying a web page provided by the information providing system;
b) receiving display control information of a web page corresponding to the accepted web page identifier from the information providing system via the communication unit and storing the information in the storage unit;
c) taking out the display control information of the Web page from the storage means and referring to the Web page identifier extraction condition database to obtain an object start identifier, an object end identifier, and an extractor identifier associated with a combination thereof A step of taking out;
d) From the extracted display control information, specify the portion sandwiched between the extracted object start identifier and the object end identifier, and based on the extracted extractor identifier, determine the Web page identifier of the linked Web page from the specified portion Extracting, and
e) receiving display control information of a Web page corresponding to the extracted Web page identifier from the information providing system via the communication unit and storing the information in the storage unit;
f) retrieving the object start identifier and the object end identifier associated with the object start identifier with reference to the standard object database;
g) extracting from the display control information stored in the b step and the e step, a portion sandwiched by the extracted object start identifier and object end identifier as an object, and storing it in the storage means;
An object cutter program characterized by running
情報の記憶手段、情報の入力手段、情報提供システムとの通信手段、及びこれら各手段の動作を制御する処理手段を備えた端末装置に用いられるオブジェクトカッタープログラムであって、
前記記憶手段に、
前記情報提供システムが提供するWebページの表示制御情報において、オブジェクトの始端を識別するオブジェクト始端識別子と、オブジェクトの終端を識別するオブジェクト終端識別子とを関連付けて予め格納した標準オブジェクトデータベースと、
オブジェクト始端識別子と、オブジェクト終端識別子と、これらの組合せに関連付けられ、かつ、Webページ識別子を抽出する部分を識別する抽出部識別子とを予め格納したWebページ識別子抽出条件データベースと、
を備えると共に、
前記処理手段に、
a)前記入力手段から、前記情報提供システムが提供するWebページを識別するWebページ識別子と、検索条件とを受付けるステップと、
b)受付けたWebページ識別子に対応するWebページの表示制御情報を、前記通信手段を介して前記情報提供システムから受信すると共に、前記記憶手段に格納するステップと、
c)前記記憶手段から前記Webページの表示制御情報を取り出すと共に、Webページ識別子抽出条件データベースを参照して、オブジェクト始端識別子と、オブジェクト終端識別子と、これらの組合せに関連付けられた抽出部識別子とを取り出すステップと、
d)取り出した表示制御情報から、取り出したオブジェクト始端識別子及び前記オブジェクト終端識別子によって挟まれる部分を特定すると共に、取り出した抽出部識別子に基づいて、特定した部分からリンク先WebページのWebページ識別子を抽出するステップと、
e)抽出したWebページ識別子に対応するWebページの表示制御情報を、前記通信手段を介して前記情報提供システムから受信すると共に、前記記憶手段に格納するステップと、
f)前記標準オブジェクトデータベースを参照して、オブジェクト始端識別子と、当該オブジェクト始端識別子に関連付けられたオブジェクト終端識別子とを取り出すステップと、
g)前記bステップ及び前記eステップで格納した表示制御情報から、当該取り出したオブジェクト始端識別子及びオブジェクト終端識別子によって挟まれる部分であって、前記受付けた検索条件を満たすものをオブジェクトとして抽出し前記記憶手段に格納するステップと、
を実行させることを特徴としたオブジェクトカッタープログラム。
An object cutter program used in a terminal device comprising information storage means, information input means, communication means with an information providing system, and processing means for controlling the operation of each means,
In the storage means,
In the display control information of the Web page provided by the information providing system, a standard object database that stores in advance an object start identifier that identifies the start of the object and an object end identifier that identifies the end of the object;
A Web page identifier extraction condition database that stores in advance an object start identifier, an object end identifier, and an extraction unit identifier that is associated with a combination thereof and that identifies a portion from which a Web page identifier is extracted;
With
In the processing means,
a) receiving a web page identifier for identifying a web page provided by the information providing system and a search condition from the input unit;
b) receiving display control information of a web page corresponding to the accepted web page identifier from the information providing system via the communication unit and storing the information in the storage unit;
c) taking out the display control information of the Web page from the storage means and referring to the Web page identifier extraction condition database to obtain an object start identifier, an object end identifier, and an extractor identifier associated with a combination thereof A step of taking out;
d) From the extracted display control information, specify the portion sandwiched between the extracted object start identifier and the object end identifier, and based on the extracted extractor identifier, determine the Web page identifier of the linked Web page from the specified portion Extracting, and
e) receiving display control information of a Web page corresponding to the extracted Web page identifier from the information providing system via the communication unit and storing the information in the storage unit;
f) retrieving the object start identifier and the object end identifier associated with the object start identifier with reference to the standard object database;
g) From the display control information stored in the b step and the e step, a portion sandwiched by the extracted object start identifier and object end identifier that satisfies the received search condition is extracted as an object and stored. Storing in the means;
An object cutter program characterized by running
JP2003386027A 2003-11-14 2003-11-14 Object cutter program Pending JP2005149156A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003386027A JP2005149156A (en) 2003-11-14 2003-11-14 Object cutter program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003386027A JP2005149156A (en) 2003-11-14 2003-11-14 Object cutter program

Publications (1)

Publication Number Publication Date
JP2005149156A true JP2005149156A (en) 2005-06-09

Family

ID=34693822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003386027A Pending JP2005149156A (en) 2003-11-14 2003-11-14 Object cutter program

Country Status (1)

Country Link
JP (1) JP2005149156A (en)

Similar Documents

Publication Publication Date Title
JP4157708B2 (en) Method, apparatus, and computer program for providing content to client
JP3714548B2 (en) CAD data file conversion system using network
US20090150787A1 (en) Data processing device
JP2005346495A (en) Information processing system, information processing method, and information processing program
JP5525623B2 (en) Remote printing
JP2008134906A (en) Business process definition generation method, device and program
JP2004220251A (en) Information extraction rule creation system, information extraction rule creation method, and information extraction rule creation program
JP5267342B2 (en) Mashup program, mashup device, and mashup method
EP2711838A1 (en) Documentation parser
US20100287292A1 (en) Method, apparatus and computer program product for generating a content website in a data communications network
US8082259B2 (en) Information processing apparatus for extracting objects
EP1887476A1 (en) Menu bar providing method and information read screen configuration file creation program
JP2007249700A (en) Document management device, document retrieval method, document retrieval program and recording medium
JP2006236221A (en) Management server for web page retrieval
JP2005327297A (en) Knowledge information collecting system and knowledge information collecting method
JP2005149156A (en) Object cutter program
JP2010049598A (en) Web-site creation support device and program
JP2010003159A (en) Web user support system, web user support method, and web user support program
JP2004192276A (en) Information retrieval system, information retrieval device and computer program
JP2004054619A (en) Document search system and method and document search program
JP2009110506A (en) Information processing apparatus and information processing program
JP2006318138A (en) Web system, server computer for web system, and computer program
JP4998558B2 (en) LINK CREATION PROGRAM, LINK CREATION DEVICE, AND LINK CREATION METHOD
JP2011186692A (en) Information retrieval system and information retrieval method
JP5276903B2 (en) Browsing system, plug-in program, and introduction program