JP2006235942A - Apparatus for processing structured document - Google Patents
Apparatus for processing structured document Download PDFInfo
- Publication number
- JP2006235942A JP2006235942A JP2005048904A JP2005048904A JP2006235942A JP 2006235942 A JP2006235942 A JP 2006235942A JP 2005048904 A JP2005048904 A JP 2005048904A JP 2005048904 A JP2005048904 A JP 2005048904A JP 2006235942 A JP2006235942 A JP 2006235942A
- Authority
- JP
- Japan
- Prior art keywords
- document
- list
- structured
- processing system
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、情報処理装置に関する。 The present invention relates to an information processing apparatus.
ウェブサイトの記述言語として使われているHTML(Hyper Text Markup Language:http://www.w3.org/Markup/)や、汎用データ記述言語として近年広く用いられているXML(Extensible Markup Language:http://www.w3.org/XML/)などの構造化文書においては、しばしば他のファイルやデータを参照するためのリンク記述の方法が用意されている。例えば、HTMLにおいては、img要素を使用することにより画像ファイルを表示の一部に使用したり、a要素を使用することにより他ファイルへのハイパーリンク機能を実現したりすることができる。さらに今後はXMLやSVG等の普及により、多くのデータが構造化文書の形式で処理されることになる。このような構造化文書は、一つのファイルではなく、複数のファイル全体で一つの文書として成り立っているものが多い。そのため、このような構造化文書を保存や印刷などの処理をする際は、複数のファイルをまとめて処理をする必要がある。そのため、HTMLには指定された文書がどのような意味を持つかを明示するLinkタグがある。HTMLのLinkタグの使用例を図11に示す。先頭文書である1101(index.html)には<link rel=“next”href=“chap1.html”>と記述されてあり、これはこの先頭文書の次の文書が1102(chap1.html)であることを示す。1102(chap1.html)、1103(chap2.html)、1104(chap3.html)にも同様にLinkタグがあり、next、prev、indexという属性で、それぞれ次の文書、前の文書、先頭文書を表している。このような構造の場合、次の文書をたどっていくことにより文書の全体をたどることができる(例えば〔特許文献1〕参照)。
従来の構造化文書の形式では、印刷や保存、データの受け渡しなど機器間でデータを送受信する際、それぞれのファイルごとに操作を行う必要がある。リンク先をたどる方法もあるが、重要性の低いデータを処理してしまうことがある。HTMLのLinkタグの技術では、文書全体の構造を知るには文書を一つずつたどる必要があるため文書の数が多い場合や、文書がネットワーク上の他の機器にある場合などに非常に時間と手間がかかるという問題がある。 In the conventional structured document format, when data is transmitted and received between devices such as printing, storing, and data transfer, it is necessary to perform operations for each file. There is a way to follow the link destination, but it may process less important data. In HTML Link tag technology, it is necessary to trace one document at a time in order to know the structure of the entire document. Therefore, when the number of documents is large or when the documents are in other devices on the network, it takes a very long time. There is a problem that it takes time and effort.
本発明に係わる構造化文書処理装置は、上記目的を達成するためのもので、構造化文書のうち、一括して処理すべきリンク先を、先頭ページに埋め込む構成になっている。上記構成からなる構造化文書処理装置においては、構造化文書の先頭に処理の対象となる文書の一覧が格納されていることにより、構造化文書に関連付けられたデータのうち、処理すべきものとそうでないものが明確に区別できるため、不必要な文書を処理したり、必要な文書を処理し損ねたりすることがなくなる。また、先頭ページに含まれているため、文書をやり取りした後にもリンク先一覧情報が残り、文書を受け渡した後も正確な処理を行うことが可能になる。 The structured document processing apparatus according to the present invention is for achieving the above-described object, and is configured to embed, in the first page, link destinations to be collectively processed in the structured document. In the structured document processing apparatus configured as described above, a list of documents to be processed is stored at the beginning of the structured document, so that data to be processed among the data associated with the structured document is likely to be processed. Since those that are not can be clearly distinguished, unnecessary documents will not be processed or necessary documents will not be missed. In addition, since it is included in the first page, link destination list information remains even after the document is exchanged, and an accurate process can be performed after the document is delivered.
以上説明したように、本発明によれば、リンクにより複数のファイルからなる構造化文書の範囲を明確にすることで、保存、印刷などの処理や、他の機器との送受信を製作者の意図どおりに、かつ無駄なく行うことが可能になる。 As described above, according to the present invention, the scope of a structured document consisting of a plurality of files is clarified by a link, so that the process of storage, printing, etc., and transmission / reception with other devices are intended by the producer. It is possible to perform as usual and without waste.
(実施形態1)
図1は、本発明をパーソナルコンピュータ等からなるコンピュータ装置に適用した第1の実施形態を示す図である。本実施例は、ネットワーク上の構造化文書を印刷する際に、あらかじめ定められたデータのみを印刷することにより、必要な文書を漏らさず、かつ、不必要な文書を除いて印刷するものである。
(Embodiment 1)
FIG. 1 is a diagram showing a first embodiment in which the present invention is applied to a computer apparatus composed of a personal computer or the like. In this embodiment, when printing a structured document on a network, only predetermined data is printed, so that necessary documents are not leaked and unnecessary documents are excluded. .
図1では、構造化文書を作成するコンピュータ装置101と、コンピュータ装置101によって作成された構造化文書を保存するファイルサーバ103と、ファイルサーバ103に保存された構造化文書を閲覧するコンピュータ装置104と、コンピュータ装置104が構造化文書を印刷するためのプリンタ105がLAN102によって接続されている。
In FIG. 1, a
図2は本発明に係るコンピュータ装置101の構成を示すブロック図である。同図において、CPU201は、システム制御部であり、装置全体を制御する。ROM202は、CPUの制御プログラムや各種固定データを格納するものである。RAM203は、SRAM、DRAM等で構成され、プログラム制御変数等を格納するものである。また、各種設定パラメータ、各種ワーク用バッファもRAM203に格納されるものである。記憶部204はハードディスク等で構成され、ファイルデータを格納するためのものである。操作部205は、キーボード、マウス等で構成され、オペレータが各種入力操作を行うためのものである。表示部206は、ディスプレイ等でオペレータに表示通知するためのものである。LAN i/f207はLAN回線208に接続するためのインターフェイスである。
FIG. 2 is a block diagram showing the configuration of the
図3はコンピュータ装置101によって作成される、構造化文書の概念図である。301(index.html)中の<a href=”“about.html”>、<a href=“manual.mid”>、<a href=“reference”>はそれぞれ302(about.html)、304(manual.html)、306(reference.html)というファイルにリンクしていることを示している。また、302(about.html)中の<EMBED SRC=“bgm.mp3>はbgm.mp3に、304(manual.html)中の<img src=“sample.jpg”>はsample.jpgに、それぞれリンクしていることを示す。図3においては、HTMLファイルや画像、音声ファイル等の複数のオブジェクトが、文書内の文字列により関連付けられている。ここでは、リンクの設定は文字列によってなされているが、画像などにリンクを設定することも可能である。また、ここでは、リンク先は一つのファイルになっているが、ファイルの一部分のみを指すことも可能である。
FIG. 3 is a conceptual diagram of a structured document created by the
また図3において、この文書のトップページであるindex.htmlには、製作者が作成した関連文書リストが2種類記されてある。最初の<collection>要素にはindex.html、about.html、manual.htmlのみ記されてある。これは製作者がこの文書の概要としてテキストのみを扱うために記したものである。2番目の<collection>要素にはreference.htmlを除くすべてのファイルが記されてある。これは製作者がこの文書に必要なものをすべてを扱うために記述したものである。また、reference.htmlはこの文書からリンクされているが、この文書にとって重要性は薄いと製作者が判断したためである。 Also, in FIG. 3, the index. Two types of related document lists created by the producer are written in html. The first <collection> element has an index. html, about. html, manual. Only html is marked. This is because the producers only treated the text as an overview of this document. The second <collection> element has a reference. All files except html are listed. This is what the producer has written to handle everything that this document needs. Also, reference. This is because html has been linked from this document, but the producer has determined that it is not important to this document.
関連文書リストを作成する手順を図9に示す流れ図に沿って説明する。製作者はあらかじめ関連文書群のうち関連文書リストに含める条件を指定する(S901)。なお本発明において「関連文書群」という言葉は構造化文書のリンクを無条件にたどることで得られる、ツリー構造を持つ文書の集合である。関連文書リストに含める条件として、階層数による指定する方法、ファイルの種類または拡張子で判断する方法、リンクの記述が相対パスなら関連文書リストに含め、絶対パスで記述されたものは除外する方法、ファイルサイズが大きいもののみ除外する方法、等が考えられる。 The procedure for creating the related document list will be described with reference to the flowchart shown in FIG. The producer designates the conditions to be included in the related document list in the related document group in advance (S901). In the present invention, the term “related document group” is a set of documents having a tree structure obtained by unconditionally following links of structured documents. As a condition to be included in the related document list, specify by the number of layers, determine by file type or extension, include in the related document list if the link description is a relative path, and exclude the one described in the absolute path A method of excluding only a file having a large file size can be considered.
次に先頭文書を読み込み(S902)、読み込んだ構造化文書を解析する(S903)。現在読んでいる文書に、まだたどったことのないリンクの記述があれば(S904)、そのリンク先の文書が関連文書リストに含める条件に合うを判断する(S905)。条件に合わなければ現在読んでいる文書に、他にたどったことのないリンクの記述があるか調べる。条件に合えば関連文書一覧に加え(S906)、そのリンク先を読み(S907)、その文書からさらにリンクされている文書を調べる。現在読んでいる文書にたどったことのないリンクの記述がなければ、現在読んでいる文書が先頭文書でなければ(S908)、現在の文書をリンクしているリンク元に戻る(S909)。現在読んでいる文書が先頭文書なら(S908)、さらに手動で関連文書リストに含める、あるいは除外する文書があれば(S910)、手動での作業を行い(S911)、なければ処理は終了となる。 Next, the first document is read (S902), and the read structured document is analyzed (S903). If there is a description of a link that has not been traced in the document that is currently being read (S904), it is determined whether the linked document meets the conditions to be included in the related document list (S905). If it doesn't meet the requirements, check the document you are reading for a link description you have never followed. If the condition is met, in addition to the related document list (S906), the link destination is read (S907), and the document further linked from the document is examined. If there is no description of a link that has not been traced to the document currently being read, if the currently read document is not the first document (S908), the process returns to the link source linking the current document (S909). If the currently read document is the first document (S908), and if there is a document to be manually included in or excluded from the related document list (S910), the manual operation is performed (S911). If not, the process ends. .
S901からS909までの過程によりツリー構造を持つ構造化文書群のうち、関連文書リストに自動的に含めるべき文書をすべて加えることができる。S910とS911の過程によって、関連文書リストに含める条件とは例外的に含める、または除外することができる。 Through the processes from S901 to S909, all the documents that should be automatically included in the related document list can be added from the structured document group having a tree structure. Through the processes of S910 and S911, the conditions included in the related document list can be included or excluded as exceptions.
本実施例では自動的な方法と手動の方法を組み合わせているが、完全に自動化する、あるいは手動で行うことも可能である。 In the present embodiment, an automatic method and a manual method are combined, but it is possible to completely automate or manually.
コンピュータ装置101は図3の文書をファイルサーバ103に保存しておくものとする。このファイルサーバの構成を図4に示す。
Assume that the
同図において、CPU401は、システム制御部であり、装置全体を制御する。ROM402は、CPUの制御プログラムや各種固定データを格納するものである。RAM403は、SRAM、DRAM等で構成され、プログラム制御変数等を格納するものである。また、各種設定パラメータ、各種ワーク用バッファもRAM403に格納されるものである。記憶部404はハードディスク等で構成され、文書や画像などのファイルデータを格納するためのものである。操作パネル405は、キーボード、タッチパネル等で構成され、オペレータが各種入力操作を行うためのものである。表示部406は、LCD、LED等でオペレータに表示通知するためのものである。LAN i/f407はLAN回線408に接続するためのインターフェイスである。
In the figure, a
次いで、コンピュータ装置104が図3の文書を印刷する手順を説明する。コンピュータ装置102はファイルサーバ103からこの文書のトップページであるindex.htmlを読み出し、関連文書リストがあるかを判断する。本例では<collection>要素の中のそれぞれの<Object>要素がリンク先となっている。そこで「印刷」のメニューを選ぶと図5のようなメニューが表示される。このとき対象となるファイルを既に持っている、あるいは対象となるファイルの情報を持っている場合は、この段階でページ数などの情報を表示することも可能である。「リンク先一覧にあるもの(abstract)」を選択すると301 (index.html)、302(about.html)、304(manual.html)のみを読み出し、それらをプリンタ105に送信する。「関連文書リストにあるもの(detail)」を選択した場合は、304(reference.html)以外のすべての文書を読み出し、プリンタ105に送信する。するとプリンタ105は受信したオブジェクトを印刷し、印刷は完了する。もしリンク先の一覧がなければ通常どおりの処理となる。
Next, a procedure for the
ここではコンピュータ装置104がリンク先の一覧に含まれるオブジェクトを読み出したが、トップページのみをプリンタ105に送信し、プリンタ105がリンク先の一覧にあるオブジェクトを読み出す、という方法も可能である。
Here, the
図8は本発明の他の実施例が適用される構造化文書処理システムの概略構成図である。本実施例は、相対リンクと絶対リンクが含まれている文書を、別の機器に送信する際に、リンク情報を適切に変換するものである。 FIG. 8 is a schematic configuration diagram of a structured document processing system to which another embodiment of the present invention is applied. In the present embodiment, when a document including a relative link and an absolute link is transmitted to another device, the link information is appropriately converted.
本システムにおいては、コンピュータ装置装置804とファイルサーバ801と802がネットワーク803を介して接続されている。コンピュータ装置とファイルサーバの構成は前記構成例のものと同様である。
In this system, a
このファイルサーバ801に図7に示す構造化文書が格納されている。この文書からリンクされたファイルのうち、703(pic.jpg)はリンク先の一覧に含まれてなく、また704(doc.html)は関連文書リストに含まれているが、別のファイサーバ802(bar.org)に格納されている。先頭文書を格納しているファイルサーバは801(foo.com)である。
The
ここでファイルサーバ801からコンピュータ装置804に図8の文書を送信する。その際、関連文書リストにあるファイルをそのまま転送すると、コンピュータ装置804からその文書を読む際に、リンクをたどれない、もしくは不必要なファイルの受信を行うことがため、受信時に適切な変換が必要になる。
Here, the document in FIG. 8 is transmitted from the
リンクの記述の変換手順を図10に示す流れ図に沿って説明する。まず先頭文書を受信するし(S1001)、関連文書リストがなければ終了し(S1002)、あれば図6のウィンドウを出し、処理範囲を入力する(S1003)。先頭ページのみの場合は処理を終了する。関連文書リストにあるものを含める場合は、関連文書リストに含まれるファイルをすべて受信し(S1004)、先頭文書を読み込み(S1005)、文書の構造を解析する(S1006)。現在読んでいる文書にたどったことのないリンクの記述があれば(S1007)、リンク先が関連文書リストに含まれているか確認する(S1008)。含まれている場合は、そのリンクの記述が絶対パスであるか確認し(S1009)、絶対パスになっている場合はその記述を相対パスに変換し(S1010)、リンク先の文書を読み込む(S1011)。リンク先文書が関連文書リストに含まれていない場合は、その記述が相対パスであるか確認し(S1012)、相対パスであればリンクの記述を絶対パスに変換する(S1013)。現在読んでいる文書にたどったことのないリンクの記述が存在しなければ、現在読んでいる文書が先頭文書か確認する(S1014)。先頭文書でなければリンク元に戻り、まだたどったことのないリンクの記述を調べ、先頭文書であれば処理を終了する。 The procedure for converting the link description will be described with reference to the flowchart shown in FIG. First, the first document is received (S1001), and if there is no related document list, the process ends (S1002). If there is, the window shown in FIG. 6 is displayed and the processing range is input (S1003). If there is only the first page, the process ends. When including the files in the related document list, all the files included in the related document list are received (S1004), the first document is read (S1005), and the structure of the document is analyzed (S1006). If there is a description of a link that has not been traced to the currently read document (S1007), it is confirmed whether the link destination is included in the related document list (S1008). If it is included, it is confirmed whether the description of the link is an absolute path (S1009), and if it is an absolute path, the description is converted to a relative path (S1010), and the linked document is read (S1010). S1011). If the linked document is not included in the related document list, it is checked whether the description is a relative path (S1012). If the link destination document is a relative path, the link description is converted to an absolute path (S1013). If there is no description of the link that has never been traced in the currently read document, it is confirmed whether the currently read document is the first document (S1014). If it is not the first document, the process returns to the link source, and the description of the link that has not been followed is checked. If it is the first document, the process is terminated.
本実施例においては、コンピュータ装置804は702(fig.svg)の<a xlink:href=“pic.jpg”>を<a xlink:href=http://foo.com/pic.jpg>に、701(top.xml)の<a href=http://bar.org/doc.html>を<a href=“doc.html”>に置き換える。
In this embodiment, the
本実施例では受信者がリンクの記述の変換を行ったが、送信者が行うことも可能である。 In this embodiment, the receiver converts the link description, but the sender can also perform the conversion.
このようにリンクの記述を適切に変換することで、文書を別の機器に転送した後もリンク先を正確に参照し、また不必要な受信を行うことなく文書を閲覧することができる。 By appropriately converting the link description in this way, it is possible to accurately refer to the link destination even after the document is transferred to another device, and to browse the document without unnecessary reception.
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005048904A JP2006235942A (en) | 2005-02-24 | 2005-02-24 | Apparatus for processing structured document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005048904A JP2006235942A (en) | 2005-02-24 | 2005-02-24 | Apparatus for processing structured document |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006235942A true JP2006235942A (en) | 2006-09-07 |
Family
ID=37043528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005048904A Withdrawn JP2006235942A (en) | 2005-02-24 | 2005-02-24 | Apparatus for processing structured document |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006235942A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012532395A (en) * | 2009-06-30 | 2012-12-13 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | Selective content extraction |
KR101383564B1 (en) * | 2008-10-10 | 2014-04-17 | 삼성전자주식회사 | Image forming apparatus and method for printing thereof |
-
2005
- 2005-02-24 JP JP2005048904A patent/JP2006235942A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101383564B1 (en) * | 2008-10-10 | 2014-04-17 | 삼성전자주식회사 | Image forming apparatus and method for printing thereof |
JP2012532395A (en) * | 2009-06-30 | 2012-12-13 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | Selective content extraction |
US9032285B2 (en) | 2009-06-30 | 2015-05-12 | Hewlett-Packard Development Company, L.P. | Selective content extraction |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10437907B2 (en) | Link expansion service | |
US6332039B1 (en) | Structured document preparation apparatus and structured document preparation method | |
JP5885527B2 (en) | Printing system, printing server, control method, and computer program | |
US20160283606A1 (en) | Method for performing webpage loading, device and browser thereof | |
JP4351405B2 (en) | Transcoding system and annotation management device | |
JP3714548B2 (en) | CAD data file conversion system using network | |
JP2008257346A (en) | Electronic file processing apparatus and electronic file processing program | |
JP5476326B2 (en) | Web operation recording and reproducing method and apparatus | |
JP4440716B2 (en) | Display data generation device, display device, display data generation system, display data generation device control method, display data generation program, recording medium, electronic device, and electronic device control method | |
JP5825937B2 (en) | Image processing apparatus, control method thereof, and program | |
CN111858255A (en) | User behavior acquisition method based on screenshot and related equipment | |
JP5151696B2 (en) | Program to rewrite uniform resource locator information | |
JP5267342B2 (en) | Mashup program, mashup device, and mashup method | |
JP2006235942A (en) | Apparatus for processing structured document | |
JP4177305B2 (en) | Network communication equipment | |
KR101975111B1 (en) | Mass webpage document transforming method, and system thereof | |
TW201337605A (en) | Multipurpose network editing page automatic conversion mechanism | |
JP5565197B2 (en) | Web application linkage method, linkage apparatus, and linkage program | |
JP2010086308A (en) | Link generation device and link generation method | |
JP2008299788A (en) | Web server device, web server program, and management method of web server device | |
JP4207992B2 (en) | Structured document processing system and structured document processing method | |
JP5276903B2 (en) | Browsing system, plug-in program, and introduction program | |
JP4903278B2 (en) | Operation verification apparatus, operation verification method, and operation verification program | |
JP2007102693A (en) | Data management system, data management device, data management method, data management program, and recording medium recording the same | |
JP4994832B2 (en) | Information processing apparatus, information processing method, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080513 |