JP2004127000A - Device and system for supporting tagging of structured document - Google Patents

Device and system for supporting tagging of structured document Download PDF

Info

Publication number
JP2004127000A
JP2004127000A JP2002291185A JP2002291185A JP2004127000A JP 2004127000 A JP2004127000 A JP 2004127000A JP 2002291185 A JP2002291185 A JP 2002291185A JP 2002291185 A JP2002291185 A JP 2002291185A JP 2004127000 A JP2004127000 A JP 2004127000A
Authority
JP
Japan
Prior art keywords
tag
structured document
character string
candidate
tagging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002291185A
Other languages
Japanese (ja)
Inventor
Mitsuko Yagi
八木 光子
Makoto Furuya
古屋 良
Michinori Suzuki
鈴木 道典
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YUHIKAKU KK
YUHIKAKU PUBLISHING CO Ltd
NTT Comware Corp
Original Assignee
YUHIKAKU KK
YUHIKAKU PUBLISHING CO Ltd
NTT Comware Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YUHIKAKU KK, YUHIKAKU PUBLISHING CO Ltd, NTT Comware Corp filed Critical YUHIKAKU KK
Priority to JP2002291185A priority Critical patent/JP2004127000A/en
Publication of JP2004127000A publication Critical patent/JP2004127000A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a device and a program for supporting tagging of a structured document which realize automatic acquisition and setting of an attribute value from linked data bases by specifying a character string to be tagged of the structured document. <P>SOLUTION: A range of the character string to be tagged of the displayed structured document is specified (a step S101). A type of a tag to be inserted into the specified character string is selected from a menu and a tag at a candidate state is set. Next, when a plurality of candidate tags exist, the linked data bases are retrieved by using a character string surrounded by the tags as a key in block. As a retrieval result, when a coincident character string exists, link information is fetched and set as the attribute value (a step S102). A tagging result is confirmed, a tag to be adopted is selected and established among the candidate tags (a step S104). <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
この発明は、構造化文書のタグ付けした文字列に対してリンク先からリンクに必要な情報を自動取得し、属性値に設定することによりタグ付け作業を支援する構造化文書のタグ付け支援装置およびタグ付け支援プログラムに関する。
【0002】
【従来の技術】
近年、文書のデータ化の必要性が増えるに従い、テキストデータ化した文書を構造化文書にして利用することが多くなっている。構造化文書としては、ISOにより標準化されたSGML(Standard Generalized Markup Language)、W3CによるXML(eXtensible Markup Language)などが普及している。構造化文書の特徴は、文書が階層構造をもつ場合、これを分割して階層化し、さらに構成する各要素に分けて、それぞれ要素に応じたタグを付けることによって要素を分類できるところにある。これらの文書では、文書の構造、要素の出現する順番、出現回数、要素に付けられる属性の種類などを規定したスキーマが設定される。
【0003】
このように、構造化文書はタグを付けて要素を分類できることから、要素に対応する情報をデータベース化して、タグ付けした文字列から必要な情報を検索、抽出して文書の加工や再利用に有効に用いることができる。例えば、書籍出版において、改訂の可能性が高い情報にタグ付けすることで、改訂時にタグで囲まれた文字列に関する最新の情報をデータベースから取得、参照し、改訂が必要か否かの判断をすることが可能となる。構造化文書の要素とデータベースに格納されている情報をリンクさせるためには、当該要素の属性値にデータベースへのリンク情報を設定する作業が必要になる。
【0004】
なお、SGMLのような文書記述言語に対応したデータ中の文書を容易に検索、修正することができるデータ修正方法として、特許文献1に記載される方法が知られている。この方法は、SGMLのような文書記述言語に沿って作成された文書インスタンスに基づいて、各テキストに関連するタグ群の有機的結合を表すSGML文書構造を作成し、テキストに関連する一連のタグ情報をマトリクス状に配置したマトリクス・テーブルを作成し、文書インスタンス及びマトリクス・テーブルに基づき、テキスト及びこれに対応する一連のタグ情報を行列で表記した短縮タグ情報とを有する修正用データを作成し、修正用データに対して修正を施し、マトリクス・テーブルを参照しながら、修正後の修正データに基づき文書インスタンスを修正する諸段階を含んでいる。
【0005】
【特許文献1】
特開2000−137707号公報
【0006】
【発明が解決しようとする課題】
しかしながら、出版される書籍データなどのタグ付け作業は、一般の文書作成者が行うことは非常に難しく、また、作業量も膨大になる。また、リンクの設定では、リンク先との照合、属性値に設定する情報の確認など複雑な作業が必要となる。また、付与するタグについての知識が必要であり、複数の作業者が分担して作業する場合、知識の度合いによりタグ付けの精度にばらつきが有るため、作業の分担により効率を高めることが難しいという問題がある。また、データベースとのリンク情報の設定では、膨大な設定情報の確認作業を人手により行うことになり、作業の効率化、精度の向上が難しいという問題がある。
【0007】
この発明は、上記の点に鑑みてなされたもので、その目的は、文書中の範囲を指定した文字列によってデータベースを自動検索し、あるいはデータベースの文字列によって文書を検索してタグ付けする文字列を定め、リンクに必要な情報を取得して属性値に設定することができる構造化文書のタグ付け支援装置およびタグ付け支援プログラムを提供することにある。
【0008】
【課題を解決するための手段】
この発明は上記の課題を解決するためになされたもので、請求項1に記載の発明は、構造化文書を表示してタグ付けを行う編集端末装置と、複数の構造化文書に共通する情報を格納するデータベースとを備えた構造化文書のタグ付け支援装置であって、前記編集端末装置は、構造化文書の中から前記データベースにリンクさせる文字列の範囲を指定して、タグを付けて候補タグとする候補タグ選択手段と、前記候補タグ選択手段によりタグ付けされた文字列により前記データベースを検索して、属性値に設定する情報を取得し、設定する属性値設定手段と、前記候補タグから採用するタグを選択して、確定する採用タグ選択手段とを具備することを特徴とする構造化文書のタグ付け支援装置である。
【0009】
請求項2に記載の発明は、請求項1に記載の構造化文書のタグ付け支援装置において、前記編集端末装置は、前記データベースに格納されている文字列により構造化文書を検索して、抽出された文字列に一括してタグを付けて候補タグとし、属性値に設定する情報を前記データベースから取得して設定する候補タグ検索手段を、さらに備えることを特徴とする。
【0010】
請求項3に記載の発明は、請求項1に記載の構造化文書のタグ付け支援装置において、前記候補タグ選択手段は、構造化文書中の指定した文字列に対して、一括して特定のタグをつけ、候補タグとすることを特徴とする。
請求項4に記載の発明は、請求項1に記載の構造化文書のタグ付け支援装置において、前記候補タグ選択手段は、構造化文書中の任意に指定した文字列に対して、その内容に応じた仕様書で設定した複数のタグを表示させ、選択したタグを候補タグとすることを特徴とする。
【0011】
請求項5に記載の発明は、 請求項1に記載の構造化文書のタグ付け支援装置において、前記編集端末装置は、書籍種類毎に用意されたシソーラス辞書をさらに備え、辞書に登録されている語句を用いて構造化文書を検索し、対応する候補タグを付与することを特徴とする。
【0012】
請求項6に記載の発明は、 請求項1に記載の構造化文書のタグ付け支援装置において、前記編集端末装置は、索引タグに用いる語句を登録した辞書を有し、該辞書に登録された語句により構造化文書を検索し、一致する語句を抽出して索引タグを付加することを特徴とする。
【0013】
請求項7に記載の発明は、構造化文書の中から前記データベースにリンクさせる文字列の範囲を指定して、タグを付けて候補タグとするステップと、前記タグ付けされた文字列により前記データベースを検索して、属性値に設定する情報を取得し、設定するステップと、前記候補タグから採用するタグを選択して、確定するステップとをコンピュータに実行させるためのタグ付け支援プログラムである。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。本発明の構造化文書のタグ付け支援装置は、構造化文書を表示し、タグ付けを行う編集端末装置と複数の構造化文書に共通する情報を格納する共通情報データベースを備える。編集端末装置には、パーソナルコンピュータなどが用いられ、指定した文字列により共通情報データベースを検索してリンク情報を自動取得し、タグの属性値に設定する機能などタグ付けを支援する機能を実行させるプログラムが実装される。また、索引タグに用いられる語句を登録した索引抜出用辞書が実装される。共通情報データベースは、複数の文書から共通に取得対象となる共通情報、例えば法律に関する書籍の場合、裁判例、法令名などの情報を格納する。また、共通情報の登録、更新、検索を行う機能を有する。
【0015】
図1は、構造化文書のタグ付け支援装置におけるタグ付けの手順を示す図である。構造化文書は、XMLで記述されており、以下、文書例を説明する。構造化されていない文書データからXML文書を作成するには、2つの手順がある。1つはワープロソフトで作成された文書データに対して、割付処理を行い、XMLデータへの変換ツールを使ってXML文書を作成する方法である。もう1つは、XMLエディタを用いて、文書の構造に基づいて、タイトル、章、節など要素毎にタグを付ける方法(以下、アウトラインタグ付けと言う)である。このタグ付けは、文書構造、タグに関して規定したDTDに対応して行われる。編集端末装置は、アウトラインタグ付けが済んだXML形式の文書を読み込み、表示する。次に、共通情報データベースにリンクするタグと索引タグが付けられる(以下、インラインタグ付けと言う)。この2種類のタグは、異なる手順で設定されるので、先ず、共通情報データベースにリンクする場合について説明する。
【0016】
図2は、編集端末装置の表示例を示す図である。先ず、表示された文書の中からタグを付ける文字列の範囲を指定する。図2では、文字列“行取り”が指定された状態を示す。次に、指定された文字列を右クリックしてポップアップメニューを表示させ、「インライン要素」を選択して、予めDTDに記述されているタグの種類を表示させる。タグの種類、要素名は、文書の内容に応じて定められており、次に示すタグの種類は、法律文書の場合の一例である。なお、書籍種類毎に用意されたシソーラス辞書を用いてタグ付けする場合は、辞書に登録されている語句を用いて構造化文書を検索し、対応する候補タグを付与する。
【0017】

Figure 2004127000
【0018】
上述の例では、「裁判所」、「用語」については、当該タグで直接文字列にタグ付けを行う。それに対し、「根拠条文」については、第一の階層に「根拠条文」が設定され、次の階層に「法令」、「条名」をまとめる「条文」が設定される。タグを付けるときは、「条文」フィールドが「根拠条文」フィールドの入れ子になり、グループ化される。「根拠条文」タグに関しては、直接文字列に付けられるタグは、最下階層の「法令」、「条名」となる。図2では、「用語」タグが選択され、共通情報データベースとのリンク情報を付与する対象の文字列となり、候補状態の表示に変更される(ステップS101)。ここで、候補状態およびタグの種類を判別できるように指定された文字列の文字、背景色が変更される。この状態では、指定した文字列は、属性値に何も設定されていない「用語」タグ(<yougo>)で囲まれ、図5のフィールド51が設定される。
なお、タグ付けの方法として、任意の文字列に対してタグを付け、タグで囲まれた文字列を自動解析することによりさらに細かいタグを付けるようにすることも可能である。
【0019】
次に、ステップS102に進み、候補タグに属性値を設定する。図4(A)、(B)、(C)は、共通情報データベースを検索して自動処理によって属性値を設定する手順を示している。候補タグによる共通情報データベースの検索を指示すると、図4(B)に示す共通情報データベースを検索する。検索の結果、一致した文字列“行取り”があると、属性値としてその情報を取り込む(ステップS201)。一致する複数の文字列がある場合、図4(C)に示すように表示され、表示された中から設定する文字列を選択する(ステップS202)。図4(A)に示す画面に、属性値を設定した文字列、件数が表示される。
【0020】
共通情報データベースからリンク情報が取得されると、図5に示す<yougo>フィールド52に「href」属性値が設定される。「href」属性値は、URL(Uniform Resource Locater)形式でリンク先を表す。手作業でリンク情報を設定する場合は、図3に示す属性設定ダイアログボックスを表示させ、データ入力欄31〜35に設定情報を入力する(ステップS103)。次に、作業者によってタグ付けの確認が行われる(ステップS104)。また、タグ付けする文字列が不足している場合、ステップS101〜S103を繰り返し、タグ付けを行う。確定タグの文字列をダブルクリックすると、リンク情報により共通情報データベースへアクセスし、表示内容をXML形式で受け取り、表示する。
【0021】
次に、索引タグを付ける手順を説明する。ステップ102において、索引抜出用辞書に登録されている語句を、構造化文書から選択し、当該語句の個所に索引タグを挿入する、あるいは、索引抜出用辞書の語句により構造化文書を検索して一致する語句を抽出し、索引タグを挿入する。図6は例文61の語句「XML」の個所に<sakuin>タグ62を挿入した例を示す。候補用のタグであることを表すため、属性を利用して候補状態、kouho=“0” に設定する。索引文字列と読みも属性として設定される。手作業によって索引タグを挿入する場合は、挿入する個所を特定して索引語を入力し、設定する(ステップ103)。ステップ104に進み、採用する索引タグを選択して確定し、不要なタグを削除する。索引タグ63は、確定した状態を表す。次に、共通情報データベースにリンクするタグと索引タグを付与し、インラインタグ付けが完了したXML文書は、校正作業にまわされる(ステップ106)。
【0022】
【発明の効果】
以上説明したように、本発明によれば、構造化文書の指定した文字列にタグを付けてデータベースとリンクさせるタグ付け作業において、指定した文字列によってデータベースを検索し、リンクに必要な情報を自動取得して属性値に設定するので、リンク先の情報の確認を効率的に行うことが可能になり、作業効率を高め、さらにタグ付けの精度を高めることができるという効果が得られる。また、構造化文書の変更や改訂情報などをデータベースに登録し、登録された情報によって文書を検索し、変更、改訂により影響を受ける範囲をもれなく抽出できるため、変更、改訂に伴う作業の精度を高め、作業者の負担を軽減できるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施の形態による構造化文書のタグ付け支援装置のタグ付けの手順を示す図である。
【図2】編集端末装置の表示例を示す図である。
【図3】タグ付けデータを入力するダイアログボックスの例を示す図である。
【図4】共通情報データベースの検索および文字列選択の表示を示す図である。
【図5】共通情報データベースへのリンク情報設定を示す図である。
【図6】索引タグ設定を示す図である。
【符号の説明】
S101:候補タグ付け
S102:候補タグへの属性値設定
S103:手作業によるタグ付け
S104:編集者の確認
S105:タグ付けの追加・削除
S106:文書校正[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a structured document tagging support apparatus that supports a tagging operation by automatically acquiring information necessary for a link from a link destination for a tagged character string of a structured document and setting the attribute value to an attribute value. And a tagging support program.
[0002]
[Prior art]
In recent years, as the necessity of converting documents into data has increased, a document converted into text data is often used as a structured document. As structured documents, SGML (Standard Generalized Markup Language) standardized by ISO, XML (extensible Markup Language) by W3C, and the like are widely used. A feature of a structured document is that, when a document has a hierarchical structure, the document is divided and hierarchized, further divided into constituent elements, and elements can be classified by attaching tags according to the respective elements. In these documents, a schema is defined that defines the structure of the document, the order in which the elements appear, the number of appearances, the types of attributes attached to the elements, and the like.
[0003]
In this way, since structured documents can be tagged and classified into elements, the information corresponding to the elements is made into a database, and the required information is searched and extracted from the tagged character strings to process and reuse the documents. It can be used effectively. For example, in book publishing, by tagging information that is likely to be revised, the latest information on the character string enclosed by tags at the time of revision is obtained from the database, referenced, and it is determined whether revision is necessary. It is possible to do. In order to link an element of the structured document with information stored in the database, it is necessary to set link information to the database in the attribute value of the element.
[0004]
A method described in Patent Document 1 is known as a data correction method that can easily search and correct a document in data corresponding to a document description language such as SGML. The method creates an SGML document structure that represents an organic combination of tags associated with each text based on a document instance created along a document description language such as SGML, and generates a series of tags associated with the text. Creates a matrix table in which information is arranged in a matrix form, and creates correction data having text and a series of corresponding tag information in a matrix, and abbreviated tag information based on the document instance and the matrix table. , Modifying the document data and modifying the document instance based on the modified data with reference to the matrix table.
[0005]
[Patent Document 1]
JP 2000-137707 A
[Problems to be solved by the invention]
However, tagging work of published book data or the like is very difficult for a general document creator to perform, and the amount of work is enormous. In addition, setting a link requires complicated operations such as checking with a link destination and confirming information to be set in an attribute value. In addition, it is necessary to have knowledge of the tag to be assigned, and when a plurality of workers share the work, it is difficult to increase the efficiency by sharing the work because the accuracy of tagging varies depending on the degree of knowledge. There's a problem. Further, in setting link information with a database, a large amount of setting information must be checked manually, which makes it difficult to improve the efficiency and accuracy of the operation.
[0007]
The present invention has been made in view of the above points, and has as its object to automatically search a database by a character string specifying a range in a document, or to search and tag a document by a character string in the database and tag it. It is an object of the present invention to provide a structured document tagging support device and a tagging support program which can determine a column, acquire information necessary for a link, and set the attribute value.
[0008]
[Means for Solving the Problems]
SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an invention according to claim 1 is an editing terminal device for displaying and tagging structured documents, and information common to a plurality of structured documents. A structured document tagging support device, comprising: a database that stores a character string. The editing terminal device specifies a range of a character string to be linked to the database from the structured document, and attaches a tag. A candidate tag selecting unit to be a candidate tag; an attribute value setting unit configured to search the database using a character string tagged by the candidate tag selecting unit to obtain and set information to be set as an attribute value; An apparatus for supporting tagging of structured documents, comprising: an adopted tag selecting unit for selecting a tag to be adopted from tags and determining the tag.
[0009]
According to a second aspect of the present invention, in the structured document tagging support apparatus according to the first aspect, the editing terminal device searches for and extracts the structured document by a character string stored in the database. The system further comprises a candidate tag search unit that collectively assigns tags to the character strings thus obtained as candidate tags, acquires information to be set as attribute values from the database, and sets the information.
[0010]
According to a third aspect of the present invention, in the structured document tagging support apparatus according to the first aspect, the candidate tag selecting means collectively specifies a specified character string in the structured document. It is characterized in that a tag is attached and a candidate tag is set.
According to a fourth aspect of the present invention, in the structured document tagging support apparatus according to the first aspect, the candidate tag selecting means converts the content of the arbitrarily designated character string in the structured document into the content thereof. A plurality of tags set in the corresponding specification are displayed, and the selected tag is set as a candidate tag.
[0011]
According to a fifth aspect of the present invention, in the structured document tagging support apparatus according to the first aspect, the editing terminal device further includes a thesaurus dictionary prepared for each book type, and is registered in the dictionary. It is characterized in that a structured document is searched using a phrase and a corresponding candidate tag is added.
[0012]
The invention according to claim 6 is the tagging support device for structured documents according to claim 1, wherein the editing terminal device has a dictionary in which words used in index tags are registered, and the editing terminal device is registered in the dictionary. It is characterized in that a structured document is searched by a phrase, a matching phrase is extracted, and an index tag is added.
[0013]
8. The invention according to claim 7, wherein a range of a character string to be linked to the database is designated from a structured document, and a tag is set as a candidate tag, and the database is defined by the tagged character string. Is a tagging support program for causing a computer to execute a step of obtaining and setting information to be set as an attribute value, and a step of selecting and confirming a tag to be adopted from the candidate tags.
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. The structured document tagging support device of the present invention includes an editing terminal device for displaying and tagging structured documents, and a common information database for storing information common to a plurality of structured documents. For the editing terminal device, a personal computer or the like is used, and a common information database is searched with a specified character string to automatically acquire link information and execute a function of supporting tagging such as a function of setting a tag attribute value. The program is implemented. Also, an index extraction dictionary in which words used in index tags are registered is implemented. The common information database stores common information to be acquired in common from a plurality of documents, for example, in the case of a book relating to law, information such as a judicial precedent and the name of law. It also has a function of registering, updating, and searching for common information.
[0015]
FIG. 1 is a diagram showing a tagging procedure in the structured document tagging support device. The structured document is described in XML, and an example of the document will be described below. To create an XML document from unstructured document data, there are two procedures. One is a method of performing an assignment process on document data created by word processing software and creating an XML document using a conversion tool for XML data. The other is a method of attaching tags to titles, chapters, sections, and other elements based on the structure of a document using an XML editor (hereinafter, referred to as outline tagging). This tagging is performed in accordance with the DTD defined for the document structure and tags. The editing terminal reads and displays the document in the XML format to which the outline tag has been attached. Next, a tag linking to the common information database and an index tag are attached (hereinafter, referred to as inline tagging). Since these two types of tags are set in different procedures, a case where the tags are linked to the common information database will be described first.
[0016]
FIG. 2 is a diagram illustrating a display example of the editing terminal device. First, a range of a character string to be tagged is specified from the displayed document. FIG. 2 shows a state in which the character string “line capture” is specified. Next, right-click on the designated character string to display a pop-up menu, select “inline element”, and display the type of tag described in advance in the DTD. The tag type and element name are determined according to the content of the document, and the following tag type is an example in the case of a legal document. When tagging is performed using a thesaurus dictionary prepared for each book type, a structured document is searched using words registered in the dictionary, and a corresponding candidate tag is assigned.
[0017]
Figure 2004127000
[0018]
In the above-described example, with respect to “court” and “term”, a character string is directly tagged with the tag. On the other hand, as for the “foundation clause”, the “foundation clause” is set in the first hierarchy, and the “article” that summarizes “legislation” and “article name” is set in the next hierarchy. When tagging, the "article" fields are nested in the "grounds" field and grouped. Regarding the "foundation clause" tag, the tags directly attached to the character string are "laws" and "article names" at the lowest level. In FIG. 2, the "term" tag is selected, becomes a character string to which link information to the common information database is added, and is changed to a display of a candidate state (step S101). Here, the character and background color of the designated character string are changed so that the candidate state and the type of tag can be determined. In this state, the designated character string is surrounded by a “term” tag (<yougo>) in which no attribute value is set, and the field 51 in FIG. 5 is set.
As a tagging method, it is possible to attach a tag to an arbitrary character string and automatically analyze the character string enclosed by the tags to attach a more detailed tag.
[0019]
Next, the process proceeds to step S102, where an attribute value is set to the candidate tag. FIGS. 4A, 4B, and 4C show a procedure for searching the common information database and setting attribute values by automatic processing. When the search of the common information database by the candidate tag is instructed, the common information database shown in FIG. 4B is searched. As a result of the search, if there is a matching character string “line capture”, the information is captured as an attribute value (step S201). When there are a plurality of matching character strings, the character strings to be set are displayed as shown in FIG. 4C, and a character string to be set is selected from the displayed character strings (step S202). On the screen shown in FIG. 4A, a character string for which an attribute value is set and the number of cases are displayed.
[0020]
When the link information is acquired from the common information database, the “href” attribute value is set in the <yougo> field 52 shown in FIG. The “href” attribute value indicates a link destination in a URL (Uniform Resource Locator) format. When the link information is set manually, the attribute setting dialog box shown in FIG. 3 is displayed, and the setting information is input to the data input fields 31 to 35 (step S103). Next, the worker confirms tagging (step S104). If the character string to be tagged is insufficient, steps S101 to S103 are repeated to perform tagging. When the character string of the confirmation tag is double-clicked, the common information database is accessed by link information, and the display content is received and displayed in the XML format.
[0021]
Next, a procedure for attaching an index tag will be described. In step 102, a word registered in the dictionary for index extraction is selected from the structured document, and an index tag is inserted at the place of the word, or a structured document is searched by the words in the dictionary for index extraction. To extract matching words and insert index tags. FIG. 6 shows an example in which a <sakuin> tag 62 is inserted at the location of the phrase “XML” in the example sentence 61. In order to indicate that the tag is a candidate tag, the candidate state is set using the attribute, and kouho = "0". Index character strings and readings are also set as attributes. When manually inserting an index tag, the insertion point is specified, an index word is input and set (step 103). Proceeding to step 104, the index tag to be adopted is selected and confirmed, and unnecessary tags are deleted. The index tag 63 indicates a determined state. Next, a tag and an index tag that are linked to the common information database are added, and the XML document that has been subjected to the inline tagging is sent to a proofreading operation (step 106).
[0022]
【The invention's effect】
As described above, according to the present invention, in a tagging operation of attaching a tag to a specified character string of a structured document and linking it to a database, a database is searched using the specified character string, and information necessary for linking is obtained. Since the information is automatically acquired and set to the attribute value, it is possible to efficiently check the information of the link destination, and it is possible to obtain an effect that the work efficiency can be improved and the accuracy of tagging can be further improved. In addition, information on changes and revisions of structured documents can be registered in the database, documents can be searched based on the registered information, and the range affected by the changes and revisions can be completely extracted. Therefore, the effect of reducing the burden on the operator can be obtained.
[Brief description of the drawings]
FIG. 1 is a diagram showing a tagging procedure of a structured document tagging support device according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a display example of an editing terminal device.
FIG. 3 is a diagram illustrating an example of a dialog box for inputting tagging data.
FIG. 4 is a diagram showing a search of a common information database and a display of character string selection.
FIG. 5 is a diagram showing setting of link information to a common information database.
FIG. 6 is a diagram showing index tag settings.
[Explanation of symbols]
S101: Candidate tagging S102: Attribute value setting for candidate tags S103: Manual tagging S104: Editor confirmation S105: Addition / deletion of tagging S106: Document proofing

Claims (7)

構造化文書を表示してタグ付けを行う編集端末装置と、複数の構造化文書に共通する情報を格納するデータベースとを備えた構造化文書のタグ付け支援装置であって、
前記編集端末装置は、
構造化文書の中から前記データベースにリンクさせる文字列の範囲を指定して、タグを付けて候補タグとする候補タグ選択手段と、
前記候補タグ選択手段によりタグ付けされた文字列により前記データベースを検索して、属性値に設定する情報を取得し、設定する属性値設定手段と、
前記候補タグから採用するタグを選択して、確定する採用タグ選択手段と
を具備することを特徴とする構造化文書のタグ付け支援装置。
An editing terminal device for displaying and tagging a structured document, and a structured document tagging support device including a database for storing information common to a plurality of structured documents,
The editing terminal device,
A candidate tag selecting means for specifying a range of a character string to be linked to the database from the structured document and attaching a tag to be a candidate tag;
Searching the database by the character string tagged by the candidate tag selecting means, acquiring information to be set to an attribute value, and an attribute value setting means to set;
And a tag selection means for selecting and determining a tag to be adopted from the candidate tags.
前記編集端末装置は、前記データベースに格納されている文字列により構造化文書を検索して、抽出された文字列に一括してタグを付けて候補タグとし、属性値に設定する情報を前記データベースから取得して設定する候補タグ検索手段を、さらに備えることを特徴とする請求項1に記載の構造化文書のタグ付け支援装置。The editing terminal device searches a structured document by a character string stored in the database, collectively attaches a tag to the extracted character string as a candidate tag, and stores information to be set in an attribute value in the database. 2. The structured document tagging support apparatus according to claim 1, further comprising a candidate tag search unit configured to acquire and set the tag from the document. 前記候補タグ選択手段は、構造化文書中の指定した文字列に対して、一括して特定のタグをつけ、候補タグとすることを特徴とする請求項1に記載の構造化文書のタグ付け支援装置。2. The structured document tagging method according to claim 1, wherein the candidate tag selecting unit collectively assigns a specific tag to a designated character string in the structured document to be a candidate tag. Support device. 前記候補タグ選択手段は、構造化文書中の任意に指定した文字列に対して、その内容に応じた仕様書で設定した複数のタグを表示させ、選択したタグを候補タグとすることを特徴とする請求項1に記載の構造化文書のタグ付け支援装置。The candidate tag selecting means displays a plurality of tags set in a specification according to the contents of the arbitrarily specified character string in the structured document, and sets the selected tag as a candidate tag. 2. The structured document tagging support device according to claim 1, wherein: 前記編集端末装置は、書籍種類毎に用意されたシソーラス辞書をさらに備え、辞書に登録されている語句を用いて構造化文書を検索し、対応する候補タグを付与することを特徴とする請求項1に記載の構造化文書のタグ付け支援装置。The editing terminal device further comprises a thesaurus dictionary prepared for each book type, searches for a structured document using words registered in the dictionary, and adds a corresponding candidate tag. 2. The tagging support apparatus for structured documents according to 1. 前記編集端末装置は、索引タグに用いる語句を登録した辞書を有し、該辞書に登録された語句により構造化文書を検索し、一致する語句を抽出して索引タグを付加することを特徴とする請求項1に記載の構造化文書のタグ付け支援装置。The editing terminal device has a dictionary in which terms used for index tags are registered, searches a structured document by the words registered in the dictionary, extracts matching words and adds an index tag. The structured document tagging support apparatus according to claim 1. 構造化文書の中から前記データベースにリンクさせる文字列の範囲を指定して、タグを付けて候補タグとするステップと、
前記タグ付けされた文字列により前記データベースを検索して、属性値に設定する情報を取得し、設定するステップと、
前記候補タグから採用するタグを選択して、確定するステップと
をコンピュータに実行させるためのタグ付け支援プログラム。
Specifying a range of a character string to be linked to the database from the structured document, and attaching a tag to a candidate tag;
Searching the database with the tagged character string to obtain and set information to be set in an attribute value;
Selecting a tag to be adopted from the candidate tags and confirming the selected tag, and causing the computer to execute the tagging support program.
JP2002291185A 2002-10-03 2002-10-03 Device and system for supporting tagging of structured document Pending JP2004127000A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002291185A JP2004127000A (en) 2002-10-03 2002-10-03 Device and system for supporting tagging of structured document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002291185A JP2004127000A (en) 2002-10-03 2002-10-03 Device and system for supporting tagging of structured document

Publications (1)

Publication Number Publication Date
JP2004127000A true JP2004127000A (en) 2004-04-22

Family

ID=32282842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002291185A Pending JP2004127000A (en) 2002-10-03 2002-10-03 Device and system for supporting tagging of structured document

Country Status (1)

Country Link
JP (1) JP2004127000A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007317105A (en) * 2006-05-29 2007-12-06 Advanced Telecommunication Research Institute International On demand link producing system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0954774A (en) * 1995-08-11 1997-02-25 Toppan Printing Co Ltd Document preparing device
JPH10269203A (en) * 1997-03-27 1998-10-09 Fujitsu Ltd Automatic linking device
JPH1145269A (en) * 1997-07-28 1999-02-16 Just Syst Corp Document management support system and computer readable recording medium recorded with program for functioning computer as the system
JP2002132836A (en) * 2000-10-24 2002-05-10 Sony Corp Device and method for file generation, data managing method, and information communication terminal device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0954774A (en) * 1995-08-11 1997-02-25 Toppan Printing Co Ltd Document preparing device
JPH10269203A (en) * 1997-03-27 1998-10-09 Fujitsu Ltd Automatic linking device
JPH1145269A (en) * 1997-07-28 1999-02-16 Just Syst Corp Document management support system and computer readable recording medium recorded with program for functioning computer as the system
JP2002132836A (en) * 2000-10-24 2002-05-10 Sony Corp Device and method for file generation, data managing method, and information communication terminal device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007317105A (en) * 2006-05-29 2007-12-06 Advanced Telecommunication Research Institute International On demand link producing system

Similar Documents

Publication Publication Date Title
US7707139B2 (en) Method and apparatus for searching and displaying structured document
US9619448B2 (en) Automated document revision markup and change control
US7792814B2 (en) Apparatus and method for parsing unstructured data
US7162691B1 (en) Methods and apparatus for indexing and searching of multi-media web pages
US6377956B1 (en) Automatically configuring product manual by binding document objects in logical structure to proper versions of component documents in a document database
US20060004725A1 (en) Automatic generation of a search engine for a structured document
US5794257A (en) Automatic hyperlinking on multimedia by compiling link specifications
US6799299B1 (en) Method and apparatus for creating stylesheets in a data processing system
US10657323B2 (en) Method of preparing documents in markup languages
JP2007226452A (en) Structured document management device, structured document management program and structured document management method
JPH0830620A (en) Structure retrieving device
JP3832693B2 (en) Structured document search and display method and apparatus
US8423888B2 (en) Document conversion and use system
JP3914081B2 (en) Access authority setting method and structured document management system
JPH05101054A (en) Document preparation supporting system by synthesizing component
US20090287994A1 (en) Document processing device and document processing method
JP2004127000A (en) Device and system for supporting tagging of structured document
JP2005173999A (en) Device, system and method for searching electronic file, program, and recording media
KR20050071720A (en) Methods for dynamically building the home page and apparatus embodied on the web therefor
JP2008102773A (en) Method for converting data into common format
JP2003178055A (en) Document data relation extracting device and extracting program
JP3898269B2 (en) Automatic linking device
JP2008077285A (en) Sql management system and sql management method and program
JP2002297662A (en) Method and device for editing structured document, terminal, and program
Decker et al. A Timeline Summarization of Code Changes

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050927