JPH09146931A

JPH09146931A - 文書型定義生成装置

Info

Publication number: JPH09146931A
Application number: JP30620595A
Authority: JP
Inventors: Toru Takazawa; 通高澤; Hiroshi Nakayama; 寛中山; Hideaki Kitamura; 秀明北村
Original assignee: Dainippon Screen Manufacturing Co Ltd
Current assignee: Dainippon Screen Manufacturing Co Ltd
Priority date: 1995-11-24
Filing date: 1995-11-24
Publication date: 1997-06-06
Also published as: GB9623606D0; GB2307571A

Abstract

(57)【要約】【課題】ＳＧＭＬの文書型定義（以下、ＤＴＤとい
う）を自動生成する。【解決手段】ユーザは、ＤＴＤを作成したい文書種類
について、ＳＧＭＬの文法に従ってタグ付けを施したサ
ンプル文書をいくつか用意する。これらサンプル文書は
サンプル入力部１０から入力される。構造情報抽出部１
２は、サンプル入力部１０から受け取ったサンプル文書
のタグから論理構造情報を抽出する。構造化リスト処理
部１４は、抽出された論理構造情報に基づき、構造化リ
ストを作成する。そして、用意されたすべてのサンプル
文書についての処理が終わったところで、ＤＴＤ作成部
１６はその構造化リストを解析してＤＴＤを生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＳＧＭＬ文書のよ
うな構造化記述文書管理に用いられる文書型定義を生成
する文書型定義生成装置に関する。

【０００２】

【従来の技術】ＳＧＭＬ（Standard Generalized Marku
p Language）は、同じ種類の文書を電子的な媒体を通じ
て交換したり、データベースに保存して再利用したりす
るのを容易にするという目的の下に作られた文書記述言
語の国際標準規格である。

【０００３】ＳＧＭＬでは、文書をいくつかの要素に分
け、それら要素同士の階層関係として当該文書の論理構
造を記述する。文書内の各要素には、当該要素の識別名
や属性などの情報を含んだタグが付され、ＳＧＭＬの文
書処理システムはこのタグを制御情報として用いて文書
処理を行う。

【０００４】例えば、領収書をＳＧＭＬで記述すると、
図１２に示すようになる。図１２では、領収書は、「見
出し」、「内容」、「日付」などという要素に分けられ
ている。「見出し」や「内容」などが要素の識別名であ
り、１つの要素の始まりと終りとは、それぞれ開始タグ
＜要素識別名＞、終了タグ＜／要素識別名＞によって示
される。そして、要素の階層関係は、要素の入れ子構造
として表現される。すなわち、ある要素の中に他の要素
が記述されている場合は、前者と後者とは、親と子とい
う関係になる。例えば、「日付」という要素は、「内
容」という要素の開始タグ＜内容＞から終了タグ＜／内
容＞までの間に記述されているので、「内容」が親で
「日付」が子という階層関係となる。従って、図１２
は、図１３に示すような論理構造を表していることにな
る。ＳＧＭＬには、このほかに要素の属性の記述の仕方
などの様々な規則が定められているが、ここでは省略す
る。なお、このようにＳＧＭＬの文法に従ってタグが付
された個々の文書のことを、文書インスタンスと言う。

【０００５】ＳＧＭＬの文書処理システムにおいては、
個々の文書インスタンスの管理は、文書型定義（以下、
ＤＴＤという。DTD ：Document Type Definition）を用
いて行う。ＤＴＤは、文書をＳＧＭＬで記述する際のタ
グ付けの規則を定義したものである。このＤＴＤは、文
書の種類ごとに作成される。例えば、領収書のＤＴＤ
は、図１４に示すような形となる。ＤＴＤは、要素の識
別名や当該要素の子要素など各要素の内容を規定した要
素宣言（図１４の＜!ELEMENT …＞）や、要素の属性に
ついて規定した属性宣言（＜!ATTLIST …＞、図１４に
は含まれない）などの宣言文からなる。なお、属性は、
コンピュータ処理においてのみ用い、印刷やディスプレ
イによる表示の際には現れない情報である。

【０００６】ＳＧＭＬの文書処理システムは、このＤＴ
Ｄを用いて、ユーザが作成した文書インスタンスの構文
チェック、対話的な手法による文書インスタンスの作成
支援、データ検索などの処理を行う。文書処理システム
にＤＴＤが登録されている文書種類の文書であれば、そ
のような処理機能を用いて容易に文書インスタンスの作
成、検索などを行うことができる。

【０００７】

【発明が解決しようとする課題】このように、ＳＧＭＬ
で文書処理を行うには、処理対象の文書種類についてあ
らかじめＤＴＤを作成しておく必要がある。このため、
その文書種類に含まれる文書に共通する論理構造をあら
かじめ分析し、その分析結果を図１４のような形式にコ
ーディングしていた。このコーディング作業は、ＳＧＭ
Ｌについて専門知識が要求されるため、従来はＳＧＭＬ
の専門家が手作業で行っていた。

【０００８】従って、ユーザが新たな文書種類の文書を
ＳＧＭＬで作成し、ＳＧＭＬによる文書処理を行おうと
しても、そのためには論理構造の分析や専門家によるコ
ーディングという作業が必要となるため、実現までに時
間が掛かり、ユーザレベルで手軽に新たな文書種類のＳ
ＧＭＬ化を行うことは困難であった。このように、ＤＴ
Ｄの作成は、文書のＳＧＭＬ化推進のボトルネックとな
っており、ＤＴＤの作成を効率化するツールが要望され
ている。

【０００９】本発明は、このような問題を解決するため
になされたものであり、構造化記述文章に対する文書型
定義（ＤＴＤ）を自動的に生成する文書型定義生成装置
を提供することを目的とする。

【００１０】

【課題を解決するための手段】前述の目的を達成するた
めに、本発明に係る文書型定義生成装置は、構造化記述
文書で記述されたサンプル文書から論理構造情報を抽出
する構造情報抽出手段と、抽出された論理構造情報に基
づいて文書型定義を作成する定義作成手段とを有するこ
とを特徴とする。

【００１１】本発明では、文書型定義を作成しようとす
る文書種類について構造化記述文書の文法に従って作成
されたサンプル文書から、構造情報抽出手段が論理構造
情報を抽出し、その抽出された論理構造情報から定義作
成手段が所定の形式の文書型定義を生成する。本発明に
よれば、ユーザは、文書型定義の構造について詳しく知
らなくても、自分が欲しい文書のイメージを表したサン
プル文書を用意するだけで文書型定義を得ることができ
る。サンプル文書は、ユーザ自身が作成してもよいし、
既存の文書インスタンスから選んだものでもよい。

【００１２】また、本発明に係る文書型定義生成装置
は、構造化記述文書で記述されたサンプル文書から論理
構造情報を抽出する構造情報抽出手段と、複数のサンプ
ル文書から抽出された論理構造情報を集計する集計手段
と、集計手段の集計結果に基づいて文書型定義を作成す
る定義作成手段と、を有し、同一文書種類について作成
された複数のサンプル文書から当該文書種類についての
文書型定義を生成することを特徴とする。

【００１３】この構成では、同一文書種類について作成
された複数のサンプル文書からそれぞれ論理構造情報を
抽出し、その集計結果から文書型定義を作成する。この
構成によれば、複数のサンプル文書について共通して利
用できる文書型定義を自動的に生成することができる。
従って、ユーザは、ある文書種類の文書型定義が欲しい
場合には、その文書種類の文書の実例をいくつか構造化
記述文書の文法に従ってサンプル文書として記述する
か、又はその文書種類について既に作成されている文書
インスタンスをサンプル文書として用意するかし、それ
らサンプル文書を本発明の装置に入力することにより、
当該文書種類の文書型定義を得ることができる。

【００１４】また、本発明に係る文書型定義生成装置
は、前記定義作成手段が、各サンプル文書からの論理構
造情報が集計されるごとに当該集計結果に基づいて文書
型定義を作成することを特徴とする。

【００１５】この構成では、各サンプル文書が入力され
るごとに更新された文書型定義が生成される。従って、
ユーザは、ユーザ自身が意図する文書型定義を効率よく
得ることができる。

【００１６】なお、本発明に係る文書型定義生成装置で
は、構造化記述文書としてＳＧＭＬ文章を適用可能であ
り、この場合、構造情報抽出手段はサンプル文書のタグ
を認識し、そこから論理構造情報を抽出する。

【００１７】また、本発明に係る文書型定義作成装置
は、前記構造情報抽出手段が、サンプル文書の各要素の
入れ子構造を解析して各要素の階層関係を求める手段を
有することを特徴とする。

【００１８】すなわち、構造情報抽出手段は、文書の論
理構造情報のうち各要素の階層関係の情報を、各要素の
入れ子構造を解析することにより抽出する。この構成に
よれば、文書の各要素の階層関係を自動的に抽出するこ
とができる。

【００１９】なお、構造化記述文書としてＳＧＭＬ文書
を適用する場合には、構造情報抽出手段は各要素の階層
関係を、開始タグ及び終了タグから各要素の入れ子構造
を解析することにより抽出する。

【００２０】

【発明の実施の形態】以下、本発明に係る文書型定義生
成装置の実施形態を図面に基づいて説明する。

【００２１】本実施形態の文書型定義生成装置は、ユー
ザが用意したサンプル文書を入力として受け取り、その
サンプル文書から論理構造情報を抽出して文書型定義
（ＤＴＤ）を自動生成する。サンプル文書としては、Ｓ
ＧＭＬの文法に従ってタグ付けされたものを用いる。サ
ンプル文書は、ユーザ自身が作成してもよいし、既存の
文書インスタンスから選んだものでもよい。

【００２２】図１は本発明に係る文書型定義生成装置の
機能ブロック図であり、図２はこの文書型定義生成装置
の動作を示したフローチャートである。以下、図１及び
図２を参照して本実施形態について説明する。

【００２３】ユーザが用意したサンプル文書は、サンプ
ル入力部１０から入力される（Ｓ１００）。構造情報抽
出部１２は、入力されたサンプル文書のタグから論理構
造情報を抽出する（Ｓ１０２）。サンプル文書から抽出
される論理構造情報には、当該サンプル文書に含まれる
要素の識別名や、各要素の階層関係などの情報が含まれ
る。そして、構造化リスト処理部１４は、抽出された論
理構造情報に基づき、構造化リストを作成あるいは更新
する（Ｓ１０４）。構造化リストとは、本実施形態にお
いて、サンプル文書から抽出した論理構造情報の集計の
ために用いるリストのことである。なお、構造化リスト
の具体例や、構造情報抽出部１２及び構造化リスト処理
部１４の詳細な動作については、後に詳しく説明する。

【００２４】以降、用意したサンプル文書が尽きるま
で、サンプル文書の入力、論理構造情報の抽出、構造化
リストの更新のサイクルを繰り返す。そして、用意され
たすべてのサンプル文書についての処理が終わったとこ
ろで構造化リスト処理部１４は最終的な構造化リストを
ＤＴＤ作成部１６に出力する。ＤＴＤ作成部１６は、こ
の最終的な構造化リストからＤＴＤを生成する（Ｓ１０
６）。なお、ＤＴＤ作成部１６の詳細な動作について
は、後に詳しく説明する。

【００２５】本実施形態の装置では、このような構成に
より、用意されたサンプル文書の構造を記述するＤＴＤ
を自動生成することができる。

【００２６】次に、具体例を用いて、本実施形態におけ
る構造化リストの作成・更新処理、及び構造化リストか
らのＤＴＤの生成処理の流れを説明する。なお、以下で
は、「コンサート情報」の案内文書を例にとって説明を
行う。

【００２７】「コンサート情報」の案内文書をＳＧＭＬ
で作成し、管理できるようにしたいと思った場合、ユー
ザは、「コンサート情報」案内文書の実例を、サンプル
文書としていくつか作成する。このサンプル文書は、Ｓ
ＧＭＬの文法に従って開始タグや終了タグを付した形で
記述する。このようにして作成された複数のサンプル文
書は、文書型定義生成装置のサンプル入力部１０に入力
される。なお、以下では、サンプル文書として図５〜図
７に示す３つの文書インスタンスが、その順に入力され
た場合について説明する。

【００２８】構造情報抽出部１２は、サンプル入力部１
０から与えられるサンプル文書のタグを読み取り、その
サンプル文書の論理構造情報を抽出する。そして、構造
化リスト処理部１４は、抽出された論理構造情報を構造
化リストに反映させる。

【００２９】本実施形態における構造化リストは、例え
ば図８に示すように、要素の識別子、識別名、リンク情
報、出現回数、出現順序、属性情報、及び階層レベルの
７つのフィールドを有している。ここで、識別子は、文
書の要素に与えられるＩＤ番号である。また、リンク情
報は、構造化リストにおける各要素間のリンク関係を示
すためのものであり、当該要素の直前にリンクする要素
の識別子と直後にリンクする要素の識別子とから成り立
っている。なお、リンク情報におけるｓ，ｅは、それぞ
れリストの先頭、末尾を示す値である。また、出現回数
は、入力された複数のサンプル文書中に当該要素が出現
した回数を示す。例えば、図８は、最初のサンプル文書
を読み取ったときにできた構造化リストなので、各要素
の出現回数はすべて１回となっている。出現順序のフィ
ールドは、入力された複数のサンプル文書において、当
該要素と他の要素との出現順序が入れ替わったことがあ
るか否かを示す。属性情報のフィールドには、当該要素
の属性情報が書き込まれる。属性情報は、開始タグ内の
識別名の次に書かれ、例えば検索時のキーなどとして用
いられる。例えば、図５のサンプル文書の要素「アーテ
ィスト名」の開始タグ内に書かれている「ジャンル」が
属性情報である。そして、階層レベルは、当該要素と他
の要素との階層関係を示す値である。例えば、図８の構
造化リストでは、階層レベル０の要素「コンサート情
報」は、後に続く階層レベル１の要素「アーティスト
名」、「開催日」、「場所」の親であり、階層レベル２
の要素「会場名」、「住所」、「電話」は、それら要素
の直前の階層レベル１の要素「場所」の子である。

【００３０】なお、図８は、サンプル文書１（図５）に
ついての処理が終わった時点での構造化リストの状態を
示し、図９及び図１０は、ぞれぞれサンプル文書２（図
６）及びサンプル文書３（図７）の処理が終わった時点
での構造化リストの状態を示す。

【００３１】以下、構造情報抽出部１２及び構造化リス
ト処理部１４による構造化リスト作成・更新処理の流れ
を図３のフローチャートを参照して詳しく説明する。

【００３２】構造情報抽出部１２は、サンプル文書の文
字列を順次読み取っていく（Ｓ２００）。そして、まず
読み取った文字列が、開始タグであるか否かを判別する
（Ｓ２０２）。すなわち、読み取った文字列がタグ開始
区切子“＜”から始まり、その“＜”の次にスラッシュ
“／”なしで識別名が来た場合に、次にタグ終了区切子
“＞”が来るまでの文字列が開始タグであると判別す
る。

【００３３】読み取った文字列が開始タグであった場合
には、当該開始タグの先頭に記載されている要素識別名
を読み取り、その要素識別名が構造化リストに既に登録
されているか否かを調べ、当該要素が新規要素か否かを
判別する（Ｓ２０４）。すなわち、構造情報抽出部１２
は、構造化リスト処理部１４にある現在の構造化リスト
を参照し、当該要素識別名が構造化リストに登録されて
いない場合には当該要素が新規要素であると判別し、既
に登録されている場合には新規要素でないと判別する。
この判別結果は、構造化リスト処理部１４に伝えられ
る。

【００３４】そして、当該要素が新規要素であると判別
された場合には、構造化リスト処理部１４は、構造化リ
ストに新規要素を追加する（Ｓ２０６）。すなわち、当
該新規要素に要素識別子を与え、要素識別子及び要素識
別名を構造化リストに書き加え、当該要素の出現回数を
１とする。また、構造化リスト処理部１４は、この追加
に伴うリンク情報の更新を行う。

【００３５】次に、当該要素の階層レベルを求め、構造
化リストに書き込む（Ｓ２０８）。階層レベルは、階層
判定スタックと言うＬＩＦＯ(Last In Fast Out)のリス
トを用いて求める。そこで、以下に、階層判定スタック
を用いた階層レベルの求め方について説明する。

【００３６】本実施形態では、開始タグを読み取った場
合に階層判定スタックの先頭にデータが挿入され（Ｓ２
１４）、終了タグを読み取った場合に階層判定スタック
の先頭のデータが削除される（Ｓ２２２）。階層判定ス
タックには、要素の識別名とその要素の階層レベルとが
１つのデータとして挿入される。このような構成のた
め、階層判定スタックの先頭は、未だ完結していない
（すなわち、終了タグによって閉じていない）要素のう
ちの最新のものを示す。従って、新たに読み取られた要
素は、その階層判定スタックの先頭の要素の子というこ
とになる。そこで、構造化リストに新規要素が加わった
場合には、Ｓ２０８にて階層判定スタックの先頭にある
要素の階層レベルを読み取り、その階層レベルに１を加
えた値を当該新規要素の階層レベルとする。

【００３７】具体例で説明すると、図５のサンプル文書
１の最初の要素「コンサート情報」が入力されたときに
は、階層判定スタックは空なので、このときには図８の
構造化リストに示すように「コンサート情報」の階層レ
ベルを０とする。そして、Ｓ２１４にて「コンサート情
報」及びその階層レベル０を階層判定スタックの先頭に
挿入して、さらにサンプル文書の読み取りを続ける。次
に「アーティスト名」の開始タグが来た時点では、「コ
ンサート情報」の終了タグは来ていないので、階層判定
スタックの先頭には、「コンサート情報」及び階層レベ
ル０というデータが存在する。そこで、「アーティスト
名」の階層レベルは１となる。このあと、Ｓ２１４で
「アーティスト名」も階層判定スタックに挿入される
が、図５では次の要素の開始タグが来る前に「アーティ
スト名」の終了タグが来るので、Ｓ２２２にて「アーテ
ィスト名」のデータが開始判定スタックから削除され、
この結果次の要素「開催日」の階層レベル判定時には階
層判定スタックの先頭は「コンサート情報」となる。従
って、「開催日」の階層レベルも１となる。以下、同様
にして、階層判定スタックの先頭のデータより、階層レ
ベルが求められる。

【００３８】階層レベルの書き込みが終わると、読み取
った開始タグの中に属性情報が含まれているか否かを判
定する（Ｓ２１０）。属性情報が含まれている場合は、
その情報を構造化リストの属性情報のフィールドに書き
込む（Ｓ２１２）。例えば、図５のサンプル文書には、
要素「アーティスト名」の開始タグに属性情報「ジャン
ル」が記述されているので、この場合Ｓ２１２で「アー
ティスト名」の属性情報のフィールドに「ジャンル」を
書き込む。この後、前述したように階層判定スタックの
先頭に当該要素の識別名及びＳ２０８で求めた当該要素
の階層レベルを挿入する（Ｓ２１４）。

【００３９】以上、Ｓ２０４の判定により新規要素と判
定された場合の処理の流れ（Ｓ２０６〜Ｓ２１４）を説
明した。一方、読み取った要素がＳ２０４にて新規要素
でないと判定された場合には、構造化リストにおける当
該要素の出現回数に１を加える（Ｓ２１６）。そして、
当該要素の出現順序が前回出現時の順序と異なっている
か否かチェックし、当該要素が他の要素と順序が入れ替
わったことを示す値を出現順序のフィールドに書き込
む。例えば、サンプル文書３（図７）では、「開催日」
と「場所」の順序が入れ替わっているので、サンプル文
書３について処理が終わった後の構造化リスト（図１
０）では、「開催日」と「場所」とに、出現順序が入れ
替わったことを表す値１が書き込まれている。なお、新
規要素でない場合でも、階層情報を得るために、当該要
素のデータは階層判定スタックに挿入される（Ｓ２１
４）。

【００４０】次に、サンプル文書から読み取った文字列
が、Ｓ２０２において開始タグでないと判定された場合
について説明する。この場合、まず当該文字列が終了タ
グであるか否かを判定する（Ｓ２２０）。読み取った文
字列がタグ開始区切子“＜”から始まり、その次にスラ
ッシュ“／”が来た場合は、次にタグ終了区切子“＞”
が来るまでの文字列が終了タグと判定される。そして、
終了タグと判定されると、階層判定スタックのメンテナ
ンスのため、階層判定スタックの先頭から当該要素のデ
ータを削除する（Ｓ２２２）。なお、Ｓ２２０において
終了タグでないと判定された場合は、その文字列は、タ
グ以外の内容を示すものなので、この場合には何も行わ
ない。

【００４１】以上のような処理が終わると、全サンプル
文書についての処理が終わったか否かを判定し（Ｓ２２
４）、終わっていない場合は、サンプル文書から次の文
字列を読み取り、前述の処理を繰り返す。そして、全サ
ンプル文書についての処理が終わると構造化リストの作
成・更新処理が終了し、最終的な構造化リストが構造化
リスト処理部１４からＤＴＤ作成部１６に入力される。

【００４２】図８〜１０に示した構造化リストの状態に
ついて簡単に説明すると、サンプル文書１（図５）の処
理が終了した段階では、構造化リストにおいて、図８に
示すようにすべての要素の出現回数が１にセットされ
る。次に入力されるサンプル文書２（図６）では、サン
プル文書１と同じ種類の要素が同じ順序で現れているの
で、サンプル文書２の処理が終わった段階では、図９に
示すように構造化リストの全要素の出現回数が２とな
る。その次に入力されるサンプル文書３（図７）には、
サンプル文書１及び２に現れた要素がすべて現れている
が、「開催日」と「場所」の出現順序がサンプル文書１
及び２の場合と入れ替わっている。そして、さらにサン
プル文書３には、サンプル文書１及び２にはない「費
用」という要素が加わっている。従って、サンプル文書
３の処理が終わった段階では、新しく加わった「費用」
の出現回数が１にセットされ、それ以外の要素の出現回
数は３にセットされる。なお、要素「費用」は、「コン
サート情報」の子要素なので、その階層レベルの値は１
にセットされる。そして、「開催日」と「場所」の出現
順序フィールドには、入れ替わりがあったことを示す値
１が書き込まれる。

【００４３】以上、構造情報抽出部１２及び構造化リス
ト処理部１４による構造化リストの作成・更新処理につ
いて説明した。ＤＴＤ作成部１６では、その処理の結果
得られた最終的な構造化リストを解析して、サンプル文
書の論理構造を包括的に規定するＤＴＤを作成する。以
下、図１０に示した構造化リストからＤＴＤを作成する
場合を例にとって、ＤＴＤ作成部１６におけるＤＴＤ作
成処理の流れについて説明する。

【００４４】図４は、ＤＴＤ作成部１６における処理の
流れを示すフローチャートである。以下、このフローチ
ャートを参照して、ＤＴＤ作成処理の説明を行う。な
お、図１０の構造化リストから最終的に作成されるＤＴ
Ｄは、図１１に示すような形となる。以下の説明におい
ては、図１１を適宜参照する。

【００４５】図４に示すように、ＤＴＤ作成部１６は、
構造化リストから要素を取り出し（Ｓ３００）、取り出
した要素について要素宣言を発生する（Ｓ３０２）。そ
して、当該要素に親がある場合には、その親要素の内容
モデルに当該要素の識別名を追加する（Ｓ３０４）。こ
こで、内容モデルとは、子要素の識別名をその出現順序
に従って左から順に列挙したものであり、例えば図１１
では、ＤＴＤの最初の行の「コンサート情報」の要素宣
言の後半の括弧書きの部分が、要素「コンサート情報」
の内容モデルである。そして、次に、当該要素に属性情
報が含まれるかどうか確認し（Ｓ３０６）、含まれる場
合には当該要素について属性宣言を発生する（Ｓ３０
８）。例えば、図１１では、ＤＴＤの第３行目が要素
「アーティスト名」についての属性宣言となっている。
このような一連の処理の後、構造化リストの最後まで処
理が終わったか否かを判定し（Ｓ３１０）、終わってい
ない場合は構造化リストの次の要素を取り出して、以上
の処理を繰り返す。このような処理を構造化リストの最
後まで行うことにより、構造化リストの内容を反映した
ＤＴＤが得られる。

【００４６】図１０の構造化リストの例では、まず最初
の要素「コンサート情報」について、識別名、出現回
数、出現順序、属性、階層レベルなどのデータが取り出
され（Ｓ３００）、その識別名を用いて要素「コンサー
ト情報」の要素宣言が発生される（Ｓ３０２）。この結
果、ＤＴＤの最初の行として＜!ELEMENT コンサート情
報＞という要素宣言が作成される。ただし、図１１に示
した「コンサート情報」の要素宣言の後半の内容モデル
は、この段階では作成されない。そして、「コンサート
情報」は、階層レベルが０、すなわち最上位の要素なの
で親要素が存在せず、従ってＳ３０４における処理は行
われない。また、構造化リストには「コンサート情報」
について属性情報が記載されていないので、Ｓ３０８の
処理も行われない。

【００４７】このようにして構造化リストの最初の要素
「コンサート情報」についての処理が終わると、構造化
リストから次の要素「アーティスト名」についてのデー
タを取り出す（Ｓ３００）。そして、ＤＴＤの第２行目
として「アーティスト名」についての要素宣言を作成す
る（Ｓ３０２）。要素「アーティスト名」を親要素の要
素宣言の内容モデルに書き込む（Ｓ３０４）。すなわ
ち、要素「アーティスト名」の階層レベルは１なので、
構造化リストにおいて当該要素の前の最も近いところに
現れる階層レベル０の要素（この場合は「コンサート情
報」）が親要素であると判定し、その親要素「コンサー
ト情報」の要素宣言の中に内容モデルの欄を作成し、そ
こに「アーティスト名」という識別名を書き込む。な
お、以下他の要素の処理を行うに連れて、親要素の内容
モデルには、出現順序に従って左から順に子要素の識別
名が書き込まれる。内容モデル内においては、子要素同
士はカンマ“，”で区切られる。

【００４８】また、要素「アーティスト名」には属性情
報「ジャンル」が付随しているので、ＤＴＤの第３行目
として要素「アーティスト名」の属性宣言を作成する
（Ｓ３０８）。なお、図１１において、「アーティスト
名」の属性宣言の後半に示されている“ｉｄＩＤ”及
び“＃ＩＭＰＬＩＥＤ”は、属性情報「ジャンル」の性
質を規定する属性値型及び省略時値であり、それぞれＳ
ＧＭＬの規則に規定されているものの中の一つである。
本実施形態では、属性宣言には、この属性値型及び省略
時値がデフォルトとして書き込まれる。

【００４９】このようにして要素「アーティスト名」に
ついての処理が終わると、構造化リストから次の要素
「開催日」のデータを取り出す。そして、以下、構造化
リストの最後の要素「費用」について処理が終わるまで
以上の工程を繰り返す。

【００５０】なお、図１０の構造化リストにおいては、
要素「開催日」及び「場所」の出現順序が、順序の入れ
替わりがあることを示す値１となっているので、ＤＴＤ
に順序についての情報を反映させる必要がある。ＳＧＭ
Ｌでは、要素の順序の入れ替わりは、それら要素の親要
素の内容モデルにおいて、記号“＆”を用いて表す。す
なわち、この例では、図１１に示すように、要素「コン
サート情報」の内容モデルの中に、“（開催日＆場
所）”と書くことにより、要素「開催日」及び「場所」
とが順不同であることを示すことができる。

【００５１】このため、本実施形態では、Ｓ３０４にお
いて要素の識別名をその要素の親要素の内容モデルに書
き込む際に、当該要素の出現順序の値を確認する。要素
「開催日」の処理において、出現順序を確認すると値が
１となっているので、親要素「コンサート情報」の内容
モデルに“（開催日＆”と書き込む。そして、要素「開
催日」と同一階層レベルの次に現れる要素「場所」の処
理する際に、当該要素「場所」の出現順序が１であるこ
とを確認し、親要素「コンサート情報」の内容モデルに
“場所）”と書き込む。このようにして、ＤＴＤに出現
順序の入れ替わりについての情報が反映される。

【００５２】また、図１１に示したＤＴＤにおいては、
「コンサート情報」の要素宣言の中の内容モデルにおい
て、最後の子要素「費用」の後に記号“？”が付されて
いる。この記号“？”は、出現が任意である（すなわ
ち、出現してもしなくてもよい）要素を示す。この例で
は、図１０の構造化リストにおいて要素「費用」の出現
回数が１回となっており、最上位階層の要素「コンサー
ト情報」の出現回数よりも小さいので、要素「費用」の
出現が任意と判定している。この判定は、Ｓ３０４にお
いて行う。すなわち、Ｓ３０４において要素の識別名を
親要素の内容モデルに書き込む際に、当該要素の出現回
数を最上位階層の要素の出現回数と比較し、当該要素の
出現回数が最上位階層の要素の出現回数よりも少ない場
合には、当該要素の識別名の後に記号“？”を付加して
親要素の内容モデルに書き込む。

【００５３】また、図１１のＤＴＤの要素宣言の中に
“（＃ＰＣＤＡＴＡ）”と書かれているところがある
が、これはその要素の中に書き込まれるテキストのデー
タ型が構文解析対象文字データであることを示してい
る。このようなデータ型についてはＳＧＭＬに規定が定
められている。本実施形態では、テキストを含む要素に
ついては、＃ＰＣＤＡＴＡをデフォルトのデータ型とし
て宣言する。

【００５４】なお、以上の説明では、複数のサンプル文
書からＤＴＤを自動生成していたが、本実施形態の装置
は、１つのサンプル文書だけからでもＤＴＤを自動生成
することができる。

【００５５】また、上記説明では、すべてのサンプル文
章を入力し、それに伴う構造化リストの更新がすべて終
了した際にのみＤＴＤを自動生成していたが、各サンプ
ルを入力した時点でそれぞれＤＴＤを生成しても良い。
この場合、各ＤＴＤはそれぞれ入力されたサンプル文書
までの構造化リスト更新を反映したものとなり、ユーザ
は効率的に意図するＤＴＤを入手することができる。

【００５６】以上説明したように、本実施形態によれ
ば、ＤＴＤの作成の仕方を知らないユーザでも、ＳＧＭ
Ｌの文法に従って作成されたサンプル文書を用意するこ
とにより、このサンプル文書から自動的にＤＴＤを生成
することができる。

【００５７】また、本実施形態では、ＤＴＤを作成する
前に個々の文書インスタンスを作成し、作成した文書イ
ンスタンスをサンプル文書として用いてＤＴＤを作成す
ることができる。従って、文書インスタンスの作成とＤ
ＴＤの作成とを同時進行的に行うことが可能となる。

【図面の簡単な説明】

【図１】本発明に係る文書型定義生成装置の機能ブロ
ック図である。

【図２】本発明に係る文書型定義生成装置における全
体的な処理の流れを示すフローチャートである。

【図３】構造化リストの作成・更新処理の流れを示す
フローチャートである。

【図４】構造化リストからＤＴＤを自動生成する際の
処理の流れを示すフローチャートである。

【図５】サンプル文書１を示す図である。

【図６】サンプル文書２を示す図である。

【図７】サンプル文書３を示す図である。

【図８】サンプル文書１から作成された構造化リスト
を示す図である。

【図９】サンプル文書１及び２から作成された構造化
リストを示す図である。

【図１０】サンプル文書１及び２及び３から作成され
た構造化リストを示す図である。

【図１１】図１０の構造化リストに基づき作成された
ＤＴＤを示す図である。

【図１２】領収書をＳＧＭＬで記述した例を示す図で
ある。

【図１３】図１２の文書インスタンスの構造を示す説
明図である。

【図１４】領収書のＤＴＤを一例を示す図である。

【符号の説明】

１０サンプル入力部、１２構造情報抽出部、１４
構造化リスト処理部、１６ＤＴＤ作成部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者北村秀明京都市上京区堀川通寺之内上る４丁目天神北町１番地の１大日本スクリーン製造株式会社内

Claims

【特許請求の範囲】

【請求項１】構造化記述文書の文書型定義を生成する
文書型定義生成装置であって、構造化記述文書で記述されたサンプル文書から論理構造
情報を抽出する構造情報抽出手段と、抽出された論理構造情報に基づいて文書型定義を作成す
る定義作成手段と、を有する文書型定義生成装置。
【請求項２】構造化記述文書の文書型定義を生成する
文書型定義生成装置であって、構造化記述文書で記述されたサンプル文書から論理構造
情報を抽出する構造情報抽出手段と、複数のサンプル文書から抽出された論理構造情報を集計
する集計手段と、集計手段の集計結果に基づいて文書型定義を作成する定
義作成手段と、を有し、同一文書種類について作成された複数のサンプ
ル文書から当該文書種類についての文書型定義を生成す
る文書型定義生成装置。
【請求項３】請求項２に記載の文書型定義生成装置に
おいて、前記定義作成手段は、各サンプル文書からの論理構造情
報が集計されるごとに当該集計結果に基づいて文書型定
義を作成することを特徴とする文書型定義生成装置。
【請求項４】請求項１〜３いずれかに記載の文書型定
義生成装置において、前記構造情報抽出手段は、サンプル文書の各要素の入れ
子構造を解析して各要素の階層関係を求める手段を有す
ることを特徴とする文書型定義生成装置。
【請求項５】請求項１〜３いずれかに記載の文書型定
義生成装置において、前記構造化記述文書は、ＳＧＭＬ文書であり、前記構造情報抽出手段は、ＳＧＭＬ文書のタグから論理
構造情報を抽出することを特徴とする文書型定義生成装
置。
【請求項６】請求項５に記載の文書型定義生成装置に
おいて、前記構造情報抽出手段は、開始タグ及び終了タグにより
サンプル文書の各要素の入れ子構造を解析して各要素の
階層関係を求める手段を有することを特徴とする文書型
定義生成装置。