JPH096784A

JPH096784A - 文書型の同定装置

Info

Publication number: JPH096784A
Application number: JP7155941A
Authority: JP
Inventors: Kazuki Yasumatsu; 一樹安松
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1995-06-22
Filing date: 1995-06-22
Publication date: 1997-01-10

Abstract

(57)【要約】【目的】文書型を表現するテキストが相違している場
合でも文書型の等価性を判断することができる文書型の
同定装置を提供すること。【構成】文書型解析手段により、テキスト形式で表現
された文書型もしくは文書型を含む文書を解析し、解析
木に変換する。次に、正規化手段により、得られた解析
木を正規化して出力する。ここで正規化とは、文書の論
理構造に影響を及ぼさない文書要素の削除、文書要素の
規定した順序での整列、内容モデルでの「出現順序を問
わない」構成子の子の規定した順序での整列を意味す
る。そして、正規化表現比較手段により、得られた正規
化表現の比較を行う。文書型は正規化されていることか
ら、単純な完全一致比較が可能である。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ワードプロセッサ、あ
るいは文書処理機能をもつワークステーション等で処理
される文書型をもつ電子文書を対象とする文書データベ
ース管理装置に関し、特に、文書型の同定装置に関す
る。

【０００２】

【従来の技術】ワードプロセッサ等により作成された電
子文書は、デジタルデータとして表現されるので、追
加、削除、変更等の編集を容易に行なうことができ、文
書作成効率を高めることができる。また、複数の電子文
書を大容量の記憶装置に蓄積して文書データベース装置
を構築することにより、キーワード検索等により目的と
する文書を電子的に検索することができる。

【０００３】従来の電子文書を管理対象とする文書デー
タベース管理装置では、文書の検索を行なう場合には、
ワードプロセッサ等で作られた文書データそのものを蓄
積し、そのデータを使って検索を行なっていた。

【０００４】一方、電子文書の作成や編集作業を容易に
行なえるようにするために、電子文書を構造化すること
が行なわれている。文書の構造は、たとえば、文書を構
成する章、見出し、段落などの要素と、その要素間の関
係についての情報、たとえば、章は、下位構造として見
出しと段落を持つなどについての情報により表される。

【０００５】

【発明が解決しようとする課題】本発明が解決しようと
する課題を、文書構造の国際規格であるＯＤＡ（Ｏｆｆ
ｉｃｅＤｏｃｕｍｅｎｔＡｒｃｈｉｔｅｃｔｕｒ
ｅ）（ＩＳＯ８６１３）とＳＧＭＬ（Ｓｔａｎｄａｒ
ｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇ
ｕａｇｅ）（ＩＳＯ８８７９；ＪＩＳＸ４１５
１）を例にとって説明する。

【０００６】先ず、本明細書で使用する用語について説
明する。

【０００７】「文書構造」という用語は、文書を表現す
る情報構造とする。たとえば、ＯＤＡが定める情報構造
は文書構造である。ＳＧＭＬのサブセッティング（機能
の制限）を行ない、使用する文字コードや図表などに用
いる情報構造を定めたものも文書構造である。なお、Ｓ
ＧＭＬについては、たとえば、ＭａｒｔｉｎＢｒｙａ
ｎ著，「ＳＧＭＬ入門」，株式会社アスキー，１９９１
年３月３１日発行を参照されたい。

【０００８】「文書型」という用語は、文書のテンプレ
ートを示すものとする。文書型は、そこから作られる文
書がどのような論理構造をもち得るか、すなわち、論理
構造中に現われるノードの種類、各ノードがもち得る属
性、各ノードがもち得る下位構造を定める。ＯＤＡの共
通論理構造（ｇｅｎｅｒｉｃｌｏｇｉｃａｌｓｔｒ
ｕｃｔｕｒｅ）や、ＳＧＭＬをサブセッティングした文
書アーキテクチャにおけるＤＴＤ（Ｄｏｃｕｍｅｎｔ
ＴｙｐｅＤｅｆｉｎｉｔｉｏｎ）は、文書型である。

【０００９】次に、上述したような、構造化された文書
を検索する文書データベース管理装置を使用する場合の
問題点について説明する。

【００１０】構造化文書では、文書の内容は論理構造と
呼ばれ、章、節、図などの複数の文書構成要素からなる
木構造で表現される。

【００１１】文書データベース管理装置に対して、検索
の対象となる構造化文書を入力する場合には、文書デー
タベース管理装置側で予め用意されている構造に一致し
た構造の文書を入力する必要がある。すなわち、入力す
べき文書の文書型を構造を同定して、文書データベース
管理装置が想定している文書型と一致しているかどうか
確認する必要がある。

【００１２】しかしながら、従来の文書データベース管
理装置においては、文書型を同定する機能がないため、
以下に説明するような不都合が生じていた。

【００１３】文書型の同定機能がない場合、文書データ
ベース管理装置を構成するシステムが想定している文書
型と、システムに入力された文書の文書型が異なる場
合、システムは処理を進めることができないためシステ
ムでエラーが発生する。このような場合、ユーザは、エ
ラーの原因がシステム側のバグなのか、入力ミスなのか
が判断できず、適切な対策をとり難い。また、最悪の場
合システムが誤動作する場合がある。

【００１４】このような問題が発生する機構を、本願出
願人により平成７年１月６日に特願平７−６５０号とし
て出願された文書データベース管理装置を例に挙げて説
明する。図１は、同出願に記載されている文書データベ
ース管理装置のブロック図である。

【００１５】図１において、１−１は、ユーザと本文書
データベース管理装置の対話を行うための入出力制御部
である。１−２は、文書スキーマを管理する文書スキー
マ管理部である。文書スキーマ管理部１−２には、文書
スキーマがその名前とともに格納されている。文書スキ
ーマ管理部１−２は、文書スキーマの格納のための格納
部、文書スキーマの検索を行うための検索部からなる。
１−３は、文書クラスを管理する文書クラス管理部であ
る。なお、文書クラスと本出願で言う文書型とは同義で
ある。文書クラス管理部１−３には、文書クラスがその
名前とともに格納されている。文書クラス管理部１−３
は、文書クラスの格納のための格納部、文書クラスの検
索を行うための検索部からなる。１−４は、生成規則を
管理する生成規則管理部である。生成規則管理部１−４
には、生成規則が、その規則が適用される文書クラスの
名前と、文書スキーマの名前、および該生成規則が格納
用か取り出し用かの指定とともに格納されている。生成
規則管理部１−４は、生成規則の格納のための格納部、
生成規則の検索を行うための検索部からなる。１−５
は、文書を管理する文書管理部である。文書管理部１−
５は、文書の格納を行う格納部、文書の検索を行う検索
部、文書の取り出しを行う取出部からなる。１−６は、
外部文書から内部文書の生成、あるいは内部文書から外
部文書の生成を行う文書生成部である。文書生成部１−
６は、外部文書の文書構造を解析して内部文書と同じ形
式（内部形式と呼ぶ）の文書にする外部文書解析部、内
部形式の文書から外部文書を作成する外部文書作成部、
生成規則に従って既存の内部形式の文書から新しい内部
形式の文書を作成する内部形式文書変換部からなる。

【００１６】図１に示される文書データベース管理装置
を使用して文書を登録する場合、入出力制御部１−１で
指定した文書型と、入力した文書の文書型が異なる場
合、エラーとなるが、システムのエラーなのかユーザの
文書型の指定のエラーなのかが判別できない。また、何
らかの原因でエラーとならず文書が登録された場合に
は、データベースの正当性が損なわれる。

【００１７】このため、文書型を扱う文書データベース
管理装置においては、文書型を同定する必要がある。

【００１８】文書の文書型はテキスト形式で表現される
ので、最も単純には、文書型を定義しているテキスト同
士を比較することにより、文書型を同定することができ
る。しかしながら、このテキストの比較だけでは、文書
型の等価性を判断できない。この理由を、国際規格であ
るＳＧＭＬ（ＩＳＯ８８７９，ＳｔａｎｄａｒｄＧｅ
ｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇ
ｅ）を例にとって説明する。

【００１９】文書型という用語は、文書のひな型を示す
ものである。文書型は、そこから作られる文書がどのよ
うな論理構造をもち得るか、すなわち、論理構造中に現
われる文書要素の種類、各文書要素がもち得る属性、各
文書要素がもち得る下位構造を定める。ＳＧＭＬでは文
書型を文書中にＤＴＤ（ＤｏｃｕｍｅｎｔＴｙｐｅＤ
ｅｃｌａｒａｔｉｏｎ）として記述可能である。

【００２０】ＤＴＤは、 <!DOCTYPE 文書型名［文書要素定義 ... ］> という形式で記述する。

【００２１】文書要素は、 <!ELEMENT 文書要素名開始タグ省略化終了タグ省略
化内容モデル> という形式で定義する。内容モデルには結合子としてｓ
ｅｑ（，）、ａｎｄ（＆）、ｏｒ（｜）と、出現標識ｐ
ｌｕｓ（＋）、ｏｐｔ（？）、ｒｅｐ（＊）が使用され
る。また、内容モデルはｉｎｃｌｕｓｉｏｎ（＋）、ｅ
ｘｃｌｕｓｉｏｎ（−）で修飾可能である。ｓｅｑは、
すべての文書要素は指定した順序に現われなければなら
ないことを示す。ａｎｄは、すべての文書要素はどんな
順序で現われてもよいことを示す。ｏｒは１つの文書要
素だけが現われなければならないことを示す。

【００２２】ここでは、結合子（ｓｅｑ，ａｎｄ，ｏ
ｒ）と出現標識（ｐｌｕｓ，ｏｐｔ，ｒｅｐ）をまとめ
て構成子と呼ぶ。

【００２３】また、文書要素の属性は、 <!ATTLIST 文書要素名属性定義...> という形式で記述する。

【００２４】ここで、文書型の等価の定義を示す。文書
型Ａを満たす全ての文書は文書型Ｂを満たし、かつ、文
書型Ｂを満たす全ての文書は文書型Ａを満たす場合、文
書型Ａと文書型Ｂは等価である。

【００２５】次に、テキスト表現が異なるが、等価であ
る文書型の例を示す。リスト１のＤＴＤは、節（ｓｅｃ
ｔｉｏｎ）からなる文書である。節は、段落（ｐａｒ
ａ）と注釈（ｎｏｔｅ）からなる。リスト２のＤＴＤで
は、節の内容（ｓｅｃｃｏｎｔ）がパラメータエンティ
ティとしてまとめて定義されているが、リスト１のＤＴ
Ｄと等価である。

【００２６】リスト１：ＤＴＤの例 <!DOCTYPE doc ［ <!ELEMENT doc - - (section+)> <!ELEMENT section - O (para ｜note)+> <!ELEMENT para - O (#PCDATA)> <!ELEMENT note - O (#PCDATA)> ］> リスト２：ＤＴＤの例 <!DOCTYPE doc ［ <!ENTITY % seccont "para｜note"> <!ELEMENT doc - - (section+)> <!ELEMENT section - O (%seccont;)+> <!ELEMENT (%seccont;) - O (#PCDATA)> ］> 別の例を示す。リスト３のＤＴＤは、前付け（ｆｒｏｎ
ｔ）のみからなる文書である。前付けは、タイトル（ｔ
ｉｔｌｅ）、著者（ａｕｔｈｏｒ）、概要（ａｂｓｔｒ
ａｃｔ）からなる。リスト４のＤＴＤもリスト３のＤＴ
Ｄと同様だが、前付けは、著者、タイトル、概要からな
る。構成子ａｎｄ（＆）は任意の順序で出現可能なこと
を示すことから、リスト３のＤＴＤとリスト４のＤＴＤ
は等価である。

【００２７】リスト３：ＤＴＤの例 <!DOCTYPE doc ［ <!ELEMENT doc - - (front)> <!ELEMENT front - - (title & author & abstract)> <!ELEMENT title - O (#PCDATA)> <!ELEMENT author - O (#PCDATA)> <!ELEMENT abstract - O (#PCDATA)> ］> リスト４：ＤＴＤの例 <!DOCTYPE doc ［ <!ELEMENT doc - - (front)> <!ELEMENT front - - (author & title & abstract)> <!ELEMENT title - O (#PCDATA)> <!ELEMENT author - O (#PCDATA)> <!ELEMENT abstract - O (#PCDATA)> ］> さらに別の例を示す。リスト５のＤＴＤは、節（ｓｅｃ
ｔｉｏｎ）からなる文書である。節は、段落（ｐａｒ
ａ）からなる。リスト６のＤＴＤも同様だが、根（ｄｏ
ｃ）から到達不可能な文書要素である注釈（ｎｏｔｅ）
が定義されている。リスト６のＤＴＤに含まれるｎｏｔ
ｅはそのＤＴＤから作られる文書の構造には影響を及ぼ
さないことから、リスト５のＤＴＤとリスト６のＤＴＤ
は等価である。

【００２８】リスト５：ＤＴＤの例 <!DOCTYPE doc ［ <!ELEMENT doc - - (section+)> <!ELEMENT section - O (para)+> <!ELEMENT para - O (#PCDATA)> ］> リスト６：ＤＴＤの例 <!DOCTYPE doc ［ <!ELEMENT doc - - (section+)> <!ELEMENT section - O (para)+> <!ELEMENT para - O (#PCDATA)> <!ELEMENT note - O (#PCDATA)> ］> 以上のように、単純なテキストの比較では文書型の等価
性を判断することはできない。

【００２９】そこで本発明は、文書型を表現するテキス
トが相違している場合でも文書型の等価性を判断するこ
とができる文書型の同定装置を提供することを目的とす
る。

【００３０】

【課題を解決するための手段】本発明は、複数のテキス
ト形式で表現された文書型もしくは文書型を含む文書を
入力し、その文書型の同定を行う装置において、テキス
ト形式で表現された文書型もしくは文書型を含む文書を
解析し、解析木に変換する文書型解析手段と、前記文書
型解析手段により生成された解析木を正規化して出力す
る正規化手段と、前記正規化手段により生成された正規
化表現を比較する正規化表現比較手段とを具備すること
を特徴とする。

【００３１】また本発明は、複数のテキスト形式で表現
された文書型もしくは文書型を含む文書を入力し、その
文書型の同定を行う装置において、テキスト形式で表現
された文書型もしくは文書型を含む文書を解析し、解析
木に変換する文書型解析手段と、前記文書型解析手段に
より生成された解析木から、文書要素の根から到達可能
な文書要素の有向グラフを生成するグラフ生成手段と、
前記グラフ生成手段により生成された有向グラフを比較
するグラフ比較手段とを具備することを特徴とする。

【００３２】

【作用】本発明においては、先ず、文書型解析手段によ
り、テキスト形式で表現された文書型もしくは文書型を
含む文書を解析し、解析木に変換する。次に、正規化手
段により、得られた解析木を正規化して出力する。ここ
で正規化とは、文書の論理構造に影響を及ぼさない文書
要素の削除、文書要素の規定した順序での整列、内容モ
デルでの「出現順序を問わない」構成子の子の規定した
順序での整列を意味する。そして、正規化表現比較手段
により、得られた正規化表現の比較を行う。文書型は正
規化されていることから、単純な完全一致比較が可能で
ある。

【００３３】或いは、本発明においては、先ず、文書型
解析手段により、テキスト形式で表現された文書型もし
くは文書型を含む文書を解析し、解析木に変換する。次
に、グラフ生成手段により、解析木から、文書要素の根
から到達可能な文書要素の有向グラフを生成する。この
とき、根から到達不可能な文書要素、すなわち、文書の
論理構造に影響を及ぼさない文書要素は有向グラフには
含まれない。次に、グラフ比較手段により、有向グラフ
の比較を行う。グラフの比較は、ノードの比較とそのノ
ードの子ノード比較を再帰的に行う。子ノードが複数あ
る場合には、すべての子ノードを順に比較する。ただ
し、そのノードが「出現順序を問わない」構成子である
場合、子ノードの順番を問わない比較を行う。

【００３４】上述のように、文書型を正規化することに
より、完全一致による文書型の比較が可能となる。ま
た、文書型を有向グラフへ変換することにより、文書の
論理構造に影響を及ぼさない文書要素の削除が可能とな
る。構成子の意味にしたがったグラフの比較により、文
書型の比較が可能となる。

【００３５】

【実施例】

〔実施例１〕本実施例では、ＳＧＭＬのＤＴＤの同定を
例に挙げて説明を行なう。以下では、等価性を判断する
ＤＴＤの例として、リスト７のＤＴＤとリスト８のＤＴ
Ｄを用いる。

【００３６】図２は、上述したリスト７のＤＴＤとリスト８のＤＴＤ
の等価性を判断するための、本発明の文書型の同定装置
の第１の実施例を示す構成図である。

【００３７】図２において、２−１は、文書型解析部で
ある。文書型解析部２−１では、入力が文書型を含む文
書であれば、まずそこから文書型の定義部分だけを取り
出す。そして、文書型を解析して解析木を生成する。こ
のとき、パラメータエンティティは展開される。文書型
（ＤＴＤ）の解析の手順は「文書記述言語ＳＧＭＬ：Ｊ
ＩＳＸ４１５１」等に記載されている。

【００３８】２−２は、文書型正規化部である。文書型
正規化部２−２では、文書解析部２−１により生成され
た解析木を正規表現へと変換する。

【００３９】２−３は、正規化表現比較部である。正規
化表現比較部２−３では、文書型正規化部２−２により
生成された文書型の正規表現を比較する。この結果が文
書型の同定の結果となる。

【００４０】なお、図２に示す同定装置は、図１の文書
データベース管理装置の文書クラス管理部１−３に組み
込むことも可能である。

【００４１】次に、図２に示す文書型の同定装置の動作
について説明する。

【００４２】先に述べたように、文書型解析部２−１で
は、既知の解析手順に従って文書型を解析して解析木を
生成する。図３は、文書型解析部２−１により生成され
たリスト７のＤＴＤの内容モデルの解析木である。太枠
は文書要素を、細枠は構成子を、２重枠は属性を、点線
枠はＳＧＭＬの基本内容を、それぞれ示す。また図４
は、文書型解析部２−１により生成されたリスト８のＤ
ＴＤの内容モデルの解析木である。凡例は、図３と同様
である。

【００４３】次に、文書型正規化部２−２では、文書解
析部２−１により生成された解析木が正規表現へと変換
される。

【００４４】図５は、文書型正規化部２−２の処理の流
れを示すフローチャートである。

【００４５】文書型正規化部２−２においては、先ず、
根から到達不可能な文書要素が削除され (ステップ５−
１）、次いで内容部が正規化されて (ステップ５−
２）、処理が終わる。

【００４６】以下、文書型正規化部２−２の処理の詳細
を説明する。

【００４７】図６は、図５に示すフローチャートのステ
ップ５−１を詳細化したフローチャートである。

【００４８】先ず、ｎｏｄｅを根ノードとした後 (ステ
ップ６−１）、集合Ｓを空集合とする (ステップ６−
２）。次に、ｎｏｄｅが集合Ｓに含まれるか否かを判別
し (ステップ６−３）、含まれない場合には，ｎｏｄｅ
が文書要素であれば集合Ｓにｎｏｄｅを追加し (ステッ
プ６−４）、ｎｏｄｅに子ノードが有るか否かを判別す
る (ステップ６−５）。小ノードが有る場合には、全て
の子ノードに対してｎｏｄｅを子ノードとし、ステップ
６−３を再帰的に実行した後 (ステップ６−６）、集合
Ｓに含まれない文書要素を削除して (ステップ６−
７）、処理を終わる。また、ステップ６−３でｎｏｄｅ
が集合Ｓに含まれていないと判断されたとき、及び、ス
テップ６−５でｎｏｄｅに子ノードが無いと判断された
ときには、ステップ６−７に進む。

【００４９】上述のステップ６−１〜６−７の処理によ
り、根から到達可能な集合Ｓが得られる。リスト７、リ
スト８のＤＴＤの場合、いずれも根はｄｏｃであり、得
られる集合Ｓは、（ｄｏｃ，ｆｒｏｎｔ，ｔｉｔｌ
ｅ，ａｕｔｈｏｒ，ｂｏｄｙ，ｓｅｃｔｉｏｎ，
ｐａｒａ，ｎｏｔｅ，ｆｉｇ）である。リスト７
のＤＴＤのｑｕｏｔｅ（４−６）はＳには含まれない。
すなわち、ステップ６−７により、ｑｕｏｔｅ（４−
６）は削除される。

【００５０】図７は、図５に示すフローチャートのステ
ップ５−２を詳細化したフローチャートである。

【００５１】文書要素をアルファベット順にソートした
リストを生成し (ステップ７−１）、ｅｌｅｍｅｎｔを
リストの先頭にし (ステップ７−２）、ｅｌｅｍｅｎｔ
をＤＴＤの形式で出力する (ステップ７−３）。このと
き、内容モデルの構成子がａｎｄかｏｒであれば、解析
木の子ノードをアルファベット順に出力する。次に、属
性の定義があるか否かを判別し (ステップ７−４）、定
義が有る場合にはｅｌｅｍｅｎｔの属性をＤＴＤの形式
で出力し (ステップ７−５）、ｅｌｅｍｅｎｔはリスト
の最後であるか否かを判別する (ステップ７−６）。リ
ストの最後である場合には処理を終了する。リストの最
後でない場合には、ｅｌｅｍｅｎｔを次の文書要素にし
た後 (ステップ７−７）、ステップ７−３に戻る。な
お、ステップ７−４で属性の定義がないと判断された場
合には、ステップ７−６に進む。

【００５２】上述のステップ７−１〜７−７の処理によ
り、内容部が正規化されて出力される。リスト７、リス
ト８のＤＴＤを正規化した結果をリスト９に示す。

【００５３】リスト９：正規化されたリスト７、リス
ト８のＤＴＤ <!ELEMENT author - O (#PCDATA)> <!ELEMENT body - - (section+)> <!ELEMENT doc - - (front?,body) +(fig)> <!ELEMENT fig - O EMPTY> <!ATTLIST fig size NUMBERS #REQUIRED file ENTITY #
REQUIRED> <!ELEMENT front - - (author & title)> <!ELEMENT note - O (#PCDATA)> <!ELEMENT para - O (#PCDATA)> <!ELEMENT section - O (note ｜para｜section)+> <!ELEMENT title - O (#PCDATA)> リスト９に示されるように正規化された結果は等しい。
リスト９のｆｒｏｎｔでは、構成子ａｎｄ（＆）の部分
が正規化、すなわち、アルファベット順にソートされて
いる。同じく、ｓｅｃｔｉｏｎで、構成子ｏｒ（｜）の
部分が正規化されている。

【００５４】正規化表現比較部２−３では、文書型正規
化部２−２により生成された文書型の正規表現を文字列
の完全一致で比較する。本実施例においては文書型を定
義するテキストすなわち文字列が正規化されていること
から、文書型を同定するためには文字列の比較で十分で
ある。

【００５５】〔実施例２〕第２の実施例においては、有
向グラフを使用して文書型を同定する。本実施例でも、
ＳＧＭＬのＤＴＤの同定を行う場合を例に挙げて説明す
る。以下では、等価性を判断するＤＴＤの例として、実
施例１と同じくリスト７のＤＴＤとリスト８のＤＴＤを
用いる。

【００５６】図８は、リスト７のＤＴＤとリスト８のＤ
ＴＤの等価性を判断するための、本発明の文書型の同定
装置の第２の実施例の構成図である。

【００５７】図８において、８−１は文書型解析部であ
る。文書型解析部８−１では、入力が文書型を含む文書
であれば、まずそこから文書型の定義部分だけを取り出
す。そして、文書型を解析して解析木を生成する。この
とき、パラメータエンティティは展開される。文書型
（ＤＴＤ）の解析の手順は「文書記述言語ＳＧＭＬ：Ｊ
ＩＳＸ４１５１」等に記載されている。

【００５８】８−２はグラフ生成部である。グラフ生成
部８−２は、文書解析部８−１により生成された解析木
を有向グラフへと変換する。

【００５９】８−３はグラフ比較部である。グラフ比較
部８−３は、グラフ生成部８−２により生成された文書
型の有向グラフを比較する。この結果が文書型の同定の
結果となる。

【００６０】なお、図８に示す同定装置は、図１の文書
データベース管理装置の文書クラス管理部１−３に組み
込むことも可能である。

【００６１】次に、図２に示す文書型の同定装置の動作
について説明する。

【００６２】文書型解析部８−１では、既知の解析手順
に従って文書型を解析して解析木を生成する。文書型解
析部８−１により生成されたリスト７とリスト８のＤＴ
Ｄの内容モデルの解析木は、実施例１と同様、図３と図
４である。

【００６３】グラフ生成部８−２では、図３と図４の解
析木より、図９と図１０の有向グラフを生成する。図９
は、グラフ生成部８−２により生成されたリスト７のＤ
ＴＤの有向グラフである。図１０は、グラフ生成部８−
２により生成されたリスト８のＤＴＤの有向グラフであ
る。根から辿れない文書要素ｑｕｏｔｅは、有向グラフ
には含まれない。

【００６４】グラフ比較部８−３は、グラフ生成部８−
２により生成された文書型の有向グラフを比較する。

【００６５】図１１は、グラフ比較部８−３の処理の概
略の流れを示すフローチャートである。

【００６６】先ず、ｎｏｄｅ１，ｎｏｄｅ２をグラフ
１，グラフ２の根ノードとし (ステップ１１−１）、リ
ストＬ１，Ｌ２を空リストとする (ステップ１１−
２）。次に、ｎｏｄｅ１がリストＬ１に含まれるか否か
を判別し (ステップ１１−３）、含まれる場合には、両
方のグラフは等しいと判断する。ｎｏｄｅ１がリストＬ
１に含まれない場合には、リストＬ１，Ｌ２の最後にｎ
ｏｄｅ１，ｎｏｄｅ２を追加する (ステップ１１−
４）。次に、ｎｏｄｅ１が構成子であるか否かを判別し
(ステップ１１−５）、構成子である場合には文書要素
の比較を行い (ステップ１１−６）、文書要素が等しい
場合には、両方のグラフは等しいと判断し、文書要素が
等しくない場合には、両方のグラフは等しくないと判断
する (ステップ１１−８）。また、ステップ１１−５
で、ｎｏｄｅ１が構成子であると判断された場合には、
構成子の比較を行い (ステップ１１−７）、構成子が等
しい場合には、両方のグラフは等しいと判断し、構成子
が等しくない場合には、両方のグラフは等しくないと判
断する (ステップ１１−９）。

【００６７】図１２は、図１１のフローチャートのステ
ップ１１−６「文書要素の比較」を詳細化したフローチ
ャートである。

【００６８】先ず、ｎｏｄｅ２が構成子であるか否かを
判別し (ステップ１２−１）、構成子である場合には、
両方のグラフは等しくないと判断する。ｎｏｄｅ２が構
成子でない場合には、ｎｏｄｅ１とｎｏｄｅ２の内容モ
デル以外の比較を行い (ステップ１２−２）、それらが
等しいか否かを判断する (ステップ１２−３）。等しく
ない場合には、両方のグラフは等しくないと判断する。
ステップ１２−３で等しいと判断された場合には、ｎｏ
ｄｅ１，ｎｏｄｅ２の内容モデルの根ノードをｎｏｄｅ
１，ｎｏｄｅ２とし、ステップ１１−３を再帰的に実行
する (ステップ１２−４）。ステップ１２−４の処理の
結果、等しくないと判断された場合には(ステップ１２
−５）、両方のグラフは等しくないと判断する。ステッ
プ１２−５で等しいと判断された場合には、ｎｏｄｅ
１，ｎｏｄｅ２のｉｎｃｌｕｓｉｏｎの根ノードをｎｏ
ｄｅ１，ｎｏｄｅ２とし、ステップ１１−３を再帰的に
実行する (ステップ１２−６）。ステップ１２−６の処
理の結果、等しくないと判断された場合には (ステップ
１２−７）、両方のグラフは等しくないと判断する。ス
テップ１２−７で等しいと判断された場合には、ｎｏｄ
ｅ１，ｎｏｄｅ２のｅｘｃｌｕｓｉｏｎの根ノードをｎ
ｏｄｅ１，ｎｏｄｅ２とし、ステップ１１−３を再帰的
に実行する (ステップ１２−８）。ステップ１２−６の
処理の結果、等しくないと判断された場合には (ステッ
プ１２−７）、両方のグラフは等しくないと判断し、等
しいと判断された場合には、両方のグラフは等しいと判
断する。図１３は、図１１のフローチャートのステップ
１１−７「構成子の比較」を詳細化したフローチャート
である。

【００６９】先ず、ｎｏｄｅ２が構成子であるか否かを
判別し (ステップ１３−１）、構成子でない場合には、
両方のグラフは等しくないと判断する。ｎｏｄｅ２が構
成子である場合には、ｎｏｄｅ１とｎｏｄｅ２の構成子
タイプの比較を行い (ステップ１３−２）、それらが等
しいか否かを判断する (ステップ１３−３）。等しくな
い場合には、両方のグラフは等しくないと判断する。等
しい場合には、ｎｏｄｅ１の構成子のタイプはａｎｄか
ｏｒかを判別し (ステップ１３−４）、ａｎｄでもｏｒ
でもなかった場合には、ｍｏｄｅ１の全ての子ノードと
ｍｏｄｅ２の全ての子ノードとの順序を問う比較を行い
(ステップ１３−５）、等しいと判断された場合には、
両方のグラフは等しいと判断し、等しくないと判断され
た場合には、両方のグラフは等しくないと判断する (ス
テップ１３−７）。また、ステップ１３−４で、ａｎｄ
かｏｒのいずれかであると判断された場合には、ｍｏｄ
ｅ１の全ての子ノードとｍｏｄｅ２の全ての子ノードと
の順序を問わない比較を行い (ステップ１３−６）、等
しいと判断された場合には、両方のグラフは等しいと判
断し、等しくないと判断された場合には、両方のグラフ
は等しくないと判断する (ステップ１３−８）。図１３
のステップ１３−４，１３−５，１３−６で構成子のタ
イプにしたがった比較を行うことにより、正しい比較を
行う。

【００７０】参考として、図１１、図１２、図１３のフ
ローチャートに相当するアルゴリズムをリスト１０に示
す。なお、このリストはＣ言語を模した擬似言語により
表現されている。

【００７１】ｃｏｍｐａｒｅ＿ｎｏｄｅは、図１１のア
ルゴリズムを示す。ｃｏｍｐａｒｅ＿ｅｌｅｍｅｎｔ
は、図１２のアルゴリズムを示す。ｃｏｍｐａｒｅ＿ｃ
ｏｎｓｔｒｕｃｔｏｒは、図１３のアルゴリズムを示
す。ｃｏｍｐａｒｅ＿ｏｒｄｅｒｅｄ＿ｃｈｉｌｄｒｅ
ｎは１３−５のアルゴリズムを、ｃｏｍｐａｒｅ＿ｕｎ
ｏｒｄｅｒｅｄ＿ｃｈｉｌｄｒｅｎは１３−６のアルゴ
リズムをそれぞれ示す。

【００７２】リスト１０：有向グラフの比較のアルゴリズム compare ＿dtd(DTD1: dtd, DTD2: dtd) ｛ rootnode1 = DTD1の有向グラフの根ノード rootnode2 = DTD2の有向グラフの根ノード L1: 空リスト L2: 空リスト return compare＿node(rootnode1, rootnode2, L1, L2) == TRUE ｝ compare ＿node(N1: node, N2: node, L1:list, L2: list) ｛ if N1 はL1に含まれる(N1 は既に調べた) then return TRUE else L1の最後に N1 を追加する L2の最後に N2 を追加する if N1 は構成子である then return compare＿constructor(N1, N2, L1, L2) else return compare＿element(N1,N2, L1, L2) ｝ compare ＿constructor(N1: node, N2: node, L1: list, L2: list) ｛ if N2 は構成子でない then return FALSE else if N1 の構成子の種類とN2の構成子の種類が異なる then return FALSE else if N1 の構成子がand かorである( 子ノードの順序を問わない) then return compare＿unordered ＿children(N1,N2,L1,L2 ) else return compare＿ordered ＿children(N1,N2,L1,L2) ｝ compare ＿element(N1: node, N2: node, L1: list, L2: list) ｛ if N2 は構成子である then return FALSE else N1の内容モデル以外の情報( 属性を含む) とN2の内容モデル以外の情報を比較する if 異なる then return FALSE else cn1 = N1の内容モデルの根ノード cn2 = N2の内容モデルの根ノード if compare＿node(cn1, cn2, L1, L2) == FALSE then return FALSE else if N1 がinclusion を持たない then if N2 がinclusion を持つ then return FALSE else 何もしない else if N2 がinclusion を持たない then return FALSE else in1 = N1の inclusionの根ノード in2 = N2の inclusionの根ノード if compare＿node(in1, in2, L1, L2) = = FALSE then return FALSE else 何もしない if N1 がexclusion を持たない then if N2 がexclusion を持つ then return FALSE else 何もしない else if N2 がexclusion を持たない then return FALSE else en1 = N1の exclusionの根ノード en2 = N2の exclusionの根ノード if compare＿node(en1, en2, L1, L2) = = FALSE then return FALSE else 何もしない return TRUE ｝ compare ＿ordered ＿children(N1:node, N2:node, L1:list, L2:list) ｛ if N1 の子ノードの数とN2の子ノードの数は等しくない then return FALSE else C1i: N1 の子ノード (0 <= i < n) C2i: N2 の子ノード (0 <= i < n) for i = 0...n-1 do if compare＿node(C1i, C2i, L1, L2) == FALSE then return FALSE else 何もしない return TRUE ｝ compare ＿unordered ＿children(N1:node, N2:node, L1:list, L2:list)｛ if N1 の子ノードの数とN2の子ノードの数は等しくない then return FALSE else C1i: N1 の子ノード (0 <= i < n) for i = 0...n-1 do if C1iは L1 に含まれる(C1iは既に調べた) then index = C1i の L1 内での順番 c2 = L2 のindex 番目の要素 if c2 はN2の子ノードに含まれない then return FALSE else 何もしない else found = FALSE C2j: N2 の子ノード (0 <= j < n) for j = 0...n-1 do if found == TRUE then 何もしない else L1' = L1のコヒ゜ー L2' = L2のコヒ゜ー if compare＿node(C1i, C2j, L1', L2') == TRUE then found = TRUE L1 = L1' L2 = L2' else 何もしない if found == FALSE then return FALSE else 何もしない return TRUE ｝

【００７３】

【発明の効果】以上のように、本発明では、文書型の同
定機能を提供することにより、文書型をもつ文書の処理
装置おいて、ユーザに入力のエラーを正しく通知するこ
とが可能となる。また、処理装置の思わぬ誤動作を避け
ることが可能となる。

【図面の簡単な説明】

【図１】従来の文書データベース装置の構成例を示す
ブロック図である。

【図２】本発明の文書型の同定装置の第１の実施例を
示す構成図である。

【図３】文書型解析部２−１により生成されたリスト
７のＤＴＤの内容モデルの解析木である。

【図４】文書型解析部２−１により生成されたリスト
８のＤＴＤの内容モデルの解析木である。

【図５】文書型正規化部の処理の流れを示すフローチ
ャートである。

【図６】図５に示すフローチャートのステップ５−１
を詳細化したフローチャートである。

【図７】図５に示すフローチャートのステップ５−２
を詳細化したフローチャートである。

【図８】本発明の文書型の同定装置の第２の実施例の
構成図である。

【図９】図９は、グラフ生成部８−２により生成さ
れたリスト７のＤＴＤの有向グラフである。

【図１０】グラフ生成部８−２により生成されたリス
ト８のＤＴＤの有向グラフである。

【図１１】グラフ比較部８−３の処理の流れを示すフ
ローチャートである。

【図１２】図１１のフローチャートのステップ１１−
６を詳細化したフローチャートである。

【図１３】図１１のフローチャートのステップ１１−
７を詳細化したフローチャートである。

【符号の説明】

１−１…入出力制御部、１−２…スキーマ管理部、１−
３文書クラス管理部、１−４…生成規則管理部、１−５
…文書管理部、１−６…文書生成部、２−１…文書型解
析部、２−２…文書型正規化部、２−３…正規表現比較
部

Claims

【特許請求の範囲】

【請求項１】複数のテキスト形式で表現された文書型も
しくは文書型を含む文書を入力し、その文書型の同定を
行う装置において、テキスト形式で表現された文書型もしくは文書型を含む
文書を解析し、解析木に変換する文書型解析手段と、前記文書型解析手段により生成された解析木を正規化し
て出力する正規化手段と、前記正規化手段により生成された正規化表現を比較する
正規化表現比較手段とを具備することを特徴とする文書
型の同定装置。
【請求項２】複数のテキスト形式で表現された文書型も
しくは文書型を含む文書を入力し、その文書型の同定を
行う装置において、テキスト形式で表現された文書型もしくは文書型を含む
文書を解析し、解析木に変換する文書型解析手段と、前記文書型解析手段により生成された解析木から、文書
要素の根から到達可能な文書要素の有向グラフを生成す
るグラフ生成手段と、前記グラフ生成手段により生成された有向グラフを比較
するグラフ比較手段とを具備することを特徴とする文書
型の同定装置。