JPH096784A - 文書型の同定装置 - Google Patents

文書型の同定装置

Info

Publication number
JPH096784A
JPH096784A JP7155941A JP15594195A JPH096784A JP H096784 A JPH096784 A JP H096784A JP 7155941 A JP7155941 A JP 7155941A JP 15594195 A JP15594195 A JP 15594195A JP H096784 A JPH096784 A JP H096784A
Authority
JP
Japan
Prior art keywords
document
document type
type
dtd
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7155941A
Other languages
English (en)
Inventor
Kazuki Yasumatsu
一樹 安松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP7155941A priority Critical patent/JPH096784A/ja
Publication of JPH096784A publication Critical patent/JPH096784A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 文書型を表現するテキストが相違している場
合でも文書型の等価性を判断することができる文書型の
同定装置を提供すること。 【構成】 文書型解析手段により、テキスト形式で表現
された文書型もしくは文書型を含む文書を解析し、解析
木に変換する。次に、正規化手段により、得られた解析
木を正規化して出力する。ここで正規化とは、文書の論
理構造に影響を及ぼさない文書要素の削除、文書要素の
規定した順序での整列、内容モデルでの「出現順序を問
わない」構成子の子の規定した順序での整列を意味す
る。そして、正規化表現比較手段により、得られた正規
化表現の比較を行う。文書型は正規化されていることか
ら、単純な完全一致比較が可能である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ワードプロセッサ、あ
るいは文書処理機能をもつワークステーション等で処理
される文書型をもつ電子文書を対象とする文書データベ
ース管理装置に関し、特に、文書型の同定装置に関す
る。
【0002】
【従来の技術】ワードプロセッサ等により作成された電
子文書は、デジタルデータとして表現されるので、追
加、削除、変更等の編集を容易に行なうことができ、文
書作成効率を高めることができる。また、複数の電子文
書を大容量の記憶装置に蓄積して文書データベース装置
を構築することにより、キーワード検索等により目的と
する文書を電子的に検索することができる。
【0003】従来の電子文書を管理対象とする文書デー
タベース管理装置では、文書の検索を行なう場合には、
ワードプロセッサ等で作られた文書データそのものを蓄
積し、そのデータを使って検索を行なっていた。
【0004】一方、電子文書の作成や編集作業を容易に
行なえるようにするために、電子文書を構造化すること
が行なわれている。文書の構造は、たとえば、文書を構
成する章、見出し、段落などの要素と、その要素間の関
係についての情報、たとえば、章は、下位構造として見
出しと段落を持つなどについての情報により表される。
【0005】
【発明が解決しようとする課題】本発明が解決しようと
する課題を、文書構造の国際規格であるODA(Off
ice Document Architectur
e)(ISO 8613)とSGML(Standar
d Generalized Markup Lang
uage)(ISO 8879; JIS X415
1)を例にとって説明する。
【0006】先ず、本明細書で使用する用語について説
明する。
【0007】「文書構造」という用語は、文書を表現す
る情報構造とする。たとえば、ODAが定める情報構造
は文書構造である。SGMLのサブセッティング(機能
の制限)を行ない、使用する文字コードや図表などに用
いる情報構造を定めたものも文書構造である。なお、S
GMLについては、たとえば、Martin Brya
n著,「SGML入門」,株式会社アスキー,1991
年3月31日発行を参照されたい。
【0008】「文書型」という用語は、文書のテンプレ
ートを示すものとする。文書型は、そこから作られる文
書がどのような論理構造をもち得るか、すなわち、論理
構造中に現われるノードの種類、各ノードがもち得る属
性、各ノードがもち得る下位構造を定める。ODAの共
通論理構造(generic logical str
ucture)や、SGMLをサブセッティングした文
書アーキテクチャにおけるDTD(Document
Type Definition)は、文書型である。
【0009】次に、上述したような、構造化された文書
を検索する文書データベース管理装置を使用する場合の
問題点について説明する。
【0010】構造化文書では、文書の内容は論理構造と
呼ばれ、章、節、図などの複数の文書構成要素からなる
木構造で表現される。
【0011】文書データベース管理装置に対して、検索
の対象となる構造化文書を入力する場合には、文書デー
タベース管理装置側で予め用意されている構造に一致し
た構造の文書を入力する必要がある。すなわち、入力す
べき文書の文書型を構造を同定して、文書データベース
管理装置が想定している文書型と一致しているかどうか
確認する必要がある。
【0012】しかしながら、従来の文書データベース管
理装置においては、文書型を同定する機能がないため、
以下に説明するような不都合が生じていた。
【0013】文書型の同定機能がない場合、文書データ
ベース管理装置を構成するシステムが想定している文書
型と、システムに入力された文書の文書型が異なる場
合、システムは処理を進めることができないためシステ
ムでエラーが発生する。このような場合、ユーザは、エ
ラーの原因がシステム側のバグなのか、入力ミスなのか
が判断できず、適切な対策をとり難い。また、最悪の場
合システムが誤動作する場合がある。
【0014】このような問題が発生する機構を、本願出
願人により平成7年1月6日に特願平7−650号とし
て出願された文書データベース管理装置を例に挙げて説
明する。図1は、同出願に記載されている文書データベ
ース管理装置のブロック図である。
【0015】図1において、1−1は、ユーザと本文書
データベース管理装置の対話を行うための入出力制御部
である。1−2は、文書スキーマを管理する文書スキー
マ管理部である。文書スキーマ管理部1−2には、文書
スキーマがその名前とともに格納されている。文書スキ
ーマ管理部1−2は、文書スキーマの格納のための格納
部、文書スキーマの検索を行うための検索部からなる。
1−3は、文書クラスを管理する文書クラス管理部であ
る。なお、文書クラスと本出願で言う文書型とは同義で
ある。文書クラス管理部1−3には、文書クラスがその
名前とともに格納されている。文書クラス管理部1−3
は、文書クラスの格納のための格納部、文書クラスの検
索を行うための検索部からなる。1−4は、生成規則を
管理する生成規則管理部である。生成規則管理部1−4
には、生成規則が、その規則が適用される文書クラスの
名前と、文書スキーマの名前、および該生成規則が格納
用か取り出し用かの指定とともに格納されている。生成
規則管理部1−4は、生成規則の格納のための格納部、
生成規則の検索を行うための検索部からなる。1−5
は、文書を管理する文書管理部である。文書管理部1−
5は、文書の格納を行う格納部、文書の検索を行う検索
部、文書の取り出しを行う取出部からなる。1−6は、
外部文書から内部文書の生成、あるいは内部文書から外
部文書の生成を行う文書生成部である。文書生成部1−
6は、外部文書の文書構造を解析して内部文書と同じ形
式(内部形式と呼ぶ)の文書にする外部文書解析部、内
部形式の文書から外部文書を作成する外部文書作成部、
生成規則に従って既存の内部形式の文書から新しい内部
形式の文書を作成する内部形式文書変換部からなる。
【0016】図1に示される文書データベース管理装置
を使用して文書を登録する場合、入出力制御部1−1で
指定した文書型と、入力した文書の文書型が異なる場
合、エラーとなるが、システムのエラーなのかユーザの
文書型の指定のエラーなのかが判別できない。また、何
らかの原因でエラーとならず文書が登録された場合に
は、データベースの正当性が損なわれる。
【0017】このため、文書型を扱う文書データベース
管理装置においては、文書型を同定する必要がある。
【0018】文書の文書型はテキスト形式で表現される
ので、最も単純には、文書型を定義しているテキスト同
士を比較することにより、文書型を同定することができ
る。しかしながら、このテキストの比較だけでは、文書
型の等価性を判断できない。この理由を、国際規格であ
るSGML(ISO8879, StandardGe
neralized Markup Languag
e)を例にとって説明する。
【0019】文書型という用語は、文書のひな型を示す
ものである。文書型は、そこから作られる文書がどのよ
うな論理構造をもち得るか、すなわち、論理構造中に現
われる文書要素の種類、各文書要素がもち得る属性、各
文書要素がもち得る下位構造を定める。SGMLでは文
書型を文書中にDTD(Document TypeD
eclaration)として記述可能である。
【0020】DTDは、 <!DOCTYPE 文書型名 [ 文書要素定義 ... ]> という形式で記述する。
【0021】文書要素は、 <!ELEMENT 文書要素名 開始タグ省略化 終了タグ省略
化 内容モデル> という形式で定義する。内容モデルには結合子としてs
eq(,)、and(&)、or(|)と、出現標識p
lus(+)、opt(?)、rep(*)が使用され
る。また、内容モデルはinclusion(+)、e
xclusion(−)で修飾可能である。seqは、
すべての文書要素は指定した順序に現われなければなら
ないことを示す。andは、すべての文書要素はどんな
順序で現われてもよいことを示す。orは1つの文書要
素だけが現われなければならないことを示す。
【0022】ここでは、結合子(seq,and,o
r)と出現標識(plus,opt,rep)をまとめ
て構成子と呼ぶ。
【0023】また、文書要素の属性は、 <!ATTLIST 文書要素名 属性定義...> という形式で記述する。
【0024】ここで、文書型の等価の定義を示す。文書
型Aを満たす全ての文書は文書型Bを満たし、かつ、文
書型Bを満たす全ての文書は文書型Aを満たす場合、文
書型Aと文書型Bは等価である。
【0025】次に、テキスト表現が異なるが、等価であ
る文書型の例を示す。リスト1のDTDは、節(sec
tion)からなる文書である。節は、段落(par
a)と注釈(note)からなる。リスト2のDTDで
は、節の内容(seccont)がパラメータエンティ
ティとしてまとめて定義されているが、リスト1のDT
Dと等価である。
【0026】リスト1: DTDの例 <!DOCTYPE doc [ <!ELEMENT doc - - (section+)> <!ELEMENT section - O (para |note)+> <!ELEMENT para - O (#PCDATA)> <!ELEMENT note - O (#PCDATA)> ]> リスト2: DTDの例 <!DOCTYPE doc [ <!ENTITY % seccont "para|note"> <!ELEMENT doc - - (section+)> <!ELEMENT section - O (%seccont;)+> <!ELEMENT (%seccont;) - O (#PCDATA)> ]> 別の例を示す。リスト3のDTDは、前付け(fron
t)のみからなる文書である。前付けは、タイトル(t
itle)、著者(author)、概要(abstr
act)からなる。リスト4のDTDもリスト3のDT
Dと同様だが、前付けは、著者、タイトル、概要からな
る。構成子and(&)は任意の順序で出現可能なこと
を示すことから、リスト3のDTDとリスト4のDTD
は等価である。
【0027】リスト3: DTDの例 <!DOCTYPE doc [ <!ELEMENT doc - - (front)> <!ELEMENT front - - (title & author & abstract)> <!ELEMENT title - O (#PCDATA)> <!ELEMENT author - O (#PCDATA)> <!ELEMENT abstract - O (#PCDATA)> ]> リスト4: DTDの例 <!DOCTYPE doc [ <!ELEMENT doc - - (front)> <!ELEMENT front - - (author & title & abstract)> <!ELEMENT title - O (#PCDATA)> <!ELEMENT author - O (#PCDATA)> <!ELEMENT abstract - O (#PCDATA)> ]> さらに別の例を示す。リスト5のDTDは、節(sec
tion)からなる文書である。節は、段落(par
a)からなる。リスト6のDTDも同様だが、根(do
c)から到達不可能な文書要素である注釈(note)
が定義されている。リスト6のDTDに含まれるnot
eはそのDTDから作られる文書の構造には影響を及ぼ
さないことから、リスト5のDTDとリスト6のDTD
は等価である。
【0028】リスト5: DTDの例 <!DOCTYPE doc [ <!ELEMENT doc - - (section+)> <!ELEMENT section - O (para)+> <!ELEMENT para - O (#PCDATA)> ]> リスト6: DTDの例 <!DOCTYPE doc [ <!ELEMENT doc - - (section+)> <!ELEMENT section - O (para)+> <!ELEMENT para - O (#PCDATA)> <!ELEMENT note - O (#PCDATA)> ]> 以上のように、単純なテキストの比較では文書型の等価
性を判断することはできない。
【0029】そこで本発明は、文書型を表現するテキス
トが相違している場合でも文書型の等価性を判断するこ
とができる文書型の同定装置を提供することを目的とす
る。
【0030】
【課題を解決するための手段】本発明は、複数のテキス
ト形式で表現された文書型もしくは文書型を含む文書を
入力し、その文書型の同定を行う装置において、テキス
ト形式で表現された文書型もしくは文書型を含む文書を
解析し、解析木に変換する文書型解析手段と、前記文書
型解析手段により生成された解析木を正規化して出力す
る正規化手段と、前記正規化手段により生成された正規
化表現を比較する正規化表現比較手段とを具備すること
を特徴とする。
【0031】また本発明は、複数のテキスト形式で表現
された文書型もしくは文書型を含む文書を入力し、その
文書型の同定を行う装置において、テキスト形式で表現
された文書型もしくは文書型を含む文書を解析し、解析
木に変換する文書型解析手段と、前記文書型解析手段に
より生成された解析木から、文書要素の根から到達可能
な文書要素の有向グラフを生成するグラフ生成手段と、
前記グラフ生成手段により生成された有向グラフを比較
するグラフ比較手段とを具備することを特徴とする。
【0032】
【作用】本発明においては、先ず、文書型解析手段によ
り、テキスト形式で表現された文書型もしくは文書型を
含む文書を解析し、解析木に変換する。次に、正規化手
段により、得られた解析木を正規化して出力する。ここ
で正規化とは、文書の論理構造に影響を及ぼさない文書
要素の削除、文書要素の規定した順序での整列、内容モ
デルでの「出現順序を問わない」構成子の子の規定した
順序での整列を意味する。そして、正規化表現比較手段
により、得られた正規化表現の比較を行う。文書型は正
規化されていることから、単純な完全一致比較が可能で
ある。
【0033】或いは、本発明においては、先ず、文書型
解析手段により、テキスト形式で表現された文書型もし
くは文書型を含む文書を解析し、解析木に変換する。次
に、グラフ生成手段により、解析木から、文書要素の根
から到達可能な文書要素の有向グラフを生成する。この
とき、根から到達不可能な文書要素、すなわち、文書の
論理構造に影響を及ぼさない文書要素は有向グラフには
含まれない。次に、グラフ比較手段により、有向グラフ
の比較を行う。グラフの比較は、ノードの比較とそのノ
ードの子ノード比較を再帰的に行う。子ノードが複数あ
る場合には、すべての子ノードを順に比較する。ただ
し、そのノードが「出現順序を問わない」構成子である
場合、子ノードの順番を問わない比較を行う。
【0034】上述のように、文書型を正規化することに
より、完全一致による文書型の比較が可能となる。ま
た、文書型を有向グラフへ変換することにより、文書の
論理構造に影響を及ぼさない文書要素の削除が可能とな
る。構成子の意味にしたがったグラフの比較により、文
書型の比較が可能となる。
【0035】
【実施例】
〔実施例1〕本実施例では、SGMLのDTDの同定を
例に挙げて説明を行なう。以下では、等価性を判断する
DTDの例として、リスト7のDTDとリスト8のDT
Dを用いる。
【0036】 図2は、上述したリスト7のDTDとリスト8のDTD
の等価性を判断するための、本発明の文書型の同定装置
の第1の実施例を示す構成図である。
【0037】図2において、2−1は、文書型解析部で
ある。文書型解析部2−1では、入力が文書型を含む文
書であれば、まずそこから文書型の定義部分だけを取り
出す。そして、文書型を解析して解析木を生成する。こ
のとき、パラメータエンティティは展開される。文書型
(DTD)の解析の手順は「文書記述言語SGML:J
IS X 4151」等に記載されている。
【0038】2−2は、文書型正規化部である。文書型
正規化部2−2では、文書解析部2−1により生成され
た解析木を正規表現へと変換する。
【0039】2−3は、正規化表現比較部である。正規
化表現比較部2−3では、文書型正規化部2−2により
生成された文書型の正規表現を比較する。この結果が文
書型の同定の結果となる。
【0040】なお、図2に示す同定装置は、図1の文書
データベース管理装置の文書クラス管理部1−3に組み
込むことも可能である。
【0041】次に、図2に示す文書型の同定装置の動作
について説明する。
【0042】先に述べたように、文書型解析部2−1で
は、既知の解析手順に従って文書型を解析して解析木を
生成する。図3は、文書型解析部2−1により生成され
たリスト7のDTDの内容モデルの解析木である。太枠
は文書要素を、細枠は構成子を、2重枠は属性を、点線
枠はSGMLの基本内容を、それぞれ示す。また図4
は、文書型解析部2−1により生成されたリスト8のD
TDの内容モデルの解析木である。凡例は、図3と同様
である。
【0043】次に、文書型正規化部2−2では、文書解
析部2−1により生成された解析木が正規表現へと変換
される。
【0044】図5は、文書型正規化部2−2の処理の流
れを示すフローチャートである。
【0045】文書型正規化部2−2においては、先ず、
根から到達不可能な文書要素が削除され (ステップ5−
1)、次いで内容部が正規化されて (ステップ5−
2)、処理が終わる。
【0046】以下、文書型正規化部2−2の処理の詳細
を説明する。
【0047】図6は、図5に示すフローチャートのステ
ップ5−1を詳細化したフローチャートである。
【0048】先ず、nodeを根ノードとした後 (ステ
ップ6−1)、集合Sを空集合とする (ステップ6−
2)。次に、nodeが集合Sに含まれるか否かを判別
し (ステップ6−3)、含まれない場合には,node
が文書要素であれば集合Sにnodeを追加し (ステッ
プ6−4)、nodeに子ノードが有るか否かを判別す
る (ステップ6−5)。小ノードが有る場合には、全て
の子ノードに対してnodeを子ノードとし、ステップ
6−3を再帰的に実行した後 (ステップ6−6)、集合
Sに含まれない文書要素を削除して (ステップ6−
7)、処理を終わる。また、ステップ6−3でnode
が集合Sに含まれていないと判断されたとき、及び、ス
テップ6−5でnodeに子ノードが無いと判断された
ときには、ステップ6−7に進む。
【0049】上述のステップ6−1〜6−7の処理によ
り、根から到達可能な集合Sが得られる。リスト7、リ
スト8のDTDの場合、いずれも根はdocであり、得
られる集合Sは、(doc, front, titl
e, author, body, section,
para, note, fig)である。リスト7
のDTDのquote(4−6)はSには含まれない。
すなわち、ステップ6−7により、quote(4−
6)は削除される。
【0050】図7は、図5に示すフローチャートのステ
ップ5−2を詳細化したフローチャートである。
【0051】文書要素をアルファベット順にソートした
リストを生成し (ステップ7−1)、elementを
リストの先頭にし (ステップ7−2)、element
をDTDの形式で出力する (ステップ7−3)。このと
き、内容モデルの構成子がandかorであれば、解析
木の子ノードをアルファベット順に出力する。次に、属
性の定義があるか否かを判別し (ステップ7−4)、定
義が有る場合にはelementの属性をDTDの形式
で出力し (ステップ7−5)、elementはリスト
の最後であるか否かを判別する (ステップ7−6)。リ
ストの最後である場合には処理を終了する。リストの最
後でない場合には、elementを次の文書要素にし
た後 (ステップ7−7)、ステップ7−3に戻る。な
お、ステップ7−4で属性の定義がないと判断された場
合には、ステップ7−6に進む。
【0052】上述のステップ7−1〜7−7の処理によ
り、内容部が正規化されて出力される。リスト7、リス
ト8のDTDを正規化した結果をリスト9に示す。
【0053】リスト9: 正規化されたリスト7、リス
ト8のDTD <!ELEMENT author - O (#PCDATA)> <!ELEMENT body - - (section+)> <!ELEMENT doc - - (front?,body) +(fig)> <!ELEMENT fig - O EMPTY> <!ATTLIST fig size NUMBERS #REQUIRED file ENTITY #
REQUIRED> <!ELEMENT front - - (author & title)> <!ELEMENT note - O (#PCDATA)> <!ELEMENT para - O (#PCDATA)> <!ELEMENT section - O (note |para|section)+> <!ELEMENT title - O (#PCDATA)> リスト9に示されるように正規化された結果は等しい。
リスト9のfrontでは、構成子and(&)の部分
が正規化、すなわち、アルファベット順にソートされて
いる。同じく、sectionで、構成子or(|)の
部分が正規化されている。
【0054】正規化表現比較部2−3では、文書型正規
化部2−2により生成された文書型の正規表現を文字列
の完全一致で比較する。本実施例においては文書型を定
義するテキストすなわち文字列が正規化されていること
から、文書型を同定するためには文字列の比較で十分で
ある。
【0055】〔実施例2〕第2の実施例においては、有
向グラフを使用して文書型を同定する。本実施例でも、
SGMLのDTDの同定を行う場合を例に挙げて説明す
る。以下では、等価性を判断するDTDの例として、実
施例1と同じくリスト7のDTDとリスト8のDTDを
用いる。
【0056】図8は、リスト7のDTDとリスト8のD
TDの等価性を判断するための、本発明の文書型の同定
装置の第2の実施例の構成図である。
【0057】図8において、8−1は文書型解析部であ
る。文書型解析部8−1では、入力が文書型を含む文書
であれば、まずそこから文書型の定義部分だけを取り出
す。そして、文書型を解析して解析木を生成する。この
とき、パラメータエンティティは展開される。文書型
(DTD)の解析の手順は「文書記述言語SGML:J
IS X 4151」等に記載されている。
【0058】8−2はグラフ生成部である。グラフ生成
部8−2は、文書解析部8−1により生成された解析木
を有向グラフへと変換する。
【0059】8−3はグラフ比較部である。グラフ比較
部8−3は、グラフ生成部8−2により生成された文書
型の有向グラフを比較する。この結果が文書型の同定の
結果となる。
【0060】なお、図8に示す同定装置は、図1の文書
データベース管理装置の文書クラス管理部1−3に組み
込むことも可能である。
【0061】次に、図2に示す文書型の同定装置の動作
について説明する。
【0062】文書型解析部8−1では、既知の解析手順
に従って文書型を解析して解析木を生成する。文書型解
析部8−1により生成されたリスト7とリスト8のDT
Dの内容モデルの解析木は、実施例1と同様、図3と図
4である。
【0063】グラフ生成部8−2では、図3と図4の解
析木より、図9と図10の有向グラフを生成する。図9
は、グラフ生成部8−2により生成されたリスト7のD
TDの有向グラフである。図10は、グラフ生成部8−
2により生成されたリスト8のDTDの有向グラフであ
る。根から辿れない文書要素quoteは、有向グラフ
には含まれない。
【0064】グラフ比較部8−3は、グラフ生成部8−
2により生成された文書型の有向グラフを比較する。
【0065】図11は、グラフ比較部8−3の処理の概
略の流れを示すフローチャートである。
【0066】先ず、node1,node2をグラフ
1,グラフ2の根ノードとし (ステップ11−1)、リ
ストL1,L2を空リストとする (ステップ11−
2)。次に、node1がリストL1に含まれるか否か
を判別し (ステップ11−3)、含まれる場合には、両
方のグラフは等しいと判断する。node1がリストL
1に含まれない場合には、リストL1,L2の最後にn
ode1,node2を追加する (ステップ11−
4)。次に、node1が構成子であるか否かを判別し
(ステップ11−5)、構成子である場合には文書要素
の比較を行い (ステップ11−6)、文書要素が等しい
場合には、両方のグラフは等しいと判断し、文書要素が
等しくない場合には、両方のグラフは等しくないと判断
する (ステップ11−8)。また、ステップ11−5
で、node1が構成子であると判断された場合には、
構成子の比較を行い (ステップ11−7)、構成子が等
しい場合には、両方のグラフは等しいと判断し、構成子
が等しくない場合には、両方のグラフは等しくないと判
断する (ステップ11−9)。
【0067】図12は、図11のフローチャートのステ
ップ11−6「文書要素の比較」を詳細化したフローチ
ャートである。
【0068】先ず、node2が構成子であるか否かを
判別し (ステップ12−1)、構成子である場合には、
両方のグラフは等しくないと判断する。node2が構
成子でない場合には、node1とnode2の内容モ
デル以外の比較を行い (ステップ12−2)、それらが
等しいか否かを判断する (ステップ12−3)。等しく
ない場合には、両方のグラフは等しくないと判断する。
ステップ12−3で等しいと判断された場合には、no
de1,node2の内容モデルの根ノードをnode
1,node2とし、ステップ11−3を再帰的に実行
する (ステップ12−4)。ステップ12−4の処理の
結果、等しくないと判断された場合には(ステップ12
−5)、両方のグラフは等しくないと判断する。ステッ
プ12−5で等しいと判断された場合には、node
1,node2のinclusionの根ノードをno
de1,node2とし、ステップ11−3を再帰的に
実行する (ステップ12−6)。ステップ12−6の処
理の結果、等しくないと判断された場合には (ステップ
12−7)、両方のグラフは等しくないと判断する。ス
テップ12−7で等しいと判断された場合には、nod
e1,node2のexclusionの根ノードをn
ode1,node2とし、ステップ11−3を再帰的
に実行する (ステップ12−8)。ステップ12−6の
処理の結果、等しくないと判断された場合には (ステッ
プ12−7)、両方のグラフは等しくないと判断し、等
しいと判断された場合には、両方のグラフは等しいと判
断する。図13は、図11のフローチャートのステップ
11−7「構成子の比較」を詳細化したフローチャート
である。
【0069】先ず、node2が構成子であるか否かを
判別し (ステップ13−1)、構成子でない場合には、
両方のグラフは等しくないと判断する。node2が構
成子である場合には、node1とnode2の構成子
タイプの比較を行い (ステップ13−2)、それらが等
しいか否かを判断する (ステップ13−3)。等しくな
い場合には、両方のグラフは等しくないと判断する。等
しい場合には、node1の構成子のタイプはandか
orかを判別し (ステップ13−4)、andでもor
でもなかった場合には、mode1の全ての子ノードと
mode2の全ての子ノードとの順序を問う比較を行い
(ステップ13−5)、等しいと判断された場合には、
両方のグラフは等しいと判断し、等しくないと判断され
た場合には、両方のグラフは等しくないと判断する (ス
テップ13−7)。また、ステップ13−4で、and
かorのいずれかであると判断された場合には、mod
e1の全ての子ノードとmode2の全ての子ノードと
の順序を問わない比較を行い (ステップ13−6)、等
しいと判断された場合には、両方のグラフは等しいと判
断し、等しくないと判断された場合には、両方のグラフ
は等しくないと判断する (ステップ13−8)。図13
のステップ13−4,13−5,13−6で構成子のタ
イプにしたがった比較を行うことにより、正しい比較を
行う。
【0070】参考として、図11、図12、図13のフ
ローチャートに相当するアルゴリズムをリスト10に示
す。なお、このリストはC言語を模した擬似言語により
表現されている。
【0071】compare_nodeは、図11のア
ルゴリズムを示す。compare_element
は、図12のアルゴリズムを示す。compare_c
onstructorは、図13のアルゴリズムを示
す。compare_ordered_childre
nは13−5のアルゴリズムを、compare_un
ordered_childrenは13−6のアルゴ
リズムをそれぞれ示す。
【0072】 リスト10: 有向グラフの比較のアルゴリズム compare _dtd(DTD1: dtd, DTD2: dtd) { rootnode1 = DTD1の有向グラフの根ノード rootnode2 = DTD2の有向グラフの根ノード L1: 空リスト L2: 空リスト return compare_node(rootnode1, rootnode2, L1, L2) == TRUE } compare _node(N1: node, N2: node, L1:list, L2: list) { if N1 はL1に含まれる(N1 は既に調べた) then return TRUE else L1の最後に N1 を追加する L2の最後に N2 を追加する if N1 は構成子である then return compare_constructor(N1, N2, L1, L2) else return compare_element(N1,N2, L1, L2) } compare _constructor(N1: node, N2: node, L1: list, L2: list) { if N2 は構成子でない then return FALSE else if N1 の構成子の種類とN2の構成子の種類が異なる then return FALSE else if N1 の構成子がand かorである( 子ノードの順序を問わな い) then return compare_unordered _children(N1,N2,L1,L2 ) else return compare_ordered _children(N1,N2,L1,L2) } compare _element(N1: node, N2: node, L1: list, L2: list) { if N2 は構成子である then return FALSE else N1の内容モデル以外の情報( 属性を含む) とN2の内容モデル以外の 情報を比較する if 異なる then return FALSE else cn1 = N1の内容モデルの根ノード cn2 = N2の内容モデルの根ノード if compare_node(cn1, cn2, L1, L2) == FALSE then return FALSE else if N1 がinclusion を持たない then if N2 がinclusion を持つ then return FALSE else 何もしない else if N2 がinclusion を持たない then return FALSE else in1 = N1の inclusionの根ノード in2 = N2の inclusionの根ノード if compare_node(in1, in2, L1, L2) = = FALSE then return FALSE else 何もしない if N1 がexclusion を持たない then if N2 がexclusion を持つ then return FALSE else 何もしない else if N2 がexclusion を持たない then return FALSE else en1 = N1の exclusionの根ノード en2 = N2の exclusionの根ノード if compare_node(en1, en2, L1, L2) = = FALSE then return FALSE else 何もしない return TRUE } compare _ordered _children(N1:node, N2:node, L1:list, L2:list) { if N1 の子ノードの数とN2の子ノードの数は等しくない then return FALSE else C1i: N1 の子ノード (0 <= i < n) C2i: N2 の子ノード (0 <= i < n) for i = 0...n-1 do if compare_node(C1i, C2i, L1, L2) == FALSE then return FALSE else 何もしない return TRUE } compare _unordered _children(N1:node, N2:node, L1:list, L2:list){ if N1 の子ノードの数とN2の子ノードの数は等しくない then return FALSE else C1i: N1 の子ノード (0 <= i < n) for i = 0...n-1 do if C1iは L1 に含まれる(C1iは既に調べた) then index = C1i の L1 内での順番 c2 = L2 のindex 番目の要素 if c2 はN2の子ノードに含まれない then return FALSE else 何もしない else found = FALSE C2j: N2 の子ノード (0 <= j < n) for j = 0...n-1 do if found == TRUE then 何もしない else L1' = L1の コヒ゜ー L2' = L2の コヒ゜ー if compare_node(C1i, C2j, L1', L2') == TRUE then found = TRUE L1 = L1' L2 = L2' else 何もしない if found == FALSE then return FALSE else 何もしない return TRUE }
【0073】
【発明の効果】以上のように、本発明では、文書型の同
定機能を提供することにより、文書型をもつ文書の処理
装置おいて、ユーザに入力のエラーを正しく通知するこ
とが可能となる。また、処理装置の思わぬ誤動作を避け
ることが可能となる。
【図面の簡単な説明】
【図1】 従来の文書データベース装置の構成例を示す
ブロック図である。
【図2】 本発明の文書型の同定装置の第1の実施例を
示す構成図である。
【図3】 文書型解析部2−1により生成されたリスト
7のDTDの内容モデルの解析木である。
【図4】 文書型解析部2−1により生成されたリスト
8のDTDの内容モデルの解析木である。
【図5】 文書型正規化部の処理の流れを示すフローチ
ャートである。
【図6】 図5に示すフローチャートのステップ5−1
を詳細化したフローチャートである。
【図7】 図5に示すフローチャートのステップ5−2
を詳細化したフローチャートである。
【図8】 本発明の文書型の同定装置の第2の実施例の
構成図である。
【図9】 図9は、グラフ生成部8−2により生成さ
れたリスト7のDTDの有向グラフである。
【図10】 グラフ生成部8−2により生成されたリス
ト8のDTDの有向グラフである。
【図11】 グラフ比較部8−3の処理の流れを示すフ
ローチャートである。
【図12】 図11のフローチャートのステップ11−
6を詳細化したフローチャートである。
【図13】 図11のフローチャートのステップ11−
7を詳細化したフローチャートである。
【符号の説明】
1−1…入出力制御部、1−2…スキーマ管理部、1−
3文書クラス管理部、1−4…生成規則管理部、1−5
…文書管理部、1−6…文書生成部、2−1…文書型解
析部、2−2…文書型正規化部、2−3…正規表現比較

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】複数のテキスト形式で表現された文書型も
    しくは文書型を含む文書を入力し、その文書型の同定を
    行う装置において、 テキスト形式で表現された文書型もしくは文書型を含む
    文書を解析し、解析木に変換する文書型解析手段と、 前記文書型解析手段により生成された解析木を正規化し
    て出力する正規化手段と、 前記正規化手段により生成された正規化表現を比較する
    正規化表現比較手段とを具備することを特徴とする文書
    型の同定装置。
  2. 【請求項2】複数のテキスト形式で表現された文書型も
    しくは文書型を含む文書を入力し、その文書型の同定を
    行う装置において、 テキスト形式で表現された文書型もしくは文書型を含む
    文書を解析し、解析木に変換する文書型解析手段と、 前記文書型解析手段により生成された解析木から、文書
    要素の根から到達可能な文書要素の有向グラフを生成す
    るグラフ生成手段と、 前記グラフ生成手段により生成された有向グラフを比較
    するグラフ比較手段とを具備することを特徴とする文書
    型の同定装置。
JP7155941A 1995-06-22 1995-06-22 文書型の同定装置 Pending JPH096784A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7155941A JPH096784A (ja) 1995-06-22 1995-06-22 文書型の同定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7155941A JPH096784A (ja) 1995-06-22 1995-06-22 文書型の同定装置

Publications (1)

Publication Number Publication Date
JPH096784A true JPH096784A (ja) 1997-01-10

Family

ID=15616874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7155941A Pending JPH096784A (ja) 1995-06-22 1995-06-22 文書型の同定装置

Country Status (1)

Country Link
JP (1) JPH096784A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092213A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 木構造を管理するためのプログラム、木構造管理方法及び木構造管理装置
JP2008191833A (ja) * 2007-02-02 2008-08-21 Fujitsu Ltd 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092213A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 木構造を管理するためのプログラム、木構造管理方法及び木構造管理装置
JP2008191833A (ja) * 2007-02-02 2008-08-21 Fujitsu Ltd 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置

Similar Documents

Publication Publication Date Title
US11989519B2 (en) Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US6658377B1 (en) Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text
US8805861B2 (en) Methods and systems to train models to extract and integrate information from data sources
EP1462948A1 (en) Ordering component for sentence realization for a natural language generation system, based on linguistically informed statistical models of constituent structure
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
TW201439927A (zh) 提供資訊差距之指示之問答系統
US20190354636A1 (en) Methods and Systems for Comparison of Structured Documents
JP2009543255A (ja) パラレル・データを特定するために階層的かつ順次的なドキュメント・ツリーを対応付けること
JP2000020524A (ja) 対訳文検索装置
JP5315368B2 (ja) 文書処理装置
US8296319B2 (en) Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded
JP2007012059A (ja) 文書プロセッサ
CN115438195A (zh) 一种金融标准化领域知识图谱的构建方法及装置
CN113792542A (zh) 一种融合句法分析和语义角色剪枝的意图理解方法
JP2008021270A (ja) データ変換装置および方法、データベース管理装置および方法、ならびにデータベース検索システムおよび方法
JPH11272710A (ja) 情報検索システム、情報検索方法および記録媒体
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
JP2019083040A (ja) 文章生成のためのデータを生成するシステム及び方法
JPH096784A (ja) 文書型の同定装置
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
CN114242256A (zh) 一种医疗数据的采集方法
JP2001290801A (ja) 構造文書化システム,構造文書化プログラム,及び、コンピュータ可読格納媒体
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR20220041337A (ko) 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040514

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041001