JP3724847B2 - 構造化文書差分抽出方法および装置 - Google Patents

構造化文書差分抽出方法および装置 Download PDF

Info

Publication number
JP3724847B2
JP3724847B2 JP16139895A JP16139895A JP3724847B2 JP 3724847 B2 JP3724847 B2 JP 3724847B2 JP 16139895 A JP16139895 A JP 16139895A JP 16139895 A JP16139895 A JP 16139895A JP 3724847 B2 JP3724847 B2 JP 3724847B2
Authority
JP
Japan
Prior art keywords
structured document
document
structured
difference
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP16139895A
Other languages
English (en)
Other versions
JPH08329079A (ja
Inventor
ゆき 青山
純一 東野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP16139895A priority Critical patent/JP3724847B2/ja
Priority to US08/657,306 priority patent/US5956726A/en
Priority to EP96108939A priority patent/EP0747836B1/en
Priority to DE69634459T priority patent/DE69634459T2/de
Publication of JPH08329079A publication Critical patent/JPH08329079A/ja
Priority to US09/326,579 priority patent/US6098071A/en
Priority to US09/604,261 priority patent/US6526410B1/en
Application granted granted Critical
Publication of JP3724847B2 publication Critical patent/JP3724847B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、電子ファイルとして記憶されている構造化文書間の差分文字列を抽出することができるワープロ等の文書処理装置における構造化文書差分文字列抽出方法及び装置に関する。
【0002】
【従来の技術】
構造化文書とは、文書の論理的な構造の情報、例えば”文書中のこの部分は章である”、”この部分はタイトルである”といった情報が埋め込まれた文書のことである。
また、文書間の差分抽出とは、文書を構成する段落、行、文字等の要素を単位に、これらの要素がもっともよく一致する組合せを検出し、一致しない要素を差分として抽出することである。例えば、差分抽出の対象とする二つの文書を「ABCDEFG」と「ACDAEFH」とした場合、要素をA,B,C,D,E,F,G,Hとして二つの文書を要素単位で比較した時、もっともよく一致する組合せとして”ACDEFが対応する”と検出し、また差分として”Bが削除”、”AがDの後に挿入”、”GがHに変更”と抽出することである。
従来の差分抽出方式には、特開平2−255964号公報などがあり、句読点、行、単語、文字などを単位に比較を行っている。この方式を構造化文書に適用すると、文書中に埋め込まれた論理的な構造を表す文字列も、文書中の他の文字列と同様に比較を行う。
【0003】
【発明が解決しようとする課題】
しかしながら、構造化文書を通常の文書と同様の手段で差分抽出した場合、結果が文書の論理構造と合わず文書編集者にとって適切でない場合がある。次に例を示し説明する。
【0004】
(例1)
差分抽出において文書の論理構造が合わないもの同士を対応付けてしまい、文書編集者にとって適切でない抽出結果となる場合を、図3の構造化文書を例にとり説明する。
図3の構造化文書はSGML(Standard Generalized Markup Language)で記述されたもので、<A>と</A>で挟まれた文字列が、論理構造Aに属していることを意味する。すなわち、図3(a)の<氏名>と</氏名>で挟まれた文字列“平成太郎”が、論理構造“氏名”に属する。
また、この論理構造を表すマークのことをタグと呼び、<A>と</A>はそれぞれ開始タグ、終了タグと呼ぶ。
従来の手法により、図3の(a),(b)二つの構造化文書の差分文字列を抽出した結果を図4に示す。
図4(b)は、図3(a)の構造化文書を基準として図3(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図4(a)は、図3(b)の構造化文書を基準として図3(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図4を見ると、<氏名>の“平成”と<発信日>の“平成”が差分として抽出されていない。これは、“平成”同士が一致し、対応付けられてしまったことによる。しかし、この論理構造の合わない“平成”の対応付けは、文書編集者にとって意味がないことは明らかである。
【0005】
(例2)
文書の構造の挿入が起きたために、差分抽出において文書の構造にまたがって文字列を対応付けてしまい、文書編集者にとって適切でない抽出結果となる場合を、図5の構造化文書を例にとり説明する。図5は、(a)の第1章の前に、章を一つ挿入したものが(b)となっている。
従来の手法により、図5の(a),(b)二つの構造化文書の差分文字列を抽出した例を図6示す。
図6は図4の場合と同様であり、図6(b)が図5(a)を基準として図5(b)との差分を取った場合の差分文字列の抽出結果であり、図6(a)が図5(b)を基準として図5(a)との差分を取った場合の差分文字列の抽出結果である。
図6を見ると、(a)の第1章は(b)の第2章と同じであるにもかかわらず、(a)の第1章が、(b)の第1章と第2章にまたがって対応している。これも、文書編集者に対しては適切でない。
ここで、図5(a)における「構造化文書」と同じ文字列が図5(b)には2度現われているため、図6(b)では、最初の「構造化文書」は一致とされ、2度目の「構造化文書」は不一致とされ、差分として抽出される。このことは、以下の差分抽出において共通した取扱いである。
【0006】
(例3)
文書の論理的な意味は同じであるのに、論理構造を表すマークが異なるためその中身同士が対応付けられず、文書編集者にとって適切でない抽出結果となる場合を、図7の構造化文書を例にとり説明する。
図7では、文書の論理的な意味は項目であるのに、最初に出てくる項目だけ<初項目>というタグを付けている。
従来の手法により、図7の(a),(b)二つの構造化文書の差分文字列を抽出した例を図8示す。
図8は図4の場合と同様であり、図8(b)が図7(a)を基準として図7(b)との差分を取った場合の差分文字列の抽出結果であり、図8(a)が図7(b)を基準として図7(a)との差分を取った場合の差分文字列の抽出結果である。
図8を見ると、<初項目>同士が対応付けられ、その中身の文字列が比較されていることが分かる。文書編集者にとっては<初項目>と<項目>の論理的な意味は等しく、タグの中身を優先して対応させるべきである。
そこで、構造化文書間の差分を抽出する場合、構造化文書の論理的な意味や構造を考慮した比較が必要となるが、従来の方式では、論理的な構造を表す文字列も文書中の他の文字列と同様に比較を行うため、実現できなかった。
【0007】
本発明の目的は、構造化文書の論理的な意味や構造を考慮し、文書編集者の感覚に合った適切な構造化文書の差分を抽出することにある。
【0008】
【課題を解決するための手段】
上記目的を達成するため、本発明は、
記憶装置と処理装置を備え、前記記憶装置に削除、挿入、または変更などの編集を実施する前後の構造化文書を記憶し、前記処理装置により前記編集前後の両構造化文書の一致しない文字列を差分として抽出する構造化文書差分抽出方法において、
構造化文書を文書編集して前記記憶装置に記憶し、前記記憶装置から読み出した編集前後の各構造化文書の論理構造を、編集前後の各構造化文書の論理構造に対して設定された比較基準に基づき構造化文書解析し、該構造化文書解析の結果に従い、前記比較基準を満たすよう構造化文書間の差分を抽出するようにしている。
前記比較基準を、論理構造を示すタグと該タグに対する基準の種類からなるテーブルとするようにしている。
さらに、前記比較基準におけるタグに対する基準の種類として、
(1)タグ自身が一致したときのみその中身を比較するタグ、
(2)比較する際、そのタグの中身の差異を無視するタグ、
(3)論理的な意味として同じタグの組、
(4)中身を比較しないタグの組、
の4つの基準の種類を定義しておくようにしている。
さらに、前記構造化文書解析により文書の構造を表わす文書木を作成し、該文書木のノード単位で構造化文書間の差分の抽出を行ない、一致しなかったノード同士に対して文字単位で差分を抽出するようにしている。
さらに、前記構造化文書解析によって文書の構造を表す文書木を作成する際に、前記比較基準に応じて、文書木のノードの割り当て方法を変えるようにしている。
また、記憶装置と処理装置を備え、前記記憶装置に削除、挿入、または変更などの編集を実施する前後の構造化文書を記憶し、前記処理装置により前記編集前後の両構造化文書の一致しない文字列を差分として抽出する構造化文書差分抽出装置において、
前記処理装置は、構造化文書を編集して前記記憶装置に記憶する文書編集手段と、前記記憶装置から読み出した編集前後の各構造化文書の論理構造を、編集前後の各構造化文書の論理構造に対して設定された比較基準に基づき構造化文書解析する構造化文書解析手段と、該構造化文書解析の結果に従い、前記比較基準を満たすよう構造化文書間の差分を抽出する構造化文書差分抽出手段を備えるようにしている。
前記比較基準を、論理構造を示すタグと該タグに対する基準の種類からなるテーブルとするようにしている。
さらに、前記比較基準におけるタグに対する基準の種類として、
(1)タグ自身が一致したときのみその中身を比較するタグ、
(2)比較する際、そのタグの中身の差異を無視するタグ、
(3)論理的な意味として同じタグの組、
(4)中身を比較しないタグの組、
の4つの基準の種類を定義しておくようにしている。
さらに、前記構造化文書解析手段は文書の構造を表わす文書木を作成し、前記構造化文書差分抽出手段は作成された文書木のノード単位で構造化文書間の差分の抽出を行ない、一致しなかったノード同士に対して文字単位で差分を抽出するようにしている。
さらに、前記構造化文書解析手段は文書の構造を表す文書木を作成する際に、前記比較基準に応じて、文書木のノードの割り当てを変更するようにしている。
【0009】
【作用】
上記手段により、本発明においては、構造化文書を編集し、編集された構造化文書の論理構造を構造化文書解析装置で解析し、その構造に応じて差分抽出の際の比較基準を設け、比較基準を満たすように差分文字列を抽出するので、論理構造に応じた、編集者の感覚に合う差分が抽出される。
また、文書木のノード単位で差分抽出を行い、一致しなかったノード同士を文字単位で差分を抽出することで、構造にまたがった差分も抽出されない。
【0010】
【実施例】
以下、本発明の実施例を説明する。
本実施例の構成を図1に示す。
図1において、101はCPU、102は端末装置、103は文書を記憶するための記憶装置であり、CPU101には、文書の編集を行う文書編集プログラム104と、構造化文書を木構造に変換する構造化文書解析プログラム105と、構造化文書間の一致しない部分を差分として抽出する構造化文書差分抽出プログラム106と、差分抽出での比較基準を格納する比較基準テーブル107が設定されている。
本実施例は、構造化文書としてSGML文書を例にとる。SGMLは、マーク付けされた構造化文書としてISOの世界標準として定められた文書記述言語のことである。また、SGML文書はDTD(文書型定義)によって、その論理構造が予め定義される。
【0011】
本実施例の具体的な処理手順を、図2のフローチャートを用いて説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。
手順202:
比較対象であるSGML文書のDTDに対応した、比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
この比較基準テーブルは、次の4つの比較基準に該当するタグのテーブルである。
(1)恒等タグ:タグ自身が一致したときのみ、その中身(開始タグと終了タグの間に挾まれる文字)を比較するタグである。
(2)無視タグ:比較する際、そのタグの中身の差異を無視するタグである。
(3)同等タグ:論理的な意味として同じタグの組である。
(4)比較禁止タグ:中身を比較しないタグの組である。
【0012】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、構造化文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
このとき、文書木の各ノードに割り当てる要素は次のルールを用いて行う。
(ルール1):タグは1つのノードに割り当てる。
(ルール2):開始タグと終了タグの間に挟まれた文字列は、開始タグの子ノードに割り当てる。
(ルール3):終了タグは、開始タグの子ノードに割り当てる。
(ルール4):恒等タグで挟まれた文字列は、開始タグ、終了タグを含めて1つのノードに割り当てる。
(ルール5):無視タグおよび無視タグで挟まれた文字列は、ノードに割り当てない。
(ルール6):同等タグは、同じタグ名に変換して、ノードに割り当てる。
【0013】
手順204:
文書木のノードを単位に差分抽出を行う。このとき、比較するタグ同士が比較禁止タグであれば、そのノード以下(子ノード)は比較しない。
手順205:
一致しなかったノードのみ、今度は文字単位で差分抽出を行う。ただし、恒等タグのノードはノードの先頭文字であるタグが一致した場合のみ、文字単位の比較を行う。手順204で比較しなかった無視タグもこの段階で比較を行う。
手順206:
端末装置102に差分結果の表示を行う。
【0014】
(処理例1)
実施例の具体的な処理例として、恒等タグをもつ場合を図3の文書例で説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。図3の(a)から図3の(b)を編集したとする。
手順202:
比較対象であるSGML文書のDTDに対応した比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
図3からは、例えば図9のような比較基準テーブルを作成する。すなわち、
<氏名>および<発信日>を恒等タグとして定義し、タグ同士が一致しない限り、文字列同士を対応させないという意味を持つ。
【0015】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、構造化文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
実施例で説明したルールを適用すると、図3の文書(a),(b)から、図9の比較基準テーブルを参照することにより、図10の文書木(a),(b)ができる。
図10中の1001、1002は、(ルール4)によって、タグと中身の文字列が合わせて1つのノードに割り当てられている。
【0016】
手順204:
文書木のノードを単位に差分抽出を行う。
ノードを単位に比較を行うため、恒等タグである<氏名>および<発信日>は、タグと中身の文字列が両者とも一致しない限り、対応付けられることはない。
この場合、タグが一致しないため、タグおよびその中身が差分として抽出される。
手順205:
一致しなかったノードのみ、今度は文字単位で差分抽出を行う。ただし、恒等タグのノードはノードの先頭文字であるタグが一致した場合のみ、文字単位の比較を行う。
【0017】
手順206:
端末装置102に差分結果の表示を行う。
図3の文書(a)との文書(b)の差分抽出を行った結果例を図11に示す。
図11(b)は、図3(a)の構造化文書を基準として図3(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図11(a)は、図3(b)の構造化文書を基準として図3(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図11(b)では、ノード1001とノード1002におけるタグ〈記号〉とタグ〈発信日〉が一致しないので、ノード1002全体の「〈発信日〉平成6年11月二十日〈/発信日〉が差分として抽出され、また、図3(a)には図3(b)における「お元気ですか」の記載が無いため、「お元気ですか」が差分として抽出される。
【0018】
以上の手順により差分抽出を行うと、タグが一致しないと中身を比較しても意味のないものを恒等タグとして登録しておけば、文書の論理構造が合わないもの同士を対応付けることがなくなり、編集者に対して、より適切な差分抽出結果を提示することが出来る。
【0019】
(処理例2)
実施例の具体的な処理例の2番目として、恒等タグおよび無視タグをもつ場合、および構造のずれが起きている場合を図5の文書例で説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。図5の(a)から図5の(b)を編集したとする。
【0020】
手順202:
比較対象であるSGML文書のDTDに対応した、比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
図5の例では、例えば、図12のような比較基準テーブルを作成する。すなわち、<著者名>を恒等タグとして定義する。この場合、前述したように、タグ同士が一致した場合のみ、文字列同士を比較する。また、<章番号>を無視タグとして定義する。この場合、章番号の違いは無視する(差分抽出に影響を与えない)。
【0021】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、SGML文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
実施例で説明したルールを適用すると、図5の文書(a),(b)から、図12の比較基準テーブルを参照することにより、図13の文書木(a),(b)ができる。無視タグである<章番号>は、(ルール5)によって、ノードとして割り当てられていない。
【0022】
手順204:
文書木のノードを単位に差分抽出を行う。
無視タグはノードとして存在しないため、比較されず、全体の差分抽出に影響を与えることはない。
手順205:
一致しなかったノードのみ、今度は文字列単位で差分抽出を行う。手順204で比較しなかった無視タグおよびその中身もこの段階で比較を行う。
【0023】
手順206:
端末装置102に差分結果の表示を行う。
図5の文書(a)との文書(b)の差分抽出を行った結果例を図14に示す。
図14(b)は、図5(a)の構造化文書を基準として図5(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図14(a)は、図5(b)の構造化文書を基準として図5(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図5(a)の構造化文書を基準として図5(b)の構造化文書との差分を取り、図14(b)の差分文字列の抽出結果を得た場合について説明すると、
手順204における文書木のノードを単位にした差分抽出では、図13(a)、(b)において、〈論文〉,〈/論文〉と、〈著者名〉平成太郎〈/著者名〉と、〈章〉構造化文書の差分抽出方式〈/章〉は一致と判断され、図14(b)では一致部分として表示されている。
次に、手順205では、手順204で〈章〉構造化文書の差分抽出方式〈/章〉は一致と判断されているので、この一致部分に係る〈章番号〉,〈/章番号〉は一致と判断され、「第2章」は「第1章」とは一致しないので差分として抽出され、図14(b)のように表示される。
また、手順204において、図13(b)の〈章〉構造化文書とは?〈/章〉は不一致と判断されるので、この〈章〉構造化文書とは?〈/章〉と、この不一致部分に係る〈章番号〉第1章〈/章番号〉は差分として抽出され、図14(b)のように表示される。
【0024】
以上の手順により差分抽出を行うと、まず文書木のノード単位、すなわち構造単位で比較を行っているため、例えば、ノード1301と1302はこの時点で対応付けられる。よって、図6のような構造にまたがった対応付けは起こらないことが分かる。また、文書木のノード単位の比較では、無視タグの比較を行わないため、無視タグの中身の差異が全体の差分抽出に影響を与えないことが分かる。
【0025】
(処理例3)
実施例の具体的な処理例の3番目として、恒等タグおよび同等タグをもつ場合を図7の文書例で説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。図7の(a)から図7の(b)を編集したとする。
【0026】
手順202:
比較対象であるSGML文書のDTDに対応した、比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
図7の例では、例えば、図15のような比較基準テーブルを作成する。すなわち、<著者名>を恒等タグとして定義する。この場合、タグ同士が一致しない限り、文字列同士を対応させない。また、<項目>と<初項目>を同等タグと定義する。この場合、<項目>と<初項目>は同じ論理構造とされる。
【0027】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、SGML文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
実施例で説明したルールを適用すると、図7の文書(a),(b)から、図15の比較基準テーブルを参照することにより、図16の文書木(a),(b)ができる。
図16中の1601、1602、1603は(ルール6)によって、同じタグ名に変換されている。
【0028】
手順204:
文書木のノードを単位に差分抽出を行う。同等タグは同じタグ名になっているため差分として抽出されない。
手順205:
一致しなかったノードのみ、今度は文字単位で差分抽出を行う。
【0029】
手順206:
端末装置102に差分結果の表示を行う。
図7の文書(a)と(b)の差分抽出を行った例を図17に示す。
図17(b)は、図7(a)の構造化文書を基準として図7(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図17(a)は、図7(b)の構造化文書を基準として図7(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図7(a)の構造化文書を基準として図7(b)の構造化文書との差分を取り、図17(b)の差分文字列の抽出結果を得た場合について説明すると、
手順204における文書木のノードを単位にした差分抽出では、図16(a)、(b)において、〈論文〉,〈/論文〉と、〈著者名〉平成太郎〈/著者名〉と、〈項目〉構造化文書の差分抽出方式〈/項目〉は一致と判断され、図17(b)では一致部分として表示されている。
次に、手順205では、手順204で〈項目〉構造化文書とは?〈/項目〉は不一致と判断されているので、この不一致部分について文字単位で差分抽出を行ない、〈項目〉構造化文書とは?〈/項目〉は差分として抽出され、図17(b)のように表示される。
【0030】
以上の手順により差分抽出を行うと、タグ名が違っても、文書の論理構造が同じもの同士は、対応付けられることが分かる。
【0031】
(処理例4)
実施例の具体的な処理例の4番目として、比較禁止タグをもつ場合を図18の文書例で説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。図18の(a)から図18の(b)を編集したとする。
【0032】
手順202:
比較対象であるSGML文書のDTDに対応した、比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
図18の例では、例えば、図19のような比較基準テーブルを作成する。すなわち、<差出人>と<受取人>とは比較禁止タグとする。この場合、<差出人>と<受取人>は中身を比較しない。
【0033】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、SGML文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
実施例で説明したルールを適用すると、図18の文書(a),(b)から、図19の比較基準テーブルを参照することにより、図20の文書木(a),(b)ができる。
【0034】
手順204:
文書木のノードを単位に差分抽出を行う。<差出人>と<受取人>は比較するタグ同士が比較禁止タグなので、そのノード以下(子ノード)は比較しない。
手順205:
一致しなかったノードのみ、今度は文字単位で差分抽出を行う。
【0035】
手順206:
端末装置102に差分結果の表示を行う。
図18の文書(a)と(b)の差分抽出を行った例を図21に示す。
図21(b)は、図18(a)の構造化文書を基準として図18(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図21(a)は、図18(b)の構造化文書を基準として図18(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図18(a)の構造化文書を基準として図18(b)の構造化文書との差分を取り、図21(b)の差分文字列の抽出結果を得た場合について説明すると、
手順204における文書木のノードを単位にした差分抽出では、図18(a)、(b)において、〈メモ〉,〈/メモ〉は一致と判断され、〈受取人〉,〈/受取人〉とその中身である〈所属〉○○銀行〈/所属〉〈氏名〉平成太郎〈/氏名〉は、〈差出人〉と〈受取人〉とが比較禁止タグであるので差分とされ、〈本文〉こんにちは。お元気ですか?〈/本文〉は不一致と判断される。
次に、手順205では、手順204で〈本文〉こんにちは。お元気ですか?〈/本文〉は不一致と判断されているので、この不一致部分について文字単位で差分抽出を行ない、「お元気ですか?」が差分として抽出される。
この結果、図21(b)のように表示される。
【0036】
以上の手順により差分抽出を行うと、中身を比較しないタグ同士を比較禁止タグとして登録しておけば、そのノード以下(子ノード)は比較されず、<差出人>と<受取人>の中身の所属や名前が対応付けられることがなく、編集者に対して、より適切な差分抽出結果を提示することが出来る。
【0037】
【発明の効果】
構造化文書の論理構造に応じた比較基準を定義し、これを満たすよう差分を抽出することで、論理構造の意味に応じた、編集者の感覚に合う差分が抽出され、また、構造を表す文書木のノード単位で差分抽出を行い、一致しなかったノード同士を文字単位で差分を抽出することで、構造にまたがった差分も抽出されないため、編集者は論理構造にあった差分を把握することが出来、構造化文書の編集の効率があがる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す図である。
【図2】本発明の実施例の処理手順を示す図である。
【図3】構造化文書の第一の例を示す図である。
【図4】構造化文書の第一の例を従来の方式で差分抽出した結果例を示す図である。
【図5】構造化文書の第二の例を示す図である。
【図6】構造化文書の第二の例を従来の方式で差分抽出した結果例を示す図である。
【図7】構造化文書の第三の例を示す図である。
【図8】構造化文書の第三の例を従来の方式で差分抽出した結果例を示す図である。
【図9】構造化文書の第一の例に対する比較基準テーブルの例を示す図である。
【図10】構造化文書の第一の例から図9の比較基準テーブルに基づき作成した文書木を示す図である。
【図11】構造化文書の第一の例を図9の比較基準テーブルに基づき差分抽出した結果例を示す図である。
【図12】構造化文書の第二の例に対する比較基準テーブルの例を示す図である。
【図13】構造化文書の第二の例から図12の比較基準テーブルに基づき作成した文書木を示す図である。
【図14】構造化文書の第二の例を図12の比較基準テーブルに基づき差分抽出した結果例を示す図である。
【図15】構造化文書の第三の例に対する比較基準テーブルの例を示す図である。
【図16】構造化文書の第三の例から図15の比較基準テーブルに基づき作成した文書木を示す図である。
【図17】構造化文書の第三の例を図15の比較基準テーブルに基づき差分抽出した結果例を示す図である。
【図18】構造化文書の第四の例を示す図である。
【図19】構造化文書の第四の例に対する比較基準テーブルの例を示す図である。
【図20】構造化文書の第四の例から図19の比較基準テーブルに基づき作成した文書木を示す図である。
【図21】構造化文書の第四の例を図19の比較基準テーブルに基づき差分抽出した結果例を示す図である。
【符号の説明】
101 CPU
102 端末装置
103 記憶装置
104 文書編集プログラム
105 構造化文書解析プログラム
106 構造化文書差分抽出プログラム
107 比較基準テーブル

Claims (14)

  1. 文書記述言語を用いて記述された構造化文書に対して削除、挿入、または変更などの編集を施す処理装置と、該編集前後の構造化文書を格納する記憶装置を備えた構造化文書処理システムにおいて、
    前記処理装置により前記編集前後の両構造化文書を比較し、両構造化文書の一致しない文字列を差分として抽出する構造化文書差分抽出方法であって、
    前記処理装置は、
    前記記憶装置から編集前後の構造化文書を読み出す文書読込みステップと、
    前記読込みステップで取得された両構造化文書の論理的な構造を、あらかじめ設定された比較基準に基づいて解析する構造解析ステップと、
    前記構造解析ステップの結果に従い、前記比較基準を満たすように両構造化文書間の差分を抽出する差分抽出ステップ
    を実行することを特徴とする構造化文書差分抽出方法。
  2. 請求項1記載の構造化文書差分抽出方法において、
    前記比較基準を論理構造を示すタグと、該タグに対して適用する基準の種類とを対応付けたテーブルとすることを特徴とする構造化文書差分抽出方法。
  3. 請求項2記載の構造化文書差分抽出方法において、
    前記比較基準における、タグに対して適用する基準の種類として、
    (1)タグ自身が一致したときのみその中身を比較するタグ、
    (2)比較する際、そのタグの中身の差異を無視するタグ、
    (3)論理的な意味として同じタグの組、
    (4)中身を比較しないタグの組、
    の4つの基準の種類定義されていることを特徴とする構造化文書差分抽出方法。
  4. 請求項1乃至請求項3のいずれかの請求項記載の構造化文書差分抽出方法において、
    前記処理装置は、
    前記構造解析ステップの結果として前記編集前後の両構造化文書の構造を表す文書木を作成し、
    まず該文書木のノード単位で両構造化文書間の差分の抽出を行い、
    次に一致しなかったノード同士に対して、文字単位で差分を抽出する
    ことを特徴とする構造化文書差分抽出方法。
  5. 前記処理装置は、
    請求項4記載の構造化文書差分抽出方法において、
    前記構造解析ステップの結果として前記編集前後の両構造化文書の構造を表す文書木を作成する際に、前記比較基準におうじて、文書木のノードの割当て方法を変える
    ことを特徴とする構造化文書差分抽出方法。
  6. 文書記述言語を用いて記述された構造化文書に対して削除、挿入、または変更などの編集を施す処理装置と、該編集前後の構造化文書を格納する記憶装置を備えた構造化文書処理システムにおいて、
    前記処理装置により前記編集前後の両構造化文書を比較し、両構造化文書の一致しない文字列を差分として抽出する構造化文書差分抽出装置であって、
    前記処理装置は、
    前記記憶装置から編集前後の構造化文書を読み出す文書読込み手段と、
    前記読込み手段で取得された両構造化文書の論理的な構造を、あらかじめ設定された比較基準に基づいて解析する構造解析手段と、
    前記構造解析手段の結果に従い、前記比較基準を満たすように両構造化文書間の差分を抽出する差分抽出手段
    を有することを特徴とする構造化文書差分抽出装置。
  7. 請求項6記載の構造化文書差分抽出装置において、
    前記比較基準を論理構造を示すタグと、該タグに対して適用する基準の種類とを対応付けたテーブルとすることを特徴とする構造化文書差分抽出装置。
  8. 請求項2記載の構造化文書差分抽出装置において、
    前記比較基準における、タグに対して適用する基準の種類として、
    (1)タグ自身が一致したときのみその中身を比較するタグ、
    (2)比較する際、そのタグの中身の差異を無視するタグ、
    (3)論理的な意味として同じタグの組、
    (4)中身を比較しないタグの組、
    の4つの基準の種類定義されていることを特徴とする構造化文書差分抽出装置。
  9. 請求項6乃至請求項8のいずれかの請求項記載の構造化文書差分抽出装置において、
    前記構造解析手段は、前記編集前後の両構造化文書の構造を表す文書木を作成し、
    前記差分抽出手段は、まず該文書木のノード単位で両構造化文書間の差分の抽出を行い、次に一致しなかったノード同士に対して、文字単位で差分を抽出する
    ことを特徴とする構造化文書差分抽出装置。
  10. 請求項9記載の構造化文書差分抽出装置において、
    前記構造解析手段は、前記編集前後の両構造化文書の構造を表す文書木を作成する際に、前記比較基準におうじて、文書木のノードの割当て方法を変更する
    ことを特徴とする構造化文書差分抽出装置。
  11. 複数の要素と該要素の構造情報を含む構造化文書を入力する入力装置と、該入力された構造化文書を格納する記憶装置と、該記憶装置から前記構造化文書を読み出して処理する処理装置とを備えた構造化文書処理システムにおいて、
    前記処理装置は、
    前記入力装置により入力され、前記記憶装置に格納された第1の構造化文書と第2の構造化文書を前記記憶装置から読み出す読み出しステップと、
    前記第1および第2の構造化文書に含まれる前記構造及び前記要素を比較して一致する構造および要素を判定する比較ステップと、
    一致しなかったものを差分として抽出する抽出ステップとを実行し、
    前記比較ステップでは、比較する構造の少なくともいずれかが比較対象除外構造として定義されていた場合、構造およびその要素が同じでも、その要素が一致しないと判定する
    ことを特徴とする構造化文書差分抽出方法。
  12. 複数の要素と該要素の構造情報を含む構造化文書を入力する入力装置と、該入力された構造化文書を格納する記憶装置と、該記憶装置から前記構造化文書を読み出して処理する処理装置とを備えた構造化文書処理システムにおいて、
    前記入力装置により入力され、前記記憶装置に格納された第1の構造化文書と第2の構造化文書を前記記憶装置から読み出す読み出しステップと、
    前記処理装置は、
    前記第1および第2の構造化文書に含まれる前記構造及び前記要素を比較して一致する構造および要素を判定する比較ステップと、
    一致しなかったものを差分として抽出する抽出ステップとを実行し、
    前記比較ステップでは、比較する構造がともに同一の構造を表すグループとして予め定義されていた場合、構造が異なっていても要素が同じであれば、その要素が一致すると判定する
    ことを特徴とする構造化文書差分抽出方法。
  13. 複数の要素と該要素の構造情報を含む構造化文書を入力する入力装置と、該入力された構造化文書を格納する記憶装置と、該記憶装置から前記構造化文書を読み出して処理する処理装置とを備えた構造化文書処理システムにおいて、
    前記処理装置は、
    前記入力装置により入力され、前記記憶装置に格納された第1の構造化文書と第2の構造化文書を前記記憶装置から読み出す読み出しステップと、
    前記第1および第2の構造化文書に含まれる前記構造及び前記要素を比較して一致する構造および要素を判定する比較ステップと、
    一致しなかったものを差分として抽出する抽出ステップとを実行し、
    前記比較ステップでは、比較する構造がともに比較対象から外すペアとして予め定義されている場合、要素が同じであっても、構造およびその要素が一致しないと判定する
    ことを特徴とする構造化文書差分抽出方法。
  14. 複数の要素と該要素の構造情報を含む構造化文書を入力する入力装置と、該入力された構造化文書を格納する記憶装置と、該記憶装置から前記構造化文書を読み出して処理する処理装置とを備えた構造化文書処理システムにおいて、
    前記処理装置は、
    前記入力装置により入力され、前記記憶装置に格納された第1の構造化文書と第2の構造化文書を前記記憶装置から読み出す読み出しステップと、
    前記第1および第2の構造化文書に含まれる前記構造及び前記要素を比較して一致する構造および要素を判定する比較ステップと、
    一致しなかったものを差分として抽出する抽出ステップとを実行し、
    前記比較ステップでは、比較する構造がともに内容を無視する構造として予め定義されていた場合、構造が同じであれば要素が異なっていてもその要素が一致すると判定する
    ことを特徴とする構造化文書差分抽出方法。
JP16139895A 1995-06-05 1995-06-05 構造化文書差分抽出方法および装置 Expired - Fee Related JP3724847B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP16139895A JP3724847B2 (ja) 1995-06-05 1995-06-05 構造化文書差分抽出方法および装置
US08/657,306 US5956726A (en) 1995-06-05 1996-06-03 Method and apparatus for structured document difference string extraction
EP96108939A EP0747836B1 (en) 1995-06-05 1996-06-04 Method and apparatus for comparison of structured documents
DE69634459T DE69634459T2 (de) 1995-06-05 1996-06-04 Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten
US09/326,579 US6098071A (en) 1995-06-05 1999-06-07 Method and apparatus for structured document difference string extraction
US09/604,261 US6526410B1 (en) 1995-06-05 2000-06-27 Method and apparatus for structured document difference string extraction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16139895A JP3724847B2 (ja) 1995-06-05 1995-06-05 構造化文書差分抽出方法および装置

Publications (2)

Publication Number Publication Date
JPH08329079A JPH08329079A (ja) 1996-12-13
JP3724847B2 true JP3724847B2 (ja) 2005-12-07

Family

ID=15734343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16139895A Expired - Fee Related JP3724847B2 (ja) 1995-06-05 1995-06-05 構造化文書差分抽出方法および装置

Country Status (4)

Country Link
US (3) US5956726A (ja)
EP (1) EP0747836B1 (ja)
JP (1) JP3724847B2 (ja)
DE (1) DE69634459T2 (ja)

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3724847B2 (ja) * 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
JPH0969101A (ja) * 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
JPH09297768A (ja) * 1996-05-07 1997-11-18 Fuji Xerox Co Ltd 文書データベース管理装置及び文書データベース検索方法
JP3566457B2 (ja) * 1996-05-31 2004-09-15 株式会社日立製作所 構造化文書の版管理方法および装置
US6658624B1 (en) * 1996-09-24 2003-12-02 Ricoh Company, Ltd. Method and system for processing documents controlled by active documents with embedded instructions
JPH10143403A (ja) * 1996-11-12 1998-05-29 Fujitsu Ltd 情報管理装置および情報管理プログラム記憶媒体
US6289121B1 (en) * 1996-12-30 2001-09-11 Ricoh Company, Ltd. Method and system for automatically inputting text image
US7212632B2 (en) 1998-02-13 2007-05-01 Tecsec, Inc. Cryptographic key split combiner
US6694433B1 (en) * 1997-05-08 2004-02-17 Tecsec, Inc. XML encryption scheme
CA2242158C (en) * 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
US6411974B1 (en) * 1998-02-04 2002-06-25 Novell, Inc. Method to collate and extract desired contents from heterogeneous text-data streams
US8077870B2 (en) * 1998-02-13 2011-12-13 Tecsec, Inc. Cryptographic key split binder for use with tagged data elements
US6665836B1 (en) * 1998-06-17 2003-12-16 Siemens Corporate Research, Inc. Method for managing information on an information net
US6263332B1 (en) 1998-08-14 2001-07-17 Vignette Corporation System and method for query processing of structured documents
US7281203B2 (en) * 1998-09-29 2007-10-09 Netscape Communications Corporation Selecting a DTD for transforming malformed layout expressions into wellformed ones
US6964011B1 (en) * 1998-11-26 2005-11-08 Canon Kabushiki Kaisha Document type definition generating method and apparatus, and storage medium for storing program
CA2255047A1 (en) * 1998-11-30 2000-05-30 Ibm Canada Limited-Ibm Canada Limitee Comparison of hierarchical structures and merging of differences
US6539118B1 (en) 1998-12-31 2003-03-25 International Business Machines Corporation System and method for evaluating character sets of a message containing a plurality of character sets
US7039637B2 (en) * 1998-12-31 2006-05-02 International Business Machines Corporation System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search
US6718519B1 (en) 1998-12-31 2004-04-06 International Business Machines Corporation System and method for outputting character sets in best available fonts
US7031002B1 (en) 1998-12-31 2006-04-18 International Business Machines Corporation System and method for using character set matching to enhance print quality
US6760887B1 (en) 1998-12-31 2004-07-06 International Business Machines Corporation System and method for highlighting of multifont documents
US6813747B1 (en) 1998-12-31 2004-11-02 International Business Machines Corporation System and method for output of multipart documents
US7103532B1 (en) 1998-12-31 2006-09-05 International Business Machines Corp. System and method for evaluating character in a message
JP3390357B2 (ja) * 1999-02-12 2003-03-24 日本電気株式会社 木構造データ編集システムにおける木構造差分出力方法及び装置
JP3913985B2 (ja) * 1999-04-14 2007-05-09 富士通株式会社 文書画像中の基本成分に基づく文字列抽出装置および方法
JP2000339312A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書編集システム及びタグ情報管理テーブル作成方法
US6959415B1 (en) * 1999-07-26 2005-10-25 Microsoft Corporation Methods and apparatus for parsing Extensible Markup Language (XML) data streams
US6560620B1 (en) * 1999-08-03 2003-05-06 Aplix Research, Inc. Hierarchical document comparison system and method
US7191114B1 (en) 1999-08-27 2007-03-13 International Business Machines Corporation System and method for evaluating character sets to determine a best match encoding a message
US6502112B1 (en) * 1999-08-27 2002-12-31 Unisys Corporation Method in a computing system for comparing XMI-based XML documents for identical contents
US7661062B1 (en) * 1999-09-20 2010-02-09 Business Objects Americas System and method of analyzing an HTML document for changes such that the changed areas can be displayed with the original formatting intact
JP2001092707A (ja) * 1999-09-24 2001-04-06 Nec Corp 情報処理システム、構造化文書処理システム、その更新方法及びその更新プログラムを記録した記録媒体
US6675354B1 (en) * 1999-11-18 2004-01-06 International Business Machines Corporation Case-insensitive custom tag recognition and handling
JP3754253B2 (ja) * 1999-11-19 2006-03-08 株式会社東芝 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム
WO2001052032A1 (en) * 2000-01-07 2001-07-19 Winlook Corporation Method and apparatus for displaying, retrieving, filing and organizing various kinds of data and images
US7137065B1 (en) * 2000-02-24 2006-11-14 International Business Machines Corporation System and method for classifying electronically posted documents
IE20010467A1 (en) * 2000-05-16 2001-11-28 Garrett O'carroll A document processing system and method
US6519557B1 (en) * 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
JP2002024211A (ja) * 2000-06-30 2002-01-25 Hitachi Ltd 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体
GB0018042D0 (en) * 2000-07-21 2000-09-13 Monsell Edm Ltd Method of and software for recordal and validation of changes to markup language files
US7103838B1 (en) * 2000-08-18 2006-09-05 Firstrain, Inc. Method and apparatus for extracting relevant data
US6920609B1 (en) * 2000-08-24 2005-07-19 Yahoo! Inc. Systems and methods for identifying and extracting data from HTML pages
US7778817B1 (en) * 2000-09-30 2010-08-17 Intel Corporation Method and apparatus for determining text passage similarity
JP2002149874A (ja) * 2000-11-07 2002-05-24 Ricoh Co Ltd 電子マニュアル提供システムおよび方法、並びにサーバ装置
CA2328566A1 (en) * 2000-12-15 2002-06-15 Ibm Canada Limited - Ibm Canada Limitee System and method for providing language-specific extensions to the compare facility in an edit system
US20020169803A1 (en) * 2000-12-18 2002-11-14 Sudarshan Sampath System and user interface for generating structured documents
FR2818409B1 (fr) * 2000-12-18 2003-03-14 Expaway Procede pour diviser des documents structures en plusieurs parties
US6978420B2 (en) * 2001-02-12 2005-12-20 Aplix Research, Inc. Hierarchical document cross-reference system and method
US7028024B1 (en) 2001-07-20 2006-04-11 Vignette Corporation Information retrieval from a collection of information objects tagged with hierarchical keywords
JP4045400B2 (ja) * 2001-08-24 2008-02-13 富士ゼロックス株式会社 検索装置及び検索方法
US8041739B2 (en) * 2001-08-31 2011-10-18 Jinan Glasgow Automated system and method for patent drafting and technology assessment
US6754676B2 (en) * 2001-09-13 2004-06-22 International Business Machines Corporation Apparatus and method for providing selective views of on-line surveys
US7085996B2 (en) * 2001-10-18 2006-08-01 International Business Corporation Apparatus and method for source compression and comparison
US20040205675A1 (en) * 2002-01-11 2004-10-14 Thangaraj Veerappan System and method for determining a document language and refining the character set encoding based on the document language
US20030145278A1 (en) * 2002-01-22 2003-07-31 Nielsen Andrew S. Method and system for comparing structured documents
US7191395B2 (en) * 2002-03-12 2007-03-13 International Business Machines Corporation Method and system for stylesheet-centric editing
US7096421B2 (en) * 2002-03-18 2006-08-22 Sun Microsystems, Inc. System and method for comparing hashed XML files
US20040205509A1 (en) * 2002-03-18 2004-10-14 Sun Microsystems, Inc. System and method for comparing parsed XML files
US7260773B2 (en) * 2002-03-28 2007-08-21 Uri Zernik Device system and method for determining document similarities and differences
US20030233621A1 (en) * 2002-06-13 2003-12-18 International Business Machines Corporation Editor for smart version control
GB0217201D0 (en) * 2002-07-24 2002-09-04 Beach Solutions Ltd XML database differencing engine
JP4737914B2 (ja) 2002-10-02 2011-08-03 ケープレックス・インク 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。
US7353225B2 (en) * 2002-11-13 2008-04-01 Sun Microsystems, Inc. Mechanism for comparing content in data structures
US7603371B1 (en) 2002-12-17 2009-10-13 Vignette Corporation Object based system and method for managing information
US20070245228A9 (en) * 2003-04-10 2007-10-18 Andre Lavoie Financial document change identifier
US7296223B2 (en) * 2003-06-27 2007-11-13 Xerox Corporation System and method for structured document authoring
WO2005006192A1 (ja) * 2003-07-10 2005-01-20 Fujitsu Limited 構造化文書処理方法及び装置並びに記憶媒体
US7877399B2 (en) * 2003-08-15 2011-01-25 International Business Machines Corporation Method, system, and computer program product for comparing two computer files
WO2005045698A2 (fr) * 2003-10-24 2005-05-19 Enrico Maim Procede mis en oeuvre dans un environnement informatique pour engendrer une vue courante a partir d’au moins un objet d’information source susceptible de varier
US20050138542A1 (en) * 2003-12-18 2005-06-23 Roe Bryan Y. Efficient small footprint XML parsing
US7373586B2 (en) * 2004-09-03 2008-05-13 International Business Machines Corporation Differencing and merging tree-structured documents
WO2006098018A1 (ja) * 2005-03-16 2006-09-21 Visionarts, Inc. オブジェクトカッタープログラム
US20070005701A1 (en) * 2005-06-30 2007-01-04 International Business Machines Corporation Synchronizing email content with IM content
JP4932227B2 (ja) * 2005-10-26 2012-05-16 ヤフー株式会社 情報抽出方法
EP1791293A1 (en) * 2005-11-29 2007-05-30 Ipanto Network service configuration management
US20070162486A1 (en) * 2005-12-30 2007-07-12 Thomas Brueggemann Merge tool for structured object models
US20070294610A1 (en) * 2006-06-02 2007-12-20 Ching Phillip W System and method for identifying similar portions in documents
US20080005148A1 (en) * 2006-06-30 2008-01-03 Rearden Commerce, Inc. Automated knowledge base of feed tags
US7984375B1 (en) * 2006-10-10 2011-07-19 Adobe Systems Incorporated Automated detection and implementation of state and object modifications
US8321197B2 (en) * 2006-10-18 2012-11-27 Teresa Ruth Gaudet Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files
GB0623068D0 (en) * 2006-11-18 2006-12-27 Ibm A client apparatus for updating data
US8918717B2 (en) * 2007-05-07 2014-12-23 International Business Machines Corporation Method and sytem for providing collaborative tag sets to assist in the use and navigation of a folksonomy
US8090747B2 (en) * 2007-05-21 2012-01-03 New York University Method, system, computer-accessible medium and software arrangement for organization and analysis of multiple sets of data
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
US20090088997A1 (en) * 2007-09-28 2009-04-02 Hitachi High Technologies Corporation Data processing system
US8126882B2 (en) * 2007-12-12 2012-02-28 Google Inc. Credibility of an author of online content
US8918369B2 (en) * 2008-06-05 2014-12-23 Craze, Inc. Method and system for classification of venue by analyzing data from venue website
US8230325B1 (en) * 2008-06-30 2012-07-24 Amazon Technologies, Inc. Structured document customizable comparison systems and methods
US20100131617A1 (en) * 2008-11-25 2010-05-27 John Osborne Method and system for differential transmission of web page structures
JP5336895B2 (ja) * 2009-03-24 2013-11-06 株式会社日立システムズ ドキュメント管理システムおよびドキュメント管理方法ならびにそのためのプログラム
JP5648236B2 (ja) * 2009-10-22 2015-01-07 大日本法令印刷株式会社 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム
EP2527991B1 (en) * 2010-01-19 2018-12-26 Fujitsu Limited Analysis method, analysis device, and analysis program
GB2477307A (en) * 2010-01-28 2011-08-03 Adsensa Ltd Embedding authentication data into an electronic document image
JP2012043047A (ja) * 2010-08-16 2012-03-01 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
US10108590B2 (en) * 2013-05-03 2018-10-23 International Business Machines Corporation Comparing markup language files
US9817804B2 (en) * 2013-09-12 2017-11-14 Wix.Com Ltd. System for comparison and merging of versions in edited websites and interactive applications
US20170131973A1 (en) * 2014-03-25 2017-05-11 Hitachi, Ltd. Software specification dependence relation verification apparatus and software specification dependence relation verification method
WO2016056236A1 (ja) 2014-10-08 2016-04-14 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
US10558679B2 (en) * 2016-02-10 2020-02-11 Fuji Xerox Co., Ltd. Systems and methods for presenting a topic-centric visualization of collaboration data
US10783138B2 (en) 2017-10-23 2020-09-22 Google Llc Verifying structured data
US11314807B2 (en) 2018-05-18 2022-04-26 Xcential Corporation Methods and systems for comparison of structured documents
CN112908487B (zh) * 2021-04-19 2023-09-22 中国医学科学院医学信息研究所 一种临床指南更新内容的自动识别方法及系统
US20220405499A1 (en) * 2021-06-18 2022-12-22 Jpmorgan Chase Bank, N.A. Method and system for extracting information from a document

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4807182A (en) * 1986-03-12 1989-02-21 Advanced Software, Inc. Apparatus and method for comparing data groups
US5261040A (en) * 1986-07-11 1993-11-09 Canon Kabushiki Kaisha Text processing apparatus
JPH02255964A (ja) * 1989-01-23 1990-10-16 Sumitomo Metal Ind Ltd 文書変更部分の自動識別装置
US5146552A (en) * 1990-02-28 1992-09-08 International Business Machines Corporation Method for associating annotation with electronically published material
US5428529A (en) * 1990-06-29 1995-06-27 International Business Machines Corporation Structured document tags invoking specialized functions
US5434962A (en) * 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
CA2067633C (en) * 1991-07-24 1996-10-01 Eric Jonathan Bauer Method and apparatus for accessing a computer-based file system
JP2659896B2 (ja) * 1992-04-29 1997-09-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 構造化文書複製管理方法及び構造化文書複製管理装置
JPH08506911A (ja) * 1992-11-23 1996-07-23 パラゴン、コンセプツ、インコーポレーテッド ファイル・アクセスを行うためにユーザーがカテゴリを選択するコンピュータ・ファイリング・システム
JPH06250895A (ja) * 1993-02-26 1994-09-09 Fujitsu Ltd 構造化データベースシステム
JP2770715B2 (ja) * 1993-08-25 1998-07-02 富士ゼロックス株式会社 構造化文書検索装置
US5438512A (en) * 1993-10-22 1995-08-01 Xerox Corporation Method and apparatus for specifying layout processing of structured documents
JP3444948B2 (ja) * 1993-12-28 2003-09-08 キヤノン株式会社 文書編集装置および文書編集方法
JP3287679B2 (ja) * 1993-12-28 2002-06-04 キヤノン株式会社 文書処理装置及び方法
US5787449A (en) * 1994-06-02 1998-07-28 Infrastructures For Information Inc. Method and system for manipulating the architecture and the content of a document separately from each other
US5745745A (en) * 1994-06-29 1998-04-28 Hitachi, Ltd. Text search method and apparatus for structured documents
JP2896634B2 (ja) * 1995-03-02 1999-05-31 富士ゼロックス株式会社 全文登録語検索装置および全文登録語検索方法
JPH08255155A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法
JP3724847B2 (ja) * 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
US5878421A (en) * 1995-07-17 1999-03-02 Microsoft Corporation Information map
US5950196A (en) * 1997-07-25 1999-09-07 Sovereign Hill Software, Inc. Systems and methods for retrieving tabular data from textual sources

Also Published As

Publication number Publication date
DE69634459D1 (de) 2005-04-21
DE69634459T2 (de) 2006-01-12
US6098071A (en) 2000-08-01
US6526410B1 (en) 2003-02-25
EP0747836B1 (en) 2005-03-16
US5956726A (en) 1999-09-21
JPH08329079A (ja) 1996-12-13
EP0747836A1 (en) 1996-12-11

Similar Documents

Publication Publication Date Title
JP3724847B2 (ja) 構造化文書差分抽出方法および装置
US5778400A (en) Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags
US7111234B2 (en) System and method for in-line editing of web-based documents
RU2358311C2 (ru) Документ текстовой обработки, хранящийся в едином файле xml, которым могут манипулировать приложения, понимающие язык xml
US7114123B2 (en) User controllable data grouping in structural document translation
US7013309B2 (en) Method and apparatus for extracting anchorable information units from complex PDF documents
Bergmark Automatic extraction of reference linking information from onlinedocuments
JP2002024211A (ja) 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体
US7539940B2 (en) System and method for converting between text formatting or markup language formatting and outline structure
US20020016796A1 (en) Document processing method, system and medium
CN113850056A (zh) 一种基于关键词拆分技术的文档关键信息提取方法和系统
JP3566457B2 (ja) 構造化文書の版管理方法および装置
JPH1153392A (ja) 情報フィルタリング装置および同装置に適用される関連情報提供方法
US7814408B1 (en) Pre-computing and encoding techniques for an electronic document to improve run-time processing
JP4196824B2 (ja) 情報区分装置、情報区分方法及び情報区分プログラム
JP3744676B2 (ja) 情報抽出装置及びその方法
Kovačević et al. Recognition of common areas in a Web page using a visualization approach
JP3156613B2 (ja) 文書編集方式
Suzuki et al. Path Set Operations for Clipping of Parts of Web Pages and Information Extraction from Web pages.
JP3302260B2 (ja) 文書処理システム
JPH03105557A (ja) 文書に対する情報の付加方法
US20030172351A1 (en) Mark-up language conversion
JPH10283375A (ja) 全文検索装置および方法
JP2001051988A (ja) 文書認識方法、装置および記録媒体
CN115563367A (zh) 网页文档的信息提取方法、装置和可读存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040217

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050920

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees